主要内容

使用深度学习对文本数据进行分类

这个例子展示了如何使用深度学习长短期记忆(LSTM)网络对文本数据进行分类。

文本数据是自然顺序的。一段文本是一串单词,它们之间可能存在依赖关系。使用LSTM神经网络来学习和使用长期依赖关系对序列数据进行分类。LSTM网络是一种递归神经网络(RNN),它可以学习序列数据时间步长之间的长期依赖关系。

要向LSTM网络输入文本,首先将文本数据转换为数字序列。可以使用将文档映射到数字索引序列的单词编码来实现这一点。为了更好的结果,还包括一个词嵌入层在网络中。单词嵌入将词汇表中的单词映射为数字向量而不是标量索引。这些嵌入捕获单词的语义细节,因此具有相似含义的单词有相似的向量。它们还通过向量运算建立单词之间的关系模型。例如,关系"罗马之于意大利,犹如罗马之于意大利巴黎是法国“由方程式意大利描述- - - - - -罗马+巴黎=法国。

在本例中,LSTM网络的训练和使用有四个步骤:

  • 导入并预处理数据。

  • 使用单词编码将单词转换为数字序列。

  • 创建并训练一个带有单词嵌入层的LSTM网络。

  • 使用训练好的LSTM网络对新的文本数据进行分类。

导入数据

导入工厂报表数据。该数据包含有标签的工厂事件的文本描述。若要将文本数据导入为字符串,请指定文本类型“字符串”

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);头(数据)
ans =8×5表类别描述紧急解决成本  _____________________________________________________________________ ____________________ ________ ____________________ _____ " 项目是偶尔陷入扫描仪卷。”“机械故障”、“中等”、“重新调整机器”、“组装器的活塞发出响亮的咔嗒咔嗒和砰砰的声音。”“机械故障”“中等”“调整机器”“启动工厂时电源被切断”“电子故障”“高”“完全更换”“16200”“组装器内电容器烧毁”“电子故障”“高”“更换元件”“352”“混频器跳闸保险丝。”“电子故障”“低”“列入观察名单”“55”施工剂中爆管正在喷洒冷却剂。"泄漏" "高" "更换部件" 371 "混合器内保险丝熔断"“电子故障”“低”“更换部件”“东西不断从传送带上掉下来。”“机械故障”“低”“重新调整机

这个例子的目标是通过标签对事件进行分类类别要将数据划分为类,请将这些标签转换为类别。

数据。类别=分类(data.Category);

使用直方图查看数据中类的分布。

图直方图(data.Category);包含(“类”)伊拉贝尔(“频率”)标题(“类分配”

下一步是将其划分为训练和验证集。将数据划分为训练分区和保留分区,用于验证和测试。指定拒绝符百分比为20%。

本量利= cvpartition(数据。类别,“坚持”, 0.2);dataTrain =数据(训练(cvp):);dataValidation =数据(测试(cvp):);

从分区表中提取文本数据和标签。

textDataTrain = dataTrain.Description;textDataValidation = dataValidation.Description;YTrain = dataTrain.Category;YValidation = dataValidation.Category;

要检查是否正确导入了数据,请使用单词云可视化训练文本数据。

图wordcloud (textDataTrain);标题(“训练数据”

预处理文本数据

创建一个用于标记和预处理文本数据的函数。这个函数preprocessText,执行以下步骤:

  1. 使用标记文本标记化文档

  2. 将文本转换为小写字母使用较低的

  3. 使用下列命令删除标点符号删除标点符号

对训练数据和验证数据进行预处理preprocessText函数。

documentsTrain=预处理文本(textDataTrain);documentsValidation=预处理文本(textDataValidation);

查看前几个预处理的培训文档。

documentsTrain (1:5)
ans = 5×1 tokenizedDocument: 9令牌:项目中偶尔陷入扫描仪线轴10令牌:大声作响,声音来自汇编活塞10令牌:削减能力,启动植物5令牌:油炸电容器在汇编程序4令牌:搅拌机绊倒保险丝

将文档转换为序列

要将文档输入到LSTM网络中,使用单词编码将文档转换为数字索引序列。

要创建单词编码,请使用wordEncoding函数。

内附= wordEncoding (documentsTrain);

下一个转换步骤是填充和截断文档,使它们都具有相同的长度。的培训选项函数提供了自动填充和截断输入序列的选项。然而,这些选项不适用于单词向量序列。相反,手动填充和截断序列。如果你左垫并截断词向量序列,这样训练可能会有所改进。

要填充和截断文档,首先选择目标长度,然后截断比它长的文档,左填充比它短的文档。为了获得最好的结果,目标长度应该是短的,而不丢弃大量的数据。要找到合适的目标长度,请查看训练文档长度的直方图。

documentlength=doclength(documentsTrain);图柱状图(文档长度)标题(“文档长度”)xlabel(“长度”)伊拉贝尔(“文件”

大多数培训文件的代币少于10个。使用这个作为截断和填充的目标长度。

使用。将文档转换为数字索引序列doc2sequence.要截断或左填充长度为10的序列,请设置“长度”选择10。

sequenceLength=10;XTrain=doc2序列,“长度”, sequenceLength);XTrain (1:5)
ans =5×1单元阵列{1×10-double}{1×10-double}{1×10-double}{1×10-double}

使用相同的选项将验证文档转换为序列。

XValidation = doc2sequence (enc documentsValidation,“长度”, sequenceLength);

创建和培训LSTM网络

定义LSTM网络体系结构。要将序列数据输入网络,请包括序列输入层并将输入大小设置为1。接下来,请包括尺寸为50的单词嵌入层和与单词编码相同的单词数。接下来,请包括LSTM层并将隐藏单元数设置为80。要将LSTM层用于序列,请使用LSTM层-要标记分类问题,请将输出模式设置为“最后一次”.最后,添加与类数相同大小的全连接层、softmax层和分类层。

inputSize = 1;embeddingDimension = 50;numHiddenUnits = 80;numWords = enc.NumWords;numClasses =元素个数(类别(YTrain));层= [...sequenceInputLayer (inputSize) wordEmbeddingLayer embeddingDimension, numWords lstmLayer (numHiddenUnits,“OutputMode”,“最后一次”)软连接层(numClasses)
layers=6x1层阵列和层:1''序列输入序列输入1维2''字嵌入层50维和423个唯一字字字嵌入层3''LSTM LSTM 80个隐藏单元4''完全连接4''完全连接层5''Softmax Softmax 6''分类输出交叉输入ROPyex

指定培训选项

指定培训选项:

  • 用亚当解算器训练。

  • 指定迷你批处理大小为16。

  • 每个纪元都洗牌数据。

  • 通过设置。监控培训进度“阴谋”选择“训练进步”

  • 属性指定验证数据“验证数据”选项

  • 通过设置抑制verbose输出“详细”选择

默认情况下,trainNetwork如果GPU可用,则使用GPU。否则,它将使用CPU。若要手动指定执行环境,请使用“ExecutionEnvironment”的名称-值对参数培训选项.在CPU上进行训练所花费的时间要比在GPU上花费的时间长得多。使用GPU的培训需要并行计算工具箱™和支持的GPU设备。金宝app有关支持的设备的信息,请参见金宝appGPU支金宝app持情况(并行计算工具箱)

选项=培训选项(“亚当”,...“MiniBatchSize”, 16岁,...“GradientThreshold”,2,...“洗牌”,“每个时代”,...“验证数据”,{XValidation,YValidation},...“阴谋”,“训练进步”,...“详细”,假);

训练LSTM网络使用trainNetwork函数。

net=列车网络(XTrain、YTrain、图层、选项);

使用新数据进行预测

对三个新报告的事件类型进行分类。创建包含新报告的字符串数组。

报告新=[...“冷却剂在分拣机下面汇集。”“分拣机在启动时熔断保险丝。”“装配工发出了一些非常响亮的卡嗒卡嗒声。”];

将预处理步骤作为训练文档对文本数据进行预处理。

documentsNew = preprocessText (reportsNew);

使用。将文本数据转换为序列doc2sequence使用与创建训练序列时相同的选项。

XNew=doc2sequence(enc、documentsNew、,“长度”, sequenceLength);

使用经过训练的LSTM网络对新序列进行分类。

XNew labelsNew =分类(净)
labelsNew =3×1分类泄漏电子故障机械故障

预处理函数

这个函数preprocessText执行以下步骤:

  1. 使用标记文本标记化文档

  2. 将文本转换为小写字母使用较低的

  3. 使用下列命令删除标点符号删除标点符号

作用文件= preprocessText (textData)标记文本。文件= tokenizedDocument (textData);%转换为小写。文件=较低(文件);%删除标点符号。= erasePunctuation文件(文档);结束

另请参阅

|||(深度学习工具箱)|(深度学习工具箱)|(深度学习工具箱)||(深度学习工具箱)|

相关话题