文档帮助中心文档

建模和预测

使用主题模型和词嵌入开发预测模型

要从高维文本数据集查找群集和提取功能，您可以使用机器学习技术和模型，如LSA，LDA和Word Embeddings。您可以将使用Text Analytics Toolbox™创建的功能组合，其中包含其他数据源的功能。使用这些功能，您可以构建机器学习模型，以利用文本，数字和其他类型的数据。

功能

单词和N-Gram计数

`bagOfWords`	袋式模型
`bagOfNgrams`	Bag-of-n-grams模型
`adddocument.`	将文档添加到单词袋或袋式袋模型
`删除录制`	从单词袋或n-g袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除低计数的单词
`removeInfrequentNgrams`	从n-r克模型中消除不经常看到的n-gram
`removeWords`	从文档或词袋模型中删除选定的词
`Removenrams.`	从n-r克模型中移除n-grams
`removeEmptyDocuments`	从令牌化文档阵列中删除空文档，文字袋模型或N-r克模型
`topkwords.`	单词袋模型或LDA主题中最重要的单词
`Topkngrams.`	最常见的字格
`编码`	将文档编码为单词或n-gram计数的矩阵
`tfidf`	频率逆文档频率(tf-idf)矩阵
`加入`	组合多个单词袋或n-g袋模型

情绪分析

`vadersentementices`	具有VADER算法的情感分数
`比例`	与比例规则的情绪分数

Word Embeddings和Encodings

`fasttextwordembeddings.`	佩带的FastText Word嵌入
`wordEncoding`	字编码模型，以映射字到索引和返回
`doc2sequence.`	将文档转换为序列以进行深度学习
`WordembeddingLayer.`	用于深度学习网络的单词嵌入层
`Word2vec.`	映射单词嵌入矢量
`Word2ind.`	映射字到编码索引
`vec2word.`	地图嵌入矢量到单词
`ind2word`	将编码索引映射到单词
`IsVocabularyWord.`	测试单词是否是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取嵌入字
`trainWordEmbedding`	火车字嵌入
`withwordembeddings.`	写入字嵌入文件
`Wordembeddings.`	单词嵌入模型将单词映射到向量和背部

文件摘要和相似性

`extractSummary`	从文档中提取摘要
`rakeKeywords`	使用RAKE提取关键字
`textrankKeywords`	使用TextRank提取关键字
`bleuevaluationscore.`	用BLEU相似度评分评估翻译或摘要
`rougeevaluationscore.`	评估翻译或用Rouge相似分数进行汇总
`bm25Similarity`	文档与BM25算法相似
`casinediepilarity.`	文档相似性与余弦相似性
`textrankscores.`	使用TextRank算法进行文档评分
`lexrankScores`	文档评分与LexRank算法
`mmrScores`	基于最大边际相关性(MMR)算法的文档评分

主题建模与尺寸减少

`fitlda`	拟合latent Dirichlet allocation (LDA)模型
`fitlsa`	适合LSA模型
`的简历`	简历拟合LDA模型
`logp.`	文档日志 - LDA模型的概率和良好
`预测`	预测文档的顶级LDA主题
`转换`	将文档转换为低维空间
`ldaModel`	潜在Dirichlet分配(LDA)模型
`lsamodel.`	潜在语义分析(LSA)模型

可视化

`wordcloud`	从文本、词袋模型、n字袋模型或LDA模型创建单词云图
`textscatter`	2-D散点图的文本
`textscatter3`	3-D散点图的文本

主题

分类和建模

创建简单的预处理函数

这个例子展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

创建用于分类的简单文本模型

此示例显示如何使用袋式模型在字频率计数上训练简单的文本分类器。

使用多字词分析文本数据

这个例子展示了如何使用n格的频率计数来分析文本。

使用主题模型分析文本数据

这个例子展示了如何使用Latent Dirichlet Allocation (LDA)主题模型来分析文本数据。

选择LDA模型的主题数量

此示例显示了如何确定潜在Dirichlet分配（LDA）模型的合适数量的主题。

比较LDA解决者

这个例子展示了如何通过比较拟合优度和拟合模型所需的时间来比较潜在的Dirichlet分配(LDA)求解器。

情绪分析和关键字提取

分析文本情绪

这个例子展示了如何使用价感知字典和情感推理(VADER)算法进行情感分析。

生成领域特定情感词典

这个例子展示了如何使用10-K和10-Q财务报告生成情感分析词汇。

训练情感分类器

此示例显示如何使用带有的正面和负面情绪单词的注释列表和备用字嵌入的注释列表训练分类器进行情感分析。

使用Rake提取文本数据的关键字

此示例显示如何使用快速自动关键字提取（Rake）从文本数据中提取关键字。

使用textrank从文本数据中提取关键字

此示例显示使用Textrank从文本数据中提取关键字。

深度学习

利用深度学习对文本数据进行分类

此示例显示如何使用深度学习长期短期内存（LSTM）网络对文本数据进行分类。

使用卷积神经网络对文本数据进行分类

此示例显示如何使用卷积神经网络对文本数据进行分类。

利用深度学习对失忆文本数据进行分类

此示例显示如何使用转换的数据存储对存储器外部文本数据进行分类。

使用注意力的序列到序列翻译

此示例显示如何使用重复序列 - 序列编码器 - 解码器模型将十进制字符串转换为罗马数字。

使用深度学习生成文本(深度学习工具箱)

这个例子展示了如何训练深度学习长短期记忆(LSTM)网络来生成文本。

《傲慢与偏见》和《MATLAB

此示例显示如何培训深度学习LSTM网络以使用字符嵌入式生成文本。

基于深度学习的逐字文本生成

这个例子展示了如何训练深度学习LSTM网络来逐字生成文本。

使用自定义训练循环分类文本数据

此示例显示如何使用具有自定义训练循环的深度学习双向短期内存（Bilstm）网络对文本数据进行分类。

使用autoencoders生成文本

这个例子展示了如何使用自动编码器生成文本数据。

定义文本编码器模型功能

此示例显示如何定义文本编码器模型函数。

定义文本解码器模型功能

此示例显示如何定义文本解码器模型函数。

语言支持金宝app

语言考虑因素

有关使用其他语言的文本分析工具箱功能的信息。

日本语言支持金宝app

文本分析工具箱中的日语支持信息。金宝app

分析日语文本数据

此示例显示了如何使用主题模型导入，准备和分析日语文本数据。

德国语言支持金宝app

文本分析工具箱中德语支持的信息。金宝app

德语文本数据分析

此示例显示如何使用主题模型导入，准备和分析德语文本数据。

特色的例子

利用深度学习对文本数据进行分类

利用深度学习对文本数据进行分类

利用深度学习长短时记忆(LSTM)网络对文本进行分类。

打开直播脚本

使用多字词分析文本数据

使用多字词分析文本数据

使用n克频率计数分析文本。

打开直播脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用Latent Dirichlet Allocation (LDA)主题模型分析文本数据。

打开直播脚本

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

立即下载