文档帮助中心文档

建模与预测

使用主题模型和词嵌入开发预测模型

要从高维文本数据集中寻找聚类和提取特征，可以使用机器学习技术和模型，如LSA、LDA和单词嵌入。您可以将使用Text Analytics Toolbox™创建的特性与来自其他数据源的特性相结合。有了这些特性，您就可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	将文档添加到单词袋或n-g袋模型中
`removeDocument`	从单词袋或n-g袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除低计数的单词
`removeinfrequentngrams.`	从n字袋模型中删除不常见的n字格
`removeWords`	从文档或词袋模型中删除选定的词
`removeNgrams`	从n字袋模型中删除n字格
`removeEmptyDocuments`	从标记化文档数组、词袋模型或n字袋模型中删除空文档
`topkwords`	单词袋模型或LDA主题中最重要的单词
`topkngrams`	最常见的字格
`编码`	将文档编码为单词或n-gram计数的矩阵
`tfidf`	频率逆文档频率(tf-idf)矩阵
`加入`	组合多个单词袋或n-g袋模型

情绪分析

`vaderSentimentScores`	情感得分与VADER算法
`ratioSentimentScores`	情感评分采用比例规则

单词嵌入和编码

`fastTextWordEmbedding`	预训练的fastText单词嵌入
`wordEncoding`	字编码模型，以映射字到索引和返回
`doc2sequence`	将文档转换为序列以进行深度学习
`wordEmbeddingLayer`	面向深度学习网络的词嵌入层
`word2vec`	映射单词到嵌入向量
`word2ind`	映射字到编码索引
`vec2word`	映射嵌入向量到单词
`ind2word`	将编码索引映射到单词
`isVocabularyWord`	测试单词是否是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取嵌入字
`trainWordEmbedding`	火车字嵌入
`writeWordEmbedding`	写入字嵌入文件
`wordEmbedding`	单词嵌入模型映射单词到向量和反向

文档摘要和相似度

`extractSummary`	从文档中提取摘要
`rakeKeywords`	使用RAKE提取关键字
`textrankKeywords`	使用TextRank提取关键字
`bleuEvaluationScore`	用BLEU相似度评分评估翻译或摘要
`rougeEvaluationScore`	用ROUGE相似度评分评估翻译或摘要
`bm25Similarity`	文档与BM25算法相似
`cosineSimilarity`	文档相似性与余弦相似性
`textrankScores`	具有Textrank算法的文档评分
`lexrankScores`	文档评分与LexRank算法
`mmrScores`	基于最大边际相关性(MMR)算法的文档评分

主题建模和降维

`fitlda`	拟合latent Dirichlet allocation (LDA)模型
`fitlsa`	符合LSA模型
`的简历`	简历拟合LDA模型
`logp`	记录LDA模型的对数概率和拟合优度
`预测`	预测文档的顶级LDA主题
`变换`	将文档转换为低维空间
`ldaModel`	潜在Dirichlet分配(LDA)模型
`lsaModel`	潜在语义分析(LSA)模型

可视化

`wordcloud`	从文本、词袋模型、n字袋模型或LDA模型创建单词云图
`textscatter`	2-D散点图的文本
`textscatter3`	3-D散点图的文本

主题

分类和建模

创建简单的预处理函数

这个例子展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

创建用于分类的简单文本模型

这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的单词频率计数。

使用多词短语分析文本数据

这个例子展示了如何使用n格的频率计数来分析文本。

使用主题模型分析文本数据

这个例子展示了如何使用Latent Dirichlet Allocation (LDA)主题模型来分析文本数据。

选择LDA模型的主题数

这个例子展示了如何为潜在的Dirichlet分配(LDA)模型确定适当数量的主题。

比较LDA解决者

这个例子展示了如何通过比较拟合优度和拟合模型所需的时间来比较潜在的Dirichlet分配(LDA)求解器。

情感分析与关键词提取

文本情感分析

这个例子展示了如何使用价感知字典和情感推理(VADER)算法进行情感分析。

生成领域特定情感词典

这个例子展示了如何使用10-K和10-Q财务报告生成情感分析词汇。

训练情感分类器

这个例子展示了如何使用一个积极和消极情感词的注释列表和预先训练的词嵌入来训练用于情感分析的分类器。

利用RAKE从文本数据中提取关键词

这个例子展示了如何使用快速自动关键字提取(RAKE)从文本数据中提取关键字。

利用TextRank从文本数据中提取关键字

这个例子展示了如何使用TextRank从文本数据中提取关键字。

深度学习

利用深度学习对文本数据进行分类

这个例子展示了如何使用深度学习长短期记忆(LSTM)网络分类文本数据。

基于卷积神经网络的文本数据分类

这个例子展示了如何使用卷积神经网络对文本数据进行分类。

利用深度学习对失忆文本数据进行分类

这个例子展示了如何使用深度学习网络使用转换后的数据存储对内存不足的文本数据进行分类。

使用注意进行序列到序列翻译

此示例展示了如何使用循环序列到序列编码器-解码器模型将十进制字符串转换为罗马数字。

使用深度学习生成文本(深度学习工具箱)

这个例子展示了如何训练深度学习长短期记忆(LSTM)网络来生成文本。

《傲慢与偏见》和《MATLAB

这个例子展示了如何训练一个深度学习LSTM网络来使用字符嵌入生成文本。

基于深度学习的逐字文本生成

这个例子展示了如何训练深度学习LSTM网络来逐字生成文本。

使用自定义训练循环分类文本数据

这个例子展示了如何使用带有自定义训练循环的深度学习双向长短期记忆(BiLSTM)网络对文本数据进行分类。

使用自动编码器生成文本

这个例子展示了如何使用自动编码器生成文本数据。

定义文本编码器模型函数

这个例子展示了如何定义一个文本编码器模型函数。

定义文本解码器模型函数

这个例子展示了如何定义一个文本解码器模型函数。

语言支持金宝app

语言的注意事项

关于为其他语言使用文本分析工具箱特性的信息。

日本语言支持金宝app

文本分析工具箱中的日语支持信息。金宝app

分析日语文本数据

这个例子展示了如何使用主题模型导入、准备和分析日文文本数据。

德语支持金宝app

文本分析工具箱中关于德语支持的信息。金宝app

德语文本数据分析

这个示例展示了如何使用主题模型导入、准备和分析德文文本数据。

特色的例子

利用深度学习对文本数据进行分类

利用深度学习对文本数据进行分类

利用深度学习长短时记忆(LSTM)网络对文本进行分类。

打开生活的脚本

使用多词短语分析文本数据

使用多词短语分析文本数据

使用n-gram频率计数分析文本。

打开生活的脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用Latent Dirichlet Allocation (LDA)主题模型分析文本数据。

打开生活的脚本

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

立即下载