建模和预测

使用主题模型和词嵌入开发预测模型

找到集群和提取特征的高维文本数据集,您可以使用机器学习技术和模型如LSA, LDA,字嵌入。您可以组合特征与文本分析工具箱™创建特性从其他数据源。使用这些特性,可以构建机器学习模型,利用文本、数字和其他类型的数据。

功能

单词和语法计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	添加文档bag-of-words或bag-of-n-grams模型
`removeDocument`	把文件从bag-of-words或bag-of-n-grams模型
`removeInfrequentWords`	从bag-of-words模型删除单词计数较低
`removeInfrequentNgrams`	除去bag-of-n-grams很少看到字格模型
`removeWords`	删除选中的文字从文档或bag-of-words模型
`removeNgrams`	把字格从bag-of-n-grams模型
`removeEmptyDocuments`	删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
`topkwords`	最重要的是单词bag-of-words模型或LDA的话题
`topkngrams`	最常见的字格
`编码`	编码矩阵的词或语法方面的文件
`tfidf`	术语Frequency-Inverse文档频率(tf-idf)矩阵
`加入`	结合多个bag-of-words或bag-of-n-grams模型

情绪分析

`vaderSentimentScores`	情绪得分与维德算法
`ratioSentimentScores`	情绪得分比例规则

字嵌入和编码

`fastTextWordEmbedding`	Pretrained fastText字嵌入
`wordEncoding`	字编码模型词汇映射到指数和回来
`doc2sequence`	将文档转换成深度学习的序列
`wordEmbeddingLayer`	字嵌入层深度学习网络
`word2vec`	字映射到嵌入向量
`word2ind`	字映射到编码索引
`vec2word`	嵌入向量映射到的词
`ind2word`	地图编码索引词
`isVocabularyWord`	测试如果词是词中嵌入的成员或编码
`readWordEmbedding`	从文件读取字嵌入
`trainWordEmbedding`	火车字嵌入
`writeWordEmbedding`	写的字嵌入文件
`wordEmbedding`	字嵌入模型映射向量和回

文档摘要和相似

`extractSummary`	从文档中提取总结
`rakeKeywords`	使用RAKE提取关键字
`textrankKeywords`	提取关键字使用TextRank
`bleuEvaluationScore`	评估翻译或总结蓝色相似性得分
`rougeEvaluationScore`	评估翻译或总结胭脂相似性得分
`bm25Similarity`	与BM25算法文档相似之处
`cosineSimilarity`	与余弦相似性文档相似之处
`textrankScores`	文档得分与TextRank算法
`lexrankScores`	文档得分与LexRank算法
`mmrScores`	文档得分与最大边际相关性(MMR)算法

主题建模和降维

`fitlda`	符合潜在狄利克雷分配(LDA)模型
`fitlsa`	符合LSA模型
`的简历`	简历合适LDA模型
`logp`	文档log-probabilities和LDA模型的拟合优度
`预测`	预测LDA主题的文件
`变换`	将文档转换成低维空间
`ldaModel`	潜在狄利克雷分配(LDA)模型
`lsaModel`	潜在语义分析(LSA)模型

命名实体识别

`addEntityDetails`	实体标记添加到文档
`trainHMMEntityModel`	火车HMM-based命名实体识别模型(尼珥)
`预测`	预测实体使用命名实体识别(尼珥)模型
`hmmEntityModel`	HMM-based命名实体识别模型(尼珥)

可视化

`wordcloud`	创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型
`textscatter`	二维散点图的文本
`textscatter3`	三维散点图的文本

主题

分类和建模

创建简单的预处理功能
这个例子展示了如何创建一个函数的清洗和预处理文本数据分析使用预处理文本数据住编辑任务。
创建简单的文本分类模型
这个例子展示了如何培养一个简单的文本分类器在使用bag-of-words词频统计模型。
使用文档嵌入的文档进行分类
这个例子展示了如何训练文档分类器通过将文档转换为特征向量使用嵌入的。
使用多字短语分析文本数据
这个例子展示了如何使用语法频率计数分析文本。
使用主题模型分析文本数据
这个例子展示了如何使用潜在狄利克雷分配(LDA)主题模型来分析文本数据。
为LDA模型选择的主题
这个例子展示了如何决定一个合适的主题为潜在狄利克雷分配(LDA)模型。
比较LDA解决者
这个例子展示了如何比较潜在狄利克雷分配解决(LDA)通过比较拟合优度和时间适应模型。
集群使用LDA模型可视化文档
这个例子展示了如何可视化聚类的文档使用潜在狄利克雷分配(LDA)主题模型和t-SNE阴谋。
可视化LDA主题相关性
这个例子展示了如何分析话题之间的相关性在潜在狄利克雷分配模型(LDA)主题。
可视化LDA话题之间的相关性和文档标签
这个例子展示了如何适应一个潜在狄利克雷分配(LDA)主题模型和可视化LDA话题之间的相关性和文档标签。
火车自定义命名实体识别模型
这个例子展示了如何培养一个自定义的命名实体识别(尼珥)模型。
创建共生网络
这个例子展示了如何创建一个使用bag-of-words共生网络模型。

情绪分析和关键字提取

在文本分析情绪
这个例子展示了如何使用价知道字典和情绪Reasoner(维达)情绪分析算法。
生成特定领域情感词典
这个例子展示了如何使用10 - k为情绪分析生成一个词汇和10 -财务报告。
训练情绪分类器
这个例子展示了如何为情绪分析训练分类器使用一个带注释的积极和消极情绪的单词列表和pretrained字嵌入。
从文本数据中提取关键字使用耙
这个例子展示了如何使用快速从文本数据中提取关键字自动关键字提取(RAKE)。
使用TextRank从文本数据中提取关键字
这个例子展示了使用TextRank从文本数据中提取关键字。

深度学习

使用深度学习分类文本数据
这个例子展示了如何使用深度学习长文本数据分类短期记忆(LSTM)网络。
使用卷积神经网络分类文本数据
这个例子展示了如何使用卷积神经网络分类文本数据。
内存不足使用深度学习文本数据进行分类
这个例子展示了如何将内存不足与深入学习网络文本数据使用一个转换数据存储。
Sequence-to-Sequence翻译使用注意
这个例子展示了如何将十进制的字符串转换成罗马数字使用复发sequence-to-sequence encoder-decoder模型与关注。
使用深度学习Multilabel文本分类
这个例子展示了如何分类文本数据,多个独立的标签。
生成文本使用深度学习(深度学习工具箱)
这个例子展示了如何培养深度学习长短期记忆(LSTM)网络生成文本。
《傲慢与偏见》和MATLAB
这个例子展示了如何训练深度学习LSTM网络生成文本使用字符嵌入。
词词文本生成使用深度学习
这个例子展示了如何训练深度学习LSTM网络生成文本词词。
文本数据分类使用自定义训练循环
这个例子展示了如何使用深度学习双向分类文本数据长期短期记忆(BiLSTM)网络与一个定制的训练循环。
生成文本使用Autoencoders
这个例子展示了如何使用autoencoders生成文本数据。
定义文本编码器模型函数
这个例子显示了如何定义一个文本编码器模型函数。
定义文本译码器模型的功能
这个例子显示了如何定义一个文本译码器模型函数。
使用深度学习语言翻译
这个例子展示了如何训练一个德国英语翻译使用复发sequence-to-sequence encoder-decoder模型与关注。

语言支持金宝app

语言的注意事项
信息使用文本分析工具箱功能,为其他语言。
日本语言支持金宝app
日本支持文本信息分析工具。金宝app
分析日本文本数据
这个例子展示了如何导入,准备和分析日本文本数据使用主题模型。
德国语言支持金宝app
德国支持文本信息分析工具。金宝app
分析德国文本数据
这个例子展示了如何导入,准备和分析德国文本数据使用主题模型。

特色的例子

使用深度学习分类文本数据

使用深度学习长文本数据分类短期记忆(LSTM)网络。

打开生活的脚本

使用多字短语分析文本数据

使用语法频率计数分析文本。

打开生活的脚本

使用主题模型分析文本数据

使用潜在狄利克雷分配(LDA)主题模型来分析文本数据。

打开生活的脚本