文档帮助中心

建模和预测

使用主题模型和单词嵌入开发预测模型

要从高维文本数据集中找到集群并提取特征，可以使用机器学习技术和模型，如LSA、LDA和单词嵌入。您可以将使用Text Analytics Toolbox™创建的特性与来自其他数据源的特性相结合。通过这些特性，您可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

单词和N-Gram计数

`巴格沃德`	Bag-of-words模型
`巴贡克`	n-grams包模型
`addDocument`	将文档添加到单词包或n字包模型中
`removeDocument`	从单词袋或n-grams袋模型中移除文档
`删除常用词`	从单词袋模型中删除低计数的单词
`removeInfrequentNgrams`	从n克袋模型中删除不常见的n克
`删除字`	从文档或单词包模型中删除所选单词
`重塑图像`	从n克袋模型中删除n克
`删除文档`	从标记化文档数组、单词袋模型或n字袋模型中删除空文档
`陀螺`	单词袋模型或LDA主题中最重要的单词
`topkngrams`	最常见的n-克
`编码`	将文档编码为word或n-gram计数矩阵
`词频-逆向文件频率`	术语频率-文档反频率（tf-idf）矩阵
`加入`	组合多个单词袋或n-grams袋模型

情绪分析

`vaderSentimentScores`	情绪得分与维德算法
`ratioSentimentScores`	情绪得分与比率规则

单词嵌入和编码

`fastTextWordEmbedding`	预训练快速文本字嵌入
`文字编码`	单词编码模型，将单词映射到索引并返回
`doc2sequence`	将文档转换为序列以进行深入学习
`wordEmbeddingLayer`	深度学习网络的字嵌入层
`word2vec`	将字映射到嵌入向量
`word2ind`	将单词映射到编码索引
`vec2word`	映射嵌入矢量到单词
`IND2字`	将编码索引映射到单词
`isVocabularyWord`	测试word是否是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取单词嵌入
`字汇嵌入`	训练字嵌入
`写订单`	写字嵌入文件
`wordEmbedding`	单词嵌入模型映射单词到向量和返回

文档总结和相似度

`摘要`	从文档中提取摘要
`bleuEvaluationScore`	用BLEU相似度评价译文或摘要
`rougeEvaluationScore`	用胭脂相似度评分评价翻译或摘要
`BM25相似性`	记录与BM25算法的相似性
`cosineSimilarity`	文档相似度与余弦相似度
`textrankScores`	使用TextRank算法进行文档评分
`lexrankScores公司`	基于LexRank算法的文档评分
`MMR核心`	基于最大边缘相关（MMR）算法的文档评分

主题建模和降维

`菲特达`	拟合潜在Dirichlet分配（LDA）模型
`菲特莎`	符合LSA模型
`简历`	恢复拟合LDA模型
`logp`	LDA模型的文档日志概率和拟合优度
`预测`	预测文档的顶级LDA主题
`变换`	将文档转换为低维空间
`ldaModel公司`	潜在Dirichlet分配（LDA）模型
`lsaModel`	潜在语义分析模型

可视化

`文字云`	从文本、字袋模型、n字袋模型或LDA模型创建字云图
`文本散布`	文本的二维散点图
`文本散布器3`	文本的三维散点图

话题

文本分类

创建用于分类的简单文本模型

这个例子展示了如何使用一个单词包模型来训练一个简单的文本分类器。

基于深度学习的文本数据分类

这个示例展示了如何使用深度学习长短期记忆(LSTM)网络对文本数据进行分类。

基于卷积神经网络的文本数据分类

这个例子展示了如何使用卷积神经网络对文本数据进行分类。

基于深度学习的失忆文本数据分类

此示例演示如何使用转换后的数据存储，使用深度学习网络对内存不足的文本数据进行分类。

n元计数和主题建模

使用多词短语分析文本数据

这个例子展示了如何使用n-gram频率计数来分析文本。

使用主题模型分析文本数据

这个例子展示了如何使用潜在的Dirichlet分配（LDA）主题模型来分析文本数据。

选择LDA模型的主题数量

这个示例展示了如何为潜在Dirichlet分配(LDA)模型决定合适的主题数量。

比较LDA解算器

这个例子展示了如何通过比较拟合优度和拟合模型所花费的时间来比较潜在的Dirichlet分配（LDA）求解器。

情绪分析

创建简单的预处理函数

这个例子展示了如何创建一个函数来清理和预处理要分析的文本数据。

培养情感分类器

这个例子展示了如何使用一个带注释的积极和消极情绪词汇列表以及一个预先训练好的嵌入词来训练一个用于情绪分析的分类器。

翻译与文本生成

注意顺序到顺序的翻译

这个示例展示了如何使用循环的序列到序列的编码器-解码器模型将十进制字符串转换为罗马数字。

使用深度学习生成文本（深度学习工具箱）

这个例子展示了如何训练一个深度学习的长短期记忆（LSTM）网络来生成文本。

傲慢与偏见与MATLAB

这个例子展示了如何训练一个深度学习的LSTM网络来使用字符嵌入生成文本。

基于深度学习的逐字文本生成

这个例子展示了如何训练一个深度学习的LSTM网络来逐字生成文本。

语言支持金宝app

语言的注意事项

有关为其他语言使用文本分析工具箱特性的信息。

日语支持金宝app

文本分析工具箱中的日语支持信息。金宝app

分析日语文本数据

这个例子展示了如何使用主题模型导入、准备和分析日语文本数据。

德国语言支持金宝app

关于文本分析工具箱中德语支持的信息。金宝app

分析德语文本数据

这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

特色示例

基于深度学习的文本数据分类

基于深度学习的文本数据分类

使用深度学习长期短期记忆（LSTM）网络对文本数据进行分类。

打开生活的脚本

使用多词短语分析文本数据

使用多词短语分析文本数据

使用n-gram频率计数分析文本。

打开生活的脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用潜在的Dirichlet分配（LDA）主题模型分析文本数据。

打开生活的脚本

文本分析工具箱文档

金宝app

使用MATLAB进行机器学习

下载电子书