主要内容

建模与预测

使用主题模型和词嵌入开发预测模型

要从高维文本数据集中寻找聚类和提取特征,可以使用机器学习技术和模型,如LSA、LDA和单词嵌入。您可以将使用Text Analytics Toolbox™创建的特性与来自其他数据源的特性相结合。有了这些特性,您就可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

全部展开

bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 将文档添加到单词袋或n-g袋模型中
removeDocument 从单词袋或n-g袋模型中删除文档
removeInfrequentWords 从单词袋模型中删除低计数的单词
removeinfrequentngrams. 从n字袋模型中删除不常见的n字格
removeWords 从文档或词袋模型中删除选定的词
removeNgrams 从n字袋模型中删除n字格
removeEmptyDocuments 从标记化文档数组、词袋模型或n字袋模型中删除空文档
topkwords 单词袋模型或LDA主题中最重要的单词
topkngrams 最常见的字格
编码 将文档编码为单词或n-gram计数的矩阵
tfidf 频率逆文档频率(tf-idf)矩阵
加入 组合多个单词袋或n-g袋模型
vaderSentimentScores 情感得分与VADER算法
ratioSentimentScores 情感评分采用比例规则
fastTextWordEmbedding 预训练的fastText单词嵌入
wordEncoding 字编码模型,以映射字到索引和返回
doc2sequence 将文档转换为序列以进行深度学习
wordEmbeddingLayer 面向深度学习网络的词嵌入层
word2vec 映射单词到嵌入向量
word2ind 映射字到编码索引
vec2word 映射嵌入向量到单词
ind2word 将编码索引映射到单词
isVocabularyWord 测试单词是否是单词嵌入或编码的成员
readWordEmbedding 从文件中读取嵌入字
trainWordEmbedding 火车字嵌入
writeWordEmbedding 写入字嵌入文件
wordEmbedding 单词嵌入模型映射单词到向量和反向
extractSummary 从文档中提取摘要
rakeKeywords 使用RAKE提取关键字
textrankKeywords 使用TextRank提取关键字
bleuEvaluationScore 用BLEU相似度评分评估翻译或摘要
rougeEvaluationScore 用ROUGE相似度评分评估翻译或摘要
bm25Similarity 文档与BM25算法相似
cosineSimilarity 文档相似性与余弦相似性
textrankScores 具有Textrank算法的文档评分
lexrankScores 文档评分与LexRank算法
mmrScores 基于最大边际相关性(MMR)算法的文档评分
fitlda 拟合latent Dirichlet allocation (LDA)模型
fitlsa 符合LSA模型
的简历 简历拟合LDA模型
logp 记录LDA模型的对数概率和拟合优度
预测 预测文档的顶级LDA主题
变换 将文档转换为低维空间
ldaModel 潜在Dirichlet分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
wordcloud 从文本、词袋模型、n字袋模型或LDA模型创建单词云图
textscatter 2-D散点图的文本
textscatter3 3-D散点图的文本

主题

分类和建模

创建简单的预处理函数

这个例子展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

创建用于分类的简单文本模型

这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的单词频率计数。

使用多词短语分析文本数据

这个例子展示了如何使用n格的频率计数来分析文本。

使用主题模型分析文本数据

这个例子展示了如何使用Latent Dirichlet Allocation (LDA)主题模型来分析文本数据。

选择LDA模型的主题数

这个例子展示了如何为潜在的Dirichlet分配(LDA)模型确定适当数量的主题。

比较LDA解决者

这个例子展示了如何通过比较拟合优度和拟合模型所需的时间来比较潜在的Dirichlet分配(LDA)求解器。

情感分析与关键词提取

文本情感分析

这个例子展示了如何使用价感知字典和情感推理(VADER)算法进行情感分析。

生成领域特定情感词典

这个例子展示了如何使用10-K和10-Q财务报告生成情感分析词汇。

训练情感分类器

这个例子展示了如何使用一个积极和消极情感词的注释列表和预先训练的词嵌入来训练用于情感分析的分类器。

利用RAKE从文本数据中提取关键词

这个例子展示了如何使用快速自动关键字提取(RAKE)从文本数据中提取关键字。

利用TextRank从文本数据中提取关键字

这个例子展示了如何使用TextRank从文本数据中提取关键字。

深度学习

利用深度学习对文本数据进行分类

这个例子展示了如何使用深度学习长短期记忆(LSTM)网络分类文本数据。

基于卷积神经网络的文本数据分类

这个例子展示了如何使用卷积神经网络对文本数据进行分类。

利用深度学习对失忆文本数据进行分类

这个例子展示了如何使用深度学习网络使用转换后的数据存储对内存不足的文本数据进行分类。

使用注意进行序列到序列翻译

此示例展示了如何使用循环序列到序列编码器-解码器模型将十进制字符串转换为罗马数字。

使用深度学习生成文本(深度学习工具箱)

这个例子展示了如何训练深度学习长短期记忆(LSTM)网络来生成文本。

《傲慢与偏见》和《MATLAB

这个例子展示了如何训练一个深度学习LSTM网络来使用字符嵌入生成文本。

基于深度学习的逐字文本生成

这个例子展示了如何训练深度学习LSTM网络来逐字生成文本。

使用自定义训练循环分类文本数据

这个例子展示了如何使用带有自定义训练循环的深度学习双向长短期记忆(BiLSTM)网络对文本数据进行分类。

使用自动编码器生成文本

这个例子展示了如何使用自动编码器生成文本数据。

定义文本编码器模型函数

这个例子展示了如何定义一个文本编码器模型函数。

定义文本解码器模型函数

这个例子展示了如何定义一个文本解码器模型函数。

语言支持金宝app

语言的注意事项

关于为其他语言使用文本分析工具箱特性的信息。

日本语言支持金宝app

文本分析工具箱中的日语支持信息。金宝app

分析日语文本数据

这个例子展示了如何使用主题模型导入、准备和分析日文文本数据。

德语支持金宝app

文本分析工具箱中关于德语支持的信息。金宝app

德语文本数据分析

这个示例展示了如何使用主题模型导入、准备和分析德文文本数据。

特色的例子