主要内容

建模和预测

使用主题模型和词嵌入开发预测模型

找到集群和提取特征的高维文本数据集,您可以使用机器学习技术和模型如LSA, LDA,字嵌入。您可以组合特征与文本分析工具箱™创建特性从其他数据源。使用这些特性,可以构建机器学习模型,利用文本、数字和其他类型的数据。

功能

全部展开

bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 添加文档bag-of-words或bag-of-n-grams模型
removeDocument 把文件从bag-of-words或bag-of-n-grams模型
removeInfrequentWords 从bag-of-words模型删除单词计数较低
removeInfrequentNgrams 除去bag-of-n-grams很少看到字格模型
removeWords 删除选中的文字从文档或bag-of-words模型
removeNgrams 把字格从bag-of-n-grams模型
removeEmptyDocuments 删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
topkwords 最重要的是单词bag-of-words模型或LDA的话题
topkngrams 最常见的字格
编码 编码矩阵的词或语法方面的文件
tfidf 术语Frequency-Inverse文档频率(tf-idf)矩阵
加入 结合多个bag-of-words或bag-of-n-grams模型
vaderSentimentScores 情绪得分与维德算法
ratioSentimentScores 情绪得分比例规则
fastTextWordEmbedding Pretrained fastText字嵌入
wordEncoding 字编码模型词汇映射到指数和回来
doc2sequence 将文档转换成深度学习的序列
wordEmbeddingLayer 字嵌入层深度学习网络
word2vec 字映射到嵌入向量
word2ind 字映射到编码索引
vec2word 嵌入向量映射到的词
ind2word 地图编码索引词
isVocabularyWord 测试如果词是词中嵌入的成员或编码
readWordEmbedding 从文件读取字嵌入
trainWordEmbedding 火车字嵌入
writeWordEmbedding 写的字嵌入文件
wordEmbedding 字嵌入模型映射向量和回
extractSummary 从文档中提取总结
rakeKeywords 使用RAKE提取关键字
textrankKeywords 提取关键字使用TextRank
bleuEvaluationScore 评估翻译或总结蓝色相似性得分
rougeEvaluationScore 评估翻译或总结胭脂相似性得分
bm25Similarity 与BM25算法文档相似之处
cosineSimilarity 与余弦相似性文档相似之处
textrankScores 文档得分与TextRank算法
lexrankScores 文档得分与LexRank算法
mmrScores 文档得分与最大边际相关性(MMR)算法
fitlda 符合潜在狄利克雷分配(LDA)模型
fitlsa 符合LSA模型
的简历 简历合适LDA模型
logp 文档log-probabilities和LDA模型的拟合优度
预测 预测LDA主题的文件
变换 将文档转换成低维空间
ldaModel 潜在狄利克雷分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
addEntityDetails 实体标记添加到文档
trainHMMEntityModel 火车HMM-based命名实体识别模型(尼珥)
预测 预测实体使用命名实体识别(尼珥)模型
hmmEntityModel HMM-based命名实体识别模型(尼珥)
wordcloud 创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型
textscatter 二维散点图的文本
textscatter3 三维散点图的文本

主题

分类和建模

情绪分析和关键字提取

深度学习

语言支持金宝app