主要内容

文本分析术语表

本节提供文本分析中使用的术语列表。

文档和令牌

术语 定义 更多的信息
巨头 两个令牌连续。例如,[“纽约”] bagOfNgrams
复杂的令牌 具有复杂结构的令牌。例如,电子邮件地址或散列标签。 tokenDetails
上下文 包围给定令牌的令牌或字符。 上下文
语料库 一系列文件。 令人畏缩的鳕文
文档 对文本数据的一次观察。例如,一篇报告、一条tweet或一篇文章。 令人畏缩的鳕文
字母 人类可读性格。图形可以包括多个Unicode代码点。例如,“a”,“”或“语”。 splitGraphemes
n-gram. N令牌。 bagOfNgrams
演讲的一部分 语法结构中使用的单词类别。例如,“名词”,“动词”和“形容词”。 addpartofspeechdetails.
令牌 表示文本数据单位的一串字符,也称为“unigram”。例如,一个单词、数字或电子邮件地址。 令人畏缩的鳕文
令牌的细节 有关令牌的信息。例如,类型,语言或言语部分。 tokenDetails
令牌类型 令牌的类别。例如,“字母”,“标点符号”或“电子邮件地址”。 tokenDetails
授予的文件 分割成标记的文档。 令人畏缩的鳕文
接连三次。例如,(“的”“团结”“国家”) bagOfNgrams
词汇表 语料库或模型中的独特单词或令牌。 令人畏缩的鳕文

预处理

术语 定义 更多的信息
正常化 将单词减少到根形式。例如,减少“走路”一词使用茎或lemmatization将“行走”。 normalizeWords
Lemmatize 将单词减少到字典单词(LEMMA表单)。例如,减少“运行”的单词和“ran”以“运行”。 normalizeWords
阀杆 通过去除词形变化来减少单词。简化后的单词不一定是一个真实的单词。例如,波特的词干将“happy”和“happier”简化为“happi”。 normalizeWords
停止词 通常在分析前删除的词。例如"and", "of"和"the"。 removeStopWords

建模与预测

Bag-of-Words

术语 定义 更多的信息
Bag-of-n-grams模型 一种模型,记录一个语料库的每个文档中n-gram出现的次数。 bagOfNgrams
Bag-of-words模型 一种模型,记录单词在集合的每个文档中出现的次数。 bagOfWords
项频计数矩阵 在对应于给定词汇的文件集合中发生的单词的频率计数矩阵。该矩阵是单词袋式模型的基础数据。 bagOfWords
词频-逆文档频率(tf-idf)矩阵 基于文档中的文字频率的统计措施和包含语料库中单词的文档的比例。 tfidf

潜在狄利克雷分配

术语 定义 更多的信息
语料库主题概率 在语料库中观察到每个主题的概率用于拟合LDA模型。 ldaModel
文档主题概率 用于拟合LDA模型的每个文档中观察每个主题的概率。同样,培训文档的主题混合。 ldaModel
潜在狄利克雷分配(LDA) 一个生成式统计主题模型,可以推断文档中的主题概率和主题中的单词概率。 fitlda
困惑 一种对模型描述给定数据的良好程度的统计度量。困惑度越低说明匹配度越高。 logp.
话题 一种词的分布,以“主题词概率”为特征。 ldaModel
话题集中 语料库主题混合下Dirichlet分布的浓度参数。 ldaModel
主题的混合物 给定文档中主题的概率。 转变
主题文字概率 一个给定主题中单词的概率。 ldaModel
词集中 浓度参数的潜在狄利克雷分布的主题。 ldaModel

潜在语义分析

术语 定义 更多的信息
组件的重量 分解的奇异值,平方。 lsamodel.
文档得分 用于拟合LSA模型的文档的低维空间的得分向量。 转变
潜在语义分析(LSA) 基于主成分分析(PCA)的降维技术。 fitlsa
单词分数 LSA模型中每个组件中每个单词的得分。 lsamodel.

Word Embeddings.

术语 定义 更多的信息
字嵌入 一个模型,由Word2Vec,手套和FastText库推广,将词汇中的单词映射到真实的矢量。 Wordembeddings.
字嵌入层 深度学习网络层,在训练过程中学习单词嵌入。 wordEmbeddingLayer
字编码 一种将单词映射到数值索引的模型。 wordEncoding

可视化

术语 定义 更多的信息
文字散点图 一种散点图,在指定的坐标而不是标记处绘制文字。 textscatter
词云 显示具有对应于数字数据的大小的单词的图表,通常是频率计数。 wordcloud

另请参阅

||||||||||||

相关话题