本节提供文本分析中使用的术语列表。
术语 | 定义 | 更多的信息 |
---|---|---|
巨头 | 两个令牌连续。例如,[“纽约”] 。 |
bagOfNgrams |
复杂的令牌 | 具有复杂结构的令牌。例如,电子邮件地址或散列标签。 | tokenDetails |
上下文 | 包围给定令牌的令牌或字符。 | 上下文 |
语料库 | 一系列文件。 | 令人畏缩的鳕文 |
文档 | 对文本数据的一次观察。例如,一篇报告、一条tweet或一篇文章。 | 令人畏缩的鳕文 |
字母 | 人类可读性格。图形可以包括多个Unicode代码点。例如,“a”,“”或“语”。 | splitGraphemes |
n-gram. | N令牌。 | bagOfNgrams |
演讲的一部分 | 语法结构中使用的单词类别。例如,“名词”,“动词”和“形容词”。 | addpartofspeechdetails. |
令牌 | 表示文本数据单位的一串字符,也称为“unigram”。例如,一个单词、数字或电子邮件地址。 | 令人畏缩的鳕文 |
令牌的细节 | 有关令牌的信息。例如,类型,语言或言语部分。 | tokenDetails |
令牌类型 | 令牌的类别。例如,“字母”,“标点符号”或“电子邮件地址”。 | tokenDetails |
授予的文件 | 分割成标记的文档。 | 令人畏缩的鳕文 |
卦 | 接连三次。例如,(“的”“团结”“国家”) |
bagOfNgrams |
词汇表 | 语料库或模型中的独特单词或令牌。 | 令人畏缩的鳕文 |
术语 | 定义 | 更多的信息 |
---|---|---|
正常化 | 将单词减少到根形式。例如,减少“走路”一词使用茎或lemmatization将“行走”。 | normalizeWords |
Lemmatize | 将单词减少到字典单词(LEMMA表单)。例如,减少“运行”的单词和“ran”以“运行”。 | normalizeWords |
阀杆 | 通过去除词形变化来减少单词。简化后的单词不一定是一个真实的单词。例如,波特的词干将“happy”和“happier”简化为“happi”。 | normalizeWords |
停止词 | 通常在分析前删除的词。例如"and", "of"和"the"。 | removeStopWords |
术语 | 定义 | 更多的信息 |
---|---|---|
Bag-of-n-grams模型 | 一种模型,记录一个语料库的每个文档中n-gram出现的次数。 | bagOfNgrams |
Bag-of-words模型 | 一种模型,记录单词在集合的每个文档中出现的次数。 | bagOfWords |
项频计数矩阵 | 在对应于给定词汇的文件集合中发生的单词的频率计数矩阵。该矩阵是单词袋式模型的基础数据。 | bagOfWords |
词频-逆文档频率(tf-idf)矩阵 | 基于文档中的文字频率的统计措施和包含语料库中单词的文档的比例。 | tfidf |
术语 | 定义 | 更多的信息 |
---|---|---|
语料库主题概率 | 在语料库中观察到每个主题的概率用于拟合LDA模型。 | ldaModel |
文档主题概率 | 用于拟合LDA模型的每个文档中观察每个主题的概率。同样,培训文档的主题混合。 | ldaModel |
潜在狄利克雷分配(LDA) | 一个生成式统计主题模型,可以推断文档中的主题概率和主题中的单词概率。 | fitlda |
困惑 | 一种对模型描述给定数据的良好程度的统计度量。困惑度越低说明匹配度越高。 | logp. |
话题 | 一种词的分布,以“主题词概率”为特征。 | ldaModel |
话题集中 | 语料库主题混合下Dirichlet分布的浓度参数。 | ldaModel |
主题的混合物 | 给定文档中主题的概率。 | 转变 |
主题文字概率 | 一个给定主题中单词的概率。 | ldaModel |
词集中 | 浓度参数的潜在狄利克雷分布的主题。 | ldaModel |
术语 | 定义 | 更多的信息 |
---|---|---|
字嵌入 | 一个模型,由Word2Vec,手套和FastText库推广,将词汇中的单词映射到真实的矢量。 | Wordembeddings. |
字嵌入层 | 深度学习网络层,在训练过程中学习单词嵌入。 | wordEmbeddingLayer |
字编码 | 一种将单词映射到数值索引的模型。 | wordEncoding |
术语 | 定义 | 更多的信息 |
---|---|---|
文字散点图 | 一种散点图,在指定的坐标而不是标记处绘制文字。 | textscatter |
词云 | 显示具有对应于数字数据的大小的单词的图表,通常是频率计数。 | wordcloud |
addpartofspeechdetails.
|bagOfNgrams
|bagOfWords
|fitlda
|normalizeWords
|removeStopWords
|textscatter
|tokenDetails
|令人畏缩的鳕文
|wordcloud
|Wordembeddings.
|wordEmbeddingLayer
|wordEncoding