本节提供文本分析中使用的术语列表。
术语 | 定义 | 更多的信息 |
---|---|---|
三元 | 两个标志相继出现。例如,(“新”“纽约”) . |
bagOfNgrams |
复杂的令牌 | 具有复杂结构的令牌。例如,电子邮件地址或标签。 | tokenDetails |
上下文 | 围绕给定标记的标记或字符。 | 上下文 |
语料库 | 文件的集合 | tokenizedDocument |
文档 | 对文本数据的单一观察。例如,一份报告、一条推特或一篇文章。 | tokenizedDocument |
字母 | 人类可读的角色。一个字素可以由多个Unicode代码点组成。例如,“”,“”,或“語”。 | splitGraphemes |
语法 | N令牌。 | bagOfNgrams |
演讲的一部分 | 语法结构中使用的词汇类别。例如,“名词”、“动词”和“形容词”。 | addPartOfSpeechDetails |
令牌 | 代表一个文本数据单元的一串字符,也称为“unigram”。例如,一个单词、数字或电子邮件地址。 | tokenizedDocument |
令牌的细节 | 关于令牌的信息。例如,类型、语言或词性细节。 | tokenDetails |
令牌类型 | 令牌的类别。例如,"letters", "punctuation", or "email address"。 | tokenDetails |
标记化的文档 | 分割为令牌的文档。 | tokenizedDocument |
卦 | 三个标志连续。例如,(“的”“团结”“国家”) |
bagOfNgrams |
词汇表 | 语料库或模型中唯一的词或标记。 | tokenizedDocument |
术语 | 定义 | 更多的信息 |
---|---|---|
正常化 | 将单词简化为词根。例如,使用词干或词根化将单词“walking”略读为“walk”。 | normalizeWords |
Lemmatize | 将单词简化为字典中的单词(引理形式)。例如,将单词“running”和“ran”略读为“run”。 | normalizeWords |
阀杆 | 减少单词的变化。略读单词不一定是一个真正的单词。例如,波特的词根将单词“happy”和“happiest”简化为“happi”。 | normalizeWords |
停止词 | 在分析之前,这些词通常被删除。例如"and", "of"和"the"。 | removeStopWords |
术语 | 定义 | 更多的信息 |
---|---|---|
Bag-of-n-grams模型 | 一个模型,记录n-g在语料库的每个文档中出现的次数。 | bagOfNgrams |
Bag-of-words模型 | 记录单词在集合的每个文档中出现次数的模型。 | bagOfWords |
项频率计数矩阵 | 与给定词汇表相对应的文档集合中出现的单词的频率计数矩阵。这个矩阵是词汇袋模型的基础数据。 | bagOfWords |
术语频率-反文档频率(tf-idf)矩阵 | 一种统计方法,基于文档中的单词频率计数和语料库中包含单词的文档比例。 | tfidf |
术语 | 定义 | 更多的信息 |
---|---|---|
语料库主题概率 | 用观察语料库中每个主题的概率来拟合LDA模型。 | ldaModel |
文档主题概率 | 用于拟合LDA模型的每个文档中观察每个主题的概率。同样,训练文档的主题混合。 | ldaModel |
潜狄利克雷分配(LDA) | 生成的统计主题模型,推断文档中的主题概率和主题中的单词概率。 | fitlda |
困惑 | 一个模型描述给定数据的好坏程度的统计度量。越低的困惑表示越适合。 | logp |
主题 | 一个词的分布,以“主题词的概率”为特征。 | ldaModel |
话题集中 | 语料库主题混合底层Dirichlet分布的浓度参数。 | ldaModel |
主题的混合物 | 给定文档中主题的概率。 | 变换 |
主题文字概率 | 单词在给定主题中的概率。 | ldaModel |
词集中 | 主题的基础狄利克雷分布的浓度参数。 | ldaModel |
术语 | 定义 | 更多的信息 |
---|---|---|
字嵌入 | 由word2vec、GloVe和fastText库推广的一种模型,它将词汇表中的单词映射到真实的向量。 | wordEmbedding |
字嵌入层 | 深度学习网络层,在训练过程中学习单词嵌入。 | wordEmbeddingLayer |
字编码 | 将单词映射为数字索引的模型。 | wordEncoding |
术语 | 定义 | 更多的信息 |
---|---|---|
文本散点图 | 在指定坐标而不是标记处绘制文字的散点图。 | textscatter |
词云 | 一种显示与数字数据对应大小的单词的图表,通常是频率计数。 | wordcloud |
tokenizedDocument
|tokenDetails
|addPartOfSpeechDetails
|removeStopWords
|normalizeWords
|bagOfWords
|fitlda
|wordEmbedding
|wordEncoding
|wordEmbeddingLayer
|bagOfNgrams
|wordcloud
|textscatter