trainWordEmbedding

列车字嵌入

折叠所有页面

句法

EMB = trainWordEmbedding（文件名）

EMB = trainWordEmbedding（文档）

EMB = trainWordEmbedding（___，名称，值）

描述

例

EMB= trainWordEmbedding（文件名）训练一个字使用存储在文本文件中的训练数据嵌入文件名。该文件是存储在UTF-8，每行和由空格隔开字一个文档的文档的集合。

例

EMB= trainWordEmbedding（文件）训练一个字嵌入使用文件通过创建一个临时文件writeTextDocument，然后训练使用临时文件嵌入。

例

EMB = trainWordEmbedding（___，名称，值）指定使用额外的一个或多个选项的名称 - 值对的参数。例如，'尺寸'，50指定嵌入维字为50。

例子

全部收缩

从文件列车Word中嵌入

开立真实脚本

培养一个字使用示例文本文件尺寸100嵌入exampleSonnetsDocuments.txt。该文件包含预处理莎士比亚十四行诗的版本，每行一个十四行诗和文字分开一个空格。

文件名=“exampleSonnetsDocuments.txt”;EMB = trainWordEmbedding（文件名）

训练：100％损失：2.7062剩余时间：0小时0分钟。

EMB = wordEmbedding与性能：尺寸：100词汇：[1x502字符串]

查看Word中使用文本散点图嵌入tsne。

词语= emb.Vocabulary;V = word2vec（EMB，字）;XY = tsne（V）;textscatter（XY，字）

从文档列车字嵌入

开立真实脚本

训练单词使用示例数据嵌入sonnetsPreprocessed.txt。此文件包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗，文字分离通过的空间。提取文本sonnetsPreprocessed.txt，拆分文本的换行符的文件，然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText（文件名）;的TextData = SPLIT（STR，换行）;文档= tokenizedDocument（的TextData）;

培养一个字嵌入使用trainWordEmbedding。

EMB = trainWordEmbedding（文档）

训练：100％损失：3.20363剩余时间：0小时0分钟。

EMB = wordEmbedding与性能：尺寸：100词汇：[1x401字符串]

可视化这个词用在文本散点图嵌入tsne。

词语= emb.Vocabulary;V = word2vec（EMB，字）;XY = tsne（V）;textscatter（XY，字）

指定的Word嵌入选项

开立真实脚本

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗，文字分离通过的空间。提取文本sonnetsPreprocessed.txt，拆分文本的换行符的文件，然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText（文件名）;的TextData = SPLIT（STR，换行）;文档= tokenizedDocument（的TextData）;

指定的单词嵌入维为50。为了减少由所述模型废弃的字的数目，集'MinCount'3。为训练的时间更长，设置历元的数目为10。

EMB = trainWordEmbedding（文档，...'尺寸'50，...'MinCount'，3，...'NumEpochs'，10）

训练：100％损失：2.86391剩余时间：0小时0分钟。

EMB = wordEmbedding与性能：尺寸：50词汇：[1x750字符串]

查看Word中使用文本散点图嵌入tsne。

词语= emb.Vocabulary;V = word2vec（EMB，字）;XY = tsne（V）;textscatter（XY，字）

输入参数

全部收缩

`文件名`-文件的名称
串标|特征向量

该文件，指定为字符串标量或特征向量的名称。

数据类型：串|烧焦

`文件`-输入文件
`tokenizedDocument`排列

输入文件，指定为tokenizedDocument阵列。

名称 - 值对参数

指定可选的用逗号分隔的对名称，值参数。名称是参数的名称和值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1，值1，...，NameN，值N。

例：'尺寸'，50指定嵌入维字为50。

`'尺寸'`-字嵌入的尺寸
100（默认）|正整数

字嵌入的尺寸，指定为逗号分隔的一对组成的'尺寸'和一个非负整数。

例：300

`'窗口'`-上下文窗口的大小
五（默认）|非负整数

上下文窗口的大小，指定为逗号分隔的一对组成的'窗口'和一个非负整数。

例：10

`'模型'`-模型
`'skipgram'`（默认）|`'cbow'`

模型，指定为逗号分隔的一对组成的'模型'和'skipgram'（跳过克）或'cbow'（连续袋的词）。

例：'cbow'

`'DiscardFactor'`-因素来确定字丢弃率
`1E-4`（默认）|正标量

因子来确定字丢弃率，指定为逗号分隔的一对组成的'DiscardFactor'和正标量。该功能从概率输入窗口丢弃一个字1-SQRT（T / F） - T / F其中f是单词的单字组概率，Ť是DiscardFactor。通常情况下，DiscardFactor是在范围内1E-3通过1E-5。

例：0.005

`'LossFunction'`-损失函数
`'NS'`（默认）|`'HS'`|`'SOFTMAX'`

损耗函数，指定为逗号分隔的一对组成的'LossFunction'和'NS'（负采样），'HS'（分层SOFTMAX），或'SOFTMAX'（SOFTMAX）。

例：'HS'

`'NumNegativeSamples'`-阴性样品数
五（默认）|正整数

用于负采样损失函数阴性样品，指定为逗号分隔的一对组成的数'NumNegativeSamples'和一个正整数。此选项是当只有有效LossFunction是'NS'。

例：10

`'NumEpochs'`-时代的数
五（默认）|正整数

历元用于训练的数，指定为逗号分隔的一对组成的'NumEpochs'和一个正整数。

例：10

`'MinCount'`-也就是说最小数
五（默认）|正整数

词语的最小计数在嵌入到包括，指定为逗号分隔的一对组成的'MinCount'和一个正整数。出现比少的功能丢弃的话MinCount次从词汇训练数据。

例：10

`'NGramRange'`-包容范围子字正克
`[3 6]`（默认）|2个非负整数的向量

包含范围为子字的n-gram，指定为逗号分隔的一对组成的'NGramRange'和两个非负整数的向量[最小最大]。如果你不希望使用正克，然后设置'NGramRange'至[0 0]。

例：[5 10]

`'InitialLearnRate'`-初始学习率
0.05（默认）|正标量

初始学习速率，指定为逗号分隔的一对组成的'InitialLearnRate'和正标量。

例：0.01

`'UpdateRate'`-率更新学习率
100（默认）|正整数

率用于更新学习速率，指定为逗号分隔的一对组成的'UpdateRate'和一个正整数。在学率呈线性在每步降低到零ñ哪里的话ñ是个UpdateRate。

例：50

`“放牧”`-详细级别
1（默认）|0

详细级别，指定为逗号分隔的一对组成的“放牧”和以下情况之一：

0 - 不显示详细的输出。
1 - 显示进度信息。

例：'冗长'，0

输出参数

全部收缩

`EMB`- 输出字嵌入
字嵌入

输出字嵌入，返回为wordEmbedding目的。

提示

训练算法使用由函数给出的线程数maxNumCompThreads。要了解如何改变通过MATLAB使用的线程数^®见maxNumCompThreads。

也可以看看

主题

介绍了在R2017b

trainWordEmbedding

句法

描述

例子

从文件列车Word中嵌入

从文档列车字嵌入

指定的Word嵌入选项

输入参数

`文件名`-文件的名称
串标|特征向量

`文件`-输入文件
`tokenizedDocument`排列

名称 - 值对参数

`'尺寸'`-字嵌入的尺寸
100（默认）|正整数

`'窗口'`-上下文窗口的大小
五（默认）|非负整数

`'模型'`-模型
`'skipgram'`（默认）|`'cbow'`

`'DiscardFactor'`-因素来确定字丢弃率
`1E-4`（默认）|正标量

`'LossFunction'`-损失函数
`'NS'`（默认）|`'HS'`|`'SOFTMAX'`

`'NumNegativeSamples'`-阴性样品数
五（默认）|正整数

`'NumEpochs'`-时代的数
五（默认）|正整数

`'MinCount'`-也就是说最小数
五（默认）|正整数

`'NGramRange'`-包容范围子字正克
`[3 6]`（默认）|2个非负整数的向量

`'InitialLearnRate'`-初始学习率
0.05（默认）|正标量

`'UpdateRate'`-率更新学习率
100（默认）|正整数

`“放牧”`-详细级别
1（默认）|0

输出参数

`EMB`- 输出字嵌入
字嵌入

更多关于

语言的注意事项

提示

也可以看看

主题

文本分析工具箱文档

金宝app

入门在MATLAB文本分析

trainWordEmbedding

句法

描述

例子

从文件列车Word中嵌入

从文档列车字嵌入

指定的Word嵌入选项

输入参数

文件名-文件的名称串标|特征向量

文件-输入文件tokenizedDocument排列

名称 - 值对参数

'尺寸'-字嵌入的尺寸100（默认）|正整数

'窗口'-上下文窗口的大小五（默认）|非负整数

'模型'-模型'skipgram'（默认）|'cbow'

'DiscardFactor'-因素来确定字丢弃率1E-4（默认）|正标量

'LossFunction'-损失函数'NS'（默认）|'HS'|'SOFTMAX'

'NumNegativeSamples'-阴性样品数五（默认）|正整数

'NumEpochs'-时代的数五（默认）|正整数

'MinCount'-也就是说最小数五（默认）|正整数

'NGramRange'-包容范围子字正克[3 6]（默认）|2个非负整数的向量

'InitialLearnRate'-初始学习率0.05（默认）|正标量

'UpdateRate'-率更新学习率100（默认）|正整数

“放牧”-详细级别1（默认）|0

输出参数

EMB- 输出字嵌入字嵌入

更多关于

语言的注意事项

提示

也可以看看

主题

文本分析工具箱文档

金宝app

入门在MATLAB文本分析

`文件名`-文件的名称
串标|特征向量

`文件`-输入文件
`tokenizedDocument`排列

`'尺寸'`-字嵌入的尺寸
100（默认）|正整数

`'窗口'`-上下文窗口的大小
五（默认）|非负整数

`'模型'`-模型
`'skipgram'`（默认）|`'cbow'`

`'DiscardFactor'`-因素来确定字丢弃率
`1E-4`（默认）|正标量

`'LossFunction'`-损失函数
`'NS'`（默认）|`'HS'`|`'SOFTMAX'`

`'NumNegativeSamples'`-阴性样品数
五（默认）|正整数

`'NumEpochs'`-时代的数
五（默认）|正整数

`'MinCount'`-也就是说最小数
五（默认）|正整数

`'NGramRange'`-包容范围子字正克
`[3 6]`（默认）|2个非负整数的向量

`'InitialLearnRate'`-初始学习率
0.05（默认）|正标量

`'UpdateRate'`-率更新学习率
100（默认）|正整数

`“放牧”`-详细级别
1（默认）|0

`EMB`- 输出字嵌入
字嵌入