trainWordEmbedding

火车字嵌入

所有的页面崩溃

语法

emb = trainWordEmbedding(文件名)

emb = trainWordEmbedding(文档)

emb = trainWordEmbedding (___、名称、值)

描述

例子

循证= trainWordEmbedding (文件名)火车一个字嵌入使用训练数据存储在文本文件中文件名。文件是文件的集合存储在utf - 8,每行一个文档和词用空格隔开。

例子

循证= trainWordEmbedding (文档)火车一个字嵌入使用文档通过创建一个临时文件writeTextDocument,然后火车一个嵌入使用临时文件。

例子

emb = trainWordEmbedding (___,名称,值)使用一个或多个指定附加选项名称-值对参数。例如,“维度”,50岁指定这个词嵌入维度是50。

例子

全部折叠

火车字嵌入的文件

打开生活的脚本

火车一个字嵌入维100使用示例文本文件exampleSonnetsDocuments.txt。这个文件包含预处理版本的莎士比亚的十四行诗,每行一个十四行诗和词之间用一个空格来分隔。

文件名=“exampleSonnetsDocuments.txt”;emb = trainWordEmbedding(文件名)

培训:100%的损失:3.1471剩余时间:0小时0分钟。

emb = wordEmbedding属性:尺寸:100词汇:”和“”“”“”“”“”我“…]

查看单词嵌入在文本使用散点图tsne。

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

火车字嵌入的文档

打开生活的脚本

火车一个字嵌入使用示例数据sonnetsPreprocessed.txt。这个文件包含预处理版本的莎士比亚的十四行诗。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

火车一个字嵌入使用trainWordEmbedding。

emb = trainWordEmbedding(文档)

培训:100%的损失:0剩余时间:0小时0分钟。

emb = wordEmbedding属性:尺寸:100词汇:“你的”“你”“爱”“你”“难道”…]

想象这个词嵌入在文本使用散点图tsne。

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

指定字嵌入选项

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

指定要50字嵌入维度。减少单词丢弃的模型,设置“MinCount”为3。训练时间,时代的数量设置为10。

emb = trainWordEmbedding(文档,…“维度”,50岁,…“MinCount”3,…“NumEpochs”,10)

培训:100%的损失:2.7116剩余时间:0小时0分钟。

emb = wordEmbedding属性:尺寸:50词汇:“你的”“你”“爱”“你”“难道”…]

查看单词嵌入在文本使用散点图tsne。

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

输入参数

全部折叠

`文件名`- - - - - -文件的名字
字符串标量|特征向量

文件的名称,指定为字符串标量或特征向量。

数据类型:字符串|字符

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。

例子:“维度”,50岁指定这个词嵌入维度是50。

`维`- - - - - -维度的嵌入
One hundred.(默认)|正整数

维度的嵌入,指定为逗号分隔组成的“维度”和一个非负整数。

例子:300年

`窗口`- - - - - -上下文窗口的大小
5(默认)|非负整数

上下文窗口的大小,指定为逗号分隔组成的“窗口”和一个非负整数。

例子:10

`模型`- - - - - -模型
`“skipgram”`(默认)|`“cbow”`

模型,指定为逗号分隔组成的“模型”和“skipgram”(跳过克)“cbow”(连续bag-of-words)。

例子:“cbow”

`DiscardFactor`- - - - - -因素来确定单词丢弃率
`1的军医`(默认)|积极的标量

因素决定丢弃率,这个词指定为逗号分隔组成的“DiscardFactor”和积极的标量。函数的概率丢弃一个词从输入窗口1-sqrt (t / f) - t / ff是一词的unigram概率,然后呢t是DiscardFactor。通常情况下,DiscardFactor在的范围1 e - 3通过1 e-5。

例子:0.005

`LossFunction`- - - - - -损失函数
`“ns”`(默认)|`“海关”`|`“softmax”`

损失函数,指定为逗号分隔组成的“LossFunction”和“ns”(负采样),“海关”(分层softmax),或“softmax”(softmax)。

例子:“海关”

`NumNegativeSamples`- - - - - -负样本数量
5(默认)|正整数

的负样本数量负采样损失函数,指定为逗号分隔组成的“NumNegativeSamples”和一个正整数。此选项时才有效LossFunction是“ns”。

例子:10

`NumEpochs`- - - - - -数量的时代
5(默认)|正整数

数字时代的培训,指定为逗号分隔组成的“NumEpochs”和一个正整数。

例子:10

`MinCount`- - - - - -最低数量的单词
5(默认)|正整数

最低数量的单词包含嵌入,指定为逗号分隔组成的“MinCount”和一个正整数。函数丢弃的话显得不足MinCount次训练数据的词汇。

例子:10

`NGramRange`- - - - - -包容的范围subword字格
`(3 - 6)`(默认)|向量的两个非负整数

包容的范围subword字格,指定为逗号分隔组成的“NGramRange”和一个向量的两个非负整数(最小最大)。如果你不想使用字格,然后设置“NGramRange”来[0 0]。

例子:10 [5]

`InitialLearnRate`- - - - - -最初的学习速率
0.05(默认)|积极的标量

最初的学习速率,指定为逗号分隔组成的“InitialLearnRate”和积极的标量。

例子:0.01

`UpdateRate`- - - - - -速度更新学习速率
One hundred.(默认)|正整数

速度更新学习速率,指定为逗号分隔组成的“UpdateRate”和一个正整数。学习速率降低为零线性步骤在每一个N的单词,N是UpdateRate。

例子:50

`详细的`- - - - - -冗长的水平
1(默认)|0

冗长的层面上,指定为逗号分隔组成的“详细”和下列之一:

0 -不显示详细的输出。
1 -显示进度信息。

例子:“详细”,0

输出参数

全部折叠

`循证`——输出字嵌入
字嵌入

输出字嵌入,作为一个返回wordEmbedding对象。

提示

训练算法使用线程的数量的函数maxNumCompThreads。学习如何改变MATLAB所使用的线程的数量^®,请参阅maxNumCompThreads。

另请参阅

主题

介绍了R2017b

trainWordEmbedding

语法

描述

例子

火车字嵌入的文件

火车字嵌入的文档

指定字嵌入选项

输入参数

`文件名`- - - - - -文件的名字
字符串标量|特征向量

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`维`- - - - - -维度的嵌入
One hundred.(默认)|正整数

`窗口`- - - - - -上下文窗口的大小
5(默认)|非负整数

`模型`- - - - - -模型
`“skipgram”`(默认)|`“cbow”`

`DiscardFactor`- - - - - -因素来确定单词丢弃率
`1的军医`(默认)|积极的标量

`LossFunction`- - - - - -损失函数
`“ns”`(默认)|`“海关”`|`“softmax”`

`NumNegativeSamples`- - - - - -负样本数量
5(默认)|正整数

`NumEpochs`- - - - - -数量的时代
5(默认)|正整数

`MinCount`- - - - - -最低数量的单词
5(默认)|正整数

`NGramRange`- - - - - -包容的范围subword字格
`(3 - 6)`(默认)|向量的两个非负整数

`InitialLearnRate`- - - - - -最初的学习速率
0.05(默认)|积极的标量

`UpdateRate`- - - - - -速度更新学习速率
One hundred.(默认)|正整数

`详细的`- - - - - -冗长的水平
1(默认)|0

输出参数

`循证`——输出字嵌入
字嵌入

更多关于

语言的注意事项

提示

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

trainWordEmbedding

语法

描述

例子

火车字嵌入的文件

火车字嵌入的文档

指定字嵌入选项

输入参数

文件名- - - - - -文件的名字字符串标量|特征向量

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

维- - - - - -维度的嵌入One hundred.(默认)|正整数

窗口- - - - - -上下文窗口的大小5(默认)|非负整数

模型- - - - - -模型“skipgram”(默认)|“cbow”

DiscardFactor- - - - - -因素来确定单词丢弃率1的军医(默认)|积极的标量

LossFunction- - - - - -损失函数“ns”(默认)|“海关”|“softmax”

NumNegativeSamples- - - - - -负样本数量5(默认)|正整数

NumEpochs- - - - - -数量的时代5(默认)|正整数

MinCount- - - - - -最低数量的单词5(默认)|正整数

NGramRange- - - - - -包容的范围subword字格(3 - 6)(默认)|向量的两个非负整数

InitialLearnRate- - - - - -最初的学习速率0.05(默认)|积极的标量

UpdateRate- - - - - -速度更新学习速率One hundred.(默认)|正整数

详细的- - - - - -冗长的水平1(默认)|0

输出参数

循证——输出字嵌入字嵌入

更多关于

语言的注意事项

提示

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

`文件名`- - - - - -文件的名字
字符串标量|特征向量

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`维`- - - - - -维度的嵌入
One hundred.(默认)|正整数

`窗口`- - - - - -上下文窗口的大小
5(默认)|非负整数

`模型`- - - - - -模型
`“skipgram”`(默认)|`“cbow”`

`DiscardFactor`- - - - - -因素来确定单词丢弃率
`1的军医`(默认)|积极的标量

`LossFunction`- - - - - -损失函数
`“ns”`(默认)|`“海关”`|`“softmax”`

`NumNegativeSamples`- - - - - -负样本数量
5(默认)|正整数

`NumEpochs`- - - - - -数量的时代
5(默认)|正整数

`MinCount`- - - - - -最低数量的单词
5(默认)|正整数

`NGramRange`- - - - - -包容的范围subword字格
`(3 - 6)`(默认)|向量的两个非负整数

`InitialLearnRate`- - - - - -最初的学习速率
0.05(默认)|积极的标量

`UpdateRate`- - - - - -速度更新学习速率
One hundred.(默认)|正整数

`详细的`- - - - - -冗长的水平
1(默认)|0

`循证`——输出字嵌入
字嵌入