trainWordEmbedding

列车字嵌入

描述

EMB= trainWordEmbedding(文件名训练一个字使用存储在文本文件中的训练数据嵌入文件名。该文件是存储在UTF-8,每行和由空格隔开字一个文档的文档的集合。

EMB= trainWordEmbedding(文件训练一个字嵌入使用文件通过创建一个临时文件writeTextDocument,然后训练使用临时文件嵌入。

EMB = trainWordEmbedding(___名称,值指定使用额外的一个或多个选项的名称 - 值对的参数。例如,'尺寸',50指定嵌入维字为50。

例子

全部收缩

培养一个字使用示例文本文件尺寸100嵌入exampleSonnetsDocuments.txt。该文件包含预处理莎士比亚十四行诗的版本,每行一个十四行诗和文字分开一个空格。

文件名=“exampleSonnetsDocuments.txt”;EMB = trainWordEmbedding(文件名)
训练:100%损失:2.7062剩余时间:0小时0分钟。
EMB = wordEmbedding与性能:尺寸:100词汇:[1x502字符串]

查看Word中使用文本散点图嵌入tsne

词语= emb.Vocabulary;V = word2vec(EMB,字);XY = tsne(V);textscatter(XY,字)

训练单词使用示例数据嵌入sonnetsPreprocessed.txt。此文件包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

培养一个字嵌入使用trainWordEmbedding

EMB = trainWordEmbedding(文档)
训练:100%损失:3.20363剩余时间:0小时0分钟。
EMB = wordEmbedding与性能:尺寸:100词汇:[1x401字符串]

可视化这个词用在文本散点图嵌入tsne

词语= emb.Vocabulary;V = word2vec(EMB,字);XY = tsne(V);textscatter(XY,字)

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

指定的单词嵌入维为50。为了减少由所述模型废弃的字的数目,集'MinCount'3。为训练的时间更长,设置历元的数目为10。

EMB = trainWordEmbedding(文档,...'尺寸'50,...'MinCount',3,...'NumEpochs',10)
训练:100%损失:2.86391剩余时间:0小时0分钟。
EMB = wordEmbedding与性能:尺寸:50词汇:[1x750字符串]

查看Word中使用文本散点图嵌入tsne

词语= emb.Vocabulary;V = word2vec(EMB,字);XY = tsne(V);textscatter(XY,字)

输入参数

全部收缩

该文件,指定为字符串标量或特征向量的名称。

数据类型:|烧焦

输入文件,指定为tokenizedDocument阵列。

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'尺寸',50指定嵌入维字为50。

字嵌入的尺寸,指定为逗号分隔的一对组成的'尺寸'和一个非负整数。

例:300

上下文窗口的大小,指定为逗号分隔的一对组成的'窗口'和一个非负整数。

例:10

模型,指定为逗号分隔的一对组成的'模型''skipgram'(跳过克)或'cbow'(连续袋的词)。

例:'cbow'

因子来确定字丢弃率,指定为逗号分隔的一对组成的'DiscardFactor'和正标量。该功能从概率输入窗口丢弃一个字1-SQRT(T / F) - T / F其中f是单词的单字组概率,ŤDiscardFactor。通常情况下,DiscardFactor是在范围内1E-3通过1E-5

例:0.005

损耗函数,指定为逗号分隔的一对组成的'LossFunction''NS'(负采样),'HS'(分层SOFTMAX),或'SOFTMAX'(SOFTMAX)。

例:'HS'

用于负采样损失函数阴性样品,指定为逗号分隔的一对组成的数'NumNegativeSamples'和一个正整数。此选项是当只有有效LossFunction'NS'

例:10

历元用于训练的数,指定为逗号分隔的一对组成的'NumEpochs'和一个正整数。

例:10

词语的最小计数在嵌入到包括,指定为逗号分隔的一对组成的'MinCount'和一个正整数。出现比少的功能丢弃的话MinCount次从词汇训练数据。

例:10

包含范围为子字的n-gram,指定为逗号分隔的一对组成的'NGramRange'和两个非负整数的向量[最小最大]。如果你不希望使用正克,然后设置'NGramRange'[0 0]

例:[5 10]

初始学习速率,指定为逗号分隔的一对组成的'InitialLearnRate'和正标量。

例:0.01

率用于更新学习速率,指定为逗号分隔的一对组成的'UpdateRate'和一个正整数。在学率呈线性在每步降低到零ñ哪里的话ñ是个UpdateRate

例:50

详细级别,指定为逗号分隔的一对组成的“放牧”和以下情况之一:

  • 0 - 不显示详细的输出。

  • 1 - 显示进度信息。

例:'冗长',0

输出参数

全部收缩

输出字嵌入,返回为wordEmbedding目的。

更多关于

全部收缩

语言的注意事项

文件输入到trainWordEmbedding功能需要由空格隔开字。

对于含有非英文文本文件,则可能需要输入tokenizedDocument数组trainWordEmbedding

要创建tokenizedDocument从pretokenized文本阵列,请使用tokenizedDocument功能,并设置'TokenizeMethod'选项'没有'

提示

训练算法使用由函数给出的线程数maxNumCompThreads。要了解如何改变通过MATLAB使用的线程数®maxNumCompThreads

介绍了在R2017b