主要内容

trainWordEmbedding

火车字嵌入

描述

例子

循证= trainWordEmbedding (文件名)火车一个字嵌入使用训练数据存储在文本文件中文件名。文件是文件的集合存储在utf - 8,每行一个文档和词用空格隔开。

例子

循证= trainWordEmbedding (文档)火车一个字嵌入使用文档通过创建一个临时文件writeTextDocument,然后火车一个嵌入使用临时文件。

例子

emb = trainWordEmbedding (___,名称,值)使用一个或多个指定附加选项名称-值对参数。例如,“维度”,50岁指定这个词嵌入维度是50。

例子

全部折叠

火车一个字嵌入维100使用示例文本文件exampleSonnetsDocuments.txt。这个文件包含预处理版本的莎士比亚的十四行诗,每行一个十四行诗和词之间用一个空格来分隔。

文件名=“exampleSonnetsDocuments.txt”;emb = trainWordEmbedding(文件名)
培训:100%的损失:3.1471剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:100词汇:”和“”“”“”“”“”我“…]

查看单词嵌入在文本使用散点图tsne

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

火车一个字嵌入使用示例数据sonnetsPreprocessed.txt。这个文件包含预处理版本的莎士比亚的十四行诗。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

火车一个字嵌入使用trainWordEmbedding

emb = trainWordEmbedding(文档)
培训:100%的损失:0剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:100词汇:“你的”“你”“爱”“你”“难道”…]

想象这个词嵌入在文本使用散点图tsne

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

指定要50字嵌入维度。减少单词丢弃的模型,设置“MinCount”为3。训练时间,时代的数量设置为10。

emb = trainWordEmbedding(文档,“维度”,50岁,“MinCount”3,“NumEpochs”,10)
培训:100%的损失:2.7116剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:50词汇:“你的”“你”“爱”“你”“难道”…]

查看单词嵌入在文本使用散点图tsne

话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)

图包含一个坐标轴对象。坐标轴textscatter类型的对象包含一个对象。

输入参数

全部折叠

文件的名称,指定为字符串标量或特征向量。

数据类型:字符串|字符

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“维度”,50岁指定这个词嵌入维度是50。

维度的嵌入,指定为逗号分隔组成的“维度”和一个非负整数。

例子:300年

上下文窗口的大小,指定为逗号分隔组成的“窗口”和一个非负整数。

例子:10

模型,指定为逗号分隔组成的“模型”“skipgram”(跳过克)“cbow”(连续bag-of-words)。

例子:“cbow”

因素决定丢弃率,这个词指定为逗号分隔组成的“DiscardFactor”和积极的标量。函数的概率丢弃一个词从输入窗口1-sqrt (t / f) - t / ff是一词的unigram概率,然后呢tDiscardFactor。通常情况下,DiscardFactor在的范围1 e - 3通过1 e-5

例子:0.005

损失函数,指定为逗号分隔组成的“LossFunction”“ns”(负采样),“海关”(分层softmax),或“softmax”(softmax)。

例子:“海关”

的负样本数量负采样损失函数,指定为逗号分隔组成的“NumNegativeSamples”和一个正整数。此选项时才有效LossFunction“ns”

例子:10

数字时代的培训,指定为逗号分隔组成的“NumEpochs”和一个正整数。

例子:10

最低数量的单词包含嵌入,指定为逗号分隔组成的“MinCount”和一个正整数。函数丢弃的话显得不足MinCount次训练数据的词汇。

例子:10

包容的范围subword字格,指定为逗号分隔组成的“NGramRange”和一个向量的两个非负整数(最小最大)。如果你不想使用字格,然后设置“NGramRange”[0 0]

例子:10 [5]

最初的学习速率,指定为逗号分隔组成的“InitialLearnRate”和积极的标量。

例子:0.01

速度更新学习速率,指定为逗号分隔组成的“UpdateRate”和一个正整数。学习速率降低为零线性步骤在每一个N的单词,NUpdateRate

例子:50

冗长的层面上,指定为逗号分隔组成的“详细”和下列之一:

  • 0 -不显示详细的输出。

  • 1 -显示进度信息。

例子:“详细”,0

输出参数

全部折叠

输出字嵌入,作为一个返回wordEmbedding对象。

更多关于

全部折叠

语言的注意事项

文件的输入trainWordEmbedding函数需要单词空格隔开。

对于文件包含非英语文本,您可能需要输入tokenizedDocument数组来trainWordEmbedding

创建一个tokenizedDocument数组从pretokenized文本使用tokenizedDocument功能和设置“TokenizeMethod”选项“没有”

提示

训练算法使用线程的数量的函数maxNumCompThreads。学习如何改变MATLAB所使用的线程的数量®,请参阅maxNumCompThreads

介绍了R2017b