trainWordEmbedding
火车字嵌入
描述
例子
火车字嵌入的文件
火车一个字嵌入维100使用示例文本文件exampleSonnetsDocuments.txt
。这个文件包含预处理版本的莎士比亚的十四行诗,每行一个十四行诗和词之间用一个空格来分隔。
文件名=“exampleSonnetsDocuments.txt”;emb = trainWordEmbedding(文件名)
培训:100%的损失:3.1471剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:100词汇:”和“”“”“”“”“”我“…]
查看单词嵌入在文本使用散点图tsne
。
话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)
火车字嵌入的文档
火车一个字嵌入使用示例数据sonnetsPreprocessed.txt
。这个文件包含预处理版本的莎士比亚的十四行诗。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
火车一个字嵌入使用trainWordEmbedding
。
emb = trainWordEmbedding(文档)
培训:100%的损失:0剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:100词汇:“你的”“你”“爱”“你”“难道”…]
想象这个词嵌入在文本使用散点图tsne
。
话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)
指定字嵌入选项
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
指定要50字嵌入维度。减少单词丢弃的模型,设置“MinCount”
为3。训练时间,时代的数量设置为10。
emb = trainWordEmbedding(文档,…“维度”,50岁,…“MinCount”3,…“NumEpochs”,10)
培训:100%的损失:2.7116剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:50词汇:“你的”“你”“爱”“你”“难道”…]
查看单词嵌入在文本使用散点图tsne
。
话说= emb.Vocabulary;V = word2vec (emb,单词);XY = tsne (V);textscatter (XY,话说)
输入参数
文件名
- - - - - -文件的名字
字符串标量|特征向量
文件的名称,指定为字符串标量或特征向量。
数据类型:字符串
|字符
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文件,指定为一个tokenizedDocument
数组中。
名称-值参数
指定可选的逗号分隔条名称,值
参数。的名字
参数名称和吗价值
相应的价值。的名字
必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家
。
“维度”,50岁
指定这个词嵌入维度是50。
维
- - - - - -维度的嵌入
One hundred.(默认)|正整数
维度的嵌入,指定为逗号分隔组成的“维度”
和一个非负整数。
例子:300年
窗口
- - - - - -上下文窗口的大小
5(默认)|非负整数
上下文窗口的大小,指定为逗号分隔组成的“窗口”
和一个非负整数。
例子:10
模型
- - - - - -模型
“skipgram”
(默认)|“cbow”
模型,指定为逗号分隔组成的“模型”
和“skipgram”
(跳过克)“cbow”
(连续bag-of-words)。
例子:“cbow”
DiscardFactor
- - - - - -因素来确定单词丢弃率
1的军医
(默认)|积极的标量
因素决定丢弃率,这个词指定为逗号分隔组成的“DiscardFactor”
和积极的标量。函数的概率丢弃一个词从输入窗口1-sqrt (t / f) - t / f
f是一词的unigram概率,然后呢t
是DiscardFactor
。通常情况下,DiscardFactor
在的范围1 e - 3
通过1 e-5
。
例子:0.005
LossFunction
- - - - - -损失函数
“ns”
(默认)|“海关”
|“softmax”
损失函数,指定为逗号分隔组成的“LossFunction”
和“ns”
(负采样),“海关”
(分层softmax),或“softmax”
(softmax)。
例子:“海关”
NumNegativeSamples
- - - - - -负样本数量
5(默认)|正整数
的负样本数量负采样损失函数,指定为逗号分隔组成的“NumNegativeSamples”
和一个正整数。此选项时才有效LossFunction
是“ns”
。
例子:10
NumEpochs
- - - - - -数量的时代
5(默认)|正整数
数字时代的培训,指定为逗号分隔组成的“NumEpochs”
和一个正整数。
例子:10
MinCount
- - - - - -最低数量的单词
5(默认)|正整数
最低数量的单词包含嵌入,指定为逗号分隔组成的“MinCount”
和一个正整数。函数丢弃的话显得不足MinCount
次训练数据的词汇。
例子:10
NGramRange
- - - - - -包容的范围subword字格
(3 - 6)
(默认)|向量的两个非负整数
包容的范围subword字格,指定为逗号分隔组成的“NGramRange”
和一个向量的两个非负整数(最小最大)
。如果你不想使用字格,然后设置“NGramRange”
来[0 0]
。
例子:10 [5]
InitialLearnRate
- - - - - -最初的学习速率
0.05(默认)|积极的标量
最初的学习速率,指定为逗号分隔组成的“InitialLearnRate”
和积极的标量。
例子:0.01
UpdateRate
- - - - - -速度更新学习速率
One hundred.(默认)|正整数
速度更新学习速率,指定为逗号分隔组成的“UpdateRate”
和一个正整数。学习速率降低为零线性步骤在每一个N的单词,N是UpdateRate
。
例子:50
详细的
- - - - - -冗长的水平
1(默认)|0
冗长的层面上,指定为逗号分隔组成的“详细”
和下列之一:
0 -不显示详细的输出。
1 -显示进度信息。
例子:“详细”,0
输出参数
循证
——输出字嵌入
字嵌入
输出字嵌入,作为一个返回wordEmbedding
对象。
更多关于
语言的注意事项
文件的输入trainWordEmbedding
函数需要单词空格隔开。
对于文件包含非英语文本,您可能需要输入tokenizedDocument
数组来trainWordEmbedding
。
创建一个tokenizedDocument
数组从pretokenized文本使用tokenizedDocument
功能和设置“TokenizeMethod”
选项“没有”
。
提示
训练算法使用线程的数量的函数maxNumCompThreads
。学习如何改变MATLAB所使用的线程的数量®,请参阅maxNumCompThreads
。
另请参阅
fastTextWordEmbedding
|doc2sequence
|wordEmbeddingLayer
|wordEncoding
|word2vec
|vec2word
|readWordEmbedding
|writeWordEmbedding
|wordEmbedding
|tokenizedDocument
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。