主要内容

wordEmbedding

字嵌入模型映射向量和回

描述

嵌入,推广word2vec,手套,和fastText库、地图词在词汇真正的向量。

向量试图捕捉语言的语义,这样类似的词有相似的向量。一些嵌入也捕捉词语之间的关系,如“国王女王是男人是女人”。用向量形式,这种关系国王-男+女=王后

创建

创建一个字嵌入通过加载pretrained嵌入使用fastTextWordEmbedding从一个文件中,阅读一个嵌入使用readWordEmbedding或通过训练一个嵌入使用trainWordEmbedding

属性

全部展开

维度的嵌入,指定为一个正整数。

例子:300年

独特的模型中,指定为一个字符串向量。

数据类型:字符串

对象的功能

vec2word 嵌入向量映射到的词
word2vec 字映射到嵌入向量
isVocabularyWord 测试如果词是词中嵌入的成员或编码
writeWordEmbedding 写的字嵌入文件

例子

全部折叠

下载并安装文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。

类型fastTextWordEmbedding在命令行中。

fastTextWordEmbedding

如果文本分析工具箱模型160亿年fastText英语嵌入标记词金宝app支持包没有安装,那么函数提供了一个链接到需要在插件浏览器支持包。安装支持包,单击该链接,然后单金宝app击安装。通过输入检查安装是否成功emb = fastTextWordEmbedding在命令行中。

emb = fastTextWordEmbedding
emb = wordEmbedding属性:尺寸:300词汇:[1×1000000弦]

如果所需的支持包安装,那么函数返金宝app回wordEmbedding对象。

加载一个pretrained字嵌入使用fastTextWordEmbedding。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。如果这种支持包没金宝app有安装,那么函数提供一个下载链接。

emb = fastTextWordEmbedding
emb = wordEmbedding属性:尺寸:300词汇:[1×1000000弦]

地图“意大利”、“罗马”、“巴黎”向量使用word2vec

意大利= word2vec (emb,“意大利”);罗马= word2vec (emb,“罗马”);巴黎= word2vec (emb,“巴黎”);

地图矢量意大利,罗马+巴黎一个词使用vec2word

词= vec2word (emb、意大利罗马+巴黎)
词=“法国”

数组标记化的文档转换为词向量使用pretrained嵌入的序列。

加载一个pretrained字嵌入使用fastTextWordEmbedding函数。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。如果这种支持包没金宝app有安装,那么函数提供一个下载链接。

emb = fastTextWordEmbedding;

加载工厂报告数据和创建一个tokenizedDocument数组中。

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;文件= tokenizedDocument (textData);

将文档转换为使用的词序列向量doc2sequence。的doc2sequence函数,默认情况下,left-pads序列长度相同。当转换大量使用高维字嵌入文档,填充需要大量内存。防止函数填充数据,设置“PaddingDirection”选项“没有”。或者,您可以控制的填充量使用“长度”选择。

序列= doc2sequence (emb、文档“PaddingDirection”,“没有”);

视图的大小头10序列。每个序列D——- - - - - -年代矩阵,D嵌入维数,年代在序列词向量的个数。

序列(1:10)
ans =10×1单元阵列{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

读字嵌入的例子。该模型通过分析文本来自维基百科。

文件名=“exampleWordEmbedding.vec”;emb = readWordEmbedding(文件名)
emb = wordEmbedding属性:尺寸:50词汇:“utc”“第一”“新”“两个”“时间”“上”“学校”“文章”“世界”“年”“大学”“讨论”“多”“国家”“后”“状态”“了”“生”“城市”“德”“团结”…]

探索嵌入使用这个词word2vecvec2word

国王= word2vec (emb,“王”);人= word2vec (emb,“男人”);女人= word2vec (emb,“女人”);词= vec2word (emb,国王(男+女)
词= "女王"

火车一个字嵌入并将它写入一个文本文件。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

火车一个字嵌入使用trainWordEmbedding

emb = trainWordEmbedding(文档)
培训:100%的损失:0剩余时间:0小时0分钟。
emb = wordEmbedding属性:尺寸:100词汇:“你的”“你”“爱”“你”“做”“我”“要”“眼睛”“香”“时间”“也”“美”“还”“艺术”“心”“o”“你”“有”“公平”“制造”“还”“真正”的“眼”…]

写的字嵌入到一个文本文件。

文件名=“exampleSonnetsEmbedding.vec”;writeWordEmbedding (emb文件名)

读字嵌入文件使用readWordEmbedding

emb = readWordEmbedding(文件名)
emb = wordEmbedding属性:尺寸:100词汇:“你的”“你”“爱”“你”“做”“我”“要”“眼睛”“香”“时间”“也”“美”“还”“艺术”“心”“o”“你”“有”“公平”“制造”“还”“真正”的“眼”…]

版本历史

介绍了R2017b