主要内容

fastTextWordEmbedding

Pretrained fastText字嵌入

描述

例子

循证= fastTextWordEmbedding返回一个300 -维pretrained字嵌入100万个英语单词。

这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。如果这种支持包没金宝app有安装,功能提供了一个下载链接。

例子

全部折叠

下载并安装文本分析工具箱模型160亿年fastText英语嵌入标记词金宝app支持包。

类型fastTextWordEmbedding在命令行中。

fastTextWordEmbedding

如果文本分析工具箱模型160亿年fastText英语嵌入标记词金宝app支持包没有安装,那么函数提供了一个链接到需要在插件浏览器支持包。安装支持包,单击该链接,然后单金宝app击安装。通过输入检查安装是否成功emb = fastTextWordEmbedding在命令行中。

emb = fastTextWordEmbedding
emb = wordEmbedding属性:尺寸:300词汇:[1×1000000弦]

如果所需的支持包安装,那么函数返金宝app回wordEmbedding对象。

加载一个pretrained字嵌入使用fastTextWordEmbedding。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。如果这种支持包没金宝app有安装,那么函数提供一个下载链接。

emb = fastTextWordEmbedding
emb = wordEmbedding属性:尺寸:300词汇:[1×1000000弦]

地图“意大利”、“罗马”、“巴黎”向量使用word2vec

意大利= word2vec (emb,“意大利”);罗马= word2vec (emb,“罗马”);巴黎= word2vec (emb,“巴黎”);

地图矢量意大利,罗马+巴黎一个词使用vec2word

词= vec2word (emb、意大利罗马+巴黎)
词=“法国”

数组标记化的文档转换为词向量使用pretrained嵌入的序列。

加载一个pretrained字嵌入使用fastTextWordEmbedding函数。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词金宝app支持包。如果这种支持包没金宝app有安装,那么函数提供一个下载链接。

emb = fastTextWordEmbedding;

加载工厂报告数据和创建一个tokenizedDocument数组中。

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;文件= tokenizedDocument (textData);

将文档转换为使用的词序列向量doc2sequence。的doc2sequence函数,默认情况下,left-pads序列长度相同。当转换大量使用高维字嵌入文档,填充需要大量内存。防止函数填充数据,设置“PaddingDirection”选项“没有”。或者,您可以控制的填充量使用“长度”选择。

序列= doc2sequence (emb、文档“PaddingDirection”,“没有”);

视图的大小头10序列。每个序列D——- - - - - -年代矩阵,D嵌入维数,年代在序列词向量的个数。

序列(1:10)
ans =10×1单元阵列{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

输出参数

全部折叠

嵌入Pretrained词,作为一个返回wordEmbedding对象。

版本历史

介绍了R2018a