主要内容

fastTextWordEmbedding

预训练快速文本词嵌入

描述

实例

教统局=fastTextWordEmbedding返回一个300维的预先训练的嵌入100万个英语单词的单词。

此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,该功能将提供下载链接。

例子

全部崩溃

下载并安装文本分析工具箱模型对于fastText English,160亿标记词嵌入金宝app支持包。

类型fastTextWordEmbedding在命令行。

fastTextWordEmbedding

如果文本分析工具箱模型对于fastText English,160亿标记词嵌入金宝app如果没有安装支持包,则该函数将提供到Add-On Explorer中所需的支持包的链接。要安装支持包,请单击链接,然后金宝app单击安装.输入以下命令,检查安装是否成功emb = fastTextWordEmbedding在命令行。

emb = fastTextWordEmbedding
emb=wordEmbedding,带属性:维度:300词汇:[1×1000000字符串]

如果安装了所需的支持包,则函数将金宝app返回文字嵌入对象。

使用加载预训练单词嵌入fastTextWordEmbedding. 此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,则该功能将提供下载链接。

emb = fastTextWordEmbedding
emb=wordEmbedding,带属性:维度:300词汇:[1×1000000字符串]

把"意大利","罗马"和"巴黎"这三个词标到向量上word2vec

意大利=word2vec(emb,“意大利”);罗马= word2vec (emb,“罗马”); 巴黎=word2vec(教统局,“巴黎”);

映射向量意大利-罗马+巴黎用一个词向量2字

word=vec2word(emb,意大利-罗马+巴黎)
word=“法国”

使用预训练单词嵌入将标记化文档数组转换为单词向量序列。

使用fastTextWordEmbedding函数。此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,则该功能将提供下载链接。

emb=fastTextWordEmbedding;

加载factory报告数据并创建tokenizedDocument大堆

文件名=“factoryReports.csv”; 数据=可读性(文件名,“文本类型”,“字符串”);textData=data.Description;documents=tokenizedDocument(textData);

使用将文档转换为单词向量序列DOC2序列.的DOC2序列默认情况下,函数左键填充序列以使其具有相同的长度。当使用高维单词嵌入转换大型文档集合时,填充可能需要大量内存。若要防止函数填充数据,请将“填充方向”选项“没有”。或者,您可以使用“长度”选择。

序列=文件序列(emb、文件、,“填充方向”,“没有”);

查看前10个序列的大小。每个序列是D-借-s矩阵,D是嵌入维度,并且s是序列中的字向量数。

序列(1:10)
ans=10×1单元阵列{300×10单一}{300×11单一}{300×11单一}{300×6单一}{300×5单一}{300×10单一}{300×8单一}{300×9单一}{300×7单一{300×13单一}

输出参数

全部崩溃

预训练的单词嵌入,返回为文字嵌入对象。

R2018a中引入