文档帮助中心文档
预训练快速文本词嵌入
emb = fastTextWordEmbedding
实例
教统局=fastTextWordEmbedding返回一个300维的预先训练的嵌入100万个英语单词的单词。
教统局=fastTextWordEmbedding
教统局
此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,该功能将提供下载链接。
全部崩溃
下载并安装文本分析工具箱模型对于fastText English,160亿标记词嵌入金宝app支持包。
类型fastTextWordEmbedding在命令行。
fastTextWordEmbedding
如果文本分析工具箱模型对于fastText English,160亿标记词嵌入金宝app如果没有安装支持包,则该函数将提供到Add-On Explorer中所需的支持包的链接。要安装支持包,请单击链接,然后金宝app单击安装.输入以下命令,检查安装是否成功emb = fastTextWordEmbedding在命令行。
emb=wordEmbedding,带属性:维度:300词汇:[1×1000000字符串]
如果安装了所需的支持包,则函数将金宝app返回文字嵌入对象。
文字嵌入
使用加载预训练单词嵌入fastTextWordEmbedding. 此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,则该功能将提供下载链接。
把"意大利","罗马"和"巴黎"这三个词标到向量上word2vec.
word2vec
意大利=word2vec(emb,“意大利”);罗马= word2vec (emb,“罗马”); 巴黎=word2vec(教统局,“巴黎”);
映射向量意大利-罗马+巴黎用一个词向量2字.
意大利-罗马+巴黎
向量2字
word=vec2word(emb,意大利-罗马+巴黎)
word=“法国”
使用预训练单词嵌入将标记化文档数组转换为单词向量序列。
使用fastTextWordEmbedding函数。此函数需要文本分析工具箱™ 模型对于fastText English,160亿标记词嵌入金宝app支持包。如果未安装此支持包,则该功能将提供下载链接。
emb=fastTextWordEmbedding;
加载factory报告数据并创建tokenizedDocument大堆
tokenizedDocument
文件名=“factoryReports.csv”; 数据=可读性(文件名,“文本类型”,“字符串”);textData=data.Description;documents=tokenizedDocument(textData);
使用将文档转换为单词向量序列DOC2序列.的DOC2序列默认情况下,函数左键填充序列以使其具有相同的长度。当使用高维单词嵌入转换大型文档集合时,填充可能需要大量内存。若要防止函数填充数据,请将“填充方向”选项“没有”。或者,您可以使用“长度”选择。
DOC2序列
“填充方向”
“没有”
“长度”
序列=文件序列(emb、文件、,“填充方向”,“没有”);
查看前10个序列的大小。每个序列是D-借-s矩阵,D是嵌入维度,并且s是序列中的字向量数。
序列(1:10)
ans=10×1单元阵列{300×10单一}{300×11单一}{300×11单一}{300×6单一}{300×5单一}{300×10单一}{300×8单一}{300×9单一}{300×7单一{300×13单一}
预训练的单词嵌入,返回为文字嵌入对象。
文字编码|DOC2序列|字嵌入层|word2vec|向量2字|isVocabularyWord|readWordEmbedding|列车字嵌入|文字嵌入|tokenizedDocument
文字编码
字嵌入层
isVocabularyWord
readWordEmbedding
列车字嵌入
您有此示例的修改版本。是否要用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取可用的翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区站点不适合您所在位置的访问。
联系当地办事处