主要内容

fastTextWordEmbedding

预训练的快速文本词嵌入

描述

例子

循证= fastTextWordEmbedding返回100万个英语单词的300维预训练词嵌入。

此函数需要文本分析工具箱™模型快速文本英语160亿令牌词嵌入金宝app支持包。如果未安装该支持金宝app包,则提供下载链接。

例子

全部折叠

下载及安装文本分析工具箱模型快速文本英语160亿令牌词嵌入金宝app支持包。

类型fastTextWordEmbedding在命令行。

fastTextWordEmbedding

如果文本分析工具箱模型快速文本英语160亿令牌词嵌入金宝app支持包未安装,则该函数在外接程序资源管理器中提供到所需支持包的链接。要安装支持包,请单击链接,然后金宝app单击安装.通过输入检查安装是否成功emb = fasttextwordem寝料在命令行。

emb = fasttextwordem寝料
emb = worddembedbedwith properties:维数:300词汇:[1×1000000 string]

如果安装了所需的支持包,则函数返金宝app回wordEmbedding对象。

加载一个预训练的词嵌入使用fastTextWordEmbedding.此功能需要文本分析工具箱™模型快速文本英语160亿令牌词嵌入金宝app支持包。如果没有安装此支金宝app持包,则该函数将提供下载链接。

emb = fasttextwordem寝料
emb = worddembedbedwith properties:维数:300词汇:[1×1000000 string]

将单词“意大利”、“罗马”和“巴黎”映射到使用的向量word2vec

意大利= e2vec (emb;“意大利”);* * * * * * * * * * * *“罗马”);巴黎= word2vec(emb,“巴黎”);

映射向量意大利-罗马+巴黎用一个词vec2word

Word = vec2word(emb,意大利-罗马+巴黎)
字= "法国"

使用预训练的单词嵌入将标记化文档数组转换为单词向量序列。

方法加载预训练的词嵌入fastTextWordEmbedding函数。此功能需要文本分析工具箱™模型快速文本英语160亿令牌词嵌入金宝app支持包。如果没有安装此支金宝app持包,则该函数将提供下载链接。

emb = fasttextwordem寝料;

加载工厂报告数据并创建一个tokenizedDocument数组中。

文件名=“factoryReports.csv”;数据= readtable(文件名,“TextType”“字符串”);textData = data.Description;documents = tokenizedDocument(textData);

使用将文档转换为字向量序列doc2sequence.的doc2sequence函数在默认情况下,将序列左补距设置为相同的长度。在使用高维词嵌入转换大型文档集合时,填充可能需要大量内存。若要防止函数填充数据,请设置“PaddingDirection”选项“没有”.控件控制填充的数量“长度”选择。

序列= doc2sequence(emb,文档,“PaddingDirection”“没有”);

查看前10个序列的大小。每个序列是D——- - - - - -年代矩阵,D是嵌入尺寸,和年代是序列中字向量的个数。

序列(1:10)
ans =10×1单元格数组{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

输出参数

全部折叠

预训练词嵌入,返回为wordEmbedding对象。

在R2018a中引入