主要内容

fastTextWordEmbedding

预先训练的fastText词嵌入

描述

例子

循证= fastTextWordEmbedding返回一个300维的预先训练的嵌入100万个英语单词的单词。

此函数需要文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入金宝app支持包。如果没有安装此支金宝app持包,该函数将提供下载链接。

例子

全部折叠

下载并安装文本分析工具箱模型用于快速文本英语160亿令牌词嵌入金宝app支持包。

类型fastTextWordEmbedding在命令行。

fastTextWordEmbedding

如果文本分析工具箱模型用于快速文本英语160亿令牌词嵌入金宝app如果没有安装支持包,则该函数将提供到Add-On Explorer中所需的支持包的链接。要安装支持包,请单击链接,然后金宝app单击安装.输入以下命令,检查安装是否成功emb = fastTextWordEmbedding在命令行。

emb = fastTextWordEmbedding
emb = wordem寝具属性:Dimension: 300 Vocabulary: [1×1000000 string]

如果安装了所需的支持包,则该函数金宝app返回awordEmbedding对象。

加载一个预先训练的词嵌入使用fastTextWordEmbedding.此功能需要文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入金宝app支持包。如果没有安装此支金宝app持包,则该函数将提供下载链接。

emb = fastTextWordEmbedding
emb = wordem寝具属性:Dimension: 300 Vocabulary: [1×1000000 string]

把"意大利","罗马"和"巴黎"这三个词标到向量上word2vec

意大利= word2vec (emb,“意大利”);罗马= word2vec (emb,“罗马”);巴黎= word2vec (emb,“巴黎”);

地图矢量意大利-罗马+巴黎用一个词vec2word

Word = vec2word(emb,意大利-罗马+巴黎)
词=“法国”

使用预先训练的单词嵌入,将标记化文档数组转换为单词向量序列。

加载一个预先训练的词嵌入使用fastTextWordEmbedding函数。此功能需要文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入金宝app支持包。如果没有安装此支金宝app持包,则该函数将提供下载链接。

emb = fastTextWordEmbedding;

加载工厂报告数据并创建tokenizedDocument数组中。

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”“字符串”);textData = data.Description;文件= tokenizedDocument (textData);

使用。将文档转换为单词向量序列doc2sequence.的doc2sequence函数,默认情况下,左填充具有相同长度的序列。当使用高维词嵌入转换大型文档集合时,填充可能需要大量内存。为防止该函数填充数据,请设置“PaddingDirection”选项“没有”.控件也可以控制填充的数量“长度”选择。

序列= doc2sequence (emb、文档“PaddingDirection”“没有”);

查看前10个序列的大小。每个序列D——- - - - - -年代矩阵,D嵌入维度是,和年代为序列中单词向量的个数。

序列(1:10)
ans =10×1单元阵列{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

输出参数

全部折叠

预先训练的词嵌入,返回为wordEmbedding对象。

介绍了R2018a