主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

fastTextWordEmbedding

사전훈련된fastText단어임베딩

설명

예제

循证= fastTextWordEmbedding은100만개의영어단어에대해300차원의사전훈련된단어임베딩을반환합니다。

이함수를사용하려면文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入지원패키지가필요합니다。이지원패키지가설치되어있지않으면함수에서다운로드링크를제공합니다。

예제

모두축소

文本分析工具箱模型用于快速文本英语160亿令牌词嵌入지원패키지를다운로드하여설치합니다。

명령줄에fastTextWordEmbedding을입력합니다。

fastTextWordEmbedding

文本分析工具箱模型用于快速文本英语160亿令牌词嵌入지원패키지가설치되어있지않으면이함수가애드온탐색기로연결되는지원패키지링크를제공합니다。지원패키지를설치하려면링크를클릭한다음,설치를클릭하십시오。명령줄에emb = fastTextWordEmbedding을입력하여성공적으로설치되었는지확인합니다。

emb = fastTextWordEmbedding
emb = wordem寝具属性:Dimension: 300 Vocabulary: [1×1000000 string]

필요한지원패키지가설치되었으면함수가wordEmbedding객체를반환합니다。

사전훈련된단어임베딩을fastTextWordEmbedding을사용하여불러옵니다。이함수를사용하려면文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入지원패키지가필요합니다。이지원패키지가설치되어있지않으면함수에서다운로드링크를제공합니다。

emb = fastTextWordEmbedding
emb = wordem寝具属性:Dimension: 300 Vocabulary: [1×1000000 string]

word2vec을사용하여단어“意大利”、“罗马”및“巴黎”를벡터에매핑합니다。

意大利= word2vec (emb,“意大利”);罗马= word2vec (emb,“罗马”);巴黎= word2vec (emb,“巴黎”);

vec2word를사용하여벡터意大利-罗马+巴黎를단어에매핑합니다。

Word = vec2word(emb,意大利-罗马+巴黎)
词=“法国”

사전훈련된단어임베딩을사용하여토큰화된문서로구성된배열을단어벡터시퀀스로변환합니다。

fastTextWordEmbedding함수를사용하여사전훈련된단어임베딩을불러옵니다。이함수를사용하려면文本分析工具箱™模型用于快速文本英语160亿令牌词嵌入지원패키지가필요합니다。이지원패키지가설치되어있지않으면함수에서다운로드링크를제공합니다。

emb = fastTextWordEmbedding;

공장보고서데이터를불러와서tokenizedDocument배열을만듭니다。

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”“字符串”);textData = data.Description;文件= tokenizedDocument (textData);

doc2sequence를사용하여문서를단어벡터시퀀스로변환합니다。기본적으로doc2sequence함수는시퀀스의왼쪽을채워서동일한길이로만듭니다。고차원단어임베딩을사용하여대규모문서모음을변환하는경우채우기를수행하려면대량의메모리가필요합니다。함수가데이터를채우지않도록하려면“PaddingDirection”옵션을“没有”으로설정하십시오。또는“长度”옵션을사용하여채우는양을제어할수있습니다。

序列= doc2sequence (emb、文档“PaddingDirection”“没有”);

처음10개시퀀스의크기를표시합니다。각시퀀스는Dx年代행렬입니다。여기서D는임베딩차원이고年代는시퀀스의단어벡터수입니다。

序列(1:10)
ans =10×1单元阵列{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

출력인수

모두축소

사전훈련된단어임베딩으로,wordEmbedding객체로반환됩니다。

R2018a에개발됨