嵌入一个mini-batch文本数据。
创建一个数组的标记化的文档。
对文本数据进行编码序列的数字指标,创建一个wordEncoding
对象。
初始化权重嵌入。指定一个嵌入维数为100,词汇量大小与相对应的词汇量大小相一致的字数在字编码+ 1。
把词向量序列使用标记化的文档doc2sequence
函数。的doc2sequence
函数,默认情况下,输入数据丢弃词汇表之外的令牌。词汇表之外的令牌映射到最后嵌入权重向量,设置“UnknownWord”
选项“南”
。的doc2sequence
函数,默认情况下,left-pads与零输入序列具有相同的长度
序列=2×1单元阵列{[0 1 2 3 4 5 6 7 8 9 10]}{[11 12 13 14 15 2 16 17 18 19 10]}
输出是一个单元阵列,每个元素对应于一个观察。每个元素是一个行向量元素代表个人标记在相应的观察包括填充的值。
单元阵列转换为一个数字阵列垂直连接的行。
X =2×110 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 16 17 18 19 10
转换的数值指标dlarray
。因为的行和列X
分别对应于观测时间和步骤指定格式英国电信的
。
dlX = 2 (B) x (T) dlarray 11 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 16 17 18 19 10
嵌入数字指标使用嵌入
函数。的嵌入
函数映射填充标记(标记索引0)和其他词汇表之外的令牌相同的词汇表之外的嵌入向量。
在这种情况下,输出是一个embeddingDimension
——- - - - - -N
——- - - - - -年代
矩阵的格式“认知行为治疗”
,在那里N
和年代
观察的数量和时间的步骤,分别。向量海底(:n t)
对应于时间步的嵌入向量t
的观察n
。