主要内容

余弦

与余弦相似度的文档相似度

描述

例子

相似之处= resineiminity(文件的)使用从其单词计数中得出的TF-IDF矩阵返回指定文档的成对余弦相似性。分数相似之处(i,j)代表相似之处文档(i)文件(j)

例子

相似之处= resineiminity(文件疑问的)返回之间的相似之处文件疑问使用从单词计数中得出的TF-IDF矩阵文件。分数相似之处(i,j)代表相似之处文档(i)查询(j)

例子

相似之处= resineiminity(的)返回由指定的单词袋或n-grams模型编码的文档的成对相似性,使用从单词计数中得出的tf-idf矩阵。分数相似之处(i,j)代表了相似之处一世TH和j编码的文件

相似之处= resineiminity(疑问的)返回由单词袋或n-grams型号编码的文档之间的相似之处疑问使用从单词计数中得出的TF-IDF矩阵。分数相似之处(i,j)代表了相似之处一世编码的文件查询(j)

例子

相似之处= resineiminity(M.的)返回在矩阵的行矢量中编码的数据的相似性M.。分数相似之处(i,j)代表相似之处m(我,:)m(j,:)

相似之处= CasineIpileity(M1,M2)返回矩阵中编码的文档之间的相似性M1M2。分数相似之处(i,j)对应于之间的相似性M1(i,:)M2(J,:)

例子

全部收缩

创建一系列令牌化文件。

textdata = [“快速的棕色狐狸跳过了懒狗”“快速的棕色狐狸跳过懒狗”“懒狗坐在那里,没有什么”“其他动物坐在那里看着”];文档= tokenizeddocument(textdata)
文档= 4x1令牌Document:9令牌:快速的棕色狐狸跳过懒狗9令牌:快速的棕色狐狸跳过懒狗8令牌:懒狗坐在那里,没有什么6令牌:其他动物坐在那里看

计算它们之间的相似之处余弦功能。输出是稀疏矩阵。

相似之处= CasineIpilarity(文件);

在热图中可视化文档之间的相似性。

图热图(相似性);Xlabel(“文档”)ylabel(“文档”) 标题(“余弦相似之处”的)

图包含一个类型热图的对象。Heatmap类型图表具有标题余弦相似性。

接近一个的分数表示强烈的相似性。接近零的分数表示相似性较弱。

创建一个输入文档数组。

str = [“快速的棕色狐狸跳过了懒狗”“快狐狸跳过了懒狗”“狗坐在那里,没什么”“其他动物坐在那里看着”];文档= tokenizedDocument(str)
文档= 4x1令牌Document:9令牌:快速的棕色狐狸跳过懒狗8令牌:快速的狐狸跳过懒狗7令牌:狗坐在那里,没有什么6令牌:其他动物坐在那里

创建一系列查询文档。

str = [“一只棕狐跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizeddocument(str)
查询= 2x1令牌地区:8令牌:棕色狐狸跳过懒狗6令牌:另一只狐狸跳过狗

计算输入和查询文档之间的相似性余弦功能。输出是稀疏矩阵。

相似性= cesineiminity(文档,查询);

在热图中可视化文档的相似之处。

图热图(相似性);Xlabel(“查询文档”)ylabel(“输入文件”) 标题(“余弦相似之处”的)

图包含一个类型热图的对象。Heatmap类型图表具有标题余弦相似性。

接近一个的分数表示强烈的相似性。接近零的分数表示相似性较弱。

从文本数据中创建一个单词袋式模型十四行诗

filename =“sonnets.csv”;tbl = readtable(文件名,'texttype''细绳');textdata = tbl.sonnet;documents = tokenizedDocument(textData);bag = bagofwords(文档)
BAG =具有属性的BAGOFWORDS:COUNTS:[154x3527双]词汇:[“来自”“FIALEST”“生物”“我们”......] NUMWORDS:3527 NUMFOCUMENTS:154

使用余弦功能。输出是稀疏矩阵。

相似性=余弦(袋);

在热图中可视化前五个文档的相似性。

图热图(相似之处(1:5,1:5));Xlabel(“文档”)ylabel(“文档”) 标题(“余弦相似之处”的)

图包含一个类型热图的对象。Heatmap类型图表具有标题余弦相似性。

接近一个的分数表示强烈的相似性。接近零的分数表示相似性较弱。

对于袋式输入,余弦功能使用从模型中派生的TF-IDF矩阵来计算余弦相似度。要直接计算单词计数向量上的余弦相似之处,请输入单词计数余弦充当矩阵。

从文本数据中创建一个单词袋式模型十四行诗

filename =“sonnets.csv”;tbl = readtable(文件名,'texttype''细绳');textdata = tbl.sonnet;documents = tokenizedDocument(textData);bag = bagofwords(文档)
BAG =具有属性的BAGOFWORDS:COUNTS:[154x3527双]词汇:[“来自”“FIALEST”“生物”“我们”......] NUMWORDS:3527 NUMFOCUMENTS:154

从模型中获取单词计数的矩阵。

m = bag.counts;

计算单词计数矩阵的余弦文档相似性使用余弦功能。输出是稀疏矩阵。

相似之处= CASINESIMILARY(M);

在热图中可视化前五个文档的相似性。

图热图(相似之处(1:5,1:5));Xlabel(“文档”)ylabel(“文档”) 标题(“余弦相似之处”的)

图包含一个类型热图的对象。Heatmap类型图表具有标题余弦相似性。

接近一个的分数表示强烈的相似性。接近零的分数表示相似性较弱。

输入参数

全部收缩

输入文档,指定为a象征性文档数组,单词字符串阵列或字符向量的单元格数组。如果文件不是一个象征性文档数组,然后必须是代表单个文档的行矢量,其中每个元素是一个单词。要指定多个文档,请使用象征性文档大批。

输入袋式或n-grams模型,指定为aBagofwords.对象或一个Bagofngrams.目的。如果是A.Bagofngrams.对象,然后该函数将每个n-gram视为单个单词。

一组查询文档,指定为以下之一:

  • 一种象征性文档大批

  • 1乘N.字符串阵列代表一个文档,其中每个元素是一个单词

  • 1乘N.表示单个文档的字符向量的单元格阵列,其中每个元素是一个单词

要计算术语频率和逆文档频率统计信息,函数编码疑问使用单词范围的型号。它使用的模型取决于您称之为的语法。如果您的语法指定输入参数文件然后它使用Bagofword(文档)。如果您的语法指定,然后函数编码疑问使用然后使用生成的TF-IDF矩阵。

输入数据,指定为矩阵。例如,M.可以是单词或n-gram计数的矩阵或TF-IDF矩阵。

数据类型:双倍的

输出参数

全部收缩

余弦相似性得分,作为稀疏矩阵返回:

  • 给定单个令牌文件,相似之处是A.N.-经过-N.对称矩阵,其中相似之处(i,j)代表相似之处文档(i)文件(j),n是输入文档的数量。

  • 给定一系列令牌化的文档和一组查询文档,相似之处是一个N1-经过-N2矩阵,哪里相似之处(i,j)代表相似之处文档(i)j查询文件,以及N1N2代表文档数量文件疑问, 分别。

  • 给定一个单词袋或n-grams型号,相似之处是A.袋子-经过-袋子对称矩阵,其中相似之处(i,j)代表了相似之处一世TH和j编码的文件

  • 给出了一个单词或n-r克模型和一组查询文档,相似之处是A.袋子-经过-N2矩阵,哪里相似之处(i,j)代表了相似之处一世编码的文件j文件在疑问, 和N2对应于文件的数量疑问

  • 给定一个矩阵,相似之处是A.尺寸(m,1)-经过-尺寸(m,1)对称矩阵,其中相似之处(i,j)代表相似之处m(我,:)m(j,:)

  • 给定两个矩阵相似之处是一个尺寸(m1,1)-经过-尺寸(m2,1)矩阵,哪里相似之处(i,j)代表相似之处M1(i,:)M2(J,:)

版本历史记录

在R2020A介绍