文档与BM25算法的相似性
使用BM25相似性
计算文档相似性。
缺省情况下,该函数计算BM25的相似度。要计算BM11, BM15,或BM25+的相似性,使用“文档长度缩放”
和“DocumentLengthCorrection”
参数。
使用一个或多个名称-值对参数指定其他选项。例如,要使用BM25+算法,设置相似之处
= bm25Similarity (___,名称,值
)“DocumentLengthCorrection”
选项为非零值。
BM25算法通过基于术语频率(TF)和反向文档频率(IDF)的选项聚合和使用来自输入数据中所有文档的信息。这种行为意味着,当给函数提供不同的文档集合时,同一对文档可以产生不同的BM25相似性分数。
BM25算法在比较文档时可以输出不同的分数。这种行为是由于在BM25算法中使用了IDF权重和文档长度。
[1] 《概率相关性框架:BM25及以后》信息检索的基础与趋势3,没有。4(2009): 333 - 389。
[2] 巴里奥斯、费德里科、费德里科·洛佩斯、路易斯·阿格里奇和罗莎·瓦钦乔泽。“用于自动摘要的TextRank相似性函数的变体。”arXiv预印本arXiv: 1602.03606(2016).
标记化文档
|bleuEvaluationScore
|rougeEvaluationScore
|cosineSimilarity
|textrankScores
|lexrankScores
|mmrScores
|extractSummary