文档与BM25算法的相似性
使用bm25Similarity
计算文档相似性。
缺省情况下,该函数计算BM25的相似度。要计算BM11, BM15,或BM25+的相似性,使用“DocumentLengthScaling”
和“DocumentLengthCorrection”
参数。
使用一个或多个名称-值对参数指定其他选项。例如,要使用BM25+算法,设置相似之处
= bm25Similarity (___,名称,值
)“DocumentLengthCorrection”
选项为非零值。
BM25算法通过基于术语频率(TF)和反向文档频率(IDF)的选项聚合和使用来自输入数据中所有文档的信息。这种行为意味着,当给函数提供不同的文档集合时,同一对文档可以产生不同的BM25相似性分数。
BM25算法在比较文档时可以输出不同的分数。这种行为是由于在BM25算法中使用了IDF权重和文档长度。
[1]罗伯逊,斯蒂芬,雨果萨拉戈萨。《概率关联框架:BM25及其后》信息检索的基础和趋势®3,没有。4(2009): 333 - 389。
[2] Barrios, Federico, Federico López, Luis Argerich, Rosa Wachenchauzer。自动文摘中TextRank相似函数的变化。arXiv预印本arXiv: 1602.03606(2016)。
bleuEvaluationScore
|cosineSimilarity
|extractSummary
|lexrankScores
|mmrScores
|rougeEvaluationScore
|textrankScores
|tokenizedDocument