与BM25算法的文档相似度
使用bm25Similarity
计算文档相似之处。
默认情况下,此函数计算BM25的相似之处。计算BM11,BM15或BM25 +相似之处,使用“DocumentLengthScaling”
和'DocumentLengthCorrection'
论点。
使用一个或多个名称值对参数指定其他选项。例如,要使用BM25 +算法,请设置相似之处
= bm25similarity(___那名称,价值
)'DocumentLengthCorrection'
选项为非零值。
BM25算法通过术语频率(TF)和基于逆文档频率(IDF)选项来聚合并使用来自输入数据中的所有文档的信息。此行为意味着当函数给出不同的文档集合时,相同的文件可以产生不同的BM25相似度分数。
BM25算法在比较文档时可以输出不同的分数。这种行为是由于在BM25算法中使用了IDF权重和文档长度。
[1]罗伯逊,斯蒂芬,雨果萨拉戈萨。《概率关联框架:BM25及其后》信息检索的基础和趋势®3,不。4(2009):333-389。
[2] Barrios, Federico, Federico López, Luis Argerich, Rosa Wachenchauzer。自动文摘中TextRank相似函数的变化。ARXIV预印刷arxiv:1602.03606(2016)。
bleuevaluationscore.
|casinediepilarity.
|摘录
|lexrankscores.
|mmrscores.
|rougeevaluationscore.
|textrankScores
|tokenizedDocument