主要内容

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

textrankScores

TextRank알고리즘을 사용하여 문서 점수화

설명

예제

分数=textrankScores(文件)는 TextRank알고리즘을 사용한 쌍별 유사성 값에 따라文件의 중요도를 점수화합니다. 유사성과 중요도 점수를 계산하기 위해 이 함수는 각각 BM25와 PageRank알고리즘을 사용합니다.

예제

分数=textrankScores(纸袋)는 字里行间또는 n克袋모델纸袋를 사용하여 인코딩된 문서를 점수화합니다.

예제

모두 축소

토큰화된 문서로 구성된 배열을 만듭니다.

str=[“敏捷的棕色狐狸跳过了懒狗”“快跑的棕色狐狸跳过了懒狗”“那只懒狗坐在那里什么也没做”“其他动物坐在那里观看”];文档=标记化文档(str)
文档=4x1标记文档:9个标记:敏捷的棕色狐狸跳过了懒狗9个标记:敏捷的棕色狐狸跳过了懒狗8个标记:懒狗坐在那里什么也不做6个标记:其他动物坐在那里观看

TextRank점수를 계산합니다.

分数=文本分数(文件);

점수를 막대 차트로 시각화합니다.

图形栏(分数)xlabel(“文件”)伊拉贝尔(“得分”)头衔(“TextRank分数”)

图中包含一个轴。标题为TextRank分数的轴包含一个bar类型的对象。

十四行诗의 텍스트 데이터에서 字里行间모델을 만듭니다.

文件名=“十四行诗.csv”; tbl=可读(文件名,“文本类型”,“字符串”);textData=tbl.Sonnet;documents=tokenizedDocument(textData);bag=bagOfWords(documents)
bag=bagOfWords,属性:Counts:[154x3527 double]词汇:[1x3527 string]NumWords:3527 NumDocuments:154

TextRank점수를 계산합니다.

分数=文本分数(袋);

점수를 막대 차트로 시각화합니다.

图形栏(分数)xlabel(“文件”)伊拉贝尔(“得分”)头衔(“TextRank分数”)

图中包含一个轴。标题为TextRank分数的轴包含一个bar类型的对象。

입력 인수

모두 축소

입력 문서로,标记化文档배열, 단어로 구성된 一串형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.文件标记化文档배열이 아닌 경우 이는 단일 문서를 나타내고 각 요소가 단어인 행 벡터여야 합니다. 문서를 여러 개 지정하려면标记化文档배열을 사용하십시오.

입력 字里行间모델 또는 n克袋모델로,巴格沃兹객체 또는巴戈夫克객체로 지정됩니다.纸袋巴戈夫克객체일 경우 이 함수는 각 n克을 단일 단어로 처리합니다.

출력 인수

모두 축소

TextRank점수로, Nx1벡터로 반환됩니다. 여기서分数(一)번째 입력 문서의 점수에 해당하고 N은 입력 문서의 수입니다.

참고 문헌

[1] Mihalcea,Rada和Paul Tarau,《文本等级:将秩序带入文本》,载于2004年自然语言处理经验方法会议记录,第404-411页,2004年。

R2020a에 개발됨