문서도움말 센터문서
이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
TextRank알고리즘을 사용하여 문서 점수화
分数=文本分数(文档)
分数=文本分数(袋)
예제
分数=textrankScores(文件)는 TextRank알고리즘을 사용한 쌍별 유사성 값에 따라文件의 중요도를 점수화합니다. 유사성과 중요도 점수를 계산하기 위해 이 함수는 각각 BM25와 PageRank알고리즘을 사용합니다.
分数=textrankScores(文件)
分数
文件
分数=textrankScores(纸袋)는 字里行间또는 n克袋모델纸袋를 사용하여 인코딩된 문서를 점수화합니다.
分数=textrankScores(纸袋)
纸袋
모두 축소
토큰화된 문서로 구성된 배열을 만듭니다.
str=[“敏捷的棕色狐狸跳过了懒狗”“快跑的棕色狐狸跳过了懒狗”“那只懒狗坐在那里什么也没做”“其他动物坐在那里观看”];文档=标记化文档(str)
文档=4x1标记文档:9个标记:敏捷的棕色狐狸跳过了懒狗9个标记:敏捷的棕色狐狸跳过了懒狗8个标记:懒狗坐在那里什么也不做6个标记:其他动物坐在那里观看
TextRank점수를 계산합니다.
分数=文本分数(文件);
점수를 막대 차트로 시각화합니다.
图形栏(分数)xlabel(“文件”)伊拉贝尔(“得分”)头衔(“TextRank分数”)
十四行诗의 텍스트 데이터에서 字里行间모델을 만듭니다.
十四行诗
文件名=“十四行诗.csv”; tbl=可读(文件名,“文本类型”,“字符串”);textData=tbl.Sonnet;documents=tokenizedDocument(textData);bag=bagOfWords(documents)
bag=bagOfWords,属性:Counts:[154x3527 double]词汇:[1x3527 string]NumWords:3527 NumDocuments:154
分数=文本分数(袋);
标记化文档
입력 문서로,标记化文档배열, 단어로 구성된 一串형 배열 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.文件가标记化文档배열이 아닌 경우 이는 단일 문서를 나타내고 각 요소가 단어인 행 벡터여야 합니다. 문서를 여러 개 지정하려면标记化文档배열을 사용하십시오.
巴格沃兹
巴戈夫克
입력 字里行间모델 또는 n克袋모델로,巴格沃兹객체 또는巴戈夫克객체로 지정됩니다.纸袋가巴戈夫克객체일 경우 이 함수는 각 n克을 단일 단어로 처리합니다.
TextRank점수로, Nx1벡터로 반환됩니다. 여기서分数(一)는我번째 입력 문서의 점수에 해당하고 N은 입력 문서의 수입니다.
分数(一)
我
[1] Mihalcea,Rada和Paul Tarau,《文本等级:将秩序带入文本》,载于2004年自然语言处理经验方法会议记录,第404-411页,2004年。
标记化文档|bluevaluationscore|鲁吉评估核心|BM25相似性|余生相似性|lexrankScores|MMR磁芯|摘录摘要
bluevaluationscore
鲁吉评估核心
BM25相似性
余生相似性
lexrankScores
MMR磁芯
摘录摘要
이 예제의 수정된 버전이 있습니다. 사용자가 편집한 내용을 반영하여 이 예제를 여시겠습니까?
다음 MATLAB명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB명령 창에 입력하십시오. 웹 브라우저는 MATLAB명령을 지원하지 않습니다.
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处