이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
bagOfWords
Bag-of-words 모델
설명
bag-of-words 모델(단어 빈도 카운터라고도 함)은 단어가 문서 모음의 각 문서에서 나타나는 횟수를 기록합니다.
bagOfWords
는 텍스트를 단어로 분할하지 않습니다. 토큰화된 문서로 구성된 배열을 만들려면tokenizedDocument
항목을 참조하십시오.
생성
설명
는 빈 bag-of-words 모델을 만듭니다.bag
= bagOfWords
는bag
= bagOfWords(uniqueWords
,计数
)uniqueWords
의 단어와计数
의 해당 빈도 수를 사용하여 bag-of-words 모델을 만듭니다.
입력 인수
속성
객체 함수
encode |
문서를 단어 개수 또는 n-gram 개수로 구성된 행렬로 인코딩 |
tfidf |
TF-IDF(단어 빈도-역 문서 빈도) 행렬 |
topkwords |
Most important words in bag-of-words model or LDA topic |
addDocument |
bag-of-words 모델 또는 bag-of-n-grams 모델에 문서 추가 |
removeDocument |
bag-of-words 모델 또는 bag-of-n-grams 모델에서 문서 제거 |
removeEmptyDocuments |
토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거 |
removeWords |
문서 또는 bag-of-words 모델에서 선택한 단어 제거 |
removeInfrequentWords |
bag-of-words 모델에서 개수가 적은 단어 제거 |
join |
Combine multiple bag-of-words or bag-of-n-grams models |
wordcloud |
Create word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model |
예제
팁
작업에 홀드아웃 테스트 세트를 사용하려면
bagOfWords
를 사용하기 전에 텍스트 데이터를 분할하십시오. 그렇게 하지 않으면 bag-of-words 모델에서 분석이 편향될 수 있습니다.