tokendetails
토큰화문서배열토큰의세부정보
설명
예제
문서의세부정보표시하기
토큰화문서을만듭니다。
str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence and an emoticon. :)""Here is another example document. :D"];文档= tokenizedDocument(str);
처음몇에토큰정보정보합니다합니다합니다。
tdetails = tokendetails(文档);头(tdetails)
ans =8×5桌Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1标点符号en“ it” 1 1个字母en“ 1 1 1个字母en
类型
변수에는 각 토큰의 유형이 포함되어 있습니다. 문서에 포함된 이모티콘을 표시합니다.
idx = tdetails.Type ==“表情符号”;tdetails(idx,:)
ans =2×5 table令牌documentnumber亚麻词语言_____ ______________ __________ ______________________________________________________________________________________
문서에 문장 세부 정보 추가하기
토큰화문서을만듭니다。
str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence.""Here is another example document. It also has two sentences."];文档= tokenizedDocument(str);
addSentenceDetails
를사용세부를문서추가합니다합니다。이함수는tokendetails
에서반환에문장를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。
documents = addSentendedEtails(文档);tdetails = tokendetails(文档);头(tdetails)
ans =8×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language __________ ______________ ______________ __________ ___________ ________ "This" 1 1 1 letters en "is" 1 1 1 letters en "an" 1 1 1 letters en "example" 1 1 1 letters en "document" 1 1 1 letters en "." 1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en
세번째두문장에대한세부를표시합니다합니다。
idx = tdetails.documentnumber == 3&...tdetails.sentencenumber == 2;tdetails(idx,:)
ans =6×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language ___________ ______________ ______________ __________ ___________ ________ "It" 3 2 1 letters en "also" 3 2 1 letters en "has" 3 2 1 letters en "two" 3 2 1 letters en "sentences" 3 2 1 letters en "." 3 2 1 punctuation en
문서에세부정보추가하기
예제데이터불러옵니다。파일sonnetspreprocessed.txt
에는셰익의된버전들어있습니다있습니다。파일에는에소네트가있으며단어가으로구분있습니다있습니다있습니다。sonnetspreprocessed.txt
에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
文件名="sonnetsPreprocessed.txt";str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);
처음몇에토큰정보정보합니다합니다합니다。
tdetails = tokendetails(文档);头(tdetails)
ans =8×5桌令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1 letters en "creatures" 1 1 letters en "desire" 1 1 letters en "increase" 1 1 letters en "thereby" 1 1 letters en "beautys" 1 1 letters en "rose" 1 1 letters en "might" 1 1 letters en
addPartOfSpeechDetails
함수를품사정보문서문서합니다합니다합니다。이함수먼저에문장를추가한다음,tokendetails
에서반환에품사를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。
documents = addPartofSpeechDetails(Documents);tdetails = tokendetails(文档);头(tdetails)
ans =8×7 tableToken DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1 letters en adjective "creatures" 1 1 1 letters en noun "desire" 1 1 1 letters en noun "increase" 1 1 1 letters en noun“然后” 1 1 1个字母en副词“ beautys” 1 1 1个字母en noun“ rose” 1 1 1 1个字母en noun'yaign'yim'1 1 1 1个字母en auxiliary-verb
입력 인수
文件
-입력문서
tokenizedDocument
배열
입력,tokenizedDocument
배열로됩니다。
출력인수
tdetails
-토큰 세부 정보 테이블
테이블
토큰세부테이블。tdetails
에는다음과변수있습니다있습니다。
이름 | 설명 |
---|---|
令牌 |
토큰텍스트,字符串형스칼라로됩니다됩니다。 |
DocumentNumber |
토큰이속의인덱스로,양의반환됩니다。 |
sentencenumber |
문서내문장번호로,양의반환됩니다。이러한세부가없는경우먼저addSentenceDetails 함수를하여문장세부를를文件 에추가하십시오。 |
LineNumber |
문서내라인번호로,양의반환됩니다。 |
Type |
토큰의 유형으로, 다음 중 하나로 반환됩니다.
이러한세부가없는경우먼저 |
语言 |
토큰의,다음중로됩니다。
이러한언어정보에따라에서에서 이러한세부가없는경우먼저 Text Analytics Toolbox™의언어대한은은은은언어고려사항항목을하십시오。 |
partofspeech |
품사,다음클래스중에서에서에서에서형됩니다됩니다됩니다。
이러한세부가없는경우먼저 |
实体 |
엔터티,다음중로됩니다。
이러한세부가없는경우먼저 |
引理 |
표제어형태。이러한세부가없는경우먼저 |
버전내역
R2018A에됨R2018B:tokendetails
가 이모지 문자에 대해 토큰 유형emoji
를반환함
R2018B에서동작변경됨
R2018B부터는tokenizedDocument
가 이모지 문자를 감지하고tokendetails
함수가이러한토큰유형“表情符号”
로보고합니다。이를문자포함된를더분석할있습니다있습니다있습니다。
R2018a에서는tokendetails
가이모지문자유형“其他”
로보고합니다。유형이“表情符号”
또는“其他”
인토큰인덱스를찾으려면인덱스idx = tdetails.type ==“ emoji” |tdetails.type ==“其他”
를사용하십시오。여기서tdetails
는토큰정보입니다입니다。
matlab명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
Matlab명령명령명령에입력하십시오하십시오하십시오하십시오하십시오하십시오。Matlab명령명령을지원않습니다않습니다않습니다않습니다。
You can also select a web site from the following list:
如何获得最佳网站性能
选择中国网站(中文或英语)以获得最佳场地性能。其他Mathworks乡村网站未针对您所在的访问进行优化。
美洲
- América Latina(Español)
- 加拿大(英语)
- 美国(英语)