tokendetails

토큰화문서배열토큰의세부정보

페이지 내 모두 축소

구문

tdetails = tokendetails（文档）

설명

예제

tdetails= tokendetails（文件）는tokenizedDocument배열文件의 토큰에 대한 토큰 세부 정보 테이블을 반환합니다.

예제

모두 축소

문서의세부정보표시하기

라이브스크립트열기

토큰화문서을만듭니다。

str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence and an emoticon. :)""Here is another example document. :D"];文档= tokenizedDocument（str）;

처음몇에토큰정보정보합니다합니다합니다。

tdetails = tokendetails（文档）;头（tdetails）

ans =8×5桌Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1标点符号en“ it” 1 1个字母en“ 1 1 1个字母en

类型변수에는 각 토큰의 유형이 포함되어 있습니다. 문서에 포함된 이모티콘을 표시합니다.

idx = tdetails.Type ==“表情符号”;tdetails（idx，:)

ans =2×5 table令牌documentnumber亚麻词语言_____ ______________ __________ ______________________________________________________________________________________

문서에 문장 세부 정보 추가하기

라이브스크립트열기

토큰화문서을만듭니다。

str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence.""Here is another example document. It also has two sentences."];文档= tokenizedDocument（str）;

addSentenceDetails를사용세부를문서추가합니다합니다。이함수는tokendetails에서반환에문장를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。

documents = addSentendedEtails（文档）;tdetails = tokendetails（文档）;头（tdetails）

ans =8×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language __________ ______________ ______________ __________ ___________ ________ "This" 1 1 1 letters en "is" 1 1 1 letters en "an" 1 1 1 letters en "example" 1 1 1 letters en "document" 1 1 1 letters en "." 1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

세번째두문장에대한세부를표시합니다합니다。

idx = tdetails.documentnumber == 3＆...tdetails.sentencenumber == 2;tdetails（idx，:)

ans =6×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language ___________ ______________ ______________ __________ ___________ ________ "It" 3 2 1 letters en "also" 3 2 1 letters en "has" 3 2 1 letters en "two" 3 2 1 letters en "sentences" 3 2 1 letters en "." 3 2 1 punctuation en

문서에세부정보추가하기

라이브스크립트열기

예제데이터불러옵니다。파일sonnetspreprocessed.txt에는셰익의된버전들어있습니다있습니다。파일에는에소네트가있으며단어가으로구분있습니다있습니다있습니다。sonnetspreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.

文件名="sonnetsPreprocessed.txt";str = extractfiletext（filename）;textdata = split（str，newline）;documents = tokenizedDocument（textData）;

처음몇에토큰정보정보합니다합니다합니다。

tdetails = tokendetails（文档）;头（tdetails）

ans =8×5桌令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1 letters en "creatures" 1 1 letters en "desire" 1 1 letters en "increase" 1 1 letters en "thereby" 1 1 letters en "beautys" 1 1 letters en "rose" 1 1 letters en "might" 1 1 letters en

addPartOfSpeechDetails함수를품사정보문서문서합니다합니다합니다。이함수먼저에문장를추가한다음，tokendetails에서반환에품사를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。

documents = addPartofSpeechDetails（Documents）;tdetails = tokendetails（文档）;头（tdetails）

ans =8×7 tableToken DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1 letters en adjective "creatures" 1 1 1 letters en noun "desire" 1 1 1 letters en noun "increase" 1 1 1 letters en noun“然后” 1 1 1个字母en副词“ beautys” 1 1 1个字母en noun“ rose” 1 1 1 1个字母en noun'yaign'yim'1 1 1 1个字母en auxiliary-verb

입력 인수

모두 축소

`文件`-입력문서
`tokenizedDocument`배열

입력，tokenizedDocument배열로됩니다。

출력인수

모두 축소

`tdetails`-토큰 세부 정보 테이블
테이블

토큰세부테이블。tdetails에는다음과변수있습니다있습니다。

이름	설명
`令牌`	토큰텍스트，字符串형스칼라로됩니다됩니다。
`DocumentNumber`	토큰이속의인덱스로，양의반환됩니다。
`sentencenumber`	문서내문장번호로，양의반환됩니다。이러한세부가없는경우먼저`addSentenceDetails`함수를하여문장세부를를`文件`에추가하십시오。
`LineNumber`	문서내라인번호로，양의반환됩니다。
`Type`	토큰의 유형으로, 다음 중 하나로 반환됩니다. `“信件”`- 문자로만된문자열 `'digits'`– 숫자로만 구성된 문자열 `'标点'`- 문장부호기호로만구성문자열문자열 `'电子邮件地址'`- 감지된이메일주소 `'web-address'`- 감지된웹주소 `'井号'`- 감지된태그（`“＃”`으로 시작하고 뒤에 문자가 옴) `'at-mention'`– 감지된 at-멘션(`"@"`문자로） `“表情符号”`– 감지된 이모티콘 `'表情符号'`– 감지된 이모지 `'其他'`- 앞에서유형속하지않으며사용자유형이경우경우 이러한세부가없는경우먼저`addTypeDetails`함수를하여유형세부를를`文件`에추가하십시오。
`语言`	토큰의，다음중로됩니다。 `'en'`– 영어 `'ja'`– 일본어 `'de'`- 독일어 `'ko'`– 한국어 이러한언어정보에따라에서에서`删除词`，，，，`addPartOfSpeechDetails`，，，，`归一化词`，，，，`addSentenceDetails`및`添加剂尾尾`함수의 동작이 달라집니다. 이러한세부가없는경우먼저`addLanguageDetails`함수를 사용하여 언어 세부 정보를`文件`에추가하십시오。 Text Analytics Toolbox™의언어대한은은은은언어고려사항항목을하십시오。
`partofspeech`	품사，다음클래스중에서에서에서에서형됩니다됩니다됩니다。 `"adjective"`- 형용사 `“适当”`– 부치사 `“副词”`- 부사 `“助动词”`– 조동사 `“坐标连接”`- 등위접속사 `"determiner"`- 한정사 `“欹”`- 감탄사 `“名词”`– 명사 `“数字”`- 수사 `“粒子”`- 불변화사 `“代词”`- 대명사 `"proper-noun"`– 고유 명사 `“标点”`– 문장 부호 `“下属结合”`- 종속접속사 `“象征”`– 기호 `“动词”`– 동사 `“其他”`- 기타 이러한세부가없는경우먼저`addPartOfSpeechDetails`함수를 사용하여 품사 세부 정보를`文件`에추가하십시오。
`实体`	엔터티，다음중로됩니다。 `'地点'`- 감지된위치 `'organization'`– 감지된 조직 `'person'`- 감지된사람 `'其他'`– 위의 범주에 속하지 않는 감지된 엔터티 `“非实体”`- 감지된엔터티없음 이러한세부가없는경우먼저`添加剂尾尾`함수를하여엔터티세부를를`文件`에추가하십시오。
`引理`	표제어형태。이러한세부가없는경우먼저`Addlemmadetails`함수를하여표제어세부를를`文件`에추가하십시오。

버전내역

R2018A에됨

모두확장

R2018B：`tokendetails`가 이모지 문자에 대해 토큰 유형`emoji`를반환함

R2018B에서동작변경됨

R2018B부터는tokenizedDocument가 이모지 문자를 감지하고tokendetails함수가이러한토큰유형“表情符号”로보고합니다。이를문자포함된를더분석할있습니다있습니다있습니다。

R2018a에서는tokendetails가이모지문자유형“其他”로보고합니다。유형이“表情符号”또는“其他”인토큰인덱스를찾으려면인덱스idx = tdetails.type ==“ emoji” |tdetails.type ==“其他”를사용하십시오。여기서tdetails는토큰정보입니다입니다。

참고항목

tokendetails

구문

설명

예제

문서의세부정보표시하기

문서에 문장 세부 정보 추가하기

문서에세부정보추가하기

입력 인수

文件-입력문서tokenizedDocument배열

출력인수

tdetails-토큰 세부 정보 테이블테이블

버전내역

R2018B：tokendetails가 이모지 문자에 대해 토큰 유형emoji를반환함

참고항목

도움말 항목

`文件`-입력문서
`tokenizedDocument`배열

`tdetails`-토큰 세부 정보 테이블
테이블

R2018B：`tokendetails`가 이모지 문자에 대해 토큰 유형`emoji`를반환함