Main Content

tokendetails

토큰화문서배열토큰의세부정보

설명

예제

tdetails= tokendetails(文件tokenizedDocument배열文件의 토큰에 대한 토큰 세부 정보 테이블을 반환합니다.

예제

모두 축소

토큰화문서을만듭니다。

str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence and an emoticon. :)""Here is another example document. :D"];文档= tokenizedDocument(str);

처음몇에토큰정보정보합니다합니다합니다。

tdetails = tokendetails(文档);头(tdetails)
ans =8×5桌Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1标点符号en“ it” 1 1个字母en“ 1 1 1个字母en

类型변수에는 각 토큰의 유형이 포함되어 있습니다. 문서에 포함된 이모티콘을 표시합니다.

idx = tdetails.Type ==“表情符号”;tdetails(idx,:)
ans =2×5 table令牌documentnumber亚麻词语言_____ ______________ __________ ______________________________________________________________________________________

토큰화문서을만듭니다。

str = [...“这是一个示例文档。它有两个句子。”"This document has one sentence.""Here is another example document. It also has two sentences."];文档= tokenizedDocument(str);

addSentenceDetails를사용세부를문서추가합니다합니다。이함수는tokendetails에서반환에문장를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。

documents = addSentendedEtails(文档);tdetails = tokendetails(文档);头(tdetails)
ans =8×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language __________ ______________ ______________ __________ ___________ ________ "This" 1 1 1 letters en "is" 1 1 1 letters en "an" 1 1 1 letters en "example" 1 1 1 letters en "document" 1 1 1 letters en "." 1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

세번째두문장에대한세부를표시합니다합니다。

idx = tdetails.documentnumber == 3&...tdetails.sentencenumber == 2;tdetails(idx,:)
ans =6×6桌令牌DocumentNumber SentenceNumber LineNumber Type Language ___________ ______________ ______________ __________ ___________ ________ "It" 3 2 1 letters en "also" 3 2 1 letters en "has" 3 2 1 letters en "two" 3 2 1 letters en "sentences" 3 2 1 letters en "." 3 2 1 punctuation en

예제데이터불러옵니다。파일sonnetspreprocessed.txt에는셰익의된버전들어있습니다있습니다。파일에는에소네트가있으며단어가으로구분있습니다있습니다있습니다。sonnetspreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.

文件名="sonnetsPreprocessed.txt";str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);

처음몇에토큰정보정보합니다합니다합니다。

tdetails = tokendetails(文档);头(tdetails)
ans =8×5桌令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1 letters en "creatures" 1 1 letters en "desire" 1 1 letters en "increase" 1 1 letters en "thereby" 1 1 letters en "beautys" 1 1 letters en "rose" 1 1 letters en "might" 1 1 letters en

addPartOfSpeechDetails함수를품사정보문서문서합니다합니다합니다。이함수먼저에문장를추가한다음,tokendetails에서반환에품사를합니다합니다합니다。처음몇에업데이트된토큰정보를합니다합니다합니다。

documents = addPartofSpeechDetails(Documents);tdetails = tokendetails(文档);头(tdetails)
ans =8×7 tableToken DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1 letters en adjective "creatures" 1 1 1 letters en noun "desire" 1 1 1 letters en noun "increase" 1 1 1 letters en noun“然后” 1 1 1个字母en副词“ beautys” 1 1 1个字母en noun“ rose” 1 1 1 1个字母en noun'yaign'yim'1 1 1 1个字母en auxiliary-verb

입력 인수

모두 축소

입력,tokenizedDocument배열로됩니다。

출력인수

모두 축소

토큰세부테이블。tdetails에는다음과변수있습니다있습니다。

이름 설명
令牌 토큰텍스트,字符串형스칼라로됩니다됩니다。
DocumentNumber 토큰이속의인덱스로,양의반환됩니다。
sentencenumber 문서내문장번호로,양의반환됩니다。이러한세부가없는경우먼저addSentenceDetails함수를하여문장세부를를文件에추가하십시오。
LineNumber 문서내라인번호로,양의반환됩니다。
Type

토큰의 유형으로, 다음 중 하나로 반환됩니다.

  • “信件”- 문자로만된문자열

  • 'digits'– 숫자로만 구성된 문자열

  • '标点'- 문장부호기호로만구성문자열문자열

  • '电子邮件地址'- 감지된이메일주소

  • 'web-address'- 감지된웹주소

  • '井号'- 감지된태그(“#”으로 시작하고 뒤에 문자가 옴)

  • 'at-mention'– 감지된 at-멘션("@"문자로)

  • “表情符号”– 감지된 이모티콘

  • '表情符号'– 감지된 이모지

  • '其他'- 앞에서유형속하지않으며사용자유형이경우경우

이러한세부가없는경우먼저addTypeDetails함수를하여유형세부를를文件에추가하십시오。

语言

토큰의,다음중로됩니다。

  • 'en'– 영어

  • 'ja'– 일본어

  • 'de'- 독일어

  • 'ko'– 한국어

이러한언어정보에따라에서에서删除词,,,,addPartOfSpeechDetails,,,,归一化词,,,,addSentenceDetails添加剂尾尾함수의 동작이 달라집니다.

이러한세부가없는경우먼저addLanguageDetails함수를 사용하여 언어 세부 정보를文件에추가하십시오。

Text Analytics Toolbox™의언어대한은은은은언어고려사항항목을하십시오。

partofspeech

품사,다음클래스중에서에서에서에서형됩니다됩니다됩니다。

  • "adjective"- 형용사

  • “适当”– 부치사

  • “副词”- 부사

  • “助动词”– 조동사

  • “坐标连接”- 등위접속사

  • "determiner"- 한정사

  • “欹”- 감탄사

  • “名词”– 명사

  • “数字”- 수사

  • “粒子”- 불변화사

  • “代词”- 대명사

  • "proper-noun"– 고유 명사

  • “标点”– 문장 부호

  • “下属结合”- 종속접속사

  • “象征”– 기호

  • “动词”– 동사

  • “其他”- 기타

이러한세부가없는경우먼저addPartOfSpeechDetails함수를 사용하여 품사 세부 정보를文件에추가하십시오。

实体

엔터티,다음중로됩니다。

  • '地点'- 감지된위치

  • 'organization'– 감지된 조직

  • 'person'- 감지된사람

  • '其他'– 위의 범주에 속하지 않는 감지된 엔터티

  • “非实体”- 감지된엔터티없음

이러한세부가없는경우먼저添加剂尾尾함수를하여엔터티세부를를文件에추가하십시오。

引理

표제어형태。이러한세부가없는경우먼저Addlemmadetails함수를하여표제어세부를를文件에추가하십시오。

버전내역

R2018A에됨

모두확장

R2018B에서동작변경됨