主要内容

文本分析的数据集

这个页面提供了一个不同数据集的列表,您可以使用这些数据集开始使用文本分析应用程序。

数据集 描述 任务

工厂的报告

Factory Reports数据集是一个包含大约500个报告的表,这些报告具有各种属性,包括变量中的纯文本描述描述以及变量中的分类标签类别

从文件中读取工厂报告数据“factoryReports.csv”.控件中提取文本数据和标签描述类别分别列。

文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”“字符串”);textData = data.Description;标签= data.Category;

有关如何处理这些数据进行深度学习的示例,请参见使用深度学习对文本数据进行分类(深度学习工具箱)

文本分类,主题建模

莎士比亚的十四行诗

该文件sonnets.txt在一个文本文件中包含了莎士比亚所有的十四行诗。

阅读文件中的莎士比亚十四行诗数据“sonnets.txt”

文件名=“sonnets.txt”;textData = extractFileText(文件名);

十四行诗由两个空格字符缩进,并由两个换行字符分隔。使用删除缩进取代并将文本分成单独的十四行诗分裂.删除前三个元素的主要标题和十四行诗的标题,出现在每首十四行诗之前。

textData =取代(textData,”“"");textData = split(textData,[newline newline]); / /输出textData = textData(5:2:结束);

有关如何处理这些数据进行深度学习的示例,请参见使用深度学习生成文本(深度学习工具箱)

主题建模,文本生成

ArXiv的元数据

ArXiv API允许您访问提交的科学电子出版物的元数据https://arxiv.org包括抽象和主题领域。有关更多信息,请参见https://arxiv.org/help/api

使用arXiV API从数学论文中导入一组摘要和类别标签。

url =“https://export.arxiv.org/oai2?verb=ListRecords”+...“集=数学”+...“&metadataPrefix = arXiv”;选择= weboptions (“超时”, 160);代码= webread (url选项);

有关如何解析返回的XML代码并导入更多记录的示例,请参见基于深度学习的多标签文本分类

文本分类,主题建模

古登堡计划的书籍

你可以从古登堡计划下载很多书。例如,下载刘易斯·卡罗尔的《爱丽丝梦游仙境》https://www.gutenberg.org/files/11/11-h/11-h.htm使用webread函数。

url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”;代码= webread (url);

HTML代码中包含了相关的文本< p >(段落)元素。方法解析HTML代码,提取相关文本htmlTree函数,然后查找具有元素名的所有元素“p”

树= htmlTree(代码);选择器=“p”;子树= findElement(树,选择器);

属性从HTML子树中提取文本数据extractHTMLText函数并删除空元素。

textData = extractHTMLText(子树);textData (textData = ="") = [];

有关如何处理这些数据进行深度学习的示例,请参见使用深度学习逐字生成文本

主题建模,文本生成

周末更新

该文件weekendUpdates.xlsx包含示例社交媒体状态更新,包含标签“#周末”和“#假期”。

从文件中提取文本数据weekendUpdates.xlsx使用readtable函数并从变量中提取文本数据TextData

文件名=“weekendUpdates.xlsx”;台= readtable(文件名,“TextType”“字符串”);textData = tbl.TextData;

有关如何处理此数据的示例,请参见文本情感分析

情绪分析

罗马数字

CSV文件“romanNumerals.csv”第一列包含十进制数字1-1000,第二列包含相应的罗马数字。

从CSV文件加载小数-罗马数字对“romanNumerals.csv”

文件名= fullfile (“romanNumerals.csv”);选择= detectImportOptions(文件名,...“TextType”“字符串”...“ReadVariableNames”、假);选项。VariableNames = [“源”“目标”];选项。VariableTypes = [“字符串”“字符串”];data = readtable(文件名,选择);

有关如何处理这些数据进行深度学习的示例,请参见使用注意的顺序翻译

Sequence-to-sequence翻译

财务报告

美国证券交易委员会(SEC)允许您通过电子数据收集、分析和检索(EDGAR) API访问财务报告。有关更多信息,请参见https://www.sec.gov/os/accessing-edgar-data

要下载这些数据,请使用该函数financeReports附在这个例子上生成领域特定情感词典作为支持文金宝app件。要访问此函数,请将示例作为Live Script打开。

年= 2019;季度= 4;最大长度= 2 e6;textData = financeReports(年、季度、最大长度);

有关如何处理此数据的示例,请参见生成领域特定情感词典

情绪分析

相关的话题