这个页面提供了一个不同数据集的列表,您可以使用这些数据集开始使用文本分析应用程序。
数据集 | 描述 | 任务 |
---|---|---|
工厂的报告 |
Factory Reports数据集是一个包含大约500个报告的表,这些报告具有各种属性,包括变量中的纯文本描述 从文件中读取工厂报告数据 文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;标签= data.Category; 有关如何处理这些数据进行深度学习的示例,请参见使用深度学习对文本数据进行分类(深度学习工具箱). |
文本分类,主题建模 |
莎士比亚的十四行诗 |
该文件 阅读文件中的莎士比亚十四行诗数据 文件名=“sonnets.txt”;textData = extractFileText(文件名);
十四行诗由两个空格字符缩进,并由两个换行字符分隔。使用删除缩进 textData =取代(textData,”“,"");textData = split(textData,[newline newline]); / /输出textData = textData(5:2:结束); 有关如何处理这些数据进行深度学习的示例,请参见使用深度学习生成文本(深度学习工具箱). |
主题建模,文本生成 |
ArXiv的元数据 |
ArXiv API允许您访问提交的科学电子出版物的元数据https://arxiv.org包括抽象和主题领域。有关更多信息,请参见https://arxiv.org/help/api. 使用arXiV API从数学论文中导入一组摘要和类别标签。 url =“https://export.arxiv.org/oai2?verb=ListRecords”+...“集=数学”+...“&metadataPrefix = arXiv”;选择= weboptions (“超时”, 160);代码= webread (url选项); 有关如何解析返回的XML代码并导入更多记录的示例,请参见基于深度学习的多标签文本分类. |
文本分类,主题建模 |
古登堡计划的书籍 |
你可以从古登堡计划下载很多书。例如,下载刘易斯·卡罗尔的《爱丽丝梦游仙境》https://www.gutenberg.org/files/11/11-h/11-h.htm使用 url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”;代码= webread (url);
HTML代码中包含了相关的文本 树= htmlTree(代码);选择器=“p”;子树= findElement(树,选择器);
属性从HTML子树中提取文本数据 textData = extractHTMLText(子树);textData (textData = ="") = [];
有关如何处理这些数据进行深度学习的示例,请参见使用深度学习逐字生成文本. |
主题建模,文本生成 |
周末更新 |
该文件 从文件中提取文本数据 文件名=“weekendUpdates.xlsx”;台= readtable(文件名,“TextType”,“字符串”);textData = tbl.TextData; 有关如何处理此数据的示例,请参见文本情感分析. |
情绪分析 |
罗马数字 |
CSV文件 从CSV文件加载小数-罗马数字对 文件名= fullfile (“romanNumerals.csv”);选择= detectImportOptions(文件名,...“TextType”,“字符串”,...“ReadVariableNames”、假);选项。VariableNames = [“源”“目标”];选项。VariableTypes = [“字符串”“字符串”];data = readtable(文件名,选择); 有关如何处理这些数据进行深度学习的示例,请参见使用注意的顺序翻译. |
Sequence-to-sequence翻译 |
财务报告 |
美国证券交易委员会(SEC)允许您通过电子数据收集、分析和检索(EDGAR) API访问财务报告。有关更多信息,请参见https://www.sec.gov/os/accessing-edgar-data. 要下载这些数据,请使用该函数 年= 2019;季度= 4;最大长度= 2 e6;textData = financeReports(年、季度、最大长度); 有关如何处理此数据的示例,请参见生成领域特定情感词典. |
情绪分析 |