文本分析数据集- MATLAB & Simulink - MathWorks B金宝appenelux - 金宝app,下载188bet金宝搏,金宝搏官方网站

文本分析的数据集

这个页面提供了一个不同数据集的列表，您可以使用这些数据集开始使用文本分析应用程序。

数据集描述任务

数据集	描述	任务
工厂的报告	Factory Reports数据集是一个包含大约500个报告的表，这些报告具有各种属性，包括变量中的纯文本描述`描述`以及变量中的分类标签`类别`．从文件中读取工厂报告数据`“factoryReports.csv”`．控件中提取文本数据和标签`描述`和`类别`分别列。文件名=“factoryReports.csv”；data = readtable(文件名,“TextType”，“字符串”）;textData = data.Description;标签= data.Category; 有关如何处理这些数据进行深度学习的示例，请参见使用深度学习对文本数据进行分类(深度学习工具箱)．	文本分类，主题建模
莎士比亚的十四行诗	该文件`sonnets.txt`在一个文本文件中包含了莎士比亚所有的十四行诗。阅读文件中的莎士比亚十四行诗数据`“sonnets.txt”`．文件名=“sonnets.txt”；textData = extractFileText(文件名); 十四行诗由两个空格字符缩进，并由两个换行字符分隔。使用删除缩进`取代`并将文本分成单独的十四行诗`分裂`．删除前三个元素的主要标题和十四行诗的标题，出现在每首十四行诗之前。 textData =取代(textData,”“，＂＂）;textData = split(textData，[newline newline]); / /输出textData = textData(5:2:结束); 有关如何处理这些数据进行深度学习的示例，请参见使用深度学习生成文本(深度学习工具箱)．	主题建模，文本生成
ArXiv的元数据	ArXiv API允许您访问提交的科学电子出版物的元数据https://arxiv.org包括抽象和主题领域。有关更多信息，请参见https://arxiv.org/help/api．使用arXiV API从数学论文中导入一组摘要和类别标签。 url =“https://export.arxiv.org/oai2?verb=ListRecords”+．．．“集=数学”+．．．“&metadataPrefix = arXiv”；选择= weboptions (“超时”, 160);代码= webread (url选项); 有关如何解析返回的XML代码并导入更多记录的示例，请参见基于深度学习的多标签文本分类．	文本分类，主题建模
古登堡计划的书籍	你可以从古登堡计划下载很多书。例如，下载刘易斯·卡罗尔的《爱丽丝梦游仙境》https://www.gutenberg.org/files/11/11-h/11-h.htm使用`webread`函数。 url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”；代码= webread (url); HTML代码中包含了相关的文本`< p >`(段落)元素。方法解析HTML代码，提取相关文本`htmlTree`函数，然后查找具有元素名的所有元素`“p”`．树= htmlTree(代码);选择器=“p”；子树= findElement(树,选择器); 属性从HTML子树中提取文本数据`extractHTMLText`函数并删除空元素。 textData = extractHTMLText(子树);textData (textData = =＂＂) = []; 有关如何处理这些数据进行深度学习的示例，请参见使用深度学习逐字生成文本．	主题建模，文本生成
周末更新	该文件`weekendUpdates.xlsx`包含示例社交媒体状态更新，包含标签“#周末”和“#假期”。从文件中提取文本数据`weekendUpdates.xlsx`使用`readtable`函数并从变量中提取文本数据`TextData`．文件名=“weekendUpdates.xlsx”；台= readtable(文件名,“TextType”，“字符串”）;textData = tbl.TextData; 有关如何处理此数据的示例，请参见文本情感分析．	情绪分析
罗马数字	CSV文件`“romanNumerals.csv”`第一列包含十进制数字1-1000，第二列包含相应的罗马数字。从CSV文件加载小数-罗马数字对`“romanNumerals.csv”`．文件名= fullfile (“romanNumerals.csv”）;选择= detectImportOptions(文件名,．．．“TextType”，“字符串”，．．．“ReadVariableNames”、假);选项。VariableNames = [“源”“目标”];选项。VariableTypes = [“字符串”“字符串”];data = readtable(文件名,选择); 有关如何处理这些数据进行深度学习的示例，请参见使用注意的顺序翻译．	Sequence-to-sequence翻译
财务报告	美国证券交易委员会(SEC)允许您通过电子数据收集、分析和检索(EDGAR) API访问财务报告。有关更多信息，请参见https://www.sec.gov/os/accessing-edgar-data．要下载这些数据，请使用该函数`financeReports`附在这个例子上生成领域特定情感词典作为支持文金宝app件。要访问此函数，请将示例作为Live Script打开。年= 2019;季度= 4;最大长度= 2 e6;textData = financeReports(年、季度、最大长度); 有关如何处理此数据的示例，请参见生成领域特定情感词典．	情绪分析

工厂的报告

Factory Reports数据集是一个包含大约500个报告的表，这些报告具有各种属性，包括变量中的纯文本描述描述以及变量中的分类标签类别．

从文件中读取工厂报告数据“factoryReports.csv”．控件中提取文本数据和标签描述和类别分别列。

文件名=“factoryReports.csv”；data = readtable(文件名,“TextType”，“字符串”）;textData = data.Description;标签= data.Category;

有关如何处理这些数据进行深度学习的示例，请参见使用深度学习对文本数据进行分类(深度学习工具箱)．

文本分类，主题建模

莎士比亚的十四行诗

该文件sonnets.txt在一个文本文件中包含了莎士比亚所有的十四行诗。

阅读文件中的莎士比亚十四行诗数据“sonnets.txt”．

文件名=“sonnets.txt”；textData = extractFileText(文件名);

十四行诗由两个空格字符缩进，并由两个换行字符分隔。使用删除缩进取代并将文本分成单独的十四行诗分裂．删除前三个元素的主要标题和十四行诗的标题，出现在每首十四行诗之前。

textData =取代(textData,”“，＂＂）;textData = split(textData，[newline newline]); / /输出textData = textData(5:2:结束);

有关如何处理这些数据进行深度学习的示例，请参见使用深度学习生成文本(深度学习工具箱)．

主题建模，文本生成

ArXiv的元数据

ArXiv API允许您访问提交的科学电子出版物的元数据https://arxiv.org包括抽象和主题领域。有关更多信息，请参见https://arxiv.org/help/api．

使用arXiV API从数学论文中导入一组摘要和类别标签。

url =“https://export.arxiv.org/oai2?verb=ListRecords”+．．．“集=数学”+．．．“&metadataPrefix = arXiv”；选择= weboptions (“超时”, 160);代码= webread (url选项);

有关如何解析返回的XML代码并导入更多记录的示例，请参见基于深度学习的多标签文本分类．

文本分类，主题建模

古登堡计划的书籍

你可以从古登堡计划下载很多书。例如，下载刘易斯·卡罗尔的《爱丽丝梦游仙境》https://www.gutenberg.org/files/11/11-h/11-h.htm使用webread函数。

url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”；代码= webread (url);

HTML代码中包含了相关的文本< p >(段落)元素。方法解析HTML代码，提取相关文本htmlTree函数，然后查找具有元素名的所有元素“p”．

树= htmlTree(代码);选择器=“p”；子树= findElement(树,选择器);

属性从HTML子树中提取文本数据extractHTMLText函数并删除空元素。

textData = extractHTMLText(子树);textData (textData = =＂＂) = [];

有关如何处理这些数据进行深度学习的示例，请参见使用深度学习逐字生成文本．

主题建模，文本生成

周末更新

该文件weekendUpdates.xlsx包含示例社交媒体状态更新，包含标签“#周末”和“#假期”。

从文件中提取文本数据weekendUpdates.xlsx使用readtable函数并从变量中提取文本数据TextData．

文件名=“weekendUpdates.xlsx”；台= readtable(文件名,“TextType”，“字符串”）;textData = tbl.TextData;

有关如何处理此数据的示例，请参见文本情感分析．

情绪分析

罗马数字

CSV文件“romanNumerals.csv”第一列包含十进制数字1-1000，第二列包含相应的罗马数字。

从CSV文件加载小数-罗马数字对“romanNumerals.csv”．

文件名= fullfile (“romanNumerals.csv”）;选择= detectImportOptions(文件名,．．．“TextType”，“字符串”，．．．“ReadVariableNames”、假);选项。VariableNames = [“源”“目标”];选项。VariableTypes = [“字符串”“字符串”];data = readtable(文件名,选择);

有关如何处理这些数据进行深度学习的示例，请参见使用注意的顺序翻译．

Sequence-to-sequence翻译

财务报告

美国证券交易委员会(SEC)允许您通过电子数据收集、分析和检索(EDGAR) API访问财务报告。有关更多信息，请参见https://www.sec.gov/os/accessing-edgar-data．

要下载这些数据，请使用该函数financeReports附在这个例子上生成领域特定情感词典作为支持文金宝app件。要访问此函数，请将示例作为Live Script打开。

年= 2019;季度= 4;最大长度= 2 e6;textData = financeReports(年、季度、最大长度);

有关如何处理此数据的示例，请参见生成领域特定情感词典．

情绪分析

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

立即下载

文本分析的数据集

相关的话题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB