torchtext.datasets¶
一般用例如下:
# import datasets
from torchtext.datasets import IMDB
train_iter = IMDB(split='train')
def tokenize(label, line):
return line.split()
tokens = []
for label, line in train_iter:
tokens += tokenize(label, line)
以下数据集可用:
数据集
文本分类¶
AG_NEWS¶
AmazonReviewFull¶
AmazonReviewPolarity¶
DBpedia¶
IMDb¶
SogouNews¶
-
torchtext.datasets.SogouNews(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'test'))[source]¶ 搜狗新闻数据集
欲了解更多信息,请参阅 https://arxiv.org/abs/1509.01626
- Number of lines per split:
train: 450000
test: 60000
- Args:
root: Directory where the datasets are saved. Default: os.path.expanduser(‘~/.torchtext/cache’) split: split or splits to be returned. Can be a string or tuple of strings. Default: (train, test)
- returns
DataPipe that yields tuple of label (1 to 5) and text containing the news title and contents
- rtype
(int, str)
SST2¶
-
torchtext.datasets.SST2(root='.data', split=('train', 'dev', 'test'))[source]¶ SST-2 数据集
欲了解更多信息,请参阅 https://nlp.stanford.edu/sentiment/
- Number of lines per split:
训练:67349
开发版:872
测试:1821
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
分割 – 返回的分割或分割列表。可以是字符串或字符串元组。默认值:(train, dev, test)
- Returns
数据管道,生成包含文本和/或标签(1到4个)的元组。第test部分只返回文本。
- Return type
- Tutorials using
SST2:
YahooAnswers¶
YelpReviewFull¶
YelpReviewPolarity¶
语言建模¶
PennTreebank¶
-
torchtext.datasets.PennTreebank(root='.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))[source]¶ PennTreebank 数据集
欲了解更多信息,请参阅 https://catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html
- Number of lines per split:
训练:42068
有效:3370
测试:3761
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
分割 – 返回的分割或分割列表。可以是字符串或字符串元组。默认值:(train, valid, test)
- Returns
从Treebank语料库生成文本的数据管道
- Return type
WikiText-2¶
-
torchtext.datasets.WikiText2(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))[source]¶ WikiText2 数据集
欲了解更多信息,请参阅https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
- Number of lines per split:
训练:36718
有效的:3760
测试:4358
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
分割 – 返回的分割或分割列表。可以是字符串或字符串元组。默认值:(train, valid, test)
- Returns
从维基百科文章中生成文本的 DataPipe
- Return type
WikiText103¶
-
torchtext.datasets.WikiText103(root: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test'))[source]¶ WikiText103 数据集
欲了解更多信息,请参阅https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
- Number of lines per split:
训练:1801350
有效的:3760
测试:4358
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
分割 – 返回的分割或分割列表。可以是字符串或字符串元组。默认值:(train, valid, test)
- Returns
从维基百科文章中生成文本的 DataPipe
- Return type
机器翻译¶
IWSLT2016¶
-
torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[source]¶ IWSLT2016 数据集
有关更多详细信息,请参阅 https://wit3.fbk.eu/2016-01
可用的数据集包括以下内容:
语言对:
“en”
“fr”
“de”
“cs”
“ar”
“en”
x
x
x
x
“fr”
x
“de”
x
“cs”
x
“ar”
x
验证/测试集: [“dev2010”,“tst2010”,“tst2011”,“tst2012”,“tst2013”,“tst2014”]
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')
语言对 – 包含源语言和目标语言的元组或列表
valid_set – 用于标识验证集的字符串。
测试集 – 用于标识测试集的字符串。
- Returns
生成源句子和目标句子元组的数据管道
- Return type
示例
>>> from torchtext.datasets import IWSLT2016 >>> train_iter, valid_iter, test_iter = IWSLT2016() >>> src_sentence, tgt_sentence = next(iter(train_iter))
IWSLT2017¶
-
torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]¶ IWSLT2017 数据集
有关更多详细信息,请参阅 https://wit3.fbk.eu/2017-01
可用的数据集包括以下内容:
语言对:
“en”
“nl”
“de”
“it”
“ro”
“en”
x
x
x
x
“nl”
x
x
x
x
“de”
x
x
x
x
“it”
x
x
x
x
“ro”
x
x
x
x
- Parameters
根目录 – 数据集保存的目录。默认值:os.path.expanduser(‘~/.torchtext/cache’)
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')
语言对 – 包含源语言和目标语言的元组或列表
- Returns
生成源句子和目标句子元组的数据管道
- Return type
示例
>>> from torchtext.datasets import IWSLT2017 >>> train_iter, valid_iter, test_iter = IWSLT2017() >>> src_sentence, tgt_sentence = next(iter(train_iter))