torchtext.datasets¶
一般使用案例如下:
# import datasets
from torchtext.datasets import IMDB
train_iter = IMDB(split='train')
def tokenize(label, line):
return line.split()
tokens = []
for label, line in train_iter:
tokens += tokenize(label, line)
以下数据集可用:
数据
文本分类¶
AG_NEWS¶
亚马逊评论Full¶
亚马逊评论极性¶
DB百科¶
IMDb¶
搜狗新闻¶
-
torchtext.datasets.
SogouNews
(根: str = '.data', split: Union[Tuple[str], str] = ('train', 'test')))[来源]¶ 搜狗新闻数据集
有关更多详细信息,请参阅 https://arxiv.org/abs/1509.01626
- 每个拆分的行数:
火车: 450000
测试:60000
- 参数:
root:保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache') split:返回的 split 或 split。可以是字符串或字符串元组。默认值:(train, test)
- 返回
DataPipe,它生成标签(1 到 5)的元组和包含新闻标题和内容的文本
- rtype
(整数、str)
SST2¶
-
torchtext.datasets.
SST2
(root='.data', split=('train', 'dev', 'test'))[来源]¶ SST2 数据集
有关更多详细信息,请参阅 https://nlp.stanford.edu/sentiment/
- 每个拆分的行数:
火车: 67349
开发: 872
测试:1821
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值:(train, dev, test)
- 返回
DataPipe 生成文本和/或标签的元组(1 到 4)。测试拆分仅返回文本。
- 返回类型
- 教程使用:
SST2
雅虎答案¶
YelpReviewFull¶
YelpReview极性¶
语言建模¶
宾夕法尼亚树班克¶
-
torchtext.datasets.
PennTreebank
(root='.data', split: Union[元组[str], str] = ('train', 'valid', 'test'))[来源]¶ PennTreebank 数据集
有关其他详细信息,请参阅 https://catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html
- 每个拆分的行数:
火车: 42068
有效期: 3370
测试:3761
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值:(train, valid, test)
- 返回
DataPipe 从 Treebank 语料库生成文本
- 返回类型
维基文本-2¶
-
torchtext.datasets.
WikiText2
(根: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test')))[来源]¶ WikiText2 数据集
有关更多详细信息,请参阅 https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
- 每个拆分的行数:
火车: 36718
有效期: 3760
测试: 4358
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值:(train, valid, test)
- 返回
从 Wikipedia 文章中生成文本的 DataPipe
- 返回类型
维基文本103¶
-
torchtext.datasets.
WikiText103
(根: str = '.data', split: Union[Tuple[str], str] = ('train', 'valid', 'test')))[来源]¶ WikiText103 数据集
有关更多详细信息,请参阅 https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
- 每个拆分的行数:
火车: 1801350
有效期: 3760
测试: 4358
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值:(train, valid, test)
- 返回
从 Wikipedia 文章中生成文本的 DataPipe
- 返回类型
机器翻译¶
IWSLT2016¶
-
torchtext.datasets.
IWSLT2016
(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[来源]¶ IWSLT2016 数据集
有关更多详细信息,请参阅 https://wit3.fbk.eu/2016-01
可用的数据集包括:
语言对:
“en”
“fr”
“de”
“cs”
“AR” (AR) (AR) (英语
“en”
x
x
x
x
“fr”
x
“de”
x
“cs”
x
“AR” (AR) (AR) (英语
x
有效/测试集: [“dev2010”, “tst2010”, “tst2011”, “tst2012”, “tst2013”, “tst2014”]
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')
language_pair – 包含 src 和 tgt 语言的元组或列表
valid_set – 用于标识验证集的字符串。
test_set – 用于标识测试集的字符串。
- 返回
DataPipe 生成源句子和目标句子的元组
- 返回类型
例子
>>> from torchtext.datasets import IWSLT2016 >>> train_iter, valid_iter, test_iter = IWSLT2016() >>> src_sentence, tgt_sentence = next(iter(train_iter))
IWSLT2017¶
-
torchtext.datasets.
IWSLT2017
(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[来源]¶ IWSLT2017 数据集
有关更多详细信息,请参阅 https://wit3.fbk.eu/2017-01
可用的数据集包括:
语言对:
“en”
“nl”
“de”
“它”
“RO”
“en”
x
x
x
x
“nl”
x
x
x
x
“de”
x
x
x
x
“它”
x
x
x
x
“RO”
x
x
x
x
- 参数
root – 保存数据集的目录。默认值: os.path.expanduser('~/.torchtext/cache')
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')
language_pair – 包含 src 和 tgt 语言的元组或列表
- 返回
DataPipe 生成源句子和目标句子的元组
- 返回类型
例子
>>> from torchtext.datasets import IWSLT2017 >>> train_iter, valid_iter, test_iter = IWSLT2017() >>> src_sentence, tgt_sentence = next(iter(train_iter))