torchtext.datasets¶
一般使用案例如下:
# import datasets
from torchtext.datasets import IMDB
train_iter = IMDB(split='train')
def tokenize(label, line):
return line.split()
tokens = []
for label, line in train_iter:
tokens += tokenize(label, line)
以下数据集可用:
数据
机器翻译¶
Multi30k¶
-
torchtext.datasets.
Multi30k
(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[来源]¶ Multi30k 数据集
编号: http://www.statmt.org/wmt16/multimodal-task.html#task1
- 参数
root – 保存数据集的目录。默认值: “.data”
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')
language_pair – 包含 src 和 tgt 语言的元组或列表。可用选项包括 ('de','en') 和 ('en', 'de')
IWSLT2016¶
-
torchtext.datasets.
IWSLT2016
(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[来源]¶ IWSLT2016 数据集
可用的数据集包括:
语言对:
'en'
'fr'
'de'
'cs'
'ar'
'en'
x
x
x
x
'fr'
x
'de'
x
'cs'
x
'ar'
x
有效/测试集: ['dev2010', 'tst2010', 'tst2011', 'tst2012', 'tst2013', 'tst2014']
有关其他详细信息,请参阅源网站:https://wit3.fbk.eu/2016-01
- 参数
root – 保存数据集的目录。默认值: “.data”
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')
language_pair – 包含 src 和 tgt 语言的元组或列表
valid_set – 用于标识验证集的字符串。
test_set – 用于标识测试集的字符串。
例子
>>> from torchtext.datasets import IWSLT2016 >>> train_iter, valid_iter, test_iter = IWSLT2016() >>> src_sentence, tgt_sentence = next(train_iter)
IWSLT2017¶
-
torchtext.datasets.
IWSLT2017
(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[来源]¶ IWSLT2017 数据集
可用的数据集包括:
语言对:
'en'
'nl'
'de'
'它'
'ro'
'en'
x
x
x
x
'nl'
x
x
x
x
'de'
x
x
x
x
'它'
x
x
x
x
'ro'
x
x
x
x
有关其他详细信息,请参阅源网站:https://wit3.fbk.eu/2017-01
- 参数
root – 保存数据集的目录。默认值: “.data”
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')
language_pair – 包含 src 和 tgt 语言的元组或列表
例子
>>> from torchtext.datasets import IWSLT2017 >>> train_iter, valid_iter, test_iter = IWSLT2017() >>> src_sentence, tgt_sentence = next(train_iter)