torchtext.datasets¶
一般用例如下:
# import datasets
from torchtext.datasets import IMDB
train_iter = IMDB(split='train')
def tokenize(label, line):
return line.split()
tokens = []
for label, line in train_iter:
tokens += tokenize(label, line)
以下数据集可用:
数据集
文本分类¶
机器翻译¶
多语种30千¶
-
torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]¶ Multi30k 数据集
Reference: http://www.statmt.org/wmt16/multimodal-task.html#task1
- Parameters
根目录 – 数据集保存的目录。默认值:“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')
语言对 – 包含源语言和目标语言的元组或列表。可用选项为(‘de’,’en’)和(‘en’, ‘de’)
IWSLT2016¶
-
torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[source]¶ IWSLT2016 数据集
可用的数据集包括以下内容:
语言对:
‘en’
‘fr’
‘de’
‘cs’
‘ar’
‘en’
x
x
x
x
‘fr’
x
‘de’
x
‘cs’
x
‘ar’
x
验证/测试集: [‘dev2010’, ‘tst2010’, ‘tst2011’, ‘tst2012’, ‘tst2013’, ‘tst2014’]
有关更多详细信息,请参阅源网站:https://wit3.fbk.eu/2016-01
- Parameters
根目录 – 数据集保存的目录。默认值:“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')
语言对 – 包含源语言和目标语言的元组或列表
valid_set – 用于标识验证集的字符串。
测试集 – 用于标识测试集的字符串。
示例
>>> from torchtext.datasets import IWSLT2016 >>> train_iter, valid_iter, test_iter = IWSLT2016() >>> src_sentence, tgt_sentence = next(train_iter)
IWSLT2017¶
-
torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]¶ IWSLT2017 数据集
可用的数据集包括以下内容:
语言对:
‘en’
‘nl’
‘de’
‘it’
‘ro’
‘en’
x
x
x
x
‘nl’
x
x
x
x
‘de’
x
x
x
x
‘it’
x
x
x
x
‘ro’
x
x
x
x
欲了解更多信息,请参阅源网站:https://wit3.fbk.eu/2017-01
- Parameters
根目录 – 数据集保存的目录。默认值:“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')
语言对 – 包含源语言和目标语言的元组或列表
示例
>>> from torchtext.datasets import IWSLT2017 >>> train_iter, valid_iter, test_iter = IWSLT2017() >>> src_sentence, tgt_sentence = next(train_iter)