torchtext.datasets¶

一般用例如下：

# import datasets
from torchtext.datasets import IMDB

train_iter = IMDB(split='train')

def tokenize(label, line):
    return line.split()

tokens = []
for label, line in train_iter:
    tokens += tokenize(label, line)

以下数据集可用：

数据集

文本分类 ¶

AG_NEWS ¶

torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))[source]¶

AG 新闻数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：120000

测试：7600

Number of classes

4

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

SogouNews ¶

torchtext.datasets.SogouNews(root='.data', split=('train', 'test'))[source]¶

搜狗新闻数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：450000

测试：60000

Number of classes

5

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

DBpedia ¶

torchtext.datasets.DBpedia(root='.data', split=('train', 'test'))[source]¶

DBpedia 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练集：560000

测试：70000

Number of classes

14

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

YelpReviewPolarity ¶

torchtext.datasets.YelpReviewPolarity(root='.data', split=('train', 'test'))[source]¶

Yelp评论极性数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练集：560000

测试：38000

Number of classes

2

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

YelpReviewFull ¶

torchtext.datasets.YelpReviewFull(root='.data', split=('train', 'test'))[source]¶

Yelp评论全文数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：650000

测试：50000

Number of classes

5

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

YahooAnswers ¶

torchtext.datasets.YahooAnswers(root='.data', split=('train', 'test'))[source]¶

Yahoo Answers 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：1400000

测试：60000

Number of classes

10

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

AmazonReviewPolarity ¶

torchtext.datasets.AmazonReviewPolarity(root='.data', split=('train', 'test'))[source]¶

Amazon评论极性数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：3600000

测试：400000

Number of classes

2

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

AmazonReviewFull ¶

torchtext.datasets.AmazonReviewFull(root='.data', split=('train', 'test'))[source]¶

AmazonReviewFull 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：3000000

测试：650000

Number of classes

5

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

IMDb ¶

torchtext.datasets.IMDB(root='.data', split=('train', 'test'))[source]¶

IMDb 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：25000

测试：25000

Number of classes

2

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

语言建模 ¶

WikiText-2 ¶

torchtext.datasets.WikiText2(root='.data', split=('train', 'valid', 'test'))[source]¶

WikiText2 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练：36718

有效的：3760

测试：4358

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：（'train', 'valid', 'test'）

WikiText103 ¶

torchtext.datasets.WikiText103(root='.data', split=('train', 'valid', 'test'))[source]¶

WikiText103 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练：1801350

有效的：3760

测试：4358

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：（'train', 'valid', 'test'）

PennTreebank ¶

torchtext.datasets.PennTreebank(root='.data', split=('train', 'valid', 'test'))[source]¶

PennTreebank 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练：42068

有效：3370

测试：3761

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：（'train', 'valid', 'test'）

机器翻译 ¶

多语种30千 ¶

torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]¶

Multi30k 数据集

Reference: http://www.statmt.org/wmt16/multimodal-task.html#task1

Parameters

根目录 – 数据集保存的目录。默认值：“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值：（'训练', '验证', '测试'）
语言对 – 包含源语言和目标语言的元组或列表。可用选项为（‘de’，’en’）和（‘en’， ‘de’）

IWSLT2016 ¶

torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[source]¶

IWSLT2016 数据集

可用的数据集包括以下内容：

语言对：

	‘en’	‘fr’	‘de’	‘cs’	‘ar’
‘en’		x	x	x	x
‘fr’	x
‘de’	x
‘cs’	x
‘ar’	x

验证/测试集: [‘dev2010’, ‘tst2010’, ‘tst2011’, ‘tst2012’, ‘tst2013’, ‘tst2014’]

有关更多详细信息，请参阅源网站：https://wit3.fbk.eu/2016-01

Parameters

根目录 – 数据集保存的目录。默认值：“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值：（'训练', '验证', '测试'）
语言对 – 包含源语言和目标语言的元组或列表
valid_set – 用于标识验证集的字符串。
测试集 – 用于标识测试集的字符串。

示例

>>> from torchtext.datasets import IWSLT2016
>>> train_iter, valid_iter, test_iter = IWSLT2016()
>>> src_sentence, tgt_sentence = next(train_iter)

IWSLT2017 ¶

torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]¶

IWSLT2017 数据集

可用的数据集包括以下内容：

语言对：

	‘en’	‘nl’	‘de’	‘it’	‘ro’
‘en’		x	x	x	x
‘nl’	x		x	x	x
‘de’	x	x		x	x
‘it’	x	x	x		x
‘ro’	x	x	x	x

欲了解更多信息，请参阅源网站：https://wit3.fbk.eu/2017-01

Parameters

根目录 – 数据集保存的目录。默认值：“.data”
拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值：（'训练', '验证', '测试'）
语言对 – 包含源语言和目标语言的元组或列表

示例

>>> from torchtext.datasets import IWSLT2017
>>> train_iter, valid_iter, test_iter = IWSLT2017()
>>> src_sentence, tgt_sentence = next(train_iter)

序列标注 ¶

UDPOS ¶

torchtext.datasets.UDPOS(root='.data', split=('train', 'valid', 'test'))[source]¶

UDPOS 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练：12543

有效：2002

测试：2077

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：（'train', 'valid', 'test'）

CoNLL2000Chunking ¶

torchtext.datasets.CoNLL2000Chunking(root='.data', split=('train', 'test'))[source]¶

CoNLL2000 分块数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练：8936

测试：2012

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。默认值：(‘train’, ‘test’)

问题答案 ¶

SQuAD 1.0 ¶

torchtext.datasets.SQuAD1(root='.data', split=('train', 'dev'))[source]¶

SQuAD1 数据集

单独返回训练/开发数据集划分

Number of lines per split:

训练：87599

开发版：10570

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数目。可以是字符串或字符串元组。默认值：(‘train’, ‘dev’)

SQuAD 2.0 ¶

torchtext.datasets.SQuAD2(root='.data', split=('train', 'dev'))[source]¶

SQuAD2 数据集

单独返回训练/开发数据集划分

Number of lines per split:

训练：130319

开发版：11873

Parameters

根目录 – 数据集保存的目录。默认值：.data
split – 需要拆分或返回的拆分数目。可以是字符串或字符串元组。默认值：(‘train’, ‘dev’)

无监督学习 ¶

EnWik9 ¶

torchtext.datasets.EnWik9(root='.data', split=('train', ))[source]¶

EnWik9 数据集

单独返回训练集部分

Number of lines per split:: 训练：13147026

Parameters

根目录 – 数据集保存的目录。默认值：.data
分割 – 返回的分割或分割集。可以是字符串或字符串元组。默认值：('train',)

torchtext.datasets¶

文本分类 ¶

AG_NEWS ¶

SogouNews ¶

DBpedia ¶

YelpReviewPolarity ¶

YelpReviewFull ¶

YahooAnswers ¶

AmazonReviewPolarity ¶

AmazonReviewFull ¶

IMDb ¶

语言建模 ¶

WikiText-2 ¶

WikiText103 ¶

PennTreebank ¶

机器翻译 ¶

多语种30千 ¶

IWSLT2016 ¶

IWSLT2017 ¶

序列标注 ¶

UDPOS ¶

CoNLL2000Chunking ¶

问题答案 ¶

SQuAD 1.0 ¶

SQuAD 2.0 ¶

无监督学习 ¶

EnWik9 ¶

文档

教程

资源