目录

torchtext.datasets

一般用例如下:

# import datasets
from torchtext.datasets import IMDB

train_iter = IMDB(split='train')

def tokenize(label, line):
    return line.split()

tokens = []
for label, line in train_iter:
    tokens += tokenize(label, line)

以下数据集可用:

文本分类

AG_NEWS

torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))[source]

AG 新闻数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:120000

测试:7600

Number of classes

4

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

SogouNews

torchtext.datasets.SogouNews(root='.data', split=('train', 'test'))[source]

搜狗新闻数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:450000

测试:60000

Number of classes

5

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

DBpedia

torchtext.datasets.DBpedia(root='.data', split=('train', 'test'))[source]

DBpedia 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练集:560000

测试:70000

Number of classes

14

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

YelpReviewPolarity

torchtext.datasets.YelpReviewPolarity(root='.data', split=('train', 'test'))[source]

Yelp评论极性数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练集:560000

测试:38000

Number of classes

2

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

YelpReviewFull

torchtext.datasets.YelpReviewFull(root='.data', split=('train', 'test'))[source]

Yelp评论全文数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:650000

测试:50000

Number of classes

5

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

YahooAnswers

torchtext.datasets.YahooAnswers(root='.data', split=('train', 'test'))[source]

Yahoo Answers 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:1400000

测试:60000

Number of classes

10

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

AmazonReviewPolarity

torchtext.datasets.AmazonReviewPolarity(root='.data', split=('train', 'test'))[source]

Amazon评论极性数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:3600000

测试:400000

Number of classes

2

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

AmazonReviewFull

torchtext.datasets.AmazonReviewFull(root='.data', split=('train', 'test'))[source]

AmazonReviewFull 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:3000000

测试:650000

Number of classes

5

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

IMDb

torchtext.datasets.IMDB(root='.data', split=('train', 'test'))[source]

IMDb 数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:25000

测试:25000

Number of classes

2

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

语言建模

WikiText-2

torchtext.datasets.WikiText2(root='.data', split=('train', 'valid', 'test'))[source]

WikiText2 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练:36718

有效的:3760

测试:4358

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:('train', 'valid', 'test')

WikiText103

torchtext.datasets.WikiText103(root='.data', split=('train', 'valid', 'test'))[source]

WikiText103 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练:1801350

有效的:3760

测试:4358

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:('train', 'valid', 'test')

PennTreebank

torchtext.datasets.PennTreebank(root='.data', split=('train', 'valid', 'test'))[source]

PennTreebank 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练:42068

有效:3370

测试:3761

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:('train', 'valid', 'test')

机器翻译

多语种30千

torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]

Multi30k 数据集

Reference: http://www.statmt.org/wmt16/multimodal-task.html#task1

Parameters
  • 根目录 – 数据集保存的目录。默认值:“.data”

  • 拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')

  • 语言对 – 包含源语言和目标语言的元组或列表。可用选项为(‘de’,’en’)和(‘en’, ‘de’)

IWSLT2016

torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')[source]

IWSLT2016 数据集

可用的数据集包括以下内容:

语言对

‘en’

‘fr’

‘de’

‘cs’

‘ar’

‘en’

x

x

x

x

‘fr’

x

‘de’

x

‘cs’

x

‘ar’

x

验证/测试集: [‘dev2010’, ‘tst2010’, ‘tst2011’, ‘tst2012’, ‘tst2013’, ‘tst2014’]

有关更多详细信息,请参阅源网站:https://wit3.fbk.eu/2016-01

Parameters
  • 根目录 – 数据集保存的目录。默认值:“.data”

  • 拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')

  • 语言对 – 包含源语言和目标语言的元组或列表

  • valid_set – 用于标识验证集的字符串。

  • 测试集 – 用于标识测试集的字符串。

示例

>>> from torchtext.datasets import IWSLT2016
>>> train_iter, valid_iter, test_iter = IWSLT2016()
>>> src_sentence, tgt_sentence = next(train_iter)

IWSLT2017

torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))[source]

IWSLT2017 数据集

可用的数据集包括以下内容:

语言对

‘en’

‘nl’

‘de’

‘it’

‘ro’

‘en’

x

x

x

x

‘nl’

x

x

x

x

‘de’

x

x

x

x

‘it’

x

x

x

x

‘ro’

x

x

x

x

欲了解更多信息,请参阅源网站:https://wit3.fbk.eu/2017-01

Parameters
  • 根目录 – 数据集保存的目录。默认值:“.data”

  • 拆分 – 返回的拆分或拆分数组。可以是字符串或字符串元组。默认值:('训练', '验证', '测试')

  • 语言对 – 包含源语言和目标语言的元组或列表

示例

>>> from torchtext.datasets import IWSLT2017
>>> train_iter, valid_iter, test_iter = IWSLT2017()
>>> src_sentence, tgt_sentence = next(train_iter)

序列标注

UDPOS

torchtext.datasets.UDPOS(root='.data', split=('train', 'valid', 'test'))[source]

UDPOS 数据集

单独返回训练集/验证集/测试集划分

Number of lines per split:

训练:12543

有效:2002

测试:2077

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:('train', 'valid', 'test')

CoNLL2000Chunking

torchtext.datasets.CoNLL2000Chunking(root='.data', split=('train', 'test'))[source]

CoNLL2000 分块数据集

单独返回训练/测试数据集划分

Number of lines per split:

训练:8936

测试:2012

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数组。可以是字符串或字符串元组。 默认值:(‘train’, ‘test’)

问题 答案

SQuAD 1.0

torchtext.datasets.SQuAD1(root='.data', split=('train', 'dev'))[source]

SQuAD1 数据集

单独返回训练/开发数据集划分

Number of lines per split:

训练:87599

开发版:10570

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数目。可以是字符串或字符串元组。 默认值:(‘train’, ‘dev’)

SQuAD 2.0

torchtext.datasets.SQuAD2(root='.data', split=('train', 'dev'))[source]

SQuAD2 数据集

单独返回训练/开发数据集划分

Number of lines per split:

训练:130319

开发版:11873

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • split – 需要拆分或返回的拆分数目。可以是字符串或字符串元组。 默认值:(‘train’, ‘dev’)

无监督学习

EnWik9

torchtext.datasets.EnWik9(root='.data', split=('train', ))[source]

EnWik9 数据集

单独返回训练集部分

Number of lines per split:

训练:13147026

Parameters
  • 根目录 – 数据集保存的目录。 默认值:.data

  • 分割 – 返回的分割或分割集。可以是字符串或字符串元组。 默认值:('train',)

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源