目录

torchtext.datasets

一般使用案例如下:

# import datasets
from torchtext.datasets import IMDB

train_iter = IMDB(split='train')

def tokenize(label, line):
    return line.split()

tokens = []
for label, line in train_iter:
    tokens += tokenize(label, line)

以下数据集可用:

文本分类

AG_NEWS

torchtext.datasets.AG_NEWS(root='.data'split=('train''test')[来源]

AG_NEWS 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车 : 120000

测试:7600

班级数

4

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

搜狗新闻

torchtext.datasets.SogouNews(root='.data'split=('train''test')[来源]

搜狗新闻数据集

单独返回 train/test 拆分

每个拆分的行数:

火车: 450000

测试:60000

班级数

5

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

DB百科

torchtext.datasets.DBpedia(root='.data'split=('train''test')[来源]

DBpedia 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车 : 560000

测试:70000

班级数

14

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

YelpReview极性

torchtext.datasets.YelpReviewPolarity(root='.data'split=('train''test')[来源]

YelpReviewPolarity 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车 : 560000

测试:38000

班级数

2

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

YelpReviewFull

torchtext.datasets.YelpReviewFull(root='.data'split=('train''test')[来源]

YelpReview完整数据集

单独返回 train/test 拆分

每个拆分的行数:

火车: 650000

测试:50000

班级数

5

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

雅虎答案

torchtext.datasets.YahooAnswers(root='.data'split=('train''test')[来源]

YahooAnswers 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车 : 1400000

测试:60000

班级数

10

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

亚马逊评论极性

torchtext.datasets.AmazonReviewPolarity(root='.data'split=('train''test')[来源]

AmazonReviewPolarity 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车: 3600000

测试:400000

班级数

2

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

亚马逊评论Full

torchtext.datasets.AmazonReviewFull(root='.data'split=('train''test')[来源]

AmazonReviewFull 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车: 3000000

测试:650000

班级数

5

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

IMDb

torchtext.datasets.IMDB(root='.data'split=('train''test')[来源]

IMDB 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车 : 25000

测试:25000

班级数

2

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

语言建模

维基文本-2

torchtext.datasets.WikiText2(root='.data'split=('train''valid''test')[来源]

WikiText2 数据集

单独返回 train/valid/test 拆分

每个拆分的行数:

火车: 36718

有效期: 3760

测试: 4358

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'valid', 'test')

维基文本103

torchtext.datasets.WikiText103(root='.data'split=('train''valid''test')[来源]

WikiText103 数据集

单独返回 train/valid/test 拆分

每个拆分的行数:

火车: 1801350

有效期: 3760

测试: 4358

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'valid', 'test')

宾夕法尼亚树岸

torchtext.datasets.PennTreebank(root='.data'split=('train''valid''test')[来源]

PennTreebank 数据集

单独返回 train/valid/test 拆分

每个拆分的行数:

火车: 42068

有效期: 3370

测试:3761

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'valid', 'test')

机器翻译

Multi30k

torchtext.datasets.Multi30k(root='.data'split=('train''valid''test'), language_pair=('de''en')[来源]

Multi30k 数据集

编号: http://www.statmt.org/wmt16/multimodal-task.html#task1

参数
  • root – 保存数据集的目录。默认值: “.data”

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')

  • language_pair – 包含 src 和 tgt 语言的元组或列表。可用选项包括 ('de','en') 和 ('en', 'de')

IWSLT2016

torchtext.datasets.IWSLT2016(root='.data'split=('train''valid''test')language_pair=('de''en')valid_set='tst2013'test_set='tst2014'[来源]

IWSLT2016 数据集

可用的数据集包括:

语言对

'en'

'fr'

'de'

'cs'

'ar'

'en'

x

x

x

x

'fr'

x

'de'

x

'cs'

x

'ar'

x

有效/测试集: ['dev2010', 'tst2010', 'tst2011', 'tst2012', 'tst2013', 'tst2014']

有关其他详细信息,请参阅源网站:https://wit3.fbk.eu/2016-01

参数
  • root – 保存数据集的目录。默认值: “.data”

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')

  • language_pair – 包含 src 和 tgt 语言的元组或列表

  • valid_set – 用于标识验证集的字符串。

  • test_set – 用于标识测试集的字符串。

例子

>>> from torchtext.datasets import IWSLT2016
>>> train_iter, valid_iter, test_iter = IWSLT2016()
>>> src_sentence, tgt_sentence = next(train_iter)

IWSLT2017

torchtext.datasets.IWSLT2017(root='.data'split=('train''valid''test'), language_pair=('de''en')[来源]

IWSLT2017 数据集

可用的数据集包括:

语言对

'en'

'nl'

'de'

'它'

'ro'

'en'

x

x

x

x

'nl'

x

x

x

x

'de'

x

x

x

x

'它'

x

x

x

x

'ro'

x

x

x

x

有关其他详细信息,请参阅源网站:https://wit3.fbk.eu/2017-01

参数
  • root – 保存数据集的目录。默认值: “.data”

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值: ('train', 'valid', 'test')

  • language_pair – 包含 src 和 tgt 语言的元组或列表

例子

>>> from torchtext.datasets import IWSLT2017
>>> train_iter, valid_iter, test_iter = IWSLT2017()
>>> src_sentence, tgt_sentence = next(train_iter)

序列标记

UDPOS

torchtext.datasets.UDPOS(root='.data'split=('train''valid''test')[来源]

UDPOS 数据集

单独返回 train/valid/test 拆分

每个拆分的行数:

火车: 12543

有效期:2002 年

测试:2077

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'valid', 'test')

CoNLL2000分块

torchtext.datasets.CoNLL2000Chunking(root='.data'split=('train''test')[来源]

CoNLL2000Chunking 数据集

单独返回 train/test 拆分

每个拆分的行数:

火车: 8936

测试时间:2012 年

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'test')

问题解答

SQuAD 1.0

torchtext.datasets.SQuAD1(root='.data'split=('train''dev')[来源]

SQuAD1 数据集

单独返回 train/dev 拆分

每个拆分的行数:

火车: 87599

开发:10570

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'dev')

SQuAD 2.0

torchtext.datasets.SQuAD2(root='.data'split=('train''dev')[来源]

SQuAD2 数据集

单独返回 train/dev 拆分

每个拆分的行数:

火车: 130319

开发:11873

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train', 'dev')

无监督学习

EnWik9

torchtext.datasets.EnWik9(root='.data'split=('train')[来源]

EnWik9 数据集

单独返回火车拆分

每个拆分的行数:

火车: 13147026

参数
  • root – 保存数据集的目录。 默认值:.data

  • split – 要返回的 split 或 split。可以是字符串或字符串元组。 默认值: ('train',)

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源