torchtext.datasets¶

一般使用案例如下：

# import datasets
from torchtext.datasets import IMDB

train_iter = IMDB(split='train')

def tokenize(label, line):
    return line.split()

tokens = []
for label, line in train_iter:
    tokens += tokenize(label, line)

以下数据集可用：

数据

文本分类 ¶

AG_NEWS ¶

torchtext.datasets.AG_NEWS(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

AG_NEWS 数据集

有关更多详细信息，请参阅 https://paperswithcode.com/dataset/ag-news

每个拆分的行数：

火车： 120000
测试：7600

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

生成 label （1 到 4）和 text 元组的 DataPipe

返回类型

(int， str)

亚马逊评论Full ¶

torchtext.datasets.AmazonReviewFull(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

AmazonReview完整数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 3000000
测试：650000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，它生成标签（1 到 5）的元组和包含评论标题和文本的文本

返回类型

(int， str)

亚马逊评论极性 ¶

torchtext.datasets.AmazonReviewPolarity(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

AmazonReviewPolarity 数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 3600000
测试：400000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，生成标签元组（1 到 2）和包含评论标题和文本的文本

返回类型

(int， str)

DB百科 ¶

torchtext.datasets.DBpedia(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

DBpedia 数据集

有关更多详细信息，请参阅 https://www.dbpedia.org/resources/latest-core/

每个拆分的行数：

火车： 560000
测试：70000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，它生成标签元组（1 到 14）和包含新闻标题和内容的文本

返回类型

(int， str)

IMDb ¶

torchtext.datasets.IMDB(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

IMDB 数据集

有关更多详细信息，请参阅 http://ai.stanford.edu/~amaas/data/sentiment/

每个拆分的行数：

火车： 25000
测试：25000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，生成标签（1 到 2）的元组和包含电影评论的文本

返回类型

(int， str)

搜狗新闻 ¶

torchtext.datasets.SogouNews(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

搜狗新闻数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 450000

测试：60000

参数：
root：保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'） split：返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，它生成标签（1 到 5）的元组和包含新闻标题和内容的文本

rtype

（整数、str）

SST2 ¶

torchtext.datasets.SST2(root='.data'， split=（'train'， 'dev'， 'test'））[来源]¶

SST2 数据集

有关更多详细信息，请参阅 https://nlp.stanford.edu/sentiment/

每个拆分的行数：

火车： 67349
开发： 872
测试：1821

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， dev， test)

返回

DataPipe 生成文本和/或标签的元组（1 到 4）。测试拆分仅返回文本。

返回类型

联合[（int， str），（str，）]

教程使用：SST2: SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

雅虎答案 ¶

torchtext.datasets.YahooAnswers(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

YahooAnswers 数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 1400000
测试：60000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，它产生标签（1 到 10）的元组和包含问题标题 question 的文本内容和最佳答案

返回类型

(int， str)

YelpReviewFull ¶

torchtext.datasets.YelpReviewFull(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

YelpReview完整数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 650000
测试：50000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，生成标签（1 到 5）的元组和包含评论的文本

返回类型

(int， str)

YelpReview极性 ¶

torchtext.datasets.YelpReviewPolarity(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'test'）））[来源]¶

YelpReview极性数据集

有关更多详细信息，请参阅 https://arxiv.org/abs/1509.01626

每个拆分的行数：

火车： 560000
测试：38000

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， test)

返回

DataPipe，它生成标签元组（1 到 2）和包含评论的文本

返回类型

(int， str)

语言建模 ¶

宾夕法尼亚树班克 ¶

torchtext.datasets.PennTreebank(root='.data'， split： Union[元组[str]， str] = （'train'， 'valid'， 'test'））[来源]¶

PennTreebank 数据集

有关其他详细信息，请参阅 https://catalog.ldc.upenn.edu/docs/LDC95T7/cl93.html

每个拆分的行数：

火车： 42068
有效期： 3370
测试：3761

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， valid， test)

返回

DataPipe 从 Treebank 语料库生成文本

返回类型

str

维基文本-2 ¶

torchtext.datasets.WikiText2(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'valid'， 'test'）））[来源]¶

WikiText2 数据集

每个拆分的行数：

火车： 36718
有效期： 3760
测试： 4358

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， valid， test)

返回

从 Wikipedia 文章中生成文本的 DataPipe

返回类型

str

维基文本103 ¶

torchtext.datasets.WikiText103(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'valid'， 'test'）））[来源]¶

WikiText103 数据集

每个拆分的行数：

火车： 1801350
有效期： 3760
测试： 4358

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（train， valid， test)

返回

从 Wikipedia 文章中生成文本的 DataPipe

返回类型

str

机器翻译 ¶

IWSLT2016 ¶

torchtext.datasets.IWSLT2016(root='.data'， split=（'train'， 'valid'， 'test'）， language_pair=（'de'， 'en'）， valid_set='tst2013'， test_set='tst2014'）[来源]¶

IWSLT2016 数据集

有关更多详细信息，请参阅 https://wit3.fbk.eu/2016-01

可用的数据集包括：

语言对：

	“en”	“fr”	“de”	“cs”	“AR” （AR）（AR）（英语
“en”		x	x	x	x
“fr”	x
“de”	x
“cs”	x
“AR” （AR）（AR）（英语	x

有效/测试集： [“dev2010”， “tst2010”， “tst2011”， “tst2012”， “tst2013”， “tst2014”]

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（'train'， 'valid'， 'test'）
language_pair – 包含 src 和 tgt 语言的元组或列表
valid_set – 用于标识验证集的字符串。
test_set – 用于标识测试集的字符串。

返回

DataPipe 生成源句子和目标句子的元组

返回类型

(str、str)

例子

>>> from torchtext.datasets import IWSLT2016
>>> train_iter, valid_iter, test_iter = IWSLT2016()
>>> src_sentence, tgt_sentence = next(iter(train_iter))

IWSLT2017 ¶

torchtext.datasets.IWSLT2017(root='.data'， split=（'train'， 'valid'， 'test'）， language_pair=（'de'， 'en'））[来源]¶

IWSLT2017 数据集

有关更多详细信息，请参阅 https://wit3.fbk.eu/2017-01

可用的数据集包括：

语言对：

	“en”	“nl”	“de”	“它”	“RO”
“en”		x	x	x	x
“nl”	x		x	x	x
“de”	x	x		x	x
“它”	x	x	x		x
“RO”	x	x	x	x

参数

root – 保存数据集的目录。默认值： os.path.expanduser（'~/.torchtext/cache'）
split – 要返回的 split 或 split。可以是字符串或字符串元组。默认值：（'train'， 'valid'， 'test'）
language_pair – 包含 src 和 tgt 语言的元组或列表

返回

DataPipe 生成源句子和目标句子的元组

返回类型

(str、str)

例子

>>> from torchtext.datasets import IWSLT2017
>>> train_iter, valid_iter, test_iter = IWSLT2017()
>>> src_sentence, tgt_sentence = next(iter(train_iter))

Multi30k ¶

torchtext.datasets.Multi30k(根： str = '.data'， split： Union[Tuple[str]， str] = （'train'， 'valid'， 'test'）， language_pair： Tuple[str] = （'de'， 'en'））[来源]¶