目录

示例

在本节中,您将找到使用DataPipes实现的各种流行数据集的加载方法(适用于不同研究领域)。

音频

LibriSpeech

LibriSpeech 数据集 是一个包含大约 1000 小时的 16kHz 阅读 英语语音的语料库。这里是 LibriSpeech 的 DataPipe 实现 用于加载数据。

文本

亚马逊评论极性

Amazon 评论数据集包含来自 Amazon 的评论。其目的是训练文本/情感分类模型。 在我们的 DataPipe 数据集实现中, 我们用详细的注释描述了每一步,以帮助您理解每个 DataPipe 在做什么。我们建议 您查看这个示例。

IMDB

这是一个用于二分类情感分析的大型电影评论数据集,包含25,000条高度极化的训练电影评论和25,000条测试电影评论。这里是 加载数据的DataPipe实现

SQuAD

SQuAD(斯坦福问答数据集)是一个用于阅读理解的数据集。它由众包工作者在一组维基百科文章上提出的一系列问题组成。以下是 版本 1.1 的 DataPipe 实现,以及 版本 2.0

TorchText中的其他数据集

在单独的 PyTorch 领域库 TorchText 中,你可以找到一些 NLP 领域中最受欢迎的数据集,这些数据集使用 DataPipes 实现为可加载数据集。你可以在 这里找到所有这些 NLP 数据集

视觉

加利福尼亚理工学院 101

Caltech 101 数据集包含属于 101 个类别的物体图片。 这是 Caltech 101 数据集DataPipe 实现

Caltech 256

Caltech 256 数据集包含来自 256 个类别的 30607 张图像。这是 Caltech 256 数据集DataPipe 实现

更多TorchVision数据集

在一个单独的PyTorch领域库中,TorchVision,你会发现计算机视觉领域中最受欢迎的一些数据集作为可加载的数据集使用DataPipes。你可以在这里找到所有这些视觉数据集

注意,这些实现目前处于原型阶段,但预计在未来几个月内将得到全面支持。尽管如此,它们展示了DataPipes可以以不同方式用于数据加载的不同方法。

推荐系统

Criteo 1TB Click Logs

Criteo 数据集包含数百万个展示广告的特征值和点击反馈。它旨在为点击率 (CTR) 预测算法提供基准。你可以在 TorchRec 中找到带有 DataPipes 的数据集的原型阶段实现。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源