目录

例子

在本节中,您将找到各种 跨不同研究领域的流行数据集。

音频

Libri演讲

LibriSpeech 数据集是大约 1000 小时的 16kHz 读取语料库 英语语音。这是 LibriSpeech 的 DataPipe 实现,用于加载数据。

发短信

亚马逊评论极性

Amazon reviews 数据集包含来自 Amazon 的评论。其目的是训练文本/情感分类模型。 在数据集的 DataPipe 实现中, 我们通过详细的注释描述了每个步骤,以帮助您了解每个 DataPipe 的作用。我们建议 看看这个例子。

IMDB的

这是一个用于二进制情绪的大型电影评论数据集 分类包含 25,000 条用于培训的高度极性电影评论和 25,00 条用于测试的电影评论。这是用于加载数据的 DataPipe 实现

SQuAD(斯坦福问答数据集)是 阅读理解。它由众包工作者对一组 Wikipedia 文章提出的问题列表组成。以下是 1.1 版2.0 版的 DataPipe 实现现已推出。

TorchText 中的其他数据集

在单独的 PyTorch 域库 TorchText 中,您将找到一些最 NLP 领域的常用数据集使用 DataPipes 实现为可加载数据集。您可以找到 所有这些 NLP 数据集都在这里

视觉

加州理工学院 101

Caltech 101 数据集包含对象的图片 属于 101 个类别。这是 Caltech 101 的 DataPipe 实现

加州理工学院 256

Caltech 256 数据集包含 30607 张图像 来自 256 个类别。这是 Caltech 256 的 DataPipe 实现

TorchVision 中的其他数据集

在单独的 PyTorch 域库 TorchVision 中,您将找到一些最 计算机视觉领域的常用数据集使用 DataPipes 实现为可加载数据集。您可以找到所有 那些视觉数据集在这里

请注意,这些实现目前处于原型阶段,但它们应该得到完全支持 在接下来的几个月里。尽管如此,它们还演示了 DataPipes 可用于数据加载的不同方式。

推荐系统

Criteo 1TB 点击日志

Criteo 数据集包含特征值 并点击数百万个展示广告的反馈。它旨在为 点击率 (CTR) 预测。您可以在 TorchRec 中找到带有 DataPipes 的数据集的原型阶段实现。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源