例子¶
在本节中,您将找到各种 跨不同研究领域的流行数据集。一些示例是 PyTorch 团队的实现,而 实现代码在 PyTorch 库中维护。其他 API 由 PyTorch 社区的成员创建。
音频¶
Libri演讲¶
LibriSpeech 数据集是大约 1000 小时的 16kHz 读取语料库 英语语音。这是 LibriSpeech 的 DataPipe 实现,用于加载数据。
发短信¶
亚马逊评论极性¶
Amazon reviews 数据集包含来自 Amazon 的评论。其目的是训练文本/情感分类模型。 在数据集的 DataPipe 实现中, 我们通过详细的注释描述了每个步骤,以帮助您了解每个 DataPipe 的作用。我们建议 看看这个例子。
IMDB的¶
这是一个用于二进制情绪的大型电影评论数据集 分类包含 25,000 条用于培训的高度极性电影评论和 25,00 条用于测试的电影评论。这是用于加载数据的 DataPipe 实现。
班¶
SQuAD(斯坦福问答数据集)是 阅读理解。它由众包工作者对一组 Wikipedia 文章提出的问题列表组成。以下是 1.1 版和 2.0 版的 DataPipe 实现现已推出。
TorchText 中的其他数据集¶
在单独的 PyTorch 域库 TorchText 中,您将找到一些最 NLP 领域的常用数据集使用 DataPipes 实现为可加载数据集。您可以找到 所有这些 NLP 数据集都在这里。
视觉¶
加州理工学院 101¶
Caltech 101 数据集包含对象的图片 属于 101 个类别。这是 Caltech 101 的 DataPipe 实现。
加州理工学院 256¶
Caltech 256 数据集包含 30607 张图像 来自 256 个类别。这是 Caltech 256 的 DataPipe 实现。
CamVid - 语义分割(社区示例)¶
Cambridge-driving Labeled Video Database (CamVid) 是具有对象类语义的视频集合 标签,并包含元数据。该数据库提供将每个像素与 32 个像素之一相关联的真值标签 语义类。这是我们社区创建的 CamVid 的 DataPipe 实现。
laion2B-en-joined¶
laion2B-en-joined 数据集是 LAION-5B 数据集的子集,包含英文字幕、指向图像的 URls、 和其他元数据。它包含大约 23.2 亿个条目。 目前(2023 年 2 月),大约 86% 的 URL 仍然指向有效的图像。这是 laion2B-en-joined 的 DataPipe 实现,它过滤掉不安全的图像和带水印的图像,并从 URL 加载图像。
TorchVision 中的其他数据集¶
在单独的 PyTorch 域库 TorchVision 中,您将找到一些最 计算机视觉领域的常用数据集使用 DataPipes 实现为可加载数据集。您可以找到所有 那些视觉数据集在这里。
请注意,这些实现目前处于原型阶段,但它们应该得到完全支持 在接下来的几个月里。尽管如此,它们还演示了 DataPipes 可用于数据加载的不同方式。
推荐系统¶
Criteo 1TB 点击日志¶
Criteo 数据集包含特征值 并点击数百万个展示广告的反馈。它旨在为 点击率 (CTR) 预测。您可以在 TorchRec 中找到带有 DataPipes 的数据集的原型阶段实现。
图形、网格和点云¶
TigerGraph(社区示例)¶
TigerGraph 是一个适用于 AI 和 ML 的可扩展图形数据平台。您可以在 TorchData 中找到使用 DataPipes 和存储在 TigerGraph 数据库中的数据实现图形特征工程和机器学习,其中包括计算数据库中的 PageRank 分数、使用多个 DataPipe 提取图形数据和特征,以及使用 PyTorch 中的图形特征训练神经网络。
MoleculeNet(社区示例)¶
MoleculeNet 是专为测试机器学习方法而设计的基准测试 分子特性。您可以在 PyTorch Geometry 中找到带有 DataPipes 的 HIV 数据集的实现。 其中包括将 SMILES 字符串转换为分子图表示。
Princeton ModelNet(社区示例)¶
Princeton ModelNet 项目提供了跨各种对象类型的全面而清晰的 3D CAD 模型集合。 您可以在 PyTorch Geometry 中找到带有 DataPipes 的 ModelNet10 数据集的实现。 这包括通过 Meshio 读取网格,以及从对象表面和动态中采样点 通过 PyG 的函数转换生成图形。
时间序列¶
Timeseries 滚动窗口的自定义 DataPipe(社区示例)¶
为时间序列预测任务实施滚动窗口自定义 DataPipe。 下面是滚动窗口的 DataPipe 实现。
使用 AIStore¶
Caltech 256 和 Microsoft COCO(社区示例)¶
列出和加载来自 AIS 存储桶(不是基于第三方后端的存储桶)和远程云存储桶(第三方)的数据 基于后端的云存储桶)。
这是一个使用 AISIO DataPipe 处理 Caltech-256 对象类别数据集的示例,其中包含 256 个对象类别和总计 存储在 AIS 存储桶上的 30607 张图像,以及 Microsoft COCO 数据集,其中包含 330K 张图像和超过 200K 的图像 存储在 Google Cloud 上的 80 个对象类别中的 150 多万个对象实例的标签。