示例¶
在本节中,您将找到使用DataPipes实现的各种流行数据集的加载方法(跨不同研究领域)。其中一些例子是由PyTorch团队实现的,实现代码保留在PyTorch库内。其他例子则是由PyTorch社区成员创建的。
音频¶
LibriSpeech¶
LibriSpeech 数据集 是一个包含大约 1000 小时的 16kHz 阅读 英语语音的语料库。这里是 LibriSpeech 的 DataPipe 实现 用于加载数据。
文本¶
亚马逊评论极性¶
Amazon 评论数据集包含来自 Amazon 的评论。其目的是训练文本/情感分类模型。 在我们的 DataPipe 数据集实现中, 我们用详细的注释描述了每一步,以帮助您理解每个 DataPipe 在做什么。我们建议 您查看这个示例。
IMDB¶
这是一个用于二分类情感分析的大型电影评论数据集,包含25,000条高度极化的训练电影评论和25,000条测试电影评论。这里是 加载数据的DataPipe实现。
SQuAD¶
SQuAD(斯坦福问答数据集)是一个用于阅读理解的数据集。它由众包工作者在一组维基百科文章上提出的一系列问题组成。以下是 版本 1.1 的 DataPipe 实现,以及 版本 2.0。
TorchText中的其他数据集¶
在单独的 PyTorch 领域库 TorchText 中,你可以找到一些 NLP 领域中最受欢迎的数据集,这些数据集使用 DataPipes 实现为可加载数据集。你可以在 这里找到所有这些 NLP 数据集。
视觉¶
加利福尼亚理工学院 101¶
Caltech 101 数据集包含属于 101 个类别的物体图片。 这是 Caltech 101 数据集的 DataPipe 实现。
Caltech 256¶
Caltech 256 数据集包含来自 256 个类别的 30607 张图像。这是 Caltech 256 数据集的 DataPipe 实现。
CamVid - 语义分割(社区示例)¶
Cambridge-driving Labeled Video Database (CamVid,剑桥驾驶有标签视频数据库) 是一个带有对象类别语义标签的视频集合,包含元数据。该数据库提供了将每个像素与 32 个语义类别之一关联的地面真实标签。这是我们社区创建的 CamVid 的 DataPipe 实现。
更多TorchVision数据集¶
在一个单独的PyTorch领域库中,TorchVision,你会发现计算机视觉领域中最受欢迎的一些数据集作为可加载的数据集使用DataPipes。你可以在这里找到所有这些
注意,这些实现目前处于原型阶段,但预计在未来几个月内将得到全面支持。尽管如此,它们展示了DataPipes可以以不同方式用于数据加载的不同方法。
推荐系统¶
Criteo 1TB Click Logs¶
Criteo 数据集包含数百万个展示广告的特征值和点击反馈。它旨在为点击率 (CTR) 预测算法提供基准。你可以在 TorchRec 中找到带有 DataPipes 的数据集的原型阶段实现。
图、网格和点云¶
TigerGraph (社区示例)¶
TigerGraph 是一个可扩展的图数据平台,适用于人工智能和机器学习。你可以在 TorchData 中找到使用 DataPipes 进行图特征工程和机器学习的 实现,其中数据存储在 TigerGraph 数据库中,包括在数据库中计算 PageRank 分数,使用多个 DataPipes 提取图数据和特征,并使用 PyTorch 中的图特征训练神经网络。
分子网络(社区示例)¶
MoleculeNet 是专门为测试分子性质的机器学习方法而设计的基准。你可以找到 PyTorch Geometric 中使用 DataPipes 的 HIV 数据集实现, 其中包括将 SMILES 字符串转换为分子图表示。
普林斯顿模型网(社区示例)¶
普林斯顿ModelNet项目提供了各种对象类型的3D CAD模型的全面且干净的集合。 你可以在PyTorch Geometric中找到 ModelNet10数据集与DataPipes的实现, 其中包括通过meshio读取网格,从物体表面采样点以及通过PyG的功能转换进行动态图生成。
时序¶
自定义数据管道用于时间序列滚动窗口(社区示例)¶
实现一个滚动窗口自定义 DataPipe,用于时间序列预测任务。 这是 滚动窗口的DataPipe实现。
使用AIStore¶
Caltech 256和Microsoft COCO(社区示例)¶
列出并加载来自AIS桶(非第三方后端基于的桶)和远程云桶(第三方后端基于的云桶)的数据,使用AISFileLister和AISFileLoader。
这里是一个使用AISIO DataPipe的示例,用于包含256个对象类别的Caltech-256对象类别数据集和总计30607张存储在AIS存储桶中的图像,以及Microsoft COCO数据集,该数据集包含33万张图像,超过20万个标签,涵盖80个对象类别中的150多万个对象实例,存储在Google云上。