注意力

2024年6月更新：移除DataPipes和DataLoader V2

我们正在重新聚焦torchdata仓库，使其成为torch.utils.data.DataLoader的迭代增强。我们不计划继续开发或维护[DataPipes]和[DataLoaderV2]解决方案，并且它们将从torchdata仓库中移除。我们还将重新审视pytorch/pytorch中的DataPipes引用。在torchdata==0.8.0版本（2024年7月）中，它们将被标记为已弃用，并在0.9.0版本（2024年10月）中删除。现有用户建议固定到torchdata==0.8.0或更早版本，直到他们能够迁移为止。后续版本将不再包含DataPipes或DataLoaderV2。如果您有任何建议或评论，请使用此问题反馈。

地图样式数据管道¶

一个地图式数据管道是实现 __getitem__() 和 __len__() 协议的，它表示一个从（可能不是整数）索引/键到数据样本的映射。这与 PyTorch 核心库中的 Dataset 相当。

例如，当访问 mapdatapipe[idx] 时，可以读取磁盘上文件夹中的第 idx 张图像及其对应标签。

class torchdata.datapipes.map.MapDataPipe¶

地图风格的数据管道。

所有表示从键到数据样本映射的数据集都应该继承自这个类。子类应该重写 __getitem__()，支持根据给定的、唯一的键获取一个数据样本。子类也可以选择性地重写 __len__()，这通常由许多实现预期返回数据集的大小，并且默认选项为 Sampler 和 DataLoader。

这些DataPipes可以通过两种方式调用，使用类构造函数或将其功能形式应用到现有的MapDataPipe（推荐，适用于大多数但并非所有DataPipes）。

注意

DataLoader 默认情况下构建一个索引采样器，该采样器返回整数索引。要使其与具有非整数索引/键的映射式DataPipe一起工作，必须提供自定义采样器。

示例

>>> # xdoctest: +SKIP
>>> from torchdata.datapipes.map import SequenceWrapper, Mapper
>>> dp = SequenceWrapper(range(10))
>>> map_dp_1 = dp.map(lambda x: x + 1)  # Using functional form (recommended)
>>> list(map_dp_1)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> map_dp_2 = Mapper(dp, lambda x: x + 1)  # Using class constructor
>>> list(map_dp_2)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> batch_dp = map_dp_1.batch(batch_size=2)
>>> list(batch_dp)
[[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]

设计上，MapDataPipe个比IterDataPipe个少，以避免对相同功能的重复实现。我们鼓励用户使用内置的IterDataPipe进行各种功能，根据需要将其转换为MapDataPipe，并使用IterToMapConverter或.to_map_datapipe()进行操作。如果您有任何关于使用或最佳实践的问题，请在PyTorch论坛下MapDataPipe的“数据”类别中提问。

我们欢迎添加额外的MapDataPipe，其中操作可以被延迟执行，并且__len__可以提前知道。请在这个Github问题中描述您的用例并提出建议。关于我们的设计选择的反馈也欢迎在该Github问题中提出。

以下是可用的Map风格DataPipes列表：

列表中的MapDataPipes¶

`Batcher`	创建数据小批量（功能名称：`batch`）。
`Concater`	将多个Map DataPipes进行连接（功能名称：`concat`）。
`InMemoryCacheHolder`	存储源DataPipe中的元素到内存中（功能名称：`in_memory_cache`）。
`IterToMapConverter`	从`IterDataPipe`处懒加载数据以构建一个`MapDataPipe`，其中包含由`key_value_fn`（功能名称：`to_map_datapipe`）生成的键值对。
`Mapper`	在源DataPipe中应用输入函数（功能名称：`map`）。
`SequenceWrapper`	将序列对象包装成MapDataPipe。
`Shuffler`	随机打乱输入MapDataPipe的索引（功能名称：`shuffle`）。
`UnZipper`	接收一个序列数据管道，解包每个序列，并根据其在序列中的位置返回元素所在的独立数据管道（功能名称：`unzip`）。
`Zipper`	聚合每个输入DataPipes中的元素，形成一个元组（函数名：`zip`）。

地图样式数据管道¶

列表中的MapDataPipes¶

文档

教程

资源