变换和增强图像¶

Torchvision 在和模块中支持常见的计算机视觉转换。变换可用于转换或增强数据，以便训练或推断不同的任务（图像分类、检测、分割、视频分类）。torchvision.transformstorchvision.transforms.v2

# Image Classification
import torch
from torchvision.transforms import v2

H, W = 32, 32
img = torch.randint(0, 256, size=(3, H, W), dtype=torch.uint8)

transforms = v2.Compose([
    v2.RandomResizedCrop(size=(224, 224), antialias=True),
    v2.RandomHorizontalFlip(p=0.5),
    v2.ToDtype(torch.float32, scale=True),
    v2.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
img = transforms(img)

# Detection (re-using imports and transforms from above)
from torchvision import tv_tensors

img = torch.randint(0, 256, size=(3, H, W), dtype=torch.uint8)
boxes = torch.randint(0, H // 2, size=(3, 4))
boxes[:, 2:] += boxes[:, :2]
boxes = tv_tensors.BoundingBoxes(boxes, format="XYXY", canvas_size=(H, W))

# The same transforms can be used!
img, boxes = transforms(img, boxes)
# And you can pass arbitrary input structures
output_dict = transforms({"image": img, "boxes": boxes})

转换通常作为 or 参数传递到 Datasets。transformtransforms

从这里开始¶

无论您是 Torchvision 转换的新手，还是已经有 Torchvision 转换的经验他们，我们鼓励您从中的 Transforms v2 入门开始以了解有关新 v2 转换可以执行哪些作的更多信息。

然后，浏览本页下方的部分以获取一般信息和性能提示。API 参考中列出了可用的转换和功能。

更多信息和教程也可以在我们的示例库中找到，例如转换 v2：端到端对象检测/分割示例或如何编写您自己的 v2 转换。

支持的输入类型和约定¶

大多数转换都接受 PIL 图像和 Tensor Inputs。支持 CPU 和 CUDA 张量。两个后端（PIL 或 Tensors）的结果都应该非常关闭。一般来说，我们建议依赖张量后端性能。转换变换可用于与 PIL 图像相互转换，或转换 dtype 和 ranges。

Tensor 图像的形状应为，其中是通道数，以及和指的是 height 和 width。最转换支持批量张量输入。一批 Tensor 图像是 shape ，其中是批次中的图像数量。v2 转换通常接受任意数量的前导维度，并且可以处理批量图像或批量视频。(C, H, W)CHW(N, C, H, W)N(..., C, H, W)

Dtype 和期望值范围¶

张量图像值的预期范围由张量 dtype 。具有 float dtype 的 Tensor 图像应具有中的值。具有整数 dtype 的张量图像应为在其中是最大值可以用该 DTYPE 表示。通常，dtype 的图像应具有中的值。[0, 1][0, MAX_DTYPE]MAX_DTYPEtorch.uint8[0, 255]

用ToDtype要将 dtype 和范围。

V1 还是 V2？我应该使用哪一个？¶

TL;DR：我们建议使用转换而不是 .他们更快，而且他们可以做到更多的东西。只需更改导入，您就可以开始了。torchvision.transforms.v2torchvision.transforms

在 Torchvision 0.15（2023 年 3 月）中，我们发布了一组新的可用转换在 namespace 中。这些转换有很多与 V1 相比的优势（IN）：torchvision.transforms.v2torchvision.transforms

它们可以转换图像，也可以转换边界框、蒙版或视频。这为图像分类以外的任务提供支持：检测、分割、视频分类等。请参阅转换 v2 入门和转换 v2：端到端对象检测/分段示例。
它们支持更多转换，例如CutMix和MixUp.请参阅如何使用 CutMix 和 MixUp。
他们更快。
它们支持任意 Importing 结构（dicts， lists， tuples， etc.）
未来的改进和功能将仅添加到 v2 转换中。

这些转换与 v1 转换完全向后兼容，因此如果您已经在使用 TransForms From ，只需 do to 是将导入更新为。就 output，由于实现差异，可能存在可以忽略不计的差异。torchvision.transformstorchvision.transforms.v2

注意

v2 转换仍处于 BETA 阶段，但目前我们预计不会对其公共 API 进行的破坏性更改。我们计划制作它们在 0.17 版本中完全稳定。请在此处提交您可能有的任何反馈。

性能注意事项¶

我们建议遵循以下准则，以充分利用变换：

依赖 v2 转换torchvision.transforms.v2
使用张量而不是 PIL 图像
使用 dtype，尤其是用于调整大小torch.uint8
使用 bilinear 或 bicubic 模式调整大小

典型的转换管道可能如下所示：

from torchvision.transforms import v2
transforms = v2.Compose([
    v2.ToImage(),  # Convert to tensor, only needed if you had a PIL image
    v2.ToDtype(torch.uint8, scale=True),  # optional, most input are already uint8 at this point
    # ...
    v2.RandomResizedCrop(size=(224, 224), antialias=True),  # Or Resize(antialias=True)
    # ...
    v2.ToDtype(torch.float32, scale=True),  # Normalize expects float input
    v2.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

以上应该会在典型的训练环境中为您提供最佳性能依赖于torch.utils.data.DataLoader跟。num_workers > 0

转换往往对输入步幅/内存格式敏感。一些通道优先图像的转换速度会更快，而其他人则更喜欢 channels-last 的与运算符一样，大多数转换将保留 memory 格式，但这可能并不总是被遵守，因为实现细节。如果您正在追求非常好的性能。用torchtorch.compile()在单个转换上 may 还有助于分解 memory format 变量（例如 onNormalize).请注意，我们谈论的是内存格式，而不是张量形状。

请注意，调整大小转换（如Resize和RandomResizedCrop通常更喜欢 channels-last 输入，并且往往不会从torch.compile()在这一次。

转换类、函数和内核¶

转换可用作类，例如Resize，但也作为函数式，如resize()在 namespace 中。这与torchvision.transforms.v2.functionaltorch.nn定义两个类的 package 和中的函数等效项。torch.nn.functional

函数支持 PIL 图像、纯张量或 TVTensor，例如 both 和 are 有效。resize(image_tensor)resize(boxes)

注意

随机转换，如RandomCrop将每次调用时随机采样一些参数。它们的功能对应物（crop()）不执行任何类型的随机采样，因此具有轻微的差异参数。transforms 类的 class 方法可用于在使用功能 API 时执行参数采样。get_params()

命名空间还包含我们调用 “kernels”。这些是实现特定类型的核心功能，例如或。它们是公开的，尽管没有记录。检查代码以查看哪些可用（请注意，那些以下划线不是公开的！只有当你希望 torchscript 支持像 bounding 这样的类型时，内核才真正有用框或掩码。torchvision.transforms.v2.functionalresize_bounding_boxes`resized_crop_mask

Torchscript 支持¶

大多数 transform 类和函数都支持 torchscript。用于合成转换，使用torch.nn.Sequential而不是Compose:

transforms = torch.nn.Sequential(
    CenterCrop(10),
    Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
)
scripted_transforms = torch.jit.script(transforms)

警告

v2 转换支持 TorchScript，但如果你调用一个 v2 类转换，你实际上最终会得到它的（脚本化的）v1 等效。这可能会导致由于 v1 之间的实现差异而导致的脚本化和 Eager 执行和 v2.torch.jit.script()

如果您确实需要 v2 转换的 torchscript 支持，我们建议从命名空间编写函数脚本以避免意外。torchvision.transforms.v2.functional

另请注意，函数仅支持纯张量的 torchscript，这始终被视为图像。如果您需要其他类型的 torchscript 支持与边界框或掩码一样，您可以依赖低级内核。

对于任何要与一起使用的自定义转换，它们应该从派生自。torch.jit.scripttorch.nn.Module

另请参阅： Torchscript 支持。

V2 API 参考 - 推荐¶

几何学¶

调整¶

`v2.Resize`（size[，插值， max_size， ...]）	[测试版]将输入的大小调整为给定的大小。
`v2.ScaleJitter`（target_size[， scale_range， ...]）	[测试版]根据“Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation”对输入执行大规模抖动。
`v2.RandomShortestSize`（min_size[， max_size， ...]）	[测试版]随机调整输入的大小。
`v2.RandomResize`（min_size， max_size[， ...]）	[测试版]随机调整输入的大小。

泛函

v2.functional.resize（inpt， size[， ...]）

[测试版]看Resize了解详情。

种植¶

`v2.RandomCrop`（大小[，内边距， ...]）	[测试版]在随机位置裁剪输入。
`v2.RandomResizedCrop`（大小[、比例、比例、...]）	[测试版]裁剪输入的随机部分并将其大小调整为给定大小。
`v2.RandomIoUCrop`（[min_scale， max_scale， ...]）	[测试版]来自“SSD：Single Shot MultiBox Detector”的随机 IoU 裁剪转换。
`v2.CenterCrop`（尺寸）	[测试版]裁剪中心的输入。
`v2.FiveCrop`（尺寸）	[测试版]将图像或视频裁剪为四个角并进行中央裁剪。
`v2.TenCrop`（大小[， vertical_flip]）	[测试版]将图像或视频裁剪为四个角，并将中心裁剪加上这些的翻转版本（默认使用水平翻转）。

泛函

`v2.functional.crop`（inpt、top、left、height、...）	[测试版]看`RandomCrop`了解详情。
`v2.functional.resized_crop`（inpt，上，左， ...）	[测试版]看`RandomResizedCrop`了解详情。
`v2.functional.ten_crop`（inpt， size[， ...]）	[测试版]看`TenCrop`了解详情。
`v2.functional.center_crop`（INPT，output_size）	[测试版]看`RandomCrop`了解详情。
`v2.functional.five_crop`（inpt，大小）	[测试版]看`FiveCrop`了解详情。

别人¶

`v2.RandomHorizontalFlip`（[p]）	[测试版]以给定的概率水平翻转输入。
`v2.RandomVerticalFlip`（[p]）	[测试版]以给定的概率垂直翻转输入。
`v2.Pad`（padding[， fill， padding_mode]）	[测试版]用给定的 “pad” 值填充 input 的所有侧面。
`v2.RandomZoomOut`（[填充，side_range，p]）	[测试版]从“SSD：Single Shot MultiBox Detector”的“缩小”转换。
`v2.RandomRotation`（度[，插值， ...]）	[测试版]按角度旋转输入。
`v2.RandomAffine`（度[，平移，刻度， ...]）	[测试版]随机仿射变换，输入保持中心不变。
`v2.RandomPerspective`（[distortion_scale， p， ...]）	[测试版]以给定的概率对输入执行随机透视变换。
`v2.ElasticTransform`（[alpha， sigma， ...]）	[测试版]使用弹性转换转换输入。

泛函

`v2.functional.horizontal_flip`（国际专利局）	[测试版]看`RandomHorizontalFlip`了解详情。
`v2.functional.vertical_flip`（国际专利局）	[测试版]看`RandomVerticalFlip`了解详情。
`v2.functional.pad`（inpt， padding[， fill， ...]）	[测试版]看`Pad`了解详情。
`v2.functional.rotate`（inpt，角度[， ...]）	[测试版]看`RandomRotation`了解详情。
`v2.functional.affine`（inpt、angle、translate、...	[测试版]看`RandomAffine`了解详情。
`v2.functional.perspective`（inpt、startpoints、...	[测试版]看`RandomPerspective`了解详情。
`v2.functional.elastic`（inpt，位移[， ...]）	[测试版]看`ElasticTransform`了解详情。

颜色¶

`v2.ColorJitter`（[亮度、对比度、...]）	[测试版]随机更改图像或视频的亮度、对比度、饱和度和色相。
`v2.RandomChannelPermutation`()	[测试版]随机排列图像或视频的通道
`v2.RandomPhotometricDistort`（[亮度， ...]）	[测试版]随机扭曲 SSD：Single Shot MultiBox Detector 中使用的图像或视频。
`v2.Grayscale`（[num_output_channels]）	[测试版]将图像或视频转换为灰度。
`v2.RandomGrayscale`（[p]）	[测试版]将图像或视频随机转换为灰度，概率为 p（默认为 0.1）。
`v2.GaussianBlur`（kernel_size[， sigma]）	[测试版]使用随机选择的高斯模糊来模糊图像。
`v2.RandomInvert`（[p]）	[测试版]以给定的概率反转给定图像或视频的颜色。
`v2.RandomPosterize`（位 [， p]）	[测试版]通过减少每个颜色通道的位数，以给定的概率色调分离图像或视频。
`v2.RandomSolarize`（阈值 [， p]）	[测试版]通过反转高于阈值的所有像素值，以给定的概率对图像或视频进行曝光。
`v2.RandomAdjustSharpness`（sharpness_factor[，p]）	[测试版]以给定的概率调整图像或视频的清晰度。
`v2.RandomAutocontrast`（[p]）	[测试版]以给定的概率自动对比给定图像或视频的像素。
`v2.RandomEqualize`（[p]）	[测试版]以给定的概率均衡给定图像或视频的直方图。

泛函

`v2.functional.permute_channels`（inpt，排列）	根据给定的排列排列 input 的通道。
`v2.functional.rgb_to_grayscale`（inpt[， ...]）	[测试版]看`Grayscale`了解详情。
`v2.functional.to_grayscale`（inpt[， ...]）	[测试版]看`Grayscale`了解详情。
`v2.functional.gaussian_blur`（INPT，kernel_size）	[测试版]看`GaussianBlur`了解详情。
`v2.functional.invert`（国际专利局）	[测试版]看`RandomInvert()`.
`v2.functional.posterize`（inpt、bits）	[测试版]看`RandomPosterize`了解详情。
`v2.functional.solarize`（inpt，阈值）	[测试版]看`RandomSolarize`了解详情。
`v2.functional.adjust_sharpness`（INPT，...	[测试版]看`RandomAdjustSharpness`
`v2.functional.autocontrast`（国际专利局）	[测试版]看`RandomAutocontrast`了解详情。
`v2.functional.adjust_contrast`（INPT，...	[测试版]看`RandomAutocontrast`
`v2.functional.equalize`（国际专利局）	[测试版]看`RandomEqualize`了解详情。
`v2.functional.adjust_brightness`（INPT，...	调整亮度。
`v2.functional.adjust_saturation`（INPT，...	调整饱和度。
`v2.functional.adjust_hue`（INPT，hue_factor）	调整色相
`v2.functional.adjust_gamma`（inpt， gamma[，增益]）	调整灰度系数。

组成¶

`v2.Compose`（变换）	[测试版]将多个转换组合在一起。
`v2.RandomApply`（转换 [， p]）	[测试版]随机应用具有给定概率的转换列表。
`v2.RandomChoice`（转换 [， p]）	[测试版]应用从列表中随机选取的单个转换。
`v2.RandomOrder`（变换）	[测试版]以随机顺序应用转换列表。

杂项¶

`v2.LinearTransformation`(...)	[测试版]使用方形变换矩阵和离线计算的 mean_vector 变换张量图像或视频。
`v2.Normalize`（平均值， std[，原位]）	[测试版]使用平均值和标准差对张量图像或视频进行标准化。
`v2.RandomErasing`（[p，比例，比率，值， ...]）	[测试版]在输入图像或视频中随机选择一个矩形区域并擦除其像素。
`v2.Lambda`（lambd、*types）	[测试版]将用户定义的函数应用为转换。
`v2.SanitizeBoundingBoxes`（[min_size， ...]）	[测试版]删除退化/无效的边界框及其相应的标签和掩码。
`v2.ClampBoundingBoxes`()	[测试版]将边界框固定到其相应的图像尺寸。
`v2.UniformTemporalSubsample`（num_samples）	[测试版]从视频的时间维度对索引进行统一子采样。`num_samples`

泛函

`v2.functional.normalize`（inpt， mean， std[， ...]）	[测试版]看`Normalize`了解详情。
`v2.functional.erase`（inpt， i， j， h， w， v[， ...]）	[测试版]有关详细信息，请参阅。`RandomErase`
`v2.functional.clamp_bounding_boxes`（inpt[， ...]）	[测试版]看`ClampBoundingBoxes()`了解详情。
`v2.functional.uniform_temporal_subsample`(...)	[测试版]看`UniformTemporalSubsample`了解详情。

转换¶

注意

请注意，下面的一些转换转换将缩放值在执行转换时，虽然有些可能不会进行任何缩放。由缩放，我们的意思是，例如 -> 会将 [0， 255] 范围转换为 [0， 1]（反之亦然）。请参阅 Dtype 和预期值范围。uint8float32

`v2.ToImage`()	[测试版]将 tensor、ndarray 或 PIL 图像转换为`Image`;这不会缩放值。
`v2.ToPureTensor`()	[测试版]将所有tv_tensors转换为纯张量，删除关联的元数据（如果有）。
`v2.PILToTensor`()	[测试版]将 PIL 图像转换为相同类型的张量 - 这不会缩放值。
`v2.ToPILImage`（[模式]）	[测试版]将 tensor 或 ndarray 转换为 PIL 图像
`v2.ToDtype`（dtype[， scale]）	[测试版]将输入转换为特定的 dtype，并可选择缩放 images 或 videos 的值。
`v2.ConvertBoundingBoxFormat`（格式）	[测试版]将边界框坐标转换为给定的坐标，例如从 “CXCYWH” 到 “XYXY”。`format`

泛函

`v2.functional.to_image`（国际专利局）	[测试版]看`ToImage`了解详情。
`v2.functional.pil_to_tensor`（图片）	将 a 转换为相同类型的张量。`PIL Image`
`v2.functional.to_pil_image`（pic[，模式]）	将 tensor 或 ndarray 转换为 PIL 图像。
`v2.functional.to_dtype`（inpt[， dtype， scale]）	[测试版]看`ToDtype()`了解详情。
`v2.functional.convert_bounding_box_format`（国际专利局）	[测试版]看`ConvertBoundingBoxFormat()`了解详情。

荒废的

`v2.ToTensor`()	[测试版][已弃用]请改用。`v2.Compose([v2.ToImage(), v2.ToDtype(torch.float32, scale=True)])`
`v2.functional.to_tensor`（国际专利局）	[测试版][已确认]请改用 to_image（）和 to_dtype（）。
`v2.ConvertImageDtype`（[dtype]）	[测试版][已弃用]请改用。`v2.ToDtype(dtype, scale=True)`
`v2.functional.convert_image_dtype`（image[， dtype]）	[测试版][已弃用]请改用 to_dtype（）。

自动增强¶

AutoAugment 是一种常见的数据增强技术，可以提高图像分类模型的准确性。尽管数据增强策略与他们训练的数据集直接相关，但实证研究表明， ImageNet 策略在应用于其他数据集时提供了显著的改进。在 TorchVision 中，我们实施了在以下数据集上学习的 3 个策略： ImageNet 、 CIFAR10 和 SVHN 。新转换可以独立使用，也可以与现有转换混合使用：

`v2.AutoAugment`（[策略、插值、填充]）	[测试版]基于 “AutoAugment： Learning Augmentation Strategies from Data” 的 AutoAugment 数据增强方法。
`v2.RandAugment`（[num_ops，星等， ...]）	[测试版]基于 “RandAugment： Practical automated data augmentation with a reduced search space” 的 RandAugment 数据增强方法。
`v2.TrivialAugmentWide`（[num_magnitude_bins， ...]）	[测试版]使用 TrivialAugment Wide 进行独立于数据集的数据增强，如 “TrivialAugment：无需调整但最先进的数据增强” 中所述。
`v2.AugMix`（[严重性， mixture_width， ...]）	[测试版]基于“AugMix：一种提高稳健性和不确定性的简单数据处理方法”的 AugMix 数据增强方法。

CutMix - 混合¶

CutMix 和 MixUp 是特殊的转换，它们用于批处理而不是单个图像，因为它们将图像对组合在一起。这些可以在 dataloader 之后使用（对样本进行批处理后），或排序规则函数的一部分。有关详细使用示例，请参阅如何使用 CutMix 和 MixUp。

`v2.CutMix`（*[， alpha， labels_getter]）	[测试版]将 CutMix 应用于提供的一批图像和标签。
`v2.MixUp`（*[， alpha， labels_getter]）	[测试版]将 MixUp 应用于提供的图片和标签批次。

开发人员工具¶

v2.functional.register_kernel（功能性，...

[测试版]装饰内核以将其注册为 functional 和（custom） tv_tensor类型。

V1 API 参考¶

几何学¶

`Resize`（size[，插值， max_size， ...]）	将输入图像的大小调整为给定的大小。
`RandomCrop`（大小[、填充、pad_if_needed、...]）	在随机位置裁剪给定的图像。
`RandomResizedCrop`（大小[、比例、比例、...]）	裁剪图像的随机部分并将其调整为给定大小。
`CenterCrop`（尺寸）	在中心裁剪给定的图像。
`FiveCrop`（尺寸）	将给定的图像裁剪为四个角，并进行中央裁剪。
`TenCrop`（大小[， vertical_flip]）	将给定的图像裁剪为四个角，并将中心裁剪加上这些角的翻转版本（默认使用水平翻转）。
`Pad`（padding[， fill， padding_mode]）	用给定的 “pad” 值在给定的图像的所有侧面填充。
`RandomRotation`（度[，插值， ...]）	按角度旋转图像。
`RandomAffine`（度[，平移，刻度， ...]）	图像的随机仿射变换保持中心不变。
`RandomPerspective`（[distortion_scale， p， ...]）	以给定的概率对给定图像执行随机透视变换。
`ElasticTransform`（[alpha， sigma， ...]）	使用弹性变换变换张量图像。
`RandomHorizontalFlip`（[p]）	以给定的概率随机水平翻转给定的图像。
`RandomVerticalFlip`（[p]）	以给定的概率随机垂直翻转给定的图像。

颜色¶

`ColorJitter`（[亮度、对比度、...]）	随机更改图像的亮度、对比度、饱和度和色相。
`Grayscale`（[num_output_channels]）	将图像转换为灰度。
`RandomGrayscale`（[p]）	将图像随机转换为灰度，概率为 p（默认为 0.1）。
`GaussianBlur`（kernel_size[， sigma]）	使用随机选择的高斯模糊来模糊图像。
`RandomInvert`（[p]）	以给定的概率随机反转给定图像的颜色。
`RandomPosterize`（位 [， p]）	通过减少每个颜色通道的位数，以给定的概率随机色调分离图像。
`RandomSolarize`（阈值 [， p]）	通过反转高于阈值的所有像素值，以给定的概率随机曝光图像。
`RandomAdjustSharpness`（sharpness_factor[，p]）	以给定的概率随机调整图像的清晰度。
`RandomAutocontrast`（[p]）	以给定的概率随机自动对比给定图像的像素。
`RandomEqualize`（[p]）	以给定的概率随机均衡给定图像的直方图。

组成¶

`Compose`（变换）	将多个转换组合在一起。
`RandomApply`（转换 [， p]）	随机应用具有给定概率的转换列表。
`RandomChoice`（转换 [， p]）	应用从列表中随机选取的单个转换。
`RandomOrder`（变换）	以随机顺序应用转换列表。

杂项¶

`LinearTransformation`（transformation_matrix，......	使用方变换矩阵和离线计算的mean_vector变换张量图像。
`Normalize`（平均值， std[，原位]）	使用平均值和标准差对张量图像进行归一化。
`RandomErasing`（[p， scale， ratio， value， inplace]）	在Torch中随机选择一个矩形区域。Tensor 图像并擦除其像素。
`Lambda`（lambd）	将用户定义的 lambda 应用为转换。

转换¶

注意

请注意，下面的一些转换转换将缩放值在执行转换时，虽然有些可能不会进行任何缩放。由缩放，我们的意思是，例如 -> 会将 [0， 255] 范围转换为 [0， 1]（反之亦然）。请参阅 Dtype 和预期值范围。uint8float32

`ToPILImage`（[模式]）	将 tensor 或 ndarray 转换为 PIL 图像
`ToTensor`()	将 PIL Image 或 ndarray 转换为 tensor 并相应地缩放值。
`PILToTensor`()	将 PIL 图像转换为相同类型的张量 - 这不会缩放值。
`ConvertImageDtype`（dtype）	将张量图像转换为给定的值并相应地缩放值。`dtype`

自动增强¶

AutoAugment 是一种常见的数据增强技术，可以提高图像分类模型的准确性。尽管数据增强策略与他们训练的数据集直接相关，但实证研究表明， ImageNet 策略在应用于其他数据集时提供了显著的改进。在 TorchVision 中，我们实施了在以下数据集上学习的 3 个策略： ImageNet 、 CIFAR10 和 SVHN 。新转换可以独立使用，也可以与现有转换混合使用：

`AutoAugmentPolicy`（值）	AutoAugment 策略在不同的数据集上学习。
`AutoAugment`（[策略、插值、填充]）	基于 “AutoAugment： Learning Augmentation Strategies from Data” 的 AutoAugment 数据增强方法。
`RandAugment`（[num_ops，星等， ...]）	基于 “RandAugment： Practical automated data augmentation with a reduced search space” 的 RandAugmentment 数据增强方法。
`TrivialAugmentWide`（[num_magnitude_bins， ...]）	使用 TrivialAugment Wide 进行独立于数据集的数据增强，如 “TrivialAugment： Tuning-free Yet State-of-the-Art Data Augmentation” 中所述。
`AugMix`（[严重性， mixture_width， ...]）	基于“AugMix：一种提高稳健性和不确定性的简单数据处理方法”的 AugMix 数据增强方法。

函数转换¶

`adjust_brightness`（img， brightness_factor）	调整图像的亮度。
`adjust_contrast`（img， contrast_factor）	调整图像的对比度。
`adjust_gamma`（img， gamma[，增益]）	对图像执行 Gamma 校正。
`adjust_hue`（img，hue_factor）	调整图像的色相。
`adjust_saturation`（img， saturation_factor）	调整图像的颜色饱和度。
`adjust_sharpness`（img，sharpness_factor）	调整图像的清晰度。
`affine`（图像、角度、平移、缩放、剪切）	对图像应用仿射变换，保持图像中心不变。
`autocontrast`（图片）	通过重新映射每个通道的像素来最大化图像的对比度，使最低的像素变为黑色，最亮的像素变为白色。
`center_crop`（img，output_size）	在中心裁剪给定的图像。
`convert_image_dtype`（image[， dtype]）	将张量图像转换为给定的图像并相应地缩放值此函数不支持 PIL 图像。`dtype`
`crop`（img、上、左、高、宽）	在指定位置和输出大小裁剪给定图像。
`equalize`（图片）	通过对输入应用非线性映射来均衡图像的直方图，以便在输出中创建灰度值的均匀分布。
`erase`（img， i， j， h， w， v[，原位]）	擦除具有给定值的输入 Tensor Image。
`five_crop`（img，大小）	将给定的图像裁剪为四个角，并进行中央裁剪。
`gaussian_blur`（img， kernel_size[， sigma]）	按给定内核对图像执行高斯模糊处理。
`get_dimensions`（图片）	将图像的尺寸返回为 [channels， height， width]。
`get_image_num_channels`（图片）	返回图像的通道数。
`get_image_size`（图片）	将图像的大小返回为 [width， height]。
`hflip`（图片）	水平翻转给定的图像。
`invert`（图片）	反转 RGB/灰度图像的颜色。
`normalize`（张量、平均值、std[、原位]）	使用平均值和标准差对浮点张量图像进行归一化。
`pad`（img， padding[， fill， padding_mode]）	用给定的 “pad” 值在给定的图像的所有侧面填充。
`perspective`（img， startpoints， endpoints[， ...]）	执行给定图像的透视变换。
`pil_to_tensor`（图片）	将 a 转换为相同类型的张量。`PIL Image`
`posterize`（img，比特）	通过减少每个颜色通道的位数来色调分离图像。
`resize`（img， size[，插值， max_size， ...]）	将输入图像的大小调整为给定的大小。
`resized_crop`（img、top、left、height、width、size）	裁剪给定的图像并将其调整为所需的大小。
`rgb_to_grayscale`（img[， num_output_channels]）	将 RGB 图像转换为图像的灰度版本。
`rotate`（img， angle[，插值，扩展， ...]）	按角度旋转图像。
`solarize`（img，阈值）	通过反转高于阈值的所有像素值来使 RGB/灰度图像曝光。
`ten_crop`（img， size[， vertical_flip]）	从给定图像生成 10 张裁剪图像。
`to_grayscale`（img[， num_output_channels]）	将任何模式（RGB、HSV、LAB 等）的 PIL 图像转换为图像的灰度版本。
`to_pil_image`（pic[，模式]）	将 tensor 或 ndarray 转换为 PIL 图像。
`to_tensor`（图片）	将 or 转换为 tensor。`PIL Imagenumpy.ndarray`
`vflip`（图片）	垂直翻转给定的图像。

变换和增强图像¶

从这里开始¶

支持的输入类型和约定¶

Dtype 和期望值范围¶

V1 还是 V2？我应该使用哪一个？¶

性能注意事项¶

转换类、函数和内核¶

Torchscript 支持¶

V2 API 参考 - 推荐¶

几何学¶

调整¶

种植¶

别人¶

颜色¶

组成¶

杂项¶

转换¶

自动增强¶

CutMix - 混合¶

开发人员工具¶

V1 API 参考¶

几何学¶

颜色¶

组成¶

杂项¶

转换¶

自动增强¶

函数转换¶

文档

教程

资源