目录

目录

从源代码构建¶

TorchAudio 集成 PyTorch 用于数值计算，并使用第三方库进行多媒体输入输出。从源代码构建需要以下工具。

PyTorch
CMake
忍者
C++ complier with C++ 17 support
- GCC (Linux)
- Clang (macOS)
- MSVC 2019 或更新版本 (Windows)
pkg-config（Linux/macOS，如果构建 sox 扩展）
CUDA工具包和 cuDNN (如果构建CUDA扩展)

大多数工具都可以在 Conda 中找到，因此我们建议使用 conda。

自定义构建¶

TorchAudio 与第三方库的集成可以通过环境变量启用或禁用。

它们可以通过传递 1 来启用，通过 0 来禁用。

BUILD_SOX: 根据libsox启用或禁用I/O功能。
BUILD_KALDI: 根据Kaldi启用或禁用特征提取功能。
BUILD_RNNT: 启用/禁用自定义RNN-T损失函数。
BUILD_CTC_DECODER: 基于 Flashlight Text 启用/禁用 CTC 解码器。
USE_FFMPEG: 根据FFmpeg库启用或禁用I/O功能。
USE_ROCM: 启用/禁用 AMD ROCm 支持。
USE_CUDA: 启用/禁用 CUDA 支持。

有关最新配置及其默认值，请查看源代码。 https://github.com/pytorch/audio/blob/main/tools/setup_helpers/extension.py

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源