音频处理文档¶

Torchaudio 是一个用于音频和信号处理的 PyTorch 库。它提供了输入/输出、信号和数据处理功能、数据集、模型实现以及应用程序组件。

教程¶

使用CUDA CTC束搜索解码器进行AM推理

主题：管道,ASR,CTC解码器,CUDA-CTC解码器

学习如何使用torchaudio.models.decoder.cuda_ctc_decoder在GPU上执行ASR束搜索解码。

设备上的视听自动语音识别

主题：I/O, 管道, RNNT

学习如何从笔记本电脑摄像头流式传输音频和视频，并使用Emformer-RNNT模型执行视听自动语音识别。

从文件加载波形张量并保存它们

主题: 输入/输出

学习如何使用torchaudio.info、torchaudio.load和torchaudio.save函数查询/加载音频文件并将波形张量保存到文件。

CTC 强制对齐 API

主题: CTC,强制对齐

了解如何使用 TorchAudio 的 CTC 强制对齐 API (torchaudio.functional.forced_align)。

多语言数据的强制对齐

主题: 强制对齐

了解如何使用TorchAudio的CTC强制对齐API（torchaudio.functional.forced_align）和多语言Wav2Vec2模型对多语言数据进行对齐。

使用 StreamReader 进行流媒体解码

主题：I/O, StreamReader

学习如何使用 torchaudio.io.StreamReader 类将音频/视频加载到张量中。

设备输入、合成音频/视频以及使用 StreamReader 进行过滤

主题：I/O, StreamReader

了解如何从硬件设备加载媒体，生成合成音频/视频，并使用 torchaudio.io.StreamReader 对它们应用过滤器。

使用StreamWriter进行流媒体编码

主题：输入/输出, StreamWriter

学习如何使用torchaudio.io.StreamWriter保存音频/视频。

使用StreamWriter播放媒体

主题: I/O,StreamWriter

学习如何使用torchaudio.io.StreamWriter播放音频/视频。

使用NVDEC进行硬件加速的视频解码

主题：I/O, StreamReader

学习如何使用硬件视频解码器。

使用NVENC进行硬件加速的视频编码

主题：I/O，StreamWriter

学习如何使用硬件视频编码器。

对波形应用效果和编解码器

主题：预处理

学习如何使用torchaudio.io.AudioEffector对波形应用效果和编解码器。

使用带限sinc插值进行音频重采样

主题: 预处理

学习如何使用torchaudio.functional.resample和torchaudio.transforms.Resample对音频张量进行重采样。

音频数据增强

主题: 预处理

学习如何使用 torchaudio.functional 和 torchaudio.transforms 模块执行数据增强。

音频特征提取

主题: 预处理

学习如何使用torchaudio.functional和torchaudio.transforms模块从波形中提取特征。

音频特征增强

主题: 预处理

学习如何使用 torchaudio.functional 和 torchaudio.transforms 模块进行特征增强。

使用振荡器生成波形

主题: 数字信号处理

加性合成

主题: 数字信号处理

设计数字滤波器

主题: 数字信号处理 (DSP)

减法合成

主题: 数字信号处理

音频数据集

主题: 数据集

学习如何使用torchaudio.datasets模块。

使用Wav2Vec2进行AM推理

主题: ASR,wav2vec2

了解如何使用Wav2Vec2进行声学模型推理（torchaudio.pipelines.Wav2Vec2ASRBundle）。

使用CTC波束搜索解码器进行LM推理

主题: 管道,ASR,wav2vec2,CTC-解码器

学习如何使用torchaudio.models.decoder.ctc_decoder，通过词典和语言模型执行ASR波束搜索解码。

在线ASR与Emformer RNN-T

主题: 流水线,ASR,RNNT,StreamReader

学习如何使用Emformer RNN-T (torchaudio.pipelines.RNNTBundle) 和 torchaudio.io.StreamReader 进行在线ASR。

使用Emformer RNN-T进行实时麦克风ASR

主题：管道,ASR,RNNT,StreamReader

学习如何使用Emformer RNN-T (torchaudio.pipelines.RNNTBundle) 和 torchaudio.io.StreamReader 从麦克风转录语音。

使用 Wav2Vec2 进行强制对齐

主题: 管道, 强制对齐, wav2vec2

学习如何使用 Wav2Vec 2 将文本与语音对齐 (torchaudio.pipelines.Wav2Vec2ASRBundle)。

使用Tacotron2进行文本到语音的转换

主题：管道, TTS-(文本到语音)

学习如何使用Tacotron2从文本生成语音（torchaudio.pipelines.Tacotron2TTSBundle）。

使用MVDR波束形成进行语音增强

主题: 管道,语音增强

学习如何使用MVDR波束形成来提高语音质量。

使用混合Demucs进行音乐源分离

主题: 管道,源分离

学习如何使用预训练的混合Demucs进行音乐源分离（torchaudio.pipelines.SourceSeparationBundle）。

Torchaudio-Squim：TorchAudio中的非侵入式语音评估

主题：管道, 语音评估, 语音增强

了解如何使用预训练的TorchAudio-SQUIM模型估计主观和客观指标（torchaudio.pipelines.SQUIMObjective）。

引用 torchaudio¶

如果你发现 torchaudio 有用，请引用以下论文：

黄俊贤, Hira, M., 陈昌, 张翔, 倪哲, 孙国, 马平, 黄荣, Pratap, V., 张宇, Kumar, A., 于晨阳, 朱超, 刘晨, Kahn, J., Ravanelli, M., 孙鹏, 渡边伸, 施毅, 陶涛, Scheibler, R., Cornell, S., 金世勋, & Petridis, S. (2023). TorchAudio 2.1: 推进 PyTorch 的语音识别、自监督学习和音频处理组件。arXiv 预印本 arXiv:2310.17864
杨毅远，Hira, M., 倪正，Chourdia, A., Astafurov, A., 陈超，叶承甫，Puhrsch, C., Pollack, D., Genzel, D., Greenberg, D., 杨恩泽，连杰，Mahadeokar, J., Hwang, J., 陈杰，Goldsborough, P., Roy, P., Narenthiran, S., 渡边伸，Chintala, S., Quenneville-Bélair, V, 史岩. (2021). TorchAudio: 音频和语音处理的构建模块。arXiv 预印本 arXiv:2110.15018.

BibTeX 格式：

@misc{hwang2023torchaudio,
   title={TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch},
   author={Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis},
   year={2023},
   eprint={2310.17864},
   archivePrefix={arXiv},
   primaryClass={eess.AS}
}

@article{yang2021torchaudio,
  title={TorchAudio: Building Blocks for Audio and Speech Processing},
  author={Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and
          Anjali Chourdia and Artyom Astafurov and Caroline Chen and
          Ching-Feng Yeh and Christian Puhrsch and David Pollack and
          Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and
          Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and
          Peter Goldsborough and Prabhat Roy and Sean Narenthiran and
          Shinji Watanabe and Soumith Chintala and
          Vincent Quenneville-Bélair and Yangyang Shi},
  journal={arXiv preprint arXiv:2110.15018},
  year={2021}
}

音频处理文档¶

教程¶

使用CUDA CTC束搜索解码器进行AM推理

设备上的视听自动语音识别

从文件加载波形张量并保存它们

CTC 强制对齐 API

多语言数据的强制对齐

使用 StreamReader 进行流媒体解码

设备输入、合成音频/视频以及使用 StreamReader 进行过滤

使用StreamWriter进行流媒体编码

使用StreamWriter播放媒体

使用NVDEC进行硬件加速的视频解码

使用NVENC进行硬件加速的视频编码

对波形应用效果和编解码器

使用带限sinc插值进行音频重采样

音频数据增强

音频特征提取

音频特征增强

使用振荡器生成波形

加性合成

设计数字滤波器

减法合成

音频数据集

使用Wav2Vec2进行AM推理

使用CTC波束搜索解码器进行LM推理

在线ASR与Emformer RNN-T

使用Emformer RNN-T进行实时麦克风ASR

使用 Wav2Vec2 进行强制对齐

使用Tacotron2进行文本到语音的转换

使用MVDR波束形成进行语音增强

使用混合Demucs进行音乐源分离

Torchaudio-Squim：TorchAudio中的非侵入式语音评估

引用 torchaudio¶

文档

教程

资源