目录

torchaudio.prototype.pipelines

pipelines 子包包含用于加载预训练权重模型的 API 及相关实用工具。

RNN-T 流式/非流式 ASR

预训练模型

EMFORMER_RNNT_BASE_MUSTC

基于预训练 Emformer-RNNT 的自动语音识别(ASR)流程,支持流式与非流式推理。

EMFORMER_RNNT_BASE_TEDLIUM3

基于预训练 Emformer-RNNT 的自动语音识别(ASR)流程,支持流式与非流式推理。

HiFiGAN 声码器

接口

HiFiGANVocoderBundle 定义了 HiFiGAN Vocoder 流程,能够将梅尔频谱图转换为波形。

HiFiGANVocoderBundle

数据类,用于捆绑相关信息以使用预训练的 HiFiGANVocoder

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH

HiFiGAN 声码器流程,基于 LJ Speech 数据集 [Ito and Johnson, 2017] 训练。

VGGish

接口

VGGishBundle

VGGish [Hershey et al., 2017] 推理流程移植自 torchvggishtensorflow-models

VGGishBundle.VGGish

VGGish 模型的实现 [Hershey et al., 2017]

VGGishBundle.VGGishInputProcessor

将原始波形转换为示例批次,用作 VGGish 的输入。

预训练模型

VGGISH

预训练的 VGGish [Hershey et al., 2017] 推理流程移植自 torchvggishtensorflow-models

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源