torchaudio.prototype.pipelines¶

pipelines 子包包含用于加载预训练权重模型的 API 及相关实用工具。

RNN-T 流式/非流式 ASR¶

`EMFORMER_RNNT_BASE_MUSTC`	基于预训练 Emformer-RNNT 的自动语音识别（ASR）流程，支持流式与非流式推理。
`EMFORMER_RNNT_BASE_TEDLIUM3`	基于预训练 Emformer-RNNT 的自动语音识别（ASR）流程，支持流式与非流式推理。

HiFiGANVocoderBundle 定义了 HiFiGAN Vocoder 流程，能够将梅尔频谱图转换为波形。

数据类，用于捆绑相关信息以使用预训练的 HiFiGANVocoder。

HiFiGAN 声码器流程，基于 LJ Speech 数据集 [Ito and Johnson, 2017] 训练。

`VGGishBundle`	VGGish [Hershey et al., 2017] 推理流程移植自 torchvggish 和 tensorflow-models。
`VGGishBundle.VGGish`	VGGish 模型的实现 [Hershey et al., 2017]。
`VGGishBundle.VGGishInputProcessor`	将原始波形转换为示例批次，用作 VGGish 的输入。

预训练的 VGGish [Hershey et al., 2017] 推理流程移植自 torchvggish 和 tensorflow-models。