torchaudio.prototype.pipelines¶
pipelines 子包包含用于加载预训练权重模型的 API 及相关实用工具。
RNN-T 流式/非流式 ASR¶
预训练模型¶
基于预训练 Emformer-RNNT 的自动语音识别(ASR)流程,支持流式与非流式推理。 |
|
基于预训练 Emformer-RNNT 的自动语音识别(ASR)流程,支持流式与非流式推理。 |
HiFiGAN 声码器¶
接口¶
HiFiGANVocoderBundle 定义了 HiFiGAN Vocoder 流程,能够将梅尔频谱图转换为波形。
数据类,用于捆绑相关信息以使用预训练的 |
预训练模型¶
HiFiGAN 声码器流程,基于 LJ Speech 数据集 [Ito and Johnson, 2017] 训练。 |
VGGish¶
接口¶
VGGish [Hershey et al., 2017] 推理流程移植自 torchvggish 和 tensorflow-models。 |
|
VGGish 模型的实现 [Hershey et al., 2017]。 |
|
将原始波形转换为示例批次,用作 VGGish 的输入。 |
预训练模型¶
预训练的 VGGish [Hershey et al., 2017] 推理流程移植自 torchvggish 和 tensorflow-models。 |