torchaudio.models¶
该分包包含用于解决常见音频任务的模型的定义。torchaudio.models
模型定义负责构建计算图并执行它们。
某些模型具有复杂的结构和变化。 对于此类模型,提供了工厂函数。
Conformer 中引入的 Conformer 架构:用于语音识别的卷积增强 Transformer [Gulati et al., 2020]。 |
|
Conv-TasNet 中引入的 Conv-TasNet 架构:超越语音分离的理想时频幅度掩码 [Luo 和 Mesgarani,2019 年]。 |
|
Deep Speech:扩展端到端语音识别 [Hannun et al., 2014] 中介绍的 DeepSpeech 架构。 |
|
Emformer 中介绍的 Emformer 架构:用于低延迟流式语音识别的基于高效 Memory Transformer 的声学模型 [Shi et al., 2021]。 |
|
来自混合频谱图和波形源分离的混合 Demucs 模型 [Défossez, 2021]。 |
|
HuBERT 模型用于 HuBERT 中的预训练 [Hsu et al., 2021]。 |
|
递归神经网络传感器 (RNN-T) 模型。 |
|
用于 RNN-T 模型的波束搜索解码器。 |
|
语音质量和清晰度测量 (SQUIM) 模型,用于预测语音增强的客观指标分数(例如 STOI、PESQ 和 SI-SDR)。 |
|
语音质量和清晰度测量 (SQUIM) 模型,用于预测语音增强的主观度量分数(例如,平均意见分数 (MOS))。 |
|
Tacotron2 模型来自自然 TTS 合成,通过对 Mel 频谱图预测 [Shen et al., 2018] 基于 Nvidia 深度学习示例的实现。 |
|
来自 Wav2Letter 的 Wav2Letter 模型架构:基于端到端 ConvNet 的语音识别系统 [Collobert et al., 2016]。 |
|
wav2vec 2.0 中使用的声学模型 [Baevski et al., 2020]。 |
|
来自高效神经音频合成 [Kalchbrenner et al., 2018] 的 WaveRNN 模型基于 fatchord/WaveRNN 的实现。 |