torchaudio.models¶
torchaudio.models 子包包含用于解决常见音频任务的模型定义。
注意
对于具有预训练参数的模型,请参阅 torchaudio.pipelines 模块。
模型定义负责构建计算图并执行它们。
某些模型具有复杂的结构和变体。 针对此类模型,提供了工厂函数。
在 Conformer: Convolution-augmented Transformer for Speech Recognition 中介绍的 Conformer 架构 [Gulati et al., 2020]。 |
|
在 Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation 中介绍的 Conv-TasNet 架构 [Luo and Mesgarani, 2019]。 |
|
在论文Deep Speech: Scaling up end-to-end speech recognition中介绍的 DeepSpeech 架构 [Hannun et al., 2014]。 |
|
Emformer架构在Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021]中引入。 |
|
来自混合频谱和波形源分离的混合 Demucs 模型 [Défossez, 2021]。 |
|
HuBERT 模型用于 HuBERT [Hsu et al., 2021] 中的预训练。 |
|
循环神经网络转换器(RNN-T)模型。 |
|
用于 RNN-T 模型的束搜索解码器。 |
|
语音质量与可懂度度量(SQUIM)模型,用于预测语音增强(例如 STOI、PESQ 和 SI-SDR)的客观指标分数。 |
|
语音质量与可懂度度量(SQUIM)模型,用于预测语音增强(例如:平均意见得分 (MOS))的主观指标分数。 |
|
Tacotron2 模型来自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018],基于 Nvidia Deep Learning Examples 的实现。 |
|
来自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 的 Wav2Letter 模型架构 [Collobert et al., 2016]。 |
|
wav2vec 2.0中使用的声学模型 [Baevski et al., 2020]。 |
|
来自 Efficient Neural Audio Synthesis 的 WaveRNN 模型 [Kalchbrenner et al., 2018],基于 fatchord/WaveRNN 的实现。 |