torchaudio.models¶

该分包包含用于解决常见音频任务的模型的定义。torchaudio.models

对于预训练模型，请参考torchaudio.pipelines模块。

模型定义¶

模型定义负责构建计算图并执行它们。

某些模型具有复杂的结构和变化。对于此类模型，提供了 Factory Functions。

`Conformer`	Conformer 中引入的 Conformer 架构：用于语音识别的卷积增强 Transformer [Gulati et al.， 2020]。
`ConvTasNet`	Conv-TasNet 中引入的 Conv-TasNet 架构：超越语音分离的理想时频幅度掩码 [Luo 和 Mesgarani，2019 年]。
`DeepSpeech`	Deep Speech：扩展端到端语音识别 [Hannun et al.， 2014] 中介绍的 DeepSpeech 架构。
`Emformer`	Emformer 中介绍的 Emformer 架构：用于低延迟流式语音识别的基于高效 Memory Transformer 的声学模型 [Shi et al.， 2021]。
`HDemucs`	来自混合频谱图和波形源分离的混合 Demucs 模型 [Défossez， 2021]。
`HuBERTPretrainModel`	HuBERT 模型用于 HuBERT 中的预训练 [Hsu et al.， 2021]。
`RNNT`	递归神经网络传感器（RNN-T）模型。
`RNNTBeamSearch`	用于 RNN-T 模型的波束搜索解码器。
`Tacotron2`	Tacotron2 模型来自自然 TTS 合成，通过对 Mel 频谱图预测 [Shen et al.， 2018] 基于 Nvidia 深度学习示例的实现。
`Wav2Letter`	来自 Wav2Letter 的 Wav2Letter 模型架构：基于端到端 ConvNet 的语音识别系统 [Collobert et al.， 2016]。
`Wav2Vec2Model`	wav2vec 2.0 中使用的声学模型 [Baevski et al.， 2020]。
`WaveRNN`	来自高效神经音频合成 [Kalchbrenner et al.， 2018] 的 WaveRNN 模型基于 fatchord/WaveRNN 的实现。

`conv_tasnet_base`	构建的非因果版本`ConvTasNet`.
`emformer_rnnt_model`	构建基于 Emformer 的`RNNT`.
`emformer_rnnt_base`	构建基于 Emformer 的基本版本`RNNT`.
`wav2vec2_model`	构建自定义`Wav2Vec2Model`.
`wav2vec2_base`	构建 “基础”`Wav2Vec2Model`来自 wav2vec 2.0 [Baevski et al.， 2020]
`wav2vec2_large`	构建“大型”`Wav2Vec2Model`来自 wav2vec 2.0 [Baevski et al.， 2020]
`wav2vec2_large_lv60k`	构建“大型 lv-60k”`Wav2Vec2Model`来自 wav2vec 2.0 [Baevski et al.， 2020]
`hubert_base`	构建 “基础”`HuBERT`来自 HuBERT [Hsu et al.， 2021]
`hubert_large`	构建“大型”`HuBERT`来自 HuBERT [Hsu et al.， 2021]
`hubert_xlarge`	构建“超大”`HuBERT`来自 HuBERT [Hsu et al.， 2021]
`hubert_pretrain_model`	构建自定义`HuBERTPretrainModel`用于从头开始的培训
`hubert_pretrain_base`	构建 “基础”`HuBERTPretrainModel`来自 HuBERT [Hsu et al.， 2021] 进行预训练。
`hubert_pretrain_large`	构建“大型”`HuBERTPretrainModel`来自 HuBERT [Hsu et al.， 2021] 进行预训练。
`hubert_pretrain_xlarge`	构建“超大”`HuBERTPretrainModel`来自 HuBERT [Hsu et al.， 2021] 进行预训练。
`hdemucs_low`	构建的低 nfft （1024）版本`HDemucs`，适用于 8 kHz 左右的采样率。
`hdemucs_medium`	构建 medium nfft （2048）版本的`HDemucs`，适用于 16-32 kHz 的采样率。
`hdemucs_high`	构建 medium nfft （4096）版本的`HDemucs`，适用于 44.1-48 kHz 的采样率。

`import_fairseq_model`	建立`Wav2Vec2Model`从 FairSeq 的相应 model 对象。
`import_huggingface_model`	建立`Wav2Vec2Model`从 Transformer 的相应模型对象。