目录

torchaudio.models

torchaudio.models 子包包含用于解决常见音频任务的模型定义。

对于预训练模型,请参阅 torchaudio.pipelines 模块。

模型定义

模型定义负责构建计算图并执行它们。

某些模型具有复杂的结构和变体。 对于此类模型,提供了工厂函数

Conformer

Conformer: Convolution-augmented Transformer for Speech Recognition 中介绍的 Conformer 架构 [Gulati et al., 2020]

ConvTasNet

Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation 中介绍的 Conv-TasNet 架构 [Luo and Mesgarani, 2019]

DeepSpeech

在论文Deep Speech: Scaling up end-to-end speech recognition中介绍的 DeepSpeech 架构 [Hannun et al., 2014]

Emformer

Emformer架构在Emformer: Efficient Memory Transformer Based Acoustic Model for Low Latency Streaming Speech Recognition [Shi et al., 2021]中引入。

HDemucs

来自混合频谱和波形源分离的混合 Demucs 模型 [Défossez, 2021]

HuBERTPretrainModel

HuBERT 模型用于 HuBERT [Hsu et al., 2021] 中的预训练。

RNNT

循环神经网络转换器(RNN-T)模型。

RNNTBeamSearch

用于 RNN-T 模型的束搜索解码器。

Tacotron2

Tacotron2 模型来自 Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [Shen et al., 2018],基于 Nvidia Deep Learning Examples 的实现。

Wav2Letter

来自 Wav2Letter: an End-to-End ConvNet-based Speech Recognition System 的 Wav2Letter 模型架构 [Collobert et al., 2016]

Wav2Vec2Model

wav2vec 2.0中使用的声学模型 [Baevski et al., 2020]

WaveRNN

来自 Efficient Neural Audio Synthesis 的 WaveRNN 模型 [Kalchbrenner et al., 2018],基于 fatchord/WaveRNN 的实现。

工厂函数

conv_tasnet_base

构建 ConvTasNet 的非因果版本。

emformer_rnnt_model

构建基于 Emformer 的 RNNT

emformer_rnnt_base

构建基于 Emformer 的 RNNT 基础版本。

wav2vec2_model

构建自定义 Wav2Vec2Model

wav2vec2_base

构建“基础”Wav2Vec2Model 来自 wav2vec 2.0 [Baevski et al., 2020]

wav2vec2_large

构建“大型”Wav2Vec2Model 来自 wav2vec 2.0 [Baevski et al., 2020]

wav2vec2_large_lv60k

构建“大型 lv-60k”Wav2Vec2Model 来自 wav2vec 2.0 [Baevski et al., 2020]

hubert_base

构建“基础”HuBERT 来自 HuBERT [Hsu et al., 2021]

hubert_large

构建“大型”HuBERT 来自 HuBERT [Hsu et al., 2021]

hubert_xlarge

构建“超大”HuBERT 来自 HuBERT [Hsu 等人, 2021]

hubert_pretrain_model

构建自定义 HuBERTPretrainModel 以从头开始训练

hubert_pretrain_base

构建“基础”HuBERTPretrainModel 来自 HuBERT [Hsu et al., 2021] 用于预训练。

hubert_pretrain_large

构建“大型”HuBERTPretrainModel 来自 HuBERT [Hsu et al., 2021] 用于预训练。

hubert_pretrain_xlarge

构建“超大”HuBERTPretrainModel 来自 HuBERT [Hsu et al., 2021] 用于预训练。

hdemucs_low

构建低 nfft (1024) 版本的 HDemucs,适用于约 8 kHz 的采样率。

hdemucs_medium

构建中型 nfft (2048) 版本的 HDemucs,适用于 16-32 kHz 的采样率。

hdemucs_high

构建中型 nfft (4096) 版本的 HDemucs,适用于 44.1-48 kHz 的采样率。

实用函数

import_fairseq_model

从相应的 fairseq 模型对象构建 Wav2Vec2Model

import_huggingface_model

Wav2Vec2Model 对应的模型对象构建 Transformers

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源