目录

torchaudio.models

该分包包含用于解决常见音频任务的模型的定义。torchaudio.models

对于预训练模型,请参考torchaudio.pipelines模块。

模型定义

模型定义负责构建计算图并执行它们。

某些模型具有复杂的结构和变化。 对于此类模型,提供了 Factory Functions

Conformer

Conformer 中引入的 Conformer 架构:用于语音识别的卷积增强 Transformer [Gulati et al., 2020]。

ConvTasNet

Conv-TasNet 中引入的 Conv-TasNet 架构:超越语音分离的理想时频幅度掩码 [Luo 和 Mesgarani,2019 年]。

DeepSpeech

Deep Speech:扩展端到端语音识别 [Hannun et al., 2014] 中介绍的 DeepSpeech 架构。

Emformer

Emformer 中介绍的 Emformer 架构:用于低延迟流式语音识别的基于高效 Memory Transformer 的声学模型 [Shi et al., 2021]。

HDemucs

来自混合频谱图和波形源分离的混合 Demucs 模型 [Défossez, 2021]。

HuBERTPretrainModel

HuBERT 模型用于 HuBERT 中的预训练 [Hsu et al., 2021]。

RNNT

递归神经网络传感器 (RNN-T) 模型。

RNNTBeamSearch

用于 RNN-T 模型的波束搜索解码器。

Tacotron2

Tacotron2 模型来自自然 TTS 合成,通过对 Mel 频谱图预测 [Shen et al., 2018] 基于 Nvidia 深度学习示例的实现。

Wav2Letter

来自 Wav2Letter 的 Wav2Letter 模型架构:基于端到端 ConvNet 的语音识别系统 [Collobert et al., 2016]。

Wav2Vec2Model

wav2vec 2.0 中使用的声学模型 [Baevski et al., 2020]。

WaveRNN

来自高效神经音频合成 [Kalchbrenner et al., 2018] 的 WaveRNN 模型基于 fatchord/WaveRNN 的实现。

工厂功能

conv_tasnet_base

构建 的非因果版本ConvTasNet.

emformer_rnnt_model

构建基于 Emformer 的RNNT.

emformer_rnnt_base

构建基于 Emformer 的基本版本RNNT.

wav2vec2_model

构建自定义Wav2Vec2Model.

wav2vec2_base

构建 “基础”Wav2Vec2Model来自 wav2vec 2.0 [Baevski et al., 2020]

wav2vec2_large

构建“大型”Wav2Vec2Model来自 wav2vec 2.0 [Baevski et al., 2020]

wav2vec2_large_lv60k

构建“大型 lv-60k”Wav2Vec2Model来自 wav2vec 2.0 [Baevski et al., 2020]

hubert_base

构建 “基础”HuBERT来自 HuBERT [Hsu et al., 2021]

hubert_large

构建“大型”HuBERT来自 HuBERT [Hsu et al., 2021]

hubert_xlarge

构建“超大”HuBERT来自 HuBERT [Hsu et al., 2021]

hubert_pretrain_model

构建自定义HuBERTPretrainModel用于从头开始的培训

hubert_pretrain_base

构建 “基础”HuBERTPretrainModel来自 HuBERT [Hsu et al., 2021] 进行预训练。

hubert_pretrain_large

构建“大型”HuBERTPretrainModel来自 HuBERT [Hsu et al., 2021] 进行预训练。

hubert_pretrain_xlarge

构建“超大”HuBERTPretrainModel来自 HuBERT [Hsu et al., 2021] 进行预训练。

hdemucs_low

构建 的 低 nfft (1024) 版本HDemucs,适用于 8 kHz 左右的采样率。

hdemucs_medium

构建 medium nfft (2048) 版本的HDemucs,适用于 16-32 kHz 的采样率。

hdemucs_high

构建 medium nfft (4096) 版本的HDemucs,适用于 44.1-48 kHz 的采样率。

效用函数

import_fairseq_model

建立Wav2Vec2ModelFairSeq 的相应 model 对象。

import_huggingface_model

建立Wav2Vec2ModelTransformer 的相应模型对象。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源