torchaudio.transforms¶

torchaudio.transforms 模块包含常见的音频处理和特征提取。下图展示了部分可用转换之间的关系。

https://download.pytorch.org/torchaudio/tutorial-assets/torchaudio_feature_extractions.png

Transforms 是使用 torch.nn.Module 实现的。构建处理管道的常见方法是定义自定义 Module 类，或使用 torch.nn.Sequential 将 Modules 串联起来，然后将其移动到目标设备和数据类型。

# Define custom feature extraction pipeline.
#
# 1. Resample audio
# 2. Convert to power spectrogram
# 3. Apply augmentations
# 4. Convert to mel-scale
#
class MyPipeline(torch.nn.Module):
    def __init__(
        self,
        input_freq=16000,
        resample_freq=8000,
        n_fft=1024,
        n_mel=256,
        stretch_factor=0.8,
    ):
        super().__init__()
        self.resample = Resample(orig_freq=input_freq, new_freq=resample_freq)

        self.spec = Spectrogram(n_fft=n_fft, power=2)

        self.spec_aug = torch.nn.Sequential(
            TimeStretch(stretch_factor, fixed_rate=True),
            FrequencyMasking(freq_mask_param=80),
            TimeMasking(time_mask_param=80),
        )

        self.mel_scale = MelScale(
            n_mels=n_mel, sample_rate=resample_freq, n_stft=n_fft // 2 + 1)

    def forward(self, waveform: torch.Tensor) -> torch.Tensor:
        # Resample the input
        resampled = self.resample(waveform)

        # Convert to power spectrogram
        spec = self.spec(resampled)

        # Apply SpecAugment
        spec = self.spec_aug(spec)

        # Convert to mel-scale
        mel = self.mel_scale(spec)

        return mel

# Instantiate a pipeline
pipeline = MyPipeline()

# Move the computation graph to CUDA
pipeline.to(device=torch.device("cuda"), dtype=torch.float32)

# Perform the transform
features = pipeline(waveform)

请查看涵盖 transforms 深入用法的教程。

音频特征提取

工具¶

`AmplitudeToDB`	将张量从功率/幅度尺度转换为分贝尺度。
`MuLawEncoding`	基于 μ 律压扩对信号进行编码。
`MuLawDecoding`	解码 μ 律编码信号。
`Resample`	将信号从一个频率重采样到另一个频率。
`Fade`	为波形添加淡入和/或淡出效果。
`Vol`	调整波形的音量。
`Loudness`	根据 ITU-R BS.1770-4 建议测量音频响度。
`AddNoise`	根据信噪比对波形进行缩放并添加噪声。
`Convolve`	使用直接方法沿输入的最后一个维度进行卷积。
`FFTConvolve`	使用 FFT 沿输入的最后一个维度进行卷积。
`Speed`	调整波形速度。
`SpeedPerturbation`	应用了 Audio augmentation for speech recognition 中引入的速度扰动增强技术 [Ko et al., 2015]。
`Deemphasis`	降低波形在其最后一个维度上的强调。
`Preemphasis`	沿波形的最后一个维度对其进行预加重。

特征提取¶

`Spectrogram`	从音频信号创建频谱图。
`InverseSpectrogram`	创建逆频谱图，从频谱图中恢复音频信号。
`MelScale`	将普通 STFT 转换为使用三角形滤波器组的梅尔频率 STFT。
`InverseMelScale`	从梅尔频率域估计正常频率域的短时傅里叶变换（STFT）。
`MelSpectrogram`	为原始音频信号创建梅尔频谱图。
`GriffinLim`	使用 Griffin-Lim 变换从线性尺度幅度谱图计算波形。
`MFCC`	从音频信号创建梅尔频率倒谱系数。
`LFCC`	从音频信号创建线性频率倒谱系数。
`ComputeDeltas`	计算张量（通常是频谱图）的 delta 系数。
`PitchShift`	将波形的音高移动 `n_steps` 个步骤。
`SlidingWindowCmn`	对每个语音片段应用滑动窗口倒谱均值（以及可选的方差）归一化。
`SpectralCentroid`	沿时间轴计算每个通道的频谱质心。
`Vad`	语音活动检测器。

数据增强¶

以下变换实现了已知为SpecAugment [Park et al., 2019]的流行增强技术。

`FrequencyMasking`	在频域中对频谱图应用掩码。
`TimeMasking`	在时域中对频谱图应用掩码。
`TimeStretch`	在给定速率下，沿时间轴拉伸 STFT 而不改变音高。

损失¶

RNNTLoss

计算来自 基于循环神经网络的序列转导 的 RNN Transducer 损失 [Graves, 2012]。

Multi-channel¶

`PSD`	计算跨通道功率谱密度 (PSD) 矩阵。
`MVDR`	最小方差无失真响应 (MVDR) 模块，利用时频掩码执行 MVDR 波束成形。
`RTFMVDR`	基于噪声的相对传递函数 (RTF) 和功率谱密度 (PSD) 矩阵的最小方差无失真响应 (MVDR [Capon, 1969]) 模块。
`SoudenMVDR`	最小方差无失真响应 (MVDR [Capon, 1969]) 模块基于 Souden 等人提出的方法 [Souden et al., 2009]。

torchaudio.transforms¶

工具¶

特征提取¶

数据增强¶

损失¶

Multi-channel¶

文档

教程

资源