目录

torchaudio.functional

执行常见音频操作的函数。

工具

amplitude_to_DB

将频谱图从功率/幅度刻度转换为分贝刻度。

DB_to_amplitude

将张量从分贝刻度转换为功率/幅度刻度。

melscale_fbanks

创建频率分箱转换矩阵。

linear_fbanks

创建一个线性三角滤波器组。

create_dct

创建一个形状为 (n_mels, n_mfcc) 的 DCT 变换矩阵,根据 norm 进行归一化。

mask_along_axis

沿 axis 应用掩码。

mask_along_axis_iid

沿 axis 应用掩码。

mu_law_encoding

基于 μ 律压扩对信号进行编码。

mu_law_decoding

解码 μ 律编码信号。

apply_codec

将编解码器作为一种增强形式进行应用。

resample

使用带限插值以新频率对波形进行重采样。

loudness

根据 ITU-R BS.1770-4 建议测量音频响度。

convolve

使用直接方法沿输入的最后一个维度进行卷积。

fftconvolve

使用 FFT 沿输入的最后一个维度进行卷积。

add_noise

根据信噪比对波形进行缩放并添加噪声。

preemphasis

对波形沿其最后一个维度进行预加重,即对于 waveform 中的每个信号 \(x\),计算输出 \(y\) 为。

deemphasis

降低波形在其最后一个维度上的强调。

speed

调整波形速度。

过滤

allpass_biquad

设计二阶全通滤波器。

band_biquad

设计二极点带通滤波器。

bandpass_biquad

设计二极点带通滤波器。

bandreject_biquad

设计二极点带阻滤波器。

bass_biquad

设计一个低音音调控制效果。

biquad

对输入张量执行双二阶滤波器处理。

contrast

应用对比效果。

dcshift

对音频应用直流偏移。

deemph_biquad

应用 ISO 908 CD 去加重(搁架)IIR 滤波器。

dither

应用抖动

equalizer_biquad

设计双二阶峰值均衡器滤波器并执行滤波。

filtfilt

对波形应用前向和后向 IIR 滤波器。

flanger

对音频应用镶边效果。

gain

对整个波形应用放大或衰减。

highpass_biquad

设计二阶高通滤波器并执行滤波操作。

lfilter

通过评估差分方程执行 IIR 滤波。

lowpass_biquad

设计二阶低通滤波器并执行滤波操作。

overdrive

对音频应用过载效果。

phaser

对音频应用相位效果。

riaa_biquad

应用 RIAA 黑胶唱片播放均衡。

treble_biquad

设计一个三段式音调控制效果。

特征提取

vad

语音活动检测器。

spectrogram

从原始音频信号创建频谱图或一批频谱图。

inverse_spectrogram

根据提供的复数频谱图,生成逆频谱图或一批逆频谱图。

griffinlim

使用 Griffin-Lim 变换从线性尺度幅度谱图计算波形。

phase_vocoder

给定一个 STFT 张量,在不改变音高的情况下将时间加速 rate 倍。

pitch_shift

将波形的音高移动 n_steps 个步骤。

compute_deltas

计算张量(通常是频谱图)的差分系数:

detect_pitch_frequency

检测音高频率。

sliding_window_cmn

对每个语音片段应用滑动窗口倒谱均值(以及可选的方差)归一化。

compute_kaldi_pitch

根据A pitch extraction algorithm tuned for automatic speech recognition中描述的方法提取音高 [Ghahremani et al., 2014]

spectral_centroid

沿时间轴计算每个通道的频谱质心。

Multi-channel

psd

计算跨通道功率谱密度 (PSD) 矩阵。

mvdr_weights_souden

通过 MVDR 方法([Capon, 1969])计算最小方差无失真响应的波束形成权重,该方法由 Souden et, al. 提出([Souden et al., 2009])。

mvdr_weights_rtf

根据相对传递函数 (RTF) 和噪声功率谱密度 (PSD) 矩阵,计算最小方差无失真响应 (MVDR [Capon, 1969]) 波束成形权重。

rtf_evd

通过特征值分解估计相对传递函数(RTF)或导向矢量。

rtf_power

通过功率法估计相对传递函数 (RTF) 或导向矢量。

apply_beamforming

将波束成形权重应用于多通道噪声频谱,以获得单通道增强频谱。

损失

rnnt_loss

计算来自 基于循环神经网络的序列转导 的 RNN Transducer 损失 [Graves, 2012]

指标

edit_distance

计算两个序列之间的词级编辑(Levenshtein)距离。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源