目录

torchaudio.functional

用于执行常见音频操作的函数。

效用

amplitude_to_DB

将频谱图从功率/振幅刻度转换为分贝刻度。

DB_to_amplitude

将张量从分贝刻度转换为功率/振幅刻度。

melscale_fbanks

创建频次 bin 转换矩阵。

linear_fbanks

创建线性三角形过滤器组。

create_dct

创建形状为 (, ) 的 DCT 变换矩阵,根据范数进行归一化。n_melsn_mfcc

mask_along_axis

沿 应用蒙版。axis

mask_along_axis_iid

沿 应用蒙版。axis

mu_law_encoding

基于 mu-law 压缩扩展对信号进行编码。

mu_law_decoding

解码 mu-law 编码信号。

apply_codec

已弃用:将编解码器作为增强的一种形式。

重新采样

使用带限插值在新频率处对波形进行重采样。

响度

根据 ITU-R BS.1770-4 建议标准测量音频响度。

盘旋

使用 direct 方法沿输入的最后一个维度卷积输入。

fftconvolve

使用 FFT 沿输入的最后一个维度对输入进行卷积。

add_noise

根据信噪比对波形进行缩放和添加噪声。

预加重

沿其最后一个维度预先强调波形,即对于 中的每个信号 \(x\) ,计算输出 \(y\) 为。waveform

去加重

沿波形的最后一个维度取消强调。

速度

调整波形速度。

frechet_distance

计算两个多元正态分布之间的 Fréchet 距离 [Dowson 和 Landau,1982]。

强制对齐

forced_align

将 CTC 标记序列与发射对齐。

merge_tokens

从给定的 CTC 令牌序列中删除重复的令牌和空白令牌。

TokenSpan

带有时间戳和分数的令牌。

滤波

allpass_biquad

设计双极点全通滤波器。

band_biquad

设计双极带滤波器。

bandpass_biquad

设计 2 极点带通滤波器。

bandreject_biquad

设计 2 极点带阻滤波器。

bass_biquad

设计低音音调控制效果。

双二阶

执行输入张量的双二阶滤波器。

反差

应用对比效果。

直流移位

对音频应用 DC Shift 键。

deemph_biquad

应用 ISO 908 CD 去加重(搁架)IIR 滤镜。

抖动

Apply dither (应用抖动)

equalizer_biquad

设计双二阶峰值均衡器滤波器并执行滤波。

filtfilt

将 IIR 滤波器向前和向后应用于波形。

镶边

将镶边效果应用于音频。

获得

对整个波形进行放大或衰减。

highpass_biquad

设计双二阶高通滤波器并执行滤波。

过滤器

使用 Yu 等人独立开发的可微分实现,通过评估差分方程来执行 IIR 滤波器。 [Yu 和 Fazekas,2023 年]Forgione 等人。 [Forgione 和 Piga,2021 年]。

lowpass_biquad

设计双二阶低通滤波器并执行滤波。

超速

对音频应用过载效果。

相位

对音频应用阶段划分效果。

riaa_biquad

应用 RIAA 黑胶唱片播放均衡。

treble_biquad

设计高音调控制效果。

特征提取

瓦德

语音活动检测器。

光谱图

从原始音频信号创建频谱图或一批频谱图。

inverse_spectrogram

从提供的复值频谱图创建逆频谱图或一批逆频谱图。

格里芬林

使用 Griffin-Lim 变换从线性尺度幅度频谱图计算波形。

phase_vocoder

给定一个 STFT 张量,在不修改音高系数 的情况下及时加速。rate

pitch_shift

逐步移动波形的音高。n_steps

compute_deltas

计算张量的 delta 系数,通常是频谱图:

detect_pitch_frequency

检测俯仰频率。

sliding_window_cmn

对每个话语应用滑动窗口倒谱均值(和可选的方差)归一化。

spectral_centroid

计算沿时间轴的每个通道的频谱质心。

多通道

PSD

计算跨通道功率谱密度 (PSD) 矩阵。

mvdr_weights_souden

通过 Souden 等人提出的方法计算最小方差无失真响应 (MVDR [Capon, 1969]) 波束成形权重。 [Souden 等人,2009 年]。

mvdr_weights_rtf

根据噪声的相对传递函数 (RTF) 和功率谱密度 (PSD) 矩阵计算最小方差无失真响应 (MVDR [Capon, 1969])波束成形权重。

rtf_evd

通过特征值分解估计相对传递函数 (RTF) 或转向向量。

rtf_power

通过幂法估计相对传递函数 (RTF) 或转向矢量。

apply_beamforming

将波束成形权重应用于多通道噪声频谱,以获得单通道增强频谱。

损失

rnnt_loss

使用循环神经网络计算序列转导的 RNN 换能器损失 [Graves,2012]。

度量

edit_distance

计算两个序列之间的字级编辑 (Levenshtein) 距离。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源