torchaudio.functional¶

执行常见音频操作的函数。

工具¶

`amplitude_to_DB`	将频谱图从功率/幅度刻度转换为分贝刻度。
`DB_to_amplitude`	将张量从分贝刻度转换为功率/幅度刻度。
`melscale_fbanks`	创建频率分箱转换矩阵。
`linear_fbanks`	创建一个线性三角滤波器组。
`create_dct`	创建一个形状为 (`n_mels`, `n_mfcc`) 的 DCT 变换矩阵，根据 norm 进行归一化。
`mask_along_axis`	沿 `axis` 应用掩码。
`mask_along_axis_iid`	沿 `axis` 应用掩码。
`mu_law_encoding`	基于 μ 律压扩对信号进行编码。
`mu_law_decoding`	解码 μ 律编码信号。
`apply_codec`	将编解码器作为一种增强形式进行应用。
`resample`	使用带限插值以新频率对波形进行重采样。
`loudness`	根据 ITU-R BS.1770-4 建议测量音频响度。
`convolve`	使用直接方法沿输入的最后一个维度进行卷积。
`fftconvolve`	使用 FFT 沿输入的最后一个维度进行卷积。
`add_noise`	根据信噪比对波形进行缩放并添加噪声。
`preemphasis`	对波形沿其最后一个维度进行预加重，即对于 `waveform` 中的每个信号 \(x\)，计算输出 \(y\) 为。
`deemphasis`	降低波形在其最后一个维度上的强调。
`speed`	调整波形速度。

`vad`	语音活动检测器。
`spectrogram`	从原始音频信号创建频谱图或一批频谱图。
`inverse_spectrogram`	根据提供的复数频谱图，生成逆频谱图或一批逆频谱图。
`griffinlim`	使用 Griffin-Lim 变换从线性尺度幅度谱图计算波形。
`phase_vocoder`	给定一个 STFT 张量，在不改变音高的情况下将时间加速 `rate` 倍。
`pitch_shift`	将波形的音高移动 `n_steps` 个步骤。
`compute_deltas`	计算张量（通常是频谱图）的差分系数：
`detect_pitch_frequency`	检测音高频率。
`sliding_window_cmn`	对每个语音片段应用滑动窗口倒谱均值（以及可选的方差）归一化。
`compute_kaldi_pitch`	根据A pitch extraction algorithm tuned for automatic speech recognition中描述的方法提取音高 [Ghahremani et al., 2014]。
`spectral_centroid`	沿时间轴计算每个通道的频谱质心。

`psd`	计算跨通道功率谱密度 (PSD) 矩阵。
`mvdr_weights_souden`	通过 MVDR 方法（[Capon, 1969]）计算最小方差无失真响应的波束形成权重，该方法由 Souden et, al. 提出（[Souden et al., 2009]）。
`mvdr_weights_rtf`	根据相对传递函数 (RTF) 和噪声功率谱密度 (PSD) 矩阵，计算最小方差无失真响应 (MVDR [Capon, 1969]) 波束成形权重。
`rtf_evd`	通过特征值分解估计相对传递函数（RTF）或导向矢量。
`rtf_power`	通过功率法估计相对传递函数 (RTF) 或导向矢量。
`apply_beamforming`	将波束成形权重应用于多通道噪声频谱，以获得单通道增强频谱。

计算来自 基于循环神经网络的序列转导 的 RNN Transducer 损失 [Graves, 2012]。

计算两个序列之间的词级编辑（Levenshtein）距离。