torchaudio.transforms¶

转换是常见的音频转换。它们可以使用torch.nn.Sequential

光谱图¶

class （n_fft： int = 400， win_length： Optional[int] = None， hop_length： Optional[int] = None， pad： int = 0， window_fn： Callable[[...]， torch.张量] = < object> 类型的内置方法hann_window，power：可选[float] = 2.0，归一化： bool = False， wkwargs：可选[dict] = 无，中心： bool = True， pad_mode： str = 'reflect'，单面： bool = True）[来源]torchaudio.transforms.Spectrogram¶

从音频信号创建频谱图。

参数

n_fft （int， optional） - FFT 的大小，创建 bin。（默认：n_fft // 2 + 1400)
win_length （int 或 None，可选） – 窗口大小。（默认：n_fft)
hop_length （int 或 None，可选） – STFT 窗口之间的跃点长度。（默认：win_length // 2)
pad （int， optional） - 信号的两侧填充。（默认：0)
window_fn （Callable[..， Tensor]， optional） – 用于创建窗口张量的函数应用/乘以每个框架/窗口。（默认：torch.hann_window)
power （float 或 None，可选） – 幅度频谱图的指数，（必须> 0）例如，1 表示能量，2 表示功率，等等。如果为 None，则返回复数谱。（默认：2)
normalized （bool， optional） - 是否在 stft 之后按量级进行标准化。（默认：False)
wkwargs （dict 或 None，可选） – 窗口函数的参数。（默认：None)
center （bool， optional） – 是否在两侧填充，以便第 \（t\）帧以时间 \（t \times \text{hop\_length}\）为中心。违约：waveformTrue
pad_mode （string， optional） – 控制 is 时使用的填充方法。违约：centerTrue"reflect"
onesided （bool， optional） – 控制是否将一半的结果返回给避免冗余 Default：True

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 维度（...， freq， time），其中 freq 是傅里叶分箱，时间是窗口跃点数（n_frame）。n_fft // 2 + 1n_fft
返回类型: 张肌

格里芬林¶

类（n_fft： int = 400， n_iter： int = 32， win_length：可选[int] = 无， hop_length：可选[int] = 无， window_fn：可调用[[...]， Torch.张量] = < object> 类型的内置方法hann_window，功率：float = 2.0，标准化：bool = False，wkwargs：可选[dict] = 无，动量：float = 0.99，长度：可选[int] = 无，rand_init：bool = True）[来源]torchaudio.transforms.GriffinLim¶

使用 Griffin-Lim 变换从线性尺度幅度频谱图计算波形。

从 1、2、3 移植的实现。librosa

参数

n_fft （int， optional） - FFT 的大小，创建 bin。（默认：n_fft // 2 + 1400)
n_iter （int， optional） – 阶段恢复过程的迭代次数。（默认：32)
win_length （int 或 None，可选） – 窗口大小。（默认：n_fft)
hop_length （int 或 None，可选） – STFT 窗口之间的跃点长度。（默认：win_length // 2)
window_fn （Callable[..， Tensor]， optional） – 用于创建窗口张量的函数应用/乘以每个框架/窗口。（默认：torch.hann_window)
power （float， optional） – 幅度频谱图的指数，（必须> 0）例如，1 表示能量，2 表示功率，等等。（默认值：2)
normalized （bool， optional） - 是否在 stft 之后按量级进行标准化。（默认：False)
wkwargs （dict 或 None，可选） – 窗口函数的参数。（默认：None)
momentum （float， optional） - 快速 Griffin-Lim 的动量参数。将此设置为 0 将恢复原始的 Griffin-Lim 方法。接近 1 的值可以加快收敛速度，但高于 1 的值可能不会收敛。（默认：0.99)
length （int， optional） – 预期输出的数组长度。（默认：None)
rand_init （bool， optional） – 如果为 True，则随机初始化阶段，否则为零。（默认：True)

引用

1: 麦克菲、布莱恩、科林·拉菲尔、梁大文、丹尼尔 PW 埃利斯、马特·麦克维卡、埃里克·巴滕贝格、和 Oriol Nieto。

“librosa：python 中的音频和音乐信号分析。”

第 14 届蟒蛇科学会议论文集，第 18-25 页。2015.
2: Perraudin， N.， Balazs， P.， & Søndergaard， P. L.

“一种快速的 Griffin-Lim 算法，”

IEEE 信号处理在音频和声学中的应用研讨会（第 1-4 页），

2013 年 10 月。
3: D. W. Griffin 和 J. S. Lim，

“来自改进的短时傅里叶变换的信号估计，”

IEEE Trans. ASSP，第 32 卷，第 2 期，第 236-243 页，1984 年 4 月。

forward(specgram：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: specgram （Tensor） - 维度为（...， freq， frames）的仅幅度的 STFT 频谱图其中 freq 是。n_fft // 2 + 1
返回: waveform of （...， time），其中 time 等于参数（如果给定）。length
返回类型: 张肌

AmplitudeToDB¶

class （stype： str = 'power'， top_db： Optional[float] = None）[来源]torchaudio.transforms.AmplitudeToDB¶

将张量从幂/振幅刻度转换为分贝刻度。

此输出取决于输入张量中的最大值，因此可能会为拆分为片段的音频剪辑返回不同的值，而不是一个完整的剪辑。

参数

stype （str， optional） - 输入张量的比例（'power' 或 'magnitude'）。这 power 是 magnitude 的元素平方。（默认：'power')
top_db （float， optional） – 以分贝为单位的最小负截止值。合理的数字 80 岁。（默认：None)

forward(x：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

来自 Librosa 的数值稳定实现。

https://librosa.org/doc/latest/generated/librosa.amplitude_to_db.html

参数: x （Tensor） - 转换为分贝刻度之前的输入张量。
返回: 分贝刻度的输出张量。
返回类型: 张肌

梅尔斯卡尔¶

class （n_mels： int = 128， sample_rate： int = 16000， f_min： float = 0.0， f_max：可选[float] = 无， n_stft：可选[int] = 无， 规范：可选[str] = 无）[源]torchaudio.transforms.MelScale¶

使用转换将普通 STFT 转换为 mel 频率 STFT 矩阵。这使用三角滤波器组。

用户可以控制滤波器组（fb）是哪个设备（例如 fb.to（spec_f.device））。

参数

n_mels （int， optional） – mel filterbanks 的数量。（默认：128)
sample_rate （int， optional） – 音频信号的采样率。（默认：16000)
f_min （float， optional）（最小频率）。（默认：0.)
f_max （float 或 None，可选） – 最大频率。（默认：sample_rate // 2)
n_stft （int， optional） – STFT 中的 bin 数量。从第一次输入开始计算如果给出 None。请参阅n_fftSpectrogram.（默认：None)
norm （Optional[str]） - 如果为 'slaney'，则将三角形梅尔权重除以梅尔带的宽度
normalization 的 Normalization）。（默认（（区域） –None)

forward(specgram：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: specgram （Tensor） - 维度为（...， freq， time）的频谱图 STFT。
返回: 大小的梅尔频率频谱图（...，， time）。n_mels
返回类型: 张肌

InverseMelScale¶

class （n_stft： int， n_mels： int = 128， sample_rate： int = 16000， f_min： float = 0.0， f_max： Optional[float] = None， max_iter： int = 100000， tolerance_loss： float = 1e-05， tolerance_change： float = 1e-08， sgdargs： Optional[dict] = None， norm： Optional[str] = None）[来源]torchaudio.transforms.InverseMelScale¶

使用转换从 mel 频率 STFT 求解法向 STFT 的法向 STFT 矩阵。这使用三角滤波器组。

它最小化了输入梅尔频谱图与两者之间的乘积之间的欧几里得范数使用 SGD 的估计频谱图和滤波器组。

参数

n_stft （int） – STFT 中的箱数。请参阅n_fftSpectrogram.
n_mels （int， optional） – mel filterbanks 的数量。（默认：128)
sample_rate （int， optional） – 音频信号的采样率。（默认：16000)
f_min （float， optional）（最小频率）。（默认：0.)
f_max （float 或 None，可选） – 最大频率。（默认：sample_rate // 2)
max_iter （int， optional） – 最大优化迭代次数。（默认：100000)
tolerance_loss （float， optional） – 停止优化的损失值。（默认：1e-5)
tolerance_change （float， optional） – 停止优化的损失差异。（默认：1e-8)
sgdargs （dict 或 None，可选） – SGD 优化器的参数。（默认：None)
norm （Optional[str]） - 如果为 'slaney'，则将三角形梅尔权重除以梅尔带的宽度
normalization 的 Normalization）。（默认（（区域） –None)

forward(melspec：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: melspec （Tensor） - 维数（...，， time）的 Mel 频率频谱图n_mels
返回: 大小（...， freq， time）的线性标度频谱图
返回类型: 张肌

MelSpectrogram 梅尔频谱图¶

类（sample_rate： int = 16000， n_fft： int = 400， win_length：可选[int] = 无， hop_length：可选[int] = 无， f_min：浮点数 = 0.0， f_max：可选[浮点数] = 无， pad： int = 0， n_mels： int = 128， window_fn： Callable[[...]， torch.张量] = < object> 类型的内置方法hann_window，功率：可选[浮点] = 2.0，归一化：bool = False，wkwargs：可选[dict] = 无，中心：bool = True，pad_mode：str = 'reflect'，单侧：bool = True，规范：可选[str] = None）[来源]torchaudio.transforms.MelSpectrogram¶

为原始音频信号创建 MelSpectrogram。这是 Spectrogram 的组合和 MelScale。

来源

参数

sample_rate （int， optional） – 音频信号的采样率。（默认：16000)
win_length （int 或 None，可选） – 窗口大小。（默认：n_fft)
hop_length （int 或 None，可选） – STFT 窗口之间的跃点长度。（默认：win_length // 2)
n_fft （int， optional） - FFT 的大小，创建 bin。（默认：n_fft // 2 + 1400)
f_min （float， optional）（最小频率）。（默认：0.)
f_max （float 或 None，可选） – 最大频率。（默认：None)
pad （int， optional） - 信号的两侧填充。（默认：0)
n_mels （int， optional） – mel filterbanks 的数量。（默认：128)
window_fn （Callable[..， Tensor]， optional） – 用于创建窗口张量的函数应用/乘以每个框架/窗口。（默认：torch.hann_window)
wkwargs （Dict[..， ..] 或 None， optional） – 窗口函数的参数。（默认：None)
center （bool， optional） – 是否在两侧填充，以便第 \（t\）帧以时间 \（t \times \text{hop\_length}\）为中心。违约：waveformTrue
pad_mode （string， optional） – 控制 is 时使用的填充方法。违约：centerTrue"reflect"
onesided （bool， optional） – 控制是否将一半的结果返回给避免冗余。违约：True
norm （Optional[str]） - 如果为 'slaney'，则将三角形梅尔权重除以梅尔带的宽度
normalization 的 Normalization）。（默认（（区域） –None)

例

>>> waveform, sample_rate = torchaudio.load('test.wav', normalization=True)
>>> mel_specgram = transforms.MelSpectrogram(sample_rate)(waveform)  # (channel, n_mels, time)

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 大小的梅尔频率频谱图（...，， time）。n_mels
返回类型: 张肌

MFCC¶

类（sample_rate：int = 16000，n_mfcc：int = 40，dct_type：int = 2，范数：str = 'ortho'，log_mels：bool = False，melkwargs：可选[dict] = None）[源]torchaudio.transforms.MFCC¶

从音频信号创建 Mel 频率倒谱系数。

默认情况下，这将计算 DB 缩放的 Mel 频谱图上的 MFCC。这不是教科书上的实现，但在这里实现是为了与 librosa 保持一致。

此输出取决于输入频谱图中的最大值，因此可能会为拆分为片段的音频剪辑返回不同的值，而不是一个完整的剪辑。

参数

sample_rate （int， optional） – 音频信号的采样率。（默认：16000)
n_mfcc （int， optional） – 要保留的 mfc 系数的数量。（默认：40)
dct_type （int， optional） - 要使用的 DCT （离散余弦变换）的类型。（默认：2)
norm （str， optional） - 要使用的范数。（默认：'ortho')
log_mels （bool， optional） – 是否使用 log-mel 频谱图而不是 dB 缩放。（默认：False)
melkwargs （dict 或 None，可选） - MelSpectrogram 的参数。（默认：None)

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 大小为（...，， time）的 specgram_mel_db。n_mfcc
返回类型: 张肌

MuLaw编码¶

类（quantization_channels：int = 256）[来源]torchaudio.transforms.MuLawEncoding¶

基于 mu-law 压缩扩展对信号进行编码。有关更多信息，请参阅维基百科条目

此算法假设信号已缩放到 -1 和 1 之间，并且返回使用 0 到 quantization_channels - 1 之间的值编码的信号

参数: quantization_channels （int， optional） – 通道数。（默认：256)

forward(x：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: x （Tensor） - 要编码的信号。
返回: 编码信号。
返回类型: x_mu （张量）

MuLaw解码¶

类（quantization_channels：int = 256）[来源]torchaudio.transforms.MuLawDecoding¶

解码 mu-law 编码信号。有关更多信息，请参阅维基百科条目

这需要值介于 0 和 quantization_channels - 1 之间的输入并返回缩放范围介于 -1 和 1 之间的信号。

参数: quantization_channels （int， optional） – 通道数。（默认：256)

forward(x_mu：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: x_mu （Tensor） - 需要解码的 mu-law 编码信号。
返回: 信号解码。
返回类型: 张肌

重新采样¶

类（orig_freq：int = 16000，new_freq：int = 16000，resampling_method：str = 'sinc_interpolation'）[来源]torchaudio.transforms.Resample¶

将信号从一个频率重新采样到另一个频率。可以给出重采样方法。

参数

orig_freq （float， optional）（浮点数，可选） – 信号的原始频率。（默认：16000)
new_freq （float， optional）（浮点数，可选） – 所需的频率。（默认：16000)
resampling_method （str， optional） – 重采样方法。（默认：'sinc_interpolation')

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 维度（...， time）的输出信号。
返回类型: 张肌

复常数¶

类（功率：浮点数 = 1.0）[来源]torchaudio.transforms.ComplexNorm¶

计算复张量输入的范数。

参数: power （float， optional） - 标准功率。（默认值：to1.0)

forward(complex_tensor：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: complex_tensor （Tensor） - （...， complex=2）的张量形状。
返回: 输入张量的范数，形状为（...，）。
返回类型: 张肌

计算增量¶

类（win_length：int = 5，模式：str = 'replicate'）[来源]torchaudio.transforms.ComputeDeltas¶

计算张量的 delta 系数，通常是频谱图。

有关详细信息，请参阅 torchaudio.functional.compute_deltas。

参数

win_length （int） – 用于计算增量的窗口长度。（默认：5)
- mode （str） - 传递给 padding 的 Mode 参数。（默认：'replicate')

forward(specgram：Torch。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: specgram （Tensor） - 维度为（...， freq， time）的音频张量。
返回: 维度增量的张量（...， freq， time）。
返回类型: 张肌

时间拉伸¶

class （hop_length： Optional[int] = None， n_freq： int = 201， fixed_rate： Optional[float] = None）[来源]torchaudio.transforms.TimeStretch¶

在时间上拉伸 stft，而不修改给定速率的音高。

参数

hop_length （int 或 None，可选） – STFT 窗口之间的跃点长度。（默认：win_length // 2)
n_freq （int， optional） - 来自 stft 的滤波器组数量。（默认：201)
fixed_rate （float 或 None，可选） – 用于加速或减速的速率。如果提供 None，则必须将 rate 传递给 forward 方法。（默认：None)

forward(complex_specgrams：Torch。Tensor，overriding_rate：可选[float] = None）→ torch。张量[来源]¶

参数

complex_specgrams （Tensor） – 复数频谱图（...， freq， time， complex=2）。
overriding_rate （float 或 None，可选） – 加快应用于此批次的速度。如果未传递 rate，请使用。（默认：self.fixed_rateNone)

返回

维度的拉伸复数频谱图（...， freq， ceil（time/rate）， complex=2）。

返回类型

张肌

褪色¶

类（fade_in_len：int = 0，fade_out_len：int = 0，fade_shape：str = 'linear'）[来源]torchaudio.transforms.Fade¶

向波形添加淡入和/或淡出。

参数

fade_in_len （int， optional） – 淡入的长度（时间范围）。（默认：0)
fade_out_len （int， optional） – 淡出的长度（时间范围）。（默认：0)
fade_shape （str， optional） - 淡入淡出的形状。必须是以下之一：“quarter_sine”， “half_sine”、“线性”、“对数”、“指数”。（默认："linear")

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 维度（...， time）的音频张量。
返回类型: 张肌

频率掩码¶

class （freq_mask_param： int， iid_masks： bool = False）[来源]torchaudio.transforms.FrequencyMasking¶

将掩码应用于频域中的频谱图。

参数

freq_mask_param （int） - 掩码的最大可能长度。从 [0， freq_mask_param）中统一采样的索引。
iid_masks （bool， optional） – 是否对每个蒙版应用不同的蒙版 example/channel 中。（默认值：）仅当输入张量为 4D 时，此选项才适用。False

forward(specgram：Torch。Tensor，mask_value：float = 0.0）→ torch。张肌¶

参数

specgram （Tensor） - 维度（...， freq， time）的张量。
mask_value （float） – 要分配给掩码列的值。

返回

维度的掩码频谱图（...， freq， time）。

返回类型

张肌

时间掩码¶

class （time_mask_param： int， iid_masks： bool = False）[来源]torchaudio.transforms.TimeMasking¶

在时域中对频谱图应用掩码。

参数

time_mask_param （int） – 掩码的最大可能长度。从 [0， time_mask_param）中均匀采样的索引。
iid_masks （bool， optional） – 是否对每个蒙版应用不同的蒙版 example/channel 中。（默认值：）仅当输入张量为 4D 时，此选项才适用。False

forward(specgram：Torch。Tensor，mask_value：float = 0.0）→ torch。张肌¶

参数

specgram （Tensor） - 维度（...， freq， time）的张量。
mask_value （float） – 要分配给掩码列的值。

返回

维度的掩码频谱图（...， freq， time）。

返回类型

张肌

卷¶

类别（增益：浮点数，gain_type：str = 'amplitude'）[来源]torchaudio.transforms.Vol¶

向波形添加音量。

参数

gain （float） – 根据给定的gain_type解释：如果 = ，则为正振幅比。如果 = ，则为功率（电压的平方）。如果 = ，则以分贝为单位。gain_typeamplitudegaingain_typepowergaingain_typedbgain
gain_type （str， optional） – 增益类型。以下之一：，，（默认值：amplitudepowerdbamplitude)

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 维度（...， time）的音频张量。
返回类型: 张肌

滑动窗口 Cmn¶

类（cmn_window：int = 600，min_cmn_window：int = 100，中心：bool = False，norm_vars：bool = False）[来源]torchaudio.transforms.SlidingWindowCmn¶

对每个话语应用滑动窗口倒谱均值（和可选的方差）归一化。

参数

cmn_window （ int ，可选） – 用于运行平均 CMN 计算的帧中的窗口（ int ，默认值 = 600）
min_cmn_window （int，可选） – 解码开始时使用的最小 CMN 窗口（仅在开始时添加延迟）。仅在 center == false 时适用，如果 center==true （int， default = 100）则忽略
center （bool，可选） – 如果为 true，则使用以当前帧为中心的窗口（在可能的情况下，模数末端效应）。如果为 false，则 window 位于左侧。（布尔值，默认值 = false）
norm_vars （bool， optional） – 如果为 true，则将方差标准化为 1。（布尔值，默认值 = false）

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 维度（...， time）的音频张量。
返回类型: 张肌

SpectralCentroid （光谱中心）¶

class （sample_rate： int， n_fft： int = 400， win_length： Optional[int] = None， hop_length： Optional[int] = None， pad： int = 0， window_fn： Callable[[...]， torch.Tensor] = < object> 类型的内置方法hann_window，wkwargs： Optional[dict] = None）[来源]torchaudio.transforms.SpectralCentroid¶

计算沿时间轴的每个通道的频谱质心。

谱质心定义为 frequency 值，按其量级加权。

参数

sample_rate （int） – 音频信号的采样率。
n_fft （int， optional） - FFT 的大小，创建 bin。（默认：n_fft // 2 + 1400)
win_length （int 或 None，可选） – 窗口大小。（默认：n_fft)
hop_length （int 或 None，可选） – STFT 窗口之间的跃点长度。（默认：win_length // 2)
pad （int， optional） - 信号的两侧填充。（默认：0)
window_fn （Callable[..， Tensor]， optional） – 用于创建窗口张量的函数应用/乘以每个框架/窗口。（默认：torch.hann_window)
wkwargs （dict 或 None，可选） – 窗口函数的参数。（默认：None)

例

>>> waveform, sample_rate = torchaudio.load('test.wav', normalization=True)
>>> spectral_centroid = transforms.SpectralCentroid(sample_rate)(waveform)  # (channel, time)

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量。
返回: 大小（...， time）的频谱质心。
返回类型: 张肌

瓦德¶

类（sample_rate： int， trigger_level： float = 7.0， trigger_time： float = 0.25， search_time： float = 1.0， allowed_gap： float = 0.25， pre_trigger_time： float = 0.0， boot_time： float = 0.35， noise_up_time： float = 0.1， noise_down_time： float = 0.01， noise_reduction_amount： float = 1.35， measure_freq： float = 20.0， measure_duration：可选[float] = None，measure_smooth_time：float = 0.4，hp_filter_freq：float = 50.0，lp_filter_freq：float = 6000.0，hp_lifter_freq：float = 150.0，lp_lifter_freq：float = 2000.0）[来源]torchaudio.transforms.Vad¶

语音活动检测器。类似于 SoX 实现。尝试从语音录音的结尾修剪静音和安静的背景声音。该算法目前使用简单的倒谱功率测量来检测语音，所以可能会被其他事物所愚弄，尤其是音乐。

该效果只能从音频的前面进行修剪，所以为了从后面修剪，还必须使用反向效果。

参数

sample_rate （int） – 音频信号的采样率。
trigger_level （float， optional）（浮点数，可选） – 用于触发活动检测的测量级别。这可能需要根据噪音水平、信号水平、以及输入音频的其他特性。（默认值：7.0）
trigger_time （float， optional） – 时间常数（以秒为单位）用于帮助忽略短促的声音。（默认值：0.25）
search_time （float， optional） – 音频量（以秒为单位）搜索更安静/更短的音频突发以包含之前的音频拖动到检测到的触发点。（默认值：1.0）
allowed_gap （float， optional） – 两者之间允许的间隔（以秒为单位）要包含先前的音频的较长/更短的突发拖动到检测到的触发点。（默认值：0.25）
pre_trigger_time （float， optional） – 要保留的音频量（以秒为单位）在触发点之前以及找到的任何更安静/更短的突发。（默认值：0.0）
boot_time （float， optional）算法（内部） – 估计/减少以检测所需音频的开始。此选项设置初始噪声估计的时间。（默认值：0.35）
noise_up_time （float， optional） – 当噪音水平增加时。（默认值：0.1）
noise_down_time （float， optional） – 当噪音水平降低时。（默认值：0.01）
noise_reduction_amount （float， optional） – 检测算法（例如 0， 0.5， ...）。（默认：1.35）
measure_freq （float， optional） – 处理/测量。（默认值：20.0）
measure_duration – （浮点，可选）测量持续时间。（默认值：测量周期的两倍;即重叠。
measure_smooth_time （float， optional） – 光谱测量。（默认值：0.4）
hp_filter_freq （float， optional） – 在检测器算法的输入处。（默认值：50.0）
lp_filter_freq （float， optional） – 在检测器算法的输入处。（默认值：6000.0）
hp_lifter_freq （float， optional） – 在检测器算法中。（默认值：150.0）
lp_lifter_freq （float， optional） – 在检测器算法中。（默认值：2000.0）

引用

http://sox.sourceforge.net/sox.html

forward(波形：手电筒。Tensor） → torch 的 Tensor 中。张量[来源]¶

参数: waveform （Tensor） - 维度（...， time）的音频张量

torchaudio.transforms¶

光谱图¶

格里芬林¶

AmplitudeToDB¶

梅尔斯卡尔¶

InverseMelScale¶

MelSpectrogram 梅尔频谱图¶

MFCC¶

MuLaw编码¶

MuLaw解码¶

重新采样¶

复常数¶

计算增量¶

时间拉伸¶

褪色¶

频率掩码¶

时间掩码¶

卷¶

滑动窗口 Cmn¶

SpectralCentroid （光谱中心）¶

瓦德¶

文档

教程

资源