目录

torchaudio.compliance.kaldi

可以使用 torchaudio 执行 kaldi 的有用处理操作。 给出了具有相同参数的各种函数,以便 torchaudio 可以 产生类似的输出。

功能

光谱图

torchaudio.compliance.kaldi.spectrogram(波形:手电筒。张量blackman_coeff:浮点数 = 0.42通道:int = -1抖动:浮点数 = 0.0,energy_floor:浮点数 = 1.0,frame_length:浮点数 = 25.0,frame_shift:浮点数 = 10.0,min_duration:浮点数 = 0.0,preemphasis_coefficient:浮点数 = 0.97,raw_energy:bool = True,remove_dc_offset:bool = True,round_to_power_of_two:bool = True,sample_frequency:浮点数 = 16000.0snip_edges: bool = Truesubtract_mean: bool = Falsewindow_type: str = 'povey') → torch.张量[来源]

从原始音频信号创建频谱图。这与 Kaldi 的 compute-spectrogram-feats.

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:'povey')

返回

与 Kaldi 输出的频谱图相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算padded_window_size // 2 + 1

返回类型

张肌

fbank

torchaudio.compliance.kaldi.fbank(波形:手电筒。张量blackman_coeff:float = 0.42通道:int = -1抖动:float = 0.0,energy_floor:float = 1.0,frame_length:float = 25.0,frame_shift:float = 10.0,high_freq:float = 0.0,htk_compat:bool = False,low_freq:float = 20.0,min_duration:float = 0.0,num_mel_bins:int = 23,preemphasis_coefficient:float = 0.97,raw_energy:bool = Trueremove_dc_offset:bool = Trueround_to_power_of_two:bool = Truesample_frequency:float = 16000.0snip_edges:bool = Truesubtract_mean:bool = Falseuse_energy:bool = Falseuse_log_fbank:bool = Trueuse_power:bool = Truevtln_high:float = -500.0vtln_low:float = 100.0vtln_warp:float = 1.0window_type:str = 'povey' → 割torch。张量[来源]

从原始音频信号创建 fbank。这与 Kaldi 的 compute-fbank-feats 的

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • high_freqfloat (floatoptional) – 梅尔箱的高截止频率(如果 <= 0,与 Nyquist 的偏移量) (默认:0.0)

  • htk_compatbooloptional) – 如果为 true,则最后输入 energy。警告:不足以获得 HTK 兼容功能 (需要更改其他参数)。(默认:False)

  • low_freqfloatoptional) – mel bins 的低截止频率 (Default:20.0)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • num_mel_binsintoptional) – 三角形 mel-frequency bin 的数量 (默认值:23)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • use_energybooloptional) – 向 FBANK 输出添加一个带有能量的额外维度。(默认:False)

  • use_log_fbankbooloptional) – 如果为 true,则生成 log-filterbank,否则生成 linear。(默认:True)

  • use_powerbooloptional) – 如果为 true,则使用 power,否则使用 magnitude。(默认:True)

  • vtln_highfloat (float optional) – 分段线性 VTLN 翘曲函数中的高拐点 (如果 负数,与 high-mel-freq 的偏移量(默认值:-500.0)

  • vtln_lowfloatoptional) – 分段线性 VTLN warping 函数中的低拐点 (Default:100.0)

  • vtln_warpfloatoptional) – Vtln 翘曲因子 (仅在未指定 vtln_map 时适用) (默认值:1.0)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:'povey')

返回

与 Kaldi 输出的 fbank 相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算num_mel_bins + use_energy

返回类型

张肌

MFCC

torchaudio.compliance.kaldi.mfcc(波形:手电筒。张量blackman_coeff:浮点数 = 0.42,cepstral_lifter:浮点数 = 22.0通道:int = -1抖动:浮点数 = 0.0,energy_floor:浮点数 = 1.0,frame_length:浮点数 = 25.0,frame_shift:浮点数 = 10.0,high_freq:浮点数 = 0.0,htk_compat:bool = False,low_freq:浮点数 = 20.0,num_ceps:int = 13,min_duration:浮点数 = 0.0,num_mel_bins:int = 23preemphasis_coefficient:浮点数 = 0.97,raw_energy:bool = True,remove_dc_offset:bool = 真round_to_power_of_two:bool = 真sample_frequency:浮点数 = 16000.0,snip_edges:bool = 真subtract_mean:bool = 假use_energy:bool = 假vtln_high:浮点数 = -500.0,vtln_low:浮点数 = 100.0,vtln_warp:浮点数 = 1.0,window_type:str = 'povey' → 割torch。张量[来源]

从原始音频信号创建 mfcc。这与 Kaldi 的 compute-mfcc-feats 的 Calculate MfcC-feats 中。

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • cepstral_lifterfloatoptional) – 控制 MFCC 缩放的常量 (默认值:22.0)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • high_freqfloat (floatoptional) – 梅尔箱的高截止频率(如果 <= 0,与 Nyquist 的偏移量) (默认:0.0)

  • htk_compatbooloptional) – 如果为 true,则最后输入 energy。警告:不足以兼容 HTK features(需要更改其他参数)。(默认:False)

  • low_freqfloatoptional) – mel bins 的低截止频率 (Default:20.0)

  • num_cepsintoptional) – MFCC 计算中的 cepstra 数量 (包括 C0) (默认值:13)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • num_mel_binsintoptional) – 三角形 mel-frequency bin 的数量 (默认值:23)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • use_energybooloptional) – 向 FBANK 输出添加一个带有能量的额外维度。(默认:False)

  • vtln_highfloat (float optional) – 分段线性 VTLN 翘曲函数中的高拐点 (如果 负数,与 high-mel-freq 的偏移量(默认值:-500.0)

  • vtln_lowfloatoptional) – 分段线性 VTLN warping 函数中的低拐点 (Default:100.0)

  • vtln_warpfloatoptional) – Vtln 翘曲因子 (仅在未指定 vtln_map 时适用) (默认值:1.0)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:"povey")

返回

与 Kaldi 输出的 mfcc 相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算num_ceps

返回类型

张肌

resample_waveform

torchaudio.compliance.kaldi.resample_waveform(波形:手电筒。张量orig_freq:浮点数new_freq:浮点数lowpass_filter_width:int = 6滚动:浮点数 = 0.99resampling_method:str = 'sinc_interpolation' → torch。张量[来源]

以新频率对波形进行重采样。

这是对 .torchaudio.functional.resample

参数
  • waveformTensor) - 大小为 (..., time) 的输入信号

  • orig_freqfloat) – 信号的原始频率

  • new_freqfloat) – 所需的频率

  • lowpass_filter_widthintoptional) – 控制滤镜的锐度,更多 == 更锐利 但效率较低。我们建议正常使用大约 4 到 10 个。(默认:6)

  • roll offfloat optional) (滚动频率,浮点数,可选) – 滤波器的滚降频率,以奈奎斯特频率的分数表示。 较低的值会减少抗锯齿,但也会降低一些最高频率。(默认:0.99)

  • resampling_methodstroptional) – 要使用的重采样方法。 选项:[、](默认值:sinc_interpolationkaiser_window'sinc_interpolation')

返回

新频率下的波形

返回类型

张肌

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源