目录

torchaudio.compliance.kaldi

可以使用 torchaudio 执行 kaldi 的有用处理操作。 给出了具有相同参数的各种函数,以便 torchaudio 可以 产生类似的输出。

功能

光谱图

torchaudio.compliance.kaldi.spectrogram(波形手电筒。张量blackman_coeff:float = 0.42通道int = - 1抖动float = 0.0,energy_floor浮点= 1.0,frame_length浮点= 25.0,frame_shift浮点数 = 10.0,min_duration浮点= 0.0,preemphasis_coefficient浮点= 0.97,raw_energy布尔值 = Trueremove_dc_offset: bool = Trueround_to_power_of_two bool = Truesample_frequency: 浮点= 16000.0,snip_edgesbool = True,subtract_mean:bool = False,window_type str = 'povey'torch.张量[来源]

从原始音频信号创建频谱图。这与 Kaldi 的 compute-spectrogram-feats.

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:'povey')

返回

与 Kaldi 输出的频谱图相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算padded_window_size // 2 + 1

返回类型

张肌

fbank

torchaudio.compliance.kaldi.fbank(波形手电筒。张量blackman_coeff:float = 0.42通道int = - 1抖动float = 0.0,energy_floor浮点= 1.0,frame_length浮点= 25.0,frame_shift浮点数 = 10.0,high_freqfloat = 0.0,htk_compatbool = False,low_freq:float = 20.0,min_duration浮点= 0.0,num_mel_binsint = 23,preemphasis_coefficient浮点数 = 0.97raw_energy bool = Trueremove_dc_offset bool = Trueround_to_power_of_two bool = Truesample_frequency float = 16000.0snip_edges bool = Truesubtract_meanbool = False,use_energy:bool = False,use_log_fbank:bool = Trueuse_powerbool = Truevtln_high float = - 500.0vtln_low: float = 100.0vtln_warp = 1.0window_type: str = 'povey'torch 的张量[来源]

从原始音频信号创建 fbank。这与 Kaldi 的 compute-fbank-feats 的

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • high_freqfloat (floatoptional) – 梅尔箱的高截止频率(如果 <= 0,与 Nyquist 的偏移量) (默认:0.0)

  • htk_compatbooloptional) – 如果为 true,则最后输入 energy。警告:不足以获得 HTK 兼容功能 (需要更改其他参数)。(默认:False)

  • low_freqfloatoptional) – mel bins 的低截止频率 (Default:20.0)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • num_mel_binsintoptional) – 三角形 mel-frequency bin 的数量 (默认值:23)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • use_energybooloptional) – 向 FBANK 输出添加一个带有能量的额外维度。(默认:False)

  • use_log_fbankbooloptional) – 如果为 true,则生成 log-filterbank,否则生成 linear。(默认:True)

  • use_powerbooloptional) – 如果为 true,则使用 power,否则使用 magnitude。(默认:True)

  • vtln_highfloat (float optional) – 分段线性 VTLN 翘曲函数中的高拐点 (如果 负数,与 high-mel-freq 的偏移量(默认值:-500.0)

  • vtln_lowfloatoptional) – 分段线性 VTLN warping 函数中的低拐点 (Default:100.0)

  • vtln_warpfloatoptional) – Vtln 翘曲因子 (仅在未指定 vtln_map 时适用) (默认值:1.0)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:'povey')

返回

与 Kaldi 输出的 fbank 相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算num_mel_bins + use_energy

返回类型

张肌

MFCC

torchaudio.compliance.kaldi.mfcc(波形手电筒。张量blackman_coeff:float = 0.42,cepstral_lifterfloat = 22.0通道int = - 1抖动浮点= 0.0,energy_floor浮点= 1.0,frame_length浮点数 = 25.0,frame_shift浮点= 10.0,high_freq浮点= 0.0,htk_compat布尔值 = Falselow_freq float = 20.0num_ceps int = 13min_duration: = 0.0,num_mel_binsint = 23,preemphasis_coefficient浮点数 = 0.97,raw_energy 布尔 = Trueremove_dc_offset: bool = Trueround_to_power_of_two bool = Truesample_frequency: 浮点= 16000.0,snip_edgesbool = True,subtract_mean:bool = False,use_energy 布尔 = Falsevtln_high float = - 500.0vtln_low float = 100.0vtln_warp = 1.0window_type: str = 'povey'torch 的张量[来源]

从原始音频信号创建 mfcc。这与 Kaldi 的 compute-mfcc-feats 的 Calculate MfcC-feats 中。

参数
  • waveformTensor) - 大小为 (c, n) 的音频张量,其中 c 在 [0,2] 范围内

  • blackman_coefffloatoptional) - 广义 Blackman 窗口的常数系数。(默认:0.42)

  • cepstral_lifterfloatoptional) – 控制 MFCC 缩放的常量 (默认值:22.0)

  • channelintoptional) - 要提取的通道 (-1 -> expect mono, 0 -> left, 1 -> right) (默认值:-1)

  • ditherfloatoptional) – 抖动常数 (0.0 表示没有抖动)。如果关闭此选项,则应将 energy_floor选项,例如 1.0 或 0.1(默认值:0.0)

  • energy_floorfloatoptional) – 频谱图计算中的能量下限 (绝对,非相对)。谨慎: 此 floor 应用于第 0 个分量,表示总信号能量。地板 各个频谱图元素固定在 std::numeric_limits<float>::epsilon() 中。(默认:1.0)

  • frame_lengthfloatoptional) – 帧长度(以毫秒为单位)(默认值:25.0)

  • frame_shiftfloatoptional) – 以毫秒为单位的移码 (Default:10.0)

  • high_freqfloat (floatoptional) – 梅尔箱的高截止频率(如果 <= 0,与 Nyquist 的偏移量) (默认:0.0)

  • htk_compatbooloptional) – 如果为 true,则最后输入 energy。警告:不足以兼容 HTK features(需要更改其他参数)。(默认:False)

  • low_freqfloatoptional) – mel bins 的低截止频率 (Default:20.0)

  • num_cepsintoptional) – MFCC 计算中的 cepstra 数量 (包括 C0) (默认值:13)

  • min_durationfloatoptional) – 要处理的分段的最短持续时间 (以秒为单位)。(默认:0.0)

  • num_mel_binsintoptional) – 三角形 mel-frequency bin 的数量 (默认值:23)

  • preemphasis_coefficientfloatoptional) – 用于信号预加重的系数 (Default:0.97)

  • raw_energybooloptional) – 如果为 True,则在预加重和加窗之前计算能量(默认值:True)

  • remove_dc_offsetbooloptional) – 从每帧的波形中减去平均值(默认值:True)

  • round_to_power_of_twobool可选) – 如果为 True,则将窗口大小四舍五入到零填充输入的 2 的幂 到 FFT。(默认:True)

  • sample_frequencyfloatoptional) – 波形数据采样频率 (必须与波形文件匹配,如果 在那里指定)(默认值:16000.0)

  • snip_edgesbooloptional) – 如果为 True,则通过仅输出完全适合的帧来处理结束效果 ,帧数取决于 frame_length。如果为 False,则为帧数 仅取决于frame_shift,我们在末尾反映数据。(默认:True)

  • subtract_meanbooloptional) – 减去每个特征文件的平均值 [CMS];不建议这样做 它就是这样。(默认:False)

  • use_energybooloptional) – 向 FBANK 输出添加一个带有能量的额外维度。(默认:False)

  • vtln_highfloat (float optional) – 分段线性 VTLN 翘曲函数中的高拐点 (如果 负数,与 high-mel-freq 的偏移量(默认值:-500.0)

  • vtln_lowfloatoptional) – 分段线性 VTLN warping 函数中的低拐点 (Default:100.0)

  • vtln_warpfloatoptional) – Vtln 翘曲因子 (仅在未指定 vtln_map 时适用) (默认值:1.0)

  • window_typestroptional) – 窗口类型 ('hamming'|'汉宁'|'povey'|'矩形'|'布莱克曼') (默认:"povey")

返回

与 Kaldi 输出的 mfcc 相同。形状为 (m, ) 其中 m 以 _get_strided 为单位计算num_ceps

返回类型

张肌

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源