torchaudio.models.decoder¶
Decoder 类¶
CTCDecoder 公司¶
-
class (nbest: int, 词典: Optional[Dict], word_dict: torchaudio._torchaudio_decoder._Dictionary, tokens_dict: torchaudio._torchaudio_decoder._Dictionary, lm: torchaudio._torchaudio_decoder._LM, decoder_options: Union[torchaudio._torchaudio_decoder._LexiconDecoderOptions, torchaudio._torchaudio_decoder._LexiconFreeDecoderOptions],blank_token:str,sil_token:str,unk_word:str)[来源]
torchaudio.models.decoder.
CTCDecoder
¶ 来自 Flashlight 的 CTC 光束搜索解码器 [1]。
- 参数
nbest (int) – 要返回的最佳解码数
lexicon (Dict 或 None) – 单词到拼写的词典映射,或 None 用于无词典解码器
word_dict (_Dictionary) – 单词词典
tokens_dict (_Dictionary) – 令牌字典
lm (_LM) – 语言模型
decoder_options (_LexiconDecoderOptions 或 _LexiconFreeDecoderOptions) – 用于波束搜索解码的参数
blank_token (str) – 对应于 blank 的标记
sil_token (str) – 对应于 silence 的令牌
unk_word (str) – 对应于 unknown 的单词
- 教程使用:
CTCDecoder
-
__call__
(自身,排放:Torch。FloatTensor,长度:可选[torch.张量] = 无)→列表[List[torchaudio.models.decoder.CTCHypothesis]][来源]¶ - 参数
发射 (torch.FloatTensor) – 形状为 (batch, frame, num_tokens) 的 CPU 张量,存储 标签上的概率分布;声学模型的输出。
lengths (Tensor 或 None,可选) – 形状为 (batch, ) 的 CPU 张量,存储 在每个批次中输出 Tensor 的时间轴上。
- 返回
批次中每个音频序列的已排序最佳假设列表。
- 返回类型
列表[List[CTCHypothesis]]
工厂功能¶
ctc_decoder¶
-
class (词典: Optional[str], tokens: Union[str, List[str]], lm: 可选 [str] = 无, nbest: int = 1, beam_size: int = 50, beam_size_token: 可选[int] = 无, beam_threshold: 浮点数 = 50, lm_权重:float = 2,word_score:float = 0,unk_score:float = - inf、sil_score:float = 0、log_add:bool = False、blank_token:str = '-', sil_token: str = '|', unk_word: str = '<unk>')[来源]
torchaudio.models.decoder.
ctc_decoder
¶ 从 Flashlight 构建 CTC 光束搜索解码器 [1]。
- 参数
lexicon (str 或 None) – 包含可能的单词和相应拼写的词典文件。 每行由一个单词及其以空格分隔的拼写组成。如果为 None,则使用无词典 译码。
tokens (str 或 List[str]) – 包含有效令牌的文件或列表。如果使用文件,则预期的 format 用于将映射到同一索引的标记位于同一行上
nbest (int, optional) – 要返回的最佳解码数量 (默认值: 1)
beam_size (int, optional) – 每个解码步骤后要保留的最大 hypos 数(默认值:50)
beam_size_token (int, optional) – 每个解码步骤要考虑的最大令牌数。 如果为 None,则将其设置为令牌总数(默认值:None)
beam_threshold (float, optional) – 修剪假设的阈值 (默认值:50)
lm_weight (float, optional) – 语言模型的权重 (Default: 2)
word_score (float, optional) – 单词插入分数 (默认值: 0)
unk_score (float, optional) – 未知单词插入分数 (默认值:-inf)
sil_score (float, optional) – 静默插入分数 (默认值: 0)
log_add (bool, optional) – 合并假设时是否使用 logadd (默认值:False)
blank_token (str, optional) – 对应于 blank (默认值: “-”) 的令牌
sil_token (str, optional) – 对应于 silence 的令牌 (默认值: “|”)
unk_word (str, optional) – 对应于 unknown 的单词 (默认值: “<unk>”)
- 返回
译码器
- 返回类型
- 例
>>> decoder = ctc_decoder( >>> lexicon="lexicon.txt", >>> tokens="tokens.txt", >>> lm="kenlm.bin", >>> ) >>> results = decoder(emissions) # List of shape (B, nbest) of Hypotheses
- 教程使用:
ctc_decoder
效用函数¶
download_pretrained_files¶
-
类(模型:str)[来源]
torchaudio.models.decoder.
download_pretrained_files
¶ 检索用于 CTC 解码器的预训练数据文件。
- 参数
model (str) – 要下载的预训练语言模型。 选项: [“librispeech-3-gram”, “librispeech-4-gram”, “librispeech”]
- 返回
- 具有以下属性的 Object
- LM:
与下载的语言模型对应的路径,如果模型未与 lm 关联,则为 None。
- 词汇:
与下载的词典文件对应的路径
- 令 牌:
下载的令牌文件对应的路径
- 教程使用:
download_pretrained_files