目录

torchaudio.models.decoder

Decoder 类

CTCDecoder 公司

class nbest int词典 Optional[Dict]word_dict: torchaudio._torchaudio_decoder._Dictionarytokens_dict torchaudio._torchaudio_decoder._Dictionarylm torchaudio._torchaudio_decoder._LMdecoder_options: Union[torchaudio._torchaudio_decoder._LexiconDecoderOptions torchaudio._torchaudio_decoder._LexiconFreeDecoderOptions]blank_token:str,sil_tokenstr,unk_word:str[来源]torchaudio.models.decoder.CTCDecoder
此功能支持以下设备:CPU

来自 Flashlight 的 CTC 光束搜索解码器 [1]。

注意

要构建解码器,请使用 factory 函数

参数
  • nbestint) – 要返回的最佳解码数

  • lexiconDictNone) – 单词到拼写的词典映射,或 None 用于无词典解码器

  • word_dict_Dictionary) – 单词词典

  • tokens_dict_Dictionary) – 令牌字典

  • lm_LM) – 语言模型

  • decoder_options_LexiconDecoderOptions_LexiconFreeDecoderOptions) – 用于波束搜索解码的参数

  • blank_tokenstr) – 对应于 blank 的标记

  • sil_tokenstr) – 对应于 silence 的令牌

  • unk_wordstr) – 对应于 unknown 的单词

教程使用:CTCDecoder
__call__(自身排放Torch。FloatTensor长度可选[torch.张量] = 列表[List[torchaudio.models.decoder.CTCHypothesis]][来源]
参数
  • 发射torch.FloatTensor) – 形状为 (batch, frame, num_tokens) 的 CPU 张量,存储 标签上的概率分布;声学模型的输出。

  • lengthsTensorNone可选) – 形状为 (batch, ) 的 CPU 张量,存储 在每个批次中输出 Tensor 的时间轴上。

返回

批次中每个音频序列的已排序最佳假设列表。

返回类型

列表[List[CTCHypothesis]]

idxs_to_tokens(IDXSTorch。LongTensor列表[来源]

将原始令牌 ID 映射到相应的令牌

参数

idxsLongTensor) – 解码器生成的原始令牌 ID

返回

与输入 ID 对应的令牌

返回类型

列表

CTCHypothesis

代币torch.LongTensor单词List[str]分数float时间步长:torch。IntTensor[来源]torchaudio.models.decoder.CTCHypothesis

表示由 CTC 波束搜索解码器生成的假设。

变量
  • 令牌Torch.LongTensor) – 标记 ID 的预测序列。形状 (L, ),其中 L 是输出序列的长度

  • wordsList[str]) – 预测词的列表

  • scorefloat) - 与假设对应的分数

  • 时间步长torch.IntTensor) - 对应于标记的时间步长。形状 (L, ), 其中 L 是输出序列的长度

教程使用:CTCHypothesis

工厂功能

ctc_decoder

class 词典 Optional[str]tokens Union[str List[str]]lm 可选 [str] = nbest int = 1beam_size: int = 50beam_size_token: 可选[int] = beam_threshold 浮点= 50lm_权重float = 2,word_score:float = 0,unk_score:float = - infsil_scorefloat = 0log_addbool = Falseblank_token:str = '-'sil_token: str = '|'unk_word str = '<unk>'[来源]torchaudio.models.decoder.ctc_decoder

Flashlight 构建 CTC 光束搜索解码器 [1]。

参数
  • lexiconstrNone) – 包含可能的单词和相应拼写的词典文件。 每行由一个单词及其以空格分隔的拼写组成。如果为 None,则使用无词典 译码。

  • tokensstrList[str]) – 包含有效令牌的文件或列表。如果使用文件,则预期的 format 用于将映射到同一索引的标记位于同一行上

  • lmstrNone可选) – 包含语言模型的文件,如果不使用语言模型,则为 None

  • nbestintoptional) – 要返回的最佳解码数量 (默认值: 1)

  • beam_sizeintoptional) – 每个解码步骤后要保留的最大 hypos 数(默认值:50)

  • beam_size_tokenintoptional) – 每个解码步骤要考虑的最大令牌数。 如果为 None,则将其设置为令牌总数(默认值:None)

  • beam_thresholdfloatoptional) – 修剪假设的阈值 (默认值:50)

  • lm_weightfloatoptional) – 语言模型的权重 (Default: 2)

  • word_scorefloatoptional) – 单词插入分数 (默认值: 0)

  • unk_scorefloatoptional) – 未知单词插入分数 (默认值:-inf)

  • sil_scorefloatoptional) – 静默插入分数 (默认值: 0)

  • log_addbooloptional) – 合并假设时是否使用 logadd (默认值:False)

  • blank_tokenstroptional) – 对应于 blank (默认值: “-”) 的令牌

  • sil_tokenstroptional) – 对应于 silence 的令牌 (默认值: “|”)

  • unk_wordstroptional) – 对应于 unknown 的单词 (默认值: “<unk>”)

返回

译码器

返回类型

CTCDecoder 公司

>>> decoder = ctc_decoder(
>>>     lexicon="lexicon.txt",
>>>     tokens="tokens.txt",
>>>     lm="kenlm.bin",
>>> )
>>> results = decoder(emissions) # List of shape (B, nbest) of Hypotheses
教程使用:ctc_decoder

效用函数

download_pretrained_files

模型str[来源]torchaudio.models.decoder.download_pretrained_files

检索用于 CTC 解码器的预训练数据文件。

参数

modelstr) – 要下载的预训练语言模型。 选项: [“librispeech-3-gram”, “librispeech-4-gram”, “librispeech”]

返回

具有以下属性的 Object
LM:

与下载的语言模型对应的路径,如果模型未与 lm 关联,则为 None

词汇:

与下载的词典文件对应的路径

令 牌:

下载的令牌文件对应的路径

教程使用:download_pretrained_files

引用

11,2

Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov 等。Flashlight:实现机器学习工具的创新。arXiv 预印本 arXiv:2201.12465,2022 年。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源