torchaudio.models.decoder¶

Decoder 类¶

CTCDecoder 公司¶

class （nbest： int， 词典： Optional[Dict]， word_dict： torchaudio._torchaudio_decoder._Dictionary， tokens_dict： torchaudio._torchaudio_decoder._Dictionary， lm： torchaudio._torchaudio_decoder._LM， decoder_options： Union[torchaudio._torchaudio_decoder._LexiconDecoderOptions， torchaudio._torchaudio_decoder._LexiconFreeDecoderOptions]，blank_token：str，sil_token：str，unk_word：str）[来源]torchaudio.models.decoder.CTCDecoder¶

来自 Flashlight 的 CTC 光束搜索解码器 [1]。

注意

要构建解码器，请使用 factory 函数ctc_decoder().

参数

nbest （int） – 要返回的最佳解码数
lexicon （Dict 或 None） – 单词到拼写的词典映射，或 None 用于无词典解码器
word_dict （_Dictionary） – 单词词典
tokens_dict （_Dictionary） – 令牌字典
lm （_LM） – 语言模型
decoder_options （_LexiconDecoderOptions 或 _LexiconFreeDecoderOptions） – 用于波束搜索解码的参数
blank_token （str） – 对应于 blank 的标记
sil_token （str） – 对应于 silence 的令牌
unk_word （str） – 对应于 unknown 的单词

教程使用：CTCDecoder: 使用 CTC 解码器进行 ASR 推理¶

__call__(自身，排放：Torch。FloatTensor，长度：可选[torch.张量] = 无）→列表[List[torchaudio.models.decoder.CTCHypothesis]][来源]¶

参数

发射（torch.FloatTensor） – 形状为（batch， frame， num_tokens）的 CPU 张量，存储标签上的概率分布;声学模型的输出。
lengths （Tensor 或 None，可选） – 形状为（batch，）的 CPU 张量，存储在每个批次中输出 Tensor 的时间轴上。

返回

批次中每个音频序列的已排序最佳假设列表。

返回类型

列表[List[CTCHypothesis]]

idxs_to_tokens(IDXS：Torch。LongTensor） →列表[来源]¶

将原始令牌 ID 映射到相应的令牌

参数: idxs （LongTensor） – 解码器生成的原始令牌 ID
返回: 与输入 ID 对应的令牌
返回类型: 列表

CTCHypothesis¶

类（代币：torch.LongTensor，单词：List[str]，分数：float，时间步长：torch。IntTensor）[来源]torchaudio.models.decoder.CTCHypothesis¶

表示 CTC 波束搜索解码器生成的假设CTCDecoder().

变量

令牌（Torch.LongTensor） – 标记 ID 的预测序列。形状（L，），其中 L 是输出序列的长度
words （List[str]） – 预测词的列表
score （float） - 与假设对应的分数
时间步长 （torch.IntTensor） - 对应于标记的时间步长。形状（L，），其中 L 是输出序列的长度

教程使用：CTCHypothesis: 使用 CTC 解码器进行 ASR 推理¶

工厂功能¶

ctc_decoder¶

class （词典： Optional[str]， tokens： Union[str， List[str]]， lm：可选 [str] = 无， nbest： int = 1， beam_size： int = 50， beam_size_token：可选[int] = 无， beam_threshold：浮点数 = 50， lm_权重：float = 2，word_score：float = 0，unk_score：float = - inf、sil_score：float = 0、log_add：bool = False、blank_token：str = '-'， sil_token： str = '|'， unk_word： str = '<unk>'）[来源]torchaudio.models.decoder.ctc_decoder¶

从 Flashlight 构建 CTC 光束搜索解码器 [1]。

参数

lexicon （str 或 None） – 包含可能的单词和相应拼写的词典文件。每行由一个单词及其以空格分隔的拼写组成。如果为 None，则使用无词典译码。
tokens （str 或 List[str]） – 包含有效令牌的文件或列表。如果使用文件，则预期的 format 用于将映射到同一索引的标记位于同一行上
lm （str 或 None，可选） – 包含语言模型的文件，如果不使用语言模型，则为 None。
nbest （int， optional） – 要返回的最佳解码数量（默认值： 1）
beam_size （int， optional） – 每个解码步骤后要保留的最大 hypos 数（默认值：50）
beam_size_token （int， optional） – 每个解码步骤要考虑的最大令牌数。如果为 None，则将其设置为令牌总数（默认值：None）
beam_threshold （float， optional） – 修剪假设的阈值（默认值：50）
lm_weight （float， optional） – 语言模型的权重（Default： 2）
word_score （float， optional） – 单词插入分数（默认值： 0）
unk_score （float， optional） – 未知单词插入分数（默认值：-inf）
sil_score （float， optional） – 静默插入分数（默认值： 0）
log_add （bool， optional） – 合并假设时是否使用 logadd （默认值：False）
blank_token （str， optional） – 对应于 blank （默认值： “-”）的令牌
sil_token （str， optional） – 对应于 silence 的令牌（默认值： “|”）
unk_word （str， optional） – 对应于 unknown 的单词（默认值： “<unk>”）

返回

译码器

返回类型

CTCDecoder 公司

例

>>> decoder = ctc_decoder(
>>>     lexicon="lexicon.txt",
>>>     tokens="tokens.txt",
>>>     lm="kenlm.bin",
>>> )
>>> results = decoder(emissions) # List of shape (B, nbest) of Hypotheses

教程使用：ctc_decoder

使用 CTC 解码器进行 ASR 推理¶

效用函数¶

download_pretrained_files¶

类（模型：str）[来源]torchaudio.models.decoder.download_pretrained_files¶

检索用于 CTC 解码器的预训练数据文件。

参数

model （str） – 要下载的预训练语言模型。选项： [“librispeech-3-gram”， “librispeech-4-gram”， “librispeech”]

返回

具有以下属性的 Object

LM：: 与下载的语言模型对应的路径，如果模型未与 lm 关联，则为 None。
词汇：: 与下载的词典文件对应的路径
令牌：: 下载的令牌文件对应的路径

教程使用：download_pretrained_files: 使用 CTC 解码器进行 ASR 推理¶

引用¶

1（1,2）: Jacob Kahn、Vineel Pratap、Tatiana Likhomanenko、Qiantong Xu、Awni Hannun、Jeff Cai、Paden Tomasello、Ann Lee、Edouard Grave、Gilad Avidov 等。Flashlight：实现机器学习工具的创新。arXiv 预印本 arXiv：2201.12465,2022 年。

torchaudio.models.decoder¶

Decoder 类¶

CTCDecoder 公司¶

CTCHypothesis¶

工厂功能¶

ctc_decoder¶

效用函数¶

download_pretrained_files¶

引用¶

文档

教程

资源