torchtune.modules¶
组件和构建块建模¶
https://arxiv.org/pdf/2305.13245v1.pdf 中引入的多头分组查询自注意力 (GQA) 层。 |
|
此类实现从 Llama2 派生的前馈网络。 |
|
独立 nn.包含 kv-cache 的模块,用于在推理期间缓存过去的 key 和 value。 |
|
创建一个学习率计划,在 num_warmup_steps 年内将学习率从 0.0 线性增加到 lr,然后在剩余的 num_training_steps-num_warmup_steps 中按余弦计划降低到 0.0(假设 num_cycles = 0.5)。 |
|
此类实现了 https://arxiv.org/abs/2104.09864 中提出的旋转位置嵌入 (RoPE)。 |
|
实施 https://arxiv.org/pdf/1910.07467.pdf 中引入的均方根归一化。 |
|
从 Llama2 模型派生的变压器层。 |
|
源自 Llama2 架构的 Transformer Decoder。 |
分词器¶
SentencePieceProcessor 的包装器。 |
|
tiktoken Encoding 的包装器。 |
PEFT 组件¶
LoRA 线性层,如 LoRA:大型语言模型的低秩适应。 |
|
nn.包含适配器权重的模块。 |
|
从模型中返回与适配器对应的参数子集。 |
|
为 nn.基于适配器参数的状态字典的模块。 |
模块实用程序¶
这些是所有模块通用的实用程序,可供所有模块使用。
一个 state_dict 钩子,用于将 NF4 张量替换为其恢复的更高精度权重,并可选择将恢复的权重卸载到 CPU。 |