torchtune.modules¶

组件和构建块建模¶

`CausalSelfAttention`	https://arxiv.org/pdf/2305.13245v1.pdf 中引入的多头分组查询自注意力（GQA）层。
`FeedForward`	此类实现从 Llama2 派生的前馈网络。
`KVCache`	独立 nn.包含 kv-cache 的模块，用于在推理期间缓存过去的 key 和 value。
`get_cosine_schedule_with_warmup`	创建一个学习率计划，在 num_warmup_steps 年内将学习率从 0.0 线性增加到 lr，然后在剩余的 num_training_steps-num_warmup_steps 中按余弦计划降低到 0.0（假设 num_cycles = 0.5）。
`RotaryPositionalEmbeddings`	此类实现了 https://arxiv.org/abs/2104.09864 中提出的旋转位置嵌入（RoPE）。
`RMSNorm`	实施 https://arxiv.org/pdf/1910.07467.pdf 中引入的均方根归一化。
`TransformerDecoderLayer`	从 Llama2 模型派生的变压器层。
`TransformerDecoder`	源自 Llama2 架构的 Transformer Decoder。

`tokenizers.SentencePieceTokenizer`	SentencePieceProcessor 的包装器。
`tokenizers.TikTokenTokenizer`	tiktoken Encoding 的包装器。

这些是所有模块通用的实用程序，可供所有模块使用。

一个 state_dict 钩子，用于将 NF4 张量替换为其恢复的更高精度权重，并可选择将恢复的权重卸载到 CPU。