torchtune.data¶

文本模板¶

用于指令提示和聊天提示的模板。包含针对不同数据集和模型的一些特定格式。

`GrammarErrorCorrectionTemplate`	用于语法错误纠正任务的提示模板。
`SummarizeTemplate`	用于摘要任务的提示模板。
`QuestionAnswerTemplate`	用于问答任务的提示模板。
`PromptTemplate`	通过传入一个将角色映射到前置和后置标签的字典，快速定义自定义提示模板。例如，要实现以下提示模板：。
`PromptTemplateInterface`	提示模板的接口。
`ChatMLTemplate`	OpenAI的聊天标记语言，他们的聊天模型所使用。

`Message`	此类表示微调数据集中的单个消息。
`Role`	`Literal` 的别名 ['system', 'user', 'assistant', 'ipython']

将常见模式和对话JSON格式的数据转换为torchtune Message 的列表。

`InputOutputToMessages`	消息转换类，用于将包含“input”和“output”字段（或在 column_map 中指定的等效字段）的单个样本分别转换为用户消息和助手消息。这对于具有两列的数据集非常有用：一列包含用户提示字符串，另一列包含模型响应字符串。
`ShareGPTToMessages`	将遵循ShareGPT JSON结构的单个聊天样本转换为torchtune的`Message`结构。
`OpenAIToMessages`	将遵循 OpenAI 聊天完成 JSON 结构的单个聊天样本转换为 torchtune 的 `Message` 结构。
`ChosenRejectedToMessages`	用于将包含“chosen”和"rejected"列（其中存放对话内容）的数据集中的单个样本转换为由 chosen 消息和 rejected 消息组成的列表。例如：
`AlpacaToMessages`	用于 Alpaca 风格数据集的消息转换类，包含“指令”、“输入”和“输出”列（或 column_map 中指定的等效字段）。

Collater 用于将样本收集成批次并处理任何填充。

`padded_collate`	一个通用的填充函数，用于将给定 `pad_direction` 中的两个序列条目填充到每个条目的最大序列长度。
`padded_collate_tiled_images_and_mask`	对一批文本序列、平铺图像张量、宽高比和交叉注意力掩码进行填充。
`padded_collate_sft`	将批次中的序列填充至该批次中最长序列的长度，并将整数列表转换为张量。
`padded_collate_dpo`	为直接偏好优化（DPO）填充一批序列。
`left_pad_sequence`	此函数与 `torch.nn.utils.rnn.pad_sequence()` 完全相同，但会将一系列长度可变的张量从左侧填充到最长序列的长度。

用于修改数据的各种辅助函数。

`validate_messages`	给定消息列表，确保这些消息构成有效的来回对话。
`truncate`	将令牌列表截断为最大长度。
`load_image`	从本地文件路径或远程源加载 PIL 格式图像的便捷方法。
`format_content_with_images`	给定一个原始文本字符串，按照指定的 `image_tag` 进行分割，并将其组织成字典列表，用于 `Message` 内容字段。