目录

torchtune.data

文本模板

用于指令提示和聊天提示的模板。包含针对不同数据集和模型的一些特定格式。

GrammarErrorCorrectionTemplate

用于语法错误纠正任务的提示模板。

SummarizeTemplate

用于摘要任务的提示模板。

QuestionAnswerTemplate

用于问答任务的提示模板。

PromptTemplate

通过传入一个将角色映射到前置和后置标签的字典,快速定义自定义提示模板。例如,要实现以下提示模板:。

PromptTemplateInterface

提示模板的接口。

ChatMLTemplate

OpenAI的 聊天标记语言,他们的聊天模型所使用。

类型

Message

此类表示微调数据集中的单个消息。

Role

Literal 的别名 ['system', 'user', 'assistant', 'ipython']

消息转换

将常见模式和对话JSON格式的数据转换为torchtune Message 的列表。

InputOutputToMessages

消息转换类,用于将包含“input”和“output”字段(或在 column_map 中指定的等效字段)的单个样本分别转换为用户消息和助手消息。这对于具有两列的数据集非常有用:一列包含用户提示字符串,另一列包含模型响应字符串。

ShareGPTToMessages

将遵循ShareGPT JSON结构的单个聊天样本转换为torchtune的Message结构。

OpenAIToMessages

将遵循 OpenAI 聊天完成 JSON 结构的单个聊天样本转换为 torchtune 的 Message 结构。

ChosenRejectedToMessages

用于将包含“chosen”和"rejected"列(其中存放对话内容)的数据集中的单个样本转换为由 chosen 消息和 rejected 消息组成的列表。例如:

AlpacaToMessages

用于 Alpaca 风格数据集的消息转换类,包含“指令”、“输入”和“输出”列(或 column_map 中指定的等效字段)。

数据加载器

Collater 用于将样本收集成批次并处理任何填充。

padded_collate

一个通用的填充函数,用于将给定 pad_direction 中的两个序列条目填充到每个条目的最大序列长度。

padded_collate_tiled_images_and_mask

对一批文本序列、平铺图像张量、宽高比和交叉注意力掩码进行填充。

padded_collate_sft

将批次中的序列填充至该批次中最长序列的长度,并将整数列表转换为张量。

padded_collate_dpo

为直接偏好优化(DPO)填充一批序列。

left_pad_sequence

此函数与 torch.nn.utils.rnn.pad_sequence() 完全相同,但会将一系列长度可变的张量从左侧填充到最长序列的长度。

辅助函数

用于修改数据的各种辅助函数。

validate_messages

给定消息列表,确保这些消息构成有效的来回对话。

truncate

将令牌列表截断为最大长度。

load_image

从本地文件路径或远程源加载 PIL 格式图像的便捷方法。

format_content_with_images

给定一个原始文本字符串,按照指定的 image_tag 进行分割,并将其组织成字典列表,用于 Message 内容字段。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源