目录

torchtune.data

文本模板

指示提示和聊天提示的模板。包括不同数据集的一些特定格式 和模型。

语法错误校正模板

语法纠错任务的提示模板。

SummarizeTemplate

摘要任务的提示模板。

QuestionAnswerTemplate

问答任务的提示模板。

提示模板

通过将字典映射角色传递给 prepend 和 append 标签,快速定义自定义提示模板。例如,要实现以下提示 template::.

PromptTemplate接口

提示模板接口。

ChatMLTemplate

OpenAI 的聊天模型使用的聊天标记语言

类型

消息

此类表示微调数据集中的单个消息。

角色

['system', 'user', 'assistant', 'ipython'] 的别名

消息转换

将数据从常见模式和对话JSON格式转换为 torchtune 列表。

InputOutputToMessages

消息转换类,用于将具有 “input” 和 “output” 字段(或 column_map 中指定的等效字段)的单个样本分别转换为用户消息和助手消息。这对于具有两列的数据集非常有用,一列包含用户提示字符串,另一列包含模型响应 string::。

ShareGPTTo消息

将遵循 ShareGPT JSON 结构的单个聊天示例转换为 torchtune 的结构

OpenAITo消息

将遵循 OpenAI 聊天完成 JSON 结构的单个聊天示例转换为 torchtune 的结构

ChosenRejectedTo消息

转换,用于将包含对话的 “chosen” 和 “rejected” 列的数据集中的单个样本转换为已选择和已拒绝的消息列表。例如::。

AlpacaToMessages

Message 转换类,用于具有 “instruction”、“input” 和 “output” (或 column_map中指定的等效字段) 列的 Alpaca 样式数据集。

合作者

Collaters 过去常常将样品分批收集并处理任何填充物。

padded_collate

一个通用的填充排序规则函数,用于填充一批序列中的条目,从给定的序列长度到批次中每个条目的最大序列长度。keys_to_padpad_direction

padded_collate_tiled_images_and_mask

填充一批文本序列、平铺图像张量、纵横比和交叉注意力蒙版。

padded_collate_sft

将一批序列填充到该批次中最长的序列长度,并将整数列表转换为张量。

padded_collate_dpo

填充一批序列以进行直接首选项优化 (DPO)。

left_pad_sequence

此函数与 相同,但从左侧填充可变长度 Tensor 列表到最长序列的长度。

帮助程序函数

用于修改数据的其他帮助程序函数。

validate_messages

给定消息列表,确保消息形成有效的来回对话。

截断

将令牌列表截断为最大长度。

load_image

从本地文件路径或远程源加载 PIL 格式图像的便捷方法。

format_content_with_images

给定一个原始文本字符串,按指定的 和 形式拆分为要在 content 字段中使用的词典列表。image_tag

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源