目录

torchtune.data

文本模板

用于指令提示和聊天提示的模板。包含针对不同数据集和模型的一些特定格式化内容。

InstructTemplate

指令模板接口。

AlpacaInstructTemplate

Alpaca风格数据集的提示模板。

GrammarErrorCorrectionTemplate

语法校正数据集的提示模板。

SummarizeTemplate

用于格式化数据集以进行摘要任务的提示模板。

StackExchangedPairedTemplate

用于类似 StackExchangedPaired 的偏好数据集的提示模板。

ChatFormat

聊天格式接口。

ChatMLFormat

OpenAI的 聊天标记语言,他们的聊天模型所使用。

Llama2ChatFormat

聊天格式,用于格式化人类和系统提示,包含在Llama2预训练中使用的适当标签。

MistralChatFormat

根据 Mistral 的指令模型 进行格式化。

类型

Message

这个数据类表示指令或聊天数据集中的单个消息。

转换器

将常见 JSON 格式的数据转换为 torchtune Message

get_sharegpt_messages

将遵循ShareGPT json结构的聊天示例转换为torchtune的Message结构。

get_openai_messages

将遵循OpenAI API json结构的聊天示例转换为torchtune的Message结构。

辅助函数

用于修改数据的各种辅助函数。

validate_messages

给定消息列表,确保这些消息构成有效的来回对话。

truncate

将令牌列表截断为最大长度。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源