torchtune.data¶
文本模板¶
用于指令提示和聊天提示的模板。包含针对不同数据集和模型的一些特定格式化内容。
指令模板接口。 |
|
Alpaca风格数据集的提示模板。 |
|
语法校正数据集的提示模板。 |
|
用于格式化数据集以进行摘要任务的提示模板。 |
|
用于类似 StackExchangedPaired 的偏好数据集的提示模板。 |
|
聊天格式接口。 |
|
OpenAI的 聊天标记语言,他们的聊天模型所使用。 |
|
聊天格式,用于格式化人类和系统提示,包含在Llama2预训练中使用的适当标签。 |
|
根据 Mistral 的指令模型 进行格式化。 |
类型¶
这个数据类表示指令或聊天数据集中的单个消息。 |
转换器¶
将常见 JSON 格式的数据转换为 torchtune Message。
将遵循ShareGPT json结构的聊天示例转换为torchtune的 |
|
将遵循OpenAI API json结构的聊天示例转换为torchtune的 |
辅助函数¶
用于修改数据的各种辅助函数。
给定消息列表,确保这些消息构成有效的来回对话。 |
|
将令牌列表截断为最大长度。 |