torchtune.data¶
文本模板¶
指示提示和聊天提示的模板。包括不同数据集的一些特定格式 和模型。
指令模板的接口。 |
|
Alpaca 样式数据集的提示模板。 |
|
语法更正数据集的提示模板。 |
|
提示模板为摘要任务设置数据集格式。 |
|
首选项数据集的提示模板,类似于 StackExchangedPaired。 |
|
聊天格式的接口。 |
|
OpenAI 的聊天模型使用的聊天标记语言。 |
|
使用 Llama2 预训练中使用的适当标签对人工和系统提示进行格式化的聊天格式。 |
|
根据 Mistral 的 instruct 模型进行格式设置。 |
类型¶
此数据类表示 instruction 或 chat 数据集中的单个消息。 |
变换 器¶
将遵循 ShareGPT json 结构的聊天示例转换为 torchtune 的结构 |
|
将遵循 OpenAI API json 结构的聊天示例转换为 torchtune 的结构 |
辅助函数¶
用于修改数据的其他帮助程序函数。
给定消息列表,确保消息形成有效的来回对话。 |
|
将令牌列表截断为最大长度。 |