目录

目录

数据集概览¶

torchtune 允许您使用 Hugging Face Hub 上的任何数据集、本地下载的数据集或远程 URL 中的数据集来微调大语言模型（LLM）和视觉语言模型（VLM）。我们提供内置的数据集构建器，帮助您快速启动微调项目，支持指令微调、偏好对齐、持续预训练等工作流。除此之外，torchtune 还支持对数据集流程进行完全自定义，让您能够基于任意数据格式或模式进行训练。

支持以下任务：

Text supervised fine-tuning
- 指令数据集
- 聊天数据集
Multimodal supervised fine-tuning
- 多模态数据集
RLHF
- 偏好数据集
Continued pre-training
- 文本补全数据集

数据管道¶

../_images/torchtune_datasets.svg

从原始数据样本到训练配方中的模型输入，所有 torchtune 数据集均遵循相同的流程：

原始数据从 Hugging Face 数据集、本地文件或远程文件中逐样本查询。
消息转换将原始样本（可以采用任何格式）转换为 torchtune 消息列表。消息。图像包含在与它们关联的消息对象中。
多模态转换会对消息应用特定模型的转换，包括分词（参见分词器）、提示模板化（参见提示模板）、图像转换以及该特定模型所需的任何其他内容。
collater 将处理后的样本打包成批次，在训练期间将该批次传入模型。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源