目录

数据集概览

torchtune 允许您使用 Hugging Face Hub 上的任何数据集、本地下载的数据集或远程 URL 中的数据集来微调大语言模型(LLM)和视觉语言模型(VLM)。我们提供内置的数据集构建器,帮助您快速启动微调项目,支持指令微调、偏好对齐、持续预训练等工作流。除此之外,torchtune 还支持对数据集流程进行完全自定义,让您能够基于任意数据格式或模式进行训练。

支持以下任务:

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集均遵循相同的流程:

  1. 原始数据从 Hugging Face 数据集、本地文件或远程文件中逐样本查询。

  2. 消息转换 将原始样本(可以采用任何格式)转换为 torchtune 消息列表。 消息。图像包含在与它们关联的消息对象中。

  3. 多模态转换 会对消息应用特定模型的转换,包括分词(参见 分词器)、提示模板化(参见 提示模板)、图像转换以及该特定模型所需的任何其他内容。

  4. collater 将处理后的样本打包成批次,在训练期间将该批次传入模型。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源