目录

数据集概述

torchtune 允许您使用在 Hugging Face Hub 上找到的任何数据集(本地下载)微调 LLM 和 VLM。 或在远程 URL 上。我们提供内置的数据集构建器来帮助您快速启动微调项目 适用于包括 Instruct Tuning、Preference Alignment、Continuous Pretraining 等在内的工作流程。除此之外,torchtune 在数据集管道上实现完全可自定义性,让您能够使用任何数据格式或架构进行训练。

支持以下任务:

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集都遵循 相同的管道:

  1. 从 Hugging Face 数据集、本地文件或远程文件中一次查询一个样本的原始数据

  2. 消息转换将可以采用任何格式的原始样本转换为 torchtune 消息列表。图像包含在与其关联的消息对象中。

  3. Multimodal Transforms 将特定于模型的转换应用于消息,包括分词化(请参阅 Tokenizers), 提示模板(请参阅提示模板)、图像转换以及该特定模型所需的任何其他内容。

  4. 排序器将处理后的样本打包成一个批次,并在训练期间将该批次传递到模型中。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源