数据集概述¶
torchtune 允许您使用在 Hugging Face Hub 上找到的任何数据集(本地下载)微调 LLM 和 VLM。 或在远程 URL 上。我们提供内置的数据集构建器来帮助您快速启动微调项目 适用于包括 Instruct Tuning、Preference Alignment、Continuous Pretraining 等在内的工作流程。除此之外,torchtune 在数据集管道上实现完全可自定义性,让您能够使用任何数据格式或架构进行训练。
支持以下任务:
数据管道¶
从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集都遵循 相同的管道:
从 Hugging Face 数据集、本地文件或远程文件中一次查询一个样本的原始数据
Multimodal Transforms 将特定于模型的转换应用于消息,包括分词化(请参阅 Tokenizers), 提示模板(请参阅提示模板)、图像转换以及该特定模型所需的任何其他内容。
排序器将处理后的样本打包成一个批次,并在训练期间将该批次传递到模型中。