数据集概览¶
torchtune 允许您使用在 Hugging Face Hub 上找到的任何数据集、本地下载的数据集或远程 URL 上的数据集来微调大型语言模型(LLMs)和视觉语言模型(VLMs)。我们提供了内置的数据集构建器,帮助您快速启动微调项目,适用于包括指令微调、偏好对齐、继续预训练等多种工作流。除此之外,torchtune 还支持数据集管道的完全自定义,让您能够训练任何数据格式或模式的数据。
支持以下任务:
- Multimodal supervised fine-tuning
- RLHF
- Continued pre-training
数据管道¶
从原始数据样本到训练配方中的模型输入,所有torchtune数据集都遵循相同的流程: