数据集概览¶
torchtune 允许您使用 Hugging Face Hub 上的任何数据集、本地下载的数据集或远程 URL 中的数据集来微调大语言模型(LLM)和视觉语言模型(VLM)。我们提供内置的数据集构建器,帮助您快速启动微调项目,支持指令微调、偏好对齐、持续预训练等工作流。除此之外,torchtune 还支持对数据集流程进行完全自定义,让您能够基于任意数据格式或模式进行训练。
支持以下任务:
- Multimodal supervised fine-tuning
- RLHF
- Continued pre-training
数据管道¶
从原始数据样本到训练配方中的模型输入,所有 torchtune 数据集均遵循相同的流程: