torchtune.datasets 数据集¶
有关详细的一般使用指南,请参阅我们的数据集教程。
文本数据集¶
Torchtune 支持多个广泛使用的纯文本数据集,以帮助快速引导您的微调。
使用原始羊驼代码库中的数据输入格式和提示模板,支持来自 Hugging Face Datasets 的羊驼样式数据集系列,其中 、 和 是数据集中的字段。 |
|
Alpaca 样式数据集变体的构建器,其中包含原始 Alpaca 数据集的清理版本 yahma/alpaca-cleaned。 |
|
支持 Hugging Face Datasets 中的语法更正数据集及其变体。 |
|
构建类似于 Anthropic 有用/无害的 RLHF 数据的偏好数据集。 |
|
支持 Hugging Face Datasets 中的摘要数据集及其变体。 |
|
支持 SlimOrca 风格的对话数据集系列。 |
|
首选项数据集系列,类似于 Stack Exchange Paired 数据集。 |
|
支持类似于 CNN / DailyMail(新闻文章语料库)的数据集系列。 |
|
支持类似于 wikitext 的数据集系列,wikitext 是一个由维基百科的完整文章组成的非结构化文本语料库。 |
图像 + 文本数据集¶
支持图像 + 文本数据集系列,类似于 Hugging Face Datasets 的 LLaVA-Instruct-150K。 |
|
支持图像 + 文本数据集系列,类似于 Hugging Face Datasets 中的 The Cauldron。 |
通用数据集生成器¶
Torchtune 还支持常见格式(如聊天模型和 Instruct 模型)的通用数据集生成器。 这些对于从 YAML 配置指定特别有用。
使用用户指令提示和模型响应配置自定义数据集。 |
|
使用用户和 Model Assistant 之间的对话配置自定义数据集。 |
|
配置一个自定义首选项数据集,其中包含用户和 Model Assistant 之间的交互。 |
|
从自由格式的非结构化文本语料库构建可配置的数据集,类似于预训练中使用的数据集。 |
泛型数据集类¶
上述数据集生成器的类表示形式。
任何非结构化文本语料库的自由格式数据集。 |
|
用于将多个子数据集连接成单个数据集的 dataset 类。 |
|
对提供的数据集执行贪婪样本打包。 |
|
通过偏好建模技术(例如,训练 RLHF 的偏好模型,或通过 DPO 直接优化模型)在源自 Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主要类。此类要求数据集具有 “chosen” 和 “rejected” 模型响应。这些通常是用户和助手之间在单独的列中的完整对话::。 |
|
用于从 Hugging Face Hub、本地文件或远程文件创建任何用于监督微调的数据集的主类。 |