torchtune.datasets 数据集¶
有关详细的一般使用指南,请参阅我们的数据集教程。
示例数据集¶
Torchtune 支持多个广泛使用的数据集,以帮助快速引导您的微调。
使用原始羊驼代码库中的数据输入格式和提示模板,支持来自 Hugging Face Datasets 的羊驼样式数据集系列,其中 、 和 是数据集中的字段。 |
|
Alpaca 样式数据集变体的构建器,其中包含原始 Alpaca 数据集的清理版本 yahma/alpaca-cleaned。 |
|
支持 Hugging Face Datasets 中的语法更正数据集及其变体。 |
|
支持 Hugging Face Datasets 中的摘要数据集及其变体。 |
|
支持 SlimOrca 风格的对话数据集系列。 |
|
类似于 StackExchangePaired 数据的首选项数据集系列。 |
|
支持类似于 CNN / DailyMail(新闻文章语料库)的数据集系列。 |
|
支持类似于 wikitext 的数据集系列,wikitext 是一个由维基百科文章组成的非结构化文本语料库。 |
通用数据集生成器¶
Torchtune 还支持常见格式(如聊天模型和 Instruct 模型)的通用数据集生成器。 这些对于从 YAML 配置指定特别有用。
使用说明提示构建可配置的数据集。 |
|
使用对话构建可配置的数据集。 |
|
从自由格式的非结构化文本语料库构建可配置的数据集,类似于预训练中使用的数据集。 |
泛型数据集类¶
上述数据集生成器的类表示形式。
支持任何具有基于指令的提示和可配置模板的自定义数据集的类。 |
|
支持任何具有多轮次对话的自定义数据集的类。 |
|
任何非结构化文本语料库的自由格式数据集。 |
|
用于将多个子数据集连接成单个数据集的 dataset 类。 |
|
对提供的数据集执行贪婪样本打包。 |
|
支持任何具有基于指令的提示和可配置模板的自定义数据集的类。 |