目录

torchtune.datasets 数据集

有关详细的一般使用指南,请参阅我们的数据集教程

文本数据集

Torchtune 支持多个广泛使用的纯文本数据集,以帮助快速引导您的微调。

alpaca_dataset

使用原始羊驼代码库中的数据输入格式提示模板,支持来自 Hugging Face Datasets 的羊驼样式数据集系列,其中 、 和 是数据集中的字段。instructioninputoutput

alpaca_cleaned_dataset

Alpaca 样式数据集变体的构建器,其中包含原始 Alpaca 数据集的清理版本 yahma/alpaca-cleaned

grammar_dataset

支持 Hugging Face Datasets 中的语法更正数据集及其变体。

hh_rlhf_helpful_dataset

构建类似于 Anthropic 有用/无害的 RLHF 数据的偏好数据集。

samsum_dataset

支持 Hugging Face Datasets 中的摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca 风格的对话数据集系列。

stack_exchange_paired_dataset

首选项数据集系列,类似于 Stack Exchange Paired 数据集

cnn_dailymail_articles_dataset

支持类似于 CNN / DailyMail(新闻文章语料库)的数据集系列。

wikitext_dataset

支持类似于 wikitext 的数据集系列,wikitext 是一个由维基百科的完整文章组成的非结构化文本语料库。

图像 + 文本数据集

multimodal.llava_instruct_dataset

支持图像 + 文本数据集系列,类似于 Hugging Face Datasets 的 LLaVA-Instruct-150K

multimodal.the_cauldron_dataset

支持图像 + 文本数据集系列,类似于 Hugging Face Datasets 中的 The Cauldron

通用数据集生成器

Torchtune 还支持常见格式(如聊天模型和 Instruct 模型)的通用数据集生成器。 这些对于从 YAML 配置指定特别有用。

instruct_dataset

使用用户指令提示和模型响应配置自定义数据集。

chat_dataset

使用用户和 Model Assistant 之间的对话配置自定义数据集。

preference_dataset

配置一个自定义首选项数据集,其中包含用户和 Model Assistant 之间的交互。

text_completion_dataset

从自由格式的非结构化文本语料库构建可配置的数据集,类似于预训练中使用的数据集。

泛型数据集类

上述数据集生成器的类表示形式。

InstructDataset 数据集

聊天数据集

TextCompletionDataset 数据集

任何非结构化文本语料库的自由格式数据集。

ConcatDataset 数据集

用于将多个子数据集连接成单个数据集的 dataset 类。

PackedDataset 数据集

对提供的数据集执行贪婪样本打包。

PreferenceDataset 数据集

通过偏好建模技术(例如,训练 RLHF 的偏好模型,或通过 DPO 直接优化模型)在源自 Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主要类。此类要求数据集具有 “chosen” 和 “rejected” 模型响应。这些通常是用户和助手之间在单独的列中的完整对话::。

SFTDataset

用于从 Hugging Face Hub、本地文件或远程文件创建任何用于监督微调的数据集的主类。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源