torchtune.datasets¶

有关详细的一般用法指南，请参阅数据集概述。

文本数据集¶

torchtune 支持多种广泛使用的纯文本数据集，以帮助您快速启动微调。

`alpaca_dataset`	支持使用来自 Hugging Face Datasets 的 Alpaca 风格数据集家族，采用原始 Alpaca 代码库中的数据输入格式和提示模板，其中 `instruction`、`input` 和 `output` 是数据集中的字段。
`alpaca_cleaned_dataset`	用于构建 Alpaca 风格数据集变体的生成器，该数据集是原始 Alpaca 数据集的清理版本，yahma/alpaca-cleaned。
`grammar_dataset`	支持来自 Hugging Face Datasets 的语法修正数据集及其变体。
`hh_rlhf_helpful_dataset`	构建类似于 Anthropic 的 helpful/harmless RLHF 数据集的偏好数据集。
`samsum_dataset`	支持来自 Hugging Face Datasets 的摘要数据集及其变体。
`slimorca_dataset`	支持 SlimOrca风格的对话数据集系列。
`stack_exchange_paired_dataset`	与 Stack Exchange 配对数据集类似的偏好数据集系列。
`cnn_dailymail_articles_dataset`	支持类似于 CNN / DailyMail 的数据集家族，这是一个新闻文章语料库。
`wikitext_dataset`	支持与类似的系列数据集，这是一个由维基百科完整文章组成的非结构化文本语料库。

`multimodal.llava_instruct_dataset`	支持与 Hugging Face Datasets 中类似的图像 + 文本数据集家族，例如 LLaVA-Instruct-150K。
`multimodal.the_cauldron_dataset`	支持类似于 Hugging Face Datasets 中的 The Cauldron 的图像 + 文本数据集家族。
`multimodal.vqa_dataset`	使用单独的列配置自定义视觉问答数据集，分别包含用户问题、图像和模型响应。

torchtune 还支持用于聊天模型和指令微调模型等常见格式的通用数据集构建器。这些功能在通过 YAML 配置文件指定时尤为有用。

`instruct_dataset`	使用用户指令提示和模型响应来配置自定义数据集。
`chat_dataset`	配置包含用户与模型助手对话的自定义数据集。
`preference_dataset`	配置一个包含用户与模型助手交互的自定义偏好数据集。
`text_completion_dataset`	从类似预训练所用数据集的自由格式非结构化文本语料库中构建可配置的数据集。

上述数据集构建器的类表示。

`TextCompletionDataset`	适用于任何非结构化文本语料库的自由格式数据集。
`ConcatDataset`	用于将多个子数据集拼接为单个数据集的数据集类。
`PackedDataset`	对提供的数据集执行贪婪样本打包。
`PreferenceDataset`	用于通过偏好建模技术（例如为 RLHF 训练偏好模型，或通过 DPO 直接优化模型）在来自 Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主类。该类要求数据集包含“选中”和“拒绝”的模型回复。这些通常以单独列的形式呈现为用户与助手之间的完整对话。
`SFTDataset`	用于从 Hugging Face Hub、本地文件或远程文件创建任何监督微调数据集的主类。