torchtune.datasets¶

有关详细的一般用法指南，请参阅我们的数据集教程。

示例数据集¶

torchtune 支持多种广泛使用的数据集，以帮助您快速启动微调。

`alpaca_dataset`	支持使用来自 Hugging Face Datasets 的 Alpaca 风格数据集家族，采用原始 Alpaca 代码库中的数据输入格式和提示模板，其中 `instruction`、`input` 和 `output` 是数据集中的字段。
`alpaca_cleaned_dataset`	用于构建 Alpaca 风格数据集变体的生成器，该数据集是原始 Alpaca 数据集的清理版本，yahma/alpaca-cleaned。
`grammar_dataset`	支持来自 Hugging Face Datasets 的语法修正数据集及其变体。
`samsum_dataset`	支持来自 Hugging Face Datasets 的摘要数据集及其变体。
`slimorca_dataset`	支持 SlimOrca风格的对话数据集系列。
`stack_exchanged_paired_dataset`	与StackExchangePaired 数据集类似的偏好数据集系列。
`cnn_dailymail_articles_dataset`	支持类似于 CNN / DailyMail 的数据集家族，这是一个新闻文章语料库。
`wikitext_dataset`	支持类似于wikitext的数据集家族，这是一个由维基百科文章组成的非结构化文本语料库。

torchtune 还支持通用的数据集构建器，适用于常见的格式，如聊天模型和指令模型。这些构建器特别适合通过 YAML 配置文件进行指定。

`instruct_dataset`	构建一个可配置的数据集，带有指令提示。
`chat_dataset`	构建一个可配置的对话数据集。
`text_completion_dataset`	从类似预训练所用数据集的自由格式非结构化文本语料库中构建可配置的数据集。

上述数据集构建器的类表示。

`InstructDataset`	支持任何自定义数据集的类，带有基于指令的提示和可配置的模板。
`ChatDataset`	支持多轮对话的自定义数据集类。
`TextCompletionDataset`	适用于任何非结构化文本语料库的自由格式数据集。
`ConcatDataset`	用于将多个子数据集拼接为单个数据集的数据集类。
`PackedDataset`	对提供的数据集执行贪婪样本打包。
`PreferenceDataset`	支持任何自定义数据集的类，带有基于指令的提示和可配置的模板。