目录

torchtune.datasets

有关详细的一般用法指南,请参阅我们的数据集教程

示例数据集

torchtune 支持多种广泛使用的数据集,以帮助您快速启动微调。

alpaca_dataset

支持使用来自 Hugging Face Datasets 的 Alpaca 风格数据集家族,采用原始 Alpaca 代码库中的 数据输入格式提示模板,其中 instructioninputoutput 是数据集中的字段。

alpaca_cleaned_dataset

用于构建 Alpaca 风格数据集变体的生成器,该数据集是原始 Alpaca 数据集的清理版本,yahma/alpaca-cleaned

grammar_dataset

支持来自 Hugging Face Datasets 的语法修正数据集及其变体。

samsum_dataset

支持来自 Hugging Face Datasets 的摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca风格 的对话数据集系列。

stack_exchanged_paired_dataset

StackExchangePaired 数据集类似的偏好数据集系列。

cnn_dailymail_articles_dataset

支持类似于 CNN / DailyMail 的数据集家族,这是一个新闻文章语料库。

wikitext_dataset

支持类似于wikitext的数据集家族,这是一个由维基百科文章组成的非结构化文本语料库。

通用数据集构建器

torchtune 还支持通用的数据集构建器,适用于常见的格式,如聊天模型和指令模型。这些构建器特别适合通过 YAML 配置文件进行指定。

instruct_dataset

构建一个可配置的数据集,带有指令提示。

chat_dataset

构建一个可配置的对话数据集。

text_completion_dataset

从类似预训练所用数据集的自由格式非结构化文本语料库中构建可配置的数据集。

通用数据集类

上述数据集构建器的类表示。

InstructDataset

支持任何自定义数据集的类,带有基于指令的提示和可配置的模板。

ChatDataset

支持多轮对话的自定义数据集类。

TextCompletionDataset

适用于任何非结构化文本语料库的自由格式数据集。

ConcatDataset

用于将多个子数据集拼接为单个数据集的数据集类。

PackedDataset

对提供的数据集执行贪婪样本打包。

PreferenceDataset

支持任何自定义数据集的类,带有基于指令的提示和可配置的模板。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源