目录

torchtune.datasets 数据集

有关详细的一般使用指南,请参阅我们的数据集教程

示例数据集

Torchtune 支持多个广泛使用的数据集,以帮助快速引导您的微调。

alpaca_dataset

使用原始羊驼代码库中的数据输入格式提示模板,支持来自 Hugging Face Datasets 的羊驼样式数据集系列,其中 、 和 是数据集中的字段。instructioninputoutput

alpaca_cleaned_dataset

Alpaca 样式数据集变体的构建器,其中包含原始 Alpaca 数据集的清理版本 yahma/alpaca-cleaned

grammar_dataset

支持 Hugging Face Datasets 中的语法更正数据集及其变体。

samsum_dataset

支持 Hugging Face Datasets 中的摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca 风格的对话数据集系列。

stack_exchanged_paired_dataset

类似于 StackExchangePaired 数据的首选项数据集系列。

cnn_dailymail_articles_dataset

支持类似于 CNN / DailyMail(新闻文章语料库)的数据集系列。

wikitext_dataset

支持类似于 wikitext 的数据集系列,wikitext 是一个由维基百科文章组成的非结构化文本语料库。

通用数据集生成器

Torchtune 还支持常见格式(如聊天模型和 Instruct 模型)的通用数据集生成器。 这些对于从 YAML 配置指定特别有用。

instruct_dataset

使用说明提示构建可配置的数据集。

chat_dataset

使用对话构建可配置的数据集。

text_completion_dataset

从自由格式的非结构化文本语料库构建可配置的数据集,类似于预训练中使用的数据集。

泛型数据集类

上述数据集生成器的类表示形式。

InstructDataset 数据集

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

聊天数据集

支持任何具有多轮次对话的自定义数据集的类。

TextCompletionDataset 数据集

任何非结构化文本语料库的自由格式数据集。

ConcatDataset 数据集

用于将多个子数据集连接成单个数据集的 dataset 类。

PackedDataset 数据集

对提供的数据集执行贪婪样本打包。

PreferenceDataset 数据集

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源