目录

torchtune.datasets 数据集

有关详细的一般使用指南,请参阅我们的数据集教程

示例数据集

Torchtune 支持多个广泛使用的数据集,以帮助快速引导您的微调。

alpaca_dataset

使用原始羊驼代码库中的数据输入格式提示模板,支持来自 Hugging Face Datasets 的羊驼样式数据集系列,其中 、 和 是数据集中的字段。instructioninputoutput

alpaca_cleaned_dataset

Alpaca 样式数据集变体的构建器,其中包含原始 Alpaca 数据集的清理版本 yahma/alpaca-cleaned

grammar_dataset

支持 Hugging Face Datasets 中的语法更正数据集及其变体。

samsum_dataset

支持 Hugging Face Datasets 中的摘要数据集及其变体。

slimorca_dataset

支持 SlimOrca 风格的对话数据集系列。

stack_exchanged_paired_dataset

类似于 StackExchangePaired 数据的首选项数据集系列。

cnn_dailymail_articles_dataset

支持类似于 CNN / DailyMail(新闻文章语料库)的数据集系列。

wikitext_dataset

支持类似于 wikitext 的数据集系列,wikitext 是一个由维基百科文章组成的非结构化文本语料库。

通用数据集生成器

Torchtune 还支持常见格式(如聊天模型和 Instruct 模型)的通用数据集生成器。 这些对于从 YAML 配置指定特别有用。

instruct_dataset

使用说明提示构建可配置的数据集。

chat_dataset

使用对话构建可配置的数据集。

text_completion_dataset

从自由格式的非结构化文本语料库构建可配置的数据集,类似于预训练中使用的数据集。

泛型数据集类

上述数据集生成器的类表示形式。

InstructDataset

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

ChatDataset

支持任何具有多轮次对话的自定义数据集的类。

TextCompletionDataset

任何非结构化文本语料库的自由格式数据集。

ConcatDataset

用于将多个子数据集连接成单个数据集的 dataset 类。

PackedDataset

对提供的数据集执行贪婪样本打包。

PreferenceDataset

支持任何具有基于指令的提示和可配置模板的自定义数据集的类。

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源