目录

指示数据集

指令调优涉及训练 LLM 执行特定任务。这通常采用以下形式 的用户命令或提示符和 Google 助理的响应,以及可选的系统提示符 描述手头的任务。这比模型的自由格式文本关联更结构化 通常是预先训练的,他们学习专门预测下一个标记,而不是完成 任务。

在 torchtune 中使用 instruct 数据集进行微调的主要入口点是构建器。这允许您指定遵循 instruct 数据格式的本地数据集或 Hugging Face 数据集 直接从配置中,并在其上训练您的 LLM。

示例 instruct dataset

以下是指示数据集针对语法更正任务进行微调的示例。

head data/my_data.csv
# incorrect,correct
# This are a cat,This is a cat.
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset

g_tokenizer = gemma_tokenizer(
    path="/tmp/gemma-7b/tokenizer.model",
    prompt_template="torchtune.data.GrammarErrorCorrectionTemplate",
    max_seq_len=8192,
)
ds = instruct_dataset(
    tokenizer=g_tokenizer,
    source="csv",
    data_files="data/my_data.csv",
    split="train",
    # By default, user prompt is ignored in loss. Set to True to include it
    train_on_input=True,
    # Prepend a system message to every sample
    new_system_prompt="You are an AI assistant. ",
    # Use columns in our dataset instead of default
    column_map={"input": "incorrect", "output": "correct"},
)
tokenized_dict = ds[0]
tokens, labels = tokenized_dict["tokens"], tokenized_dict["labels"]
print(g_tokenizer.decode(tokens))
# You are an AI assistant. Correct this to standard English:This are a cat---\nCorrected:This is a cat.
print(labels)  # System message is masked out, but not user message
# [-100, -100, -100, -100, -100, -100, 27957, 736, 577, ...]
# In config
tokenizer:
  _component_: torchtune.models.gemma.gemma_tokenizer
  path: /tmp/gemma-7b/tokenizer.model
  prompt_template: torchtune.data.GrammarErrorCorrectionTemplate
  max_seq_len: 8192

dataset:
  source: csv
  data_files: data/my_data.csv
  split: train
  train_on_input: True
  new_system_prompt: You are an AI assistant.
  column_map:
    input: incorrect
    output: correct

指示数据集格式

Instruct 数据集应遵循输入-输出格式,其中用户提示位于一列中 助手提示符位于另一列中。

|  input          |  output          |
|-----------------|------------------|
| "user prompt"   | "model response" |

例如,您可以看到 C4 200M 数据集的架构。

加载 instruct 数据集 from Hugging Face

您只需将数据集 repo 名称传递给 ,然后将其传递到 Hugging Face 的 . 对于大多数数据集,您还需要指定 .sourceload_datasetsplit

# In code
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset

g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
    tokenizer=g_tokenizer,
    source="liweili/c4_200m",
    split="train"
)
# In config
tokenizer:
  _component_: torchtune.models.gemma.gemma_tokenizer
  path: /tmp/gemma-7b/tokenizer.model

# Tokenizer is passed into the dataset in the recipe
dataset:
  _component_: torchtune.datasets.instruct_dataset
  source: liweili/c4_200m
  split: train

这将使用默认列名称 “input” 和 “output”。要更改列名称,请使用 argument(请参阅重命名列)。column_map

加载本地和远程 instruct 数据集

要通过遵循 instruct 格式的 https 加载本地或远程数据集,您需要指定 、 和 参数。有关加载本地或远程文件的更多详细信息,请参阅 Hugging Face 的文档sourcedata_filessplitload_dataset

# In code
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset

g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
    tokenizer=g_tokenizer,
    source="json",
    data_files="data/my_data.json",
    split="train",
)
# In config
tokenizer:
  _component_: torchtune.models.gemma.gemma_tokenizer
  path: /tmp/gemma-7b/tokenizer.model

# Tokenizer is passed into the dataset in the recipe
dataset:
  _component_: torchtune.datasets.instruct_dataset
  source: json
  data_files: data/my_data.json
  split: train

重命名列

您可以通过将默认列名重新映射到数据集中的列名。默认列名称 在每个数据集生成器中都有详细介绍(请参阅 AS 示例)。column_map{"<default column>": "<column in your dataset>"}

例如,如果默认列名称是 “input”、“output”,并且您需要将它们更改为其他名称, 例如 “prompt”、“response”,然后 .column_map = {"input": "prompt", "output": "response"}

# data/my_data.json
[
    {"prompt": "hello world", "response": "bye world"},
    {"prompt": "are you a robot", "response": "no, I am an AI assistant"},
    ...
]
from torchtune.models.gemma import gemma_tokenizer
from torchtune.datasets import instruct_dataset

g_tokenizer = gemma_tokenizer("/tmp/gemma-7b/tokenizer.model")
ds = instruct_dataset(
    tokenizer=g_tokenizer,
    source="json",
    data_files="data/my_data.json",
    split="train",
    column_map={"input": "prompt", "output": "response"},
)
# Tokenizer is passed into the dataset in the recipe
dataset:
  _component_: torchtune.datasets.instruct_dataset
  source: json
  data_files: data/my_data.json
  split: train
  column_map:
    input: prompt
    output: response

Instruct 模板

通常,对于 instruct 数据集,您需要添加 a 以提供与任务相关的 信息。例如,对于语法更正任务,我们可能希望使用提示模板来构建我们的每个样本。提示模板将传递到分词器中并自动应用于数据集 你正在微调。有关更多详细信息,请参阅使用提示模板

内置 instruct 数据集

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源