torchtext.transforms¶

转换是常见的文本转换。它们可以使用torch.nn.Sequential或使用torchtext.transforms.Sequential以支持 torch 脚本化。

SentencePieceTokenizer¶

类（sp_model_path： str）[来源]torchtext.transforms.SentencePieceTokenizer¶

从预先训练的句子词模型转换 Sentence Piece 分词器

Additiona 详细信息： https://github.com/google/sentencepiece

参数: sp_model_path （str） – 预训练句子模型的路径

例

>>> from torchtext.transforms import SentencePieceTokenizer
>>> transform = SentencePieceTokenizer("spm_model")
>>> transform(["hello world", "attention is all you need!"])

教程使用：SentencePieceTokenizer

SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

forward(input： Any） → Any[来源]¶

参数: input （Union[str， List[str]]） – 输入要应用分词器的句子或句子列表。
返回: 分词文本
返回类型: 联合[列表[str]，列表[列表（str)]]

GPT2BPETokenizer¶

class （encoder_json_path： str， vocab_bpe_path： str， return_tokens： bool = False）[来源]torchtext.transforms.GPT2BPETokenizer¶

GPT-2 BPE Tokenizer 的转换。

在 TorchScript 中重新实现 openai GPT-2 BPE。原始 openai 实现 https://github.com/openai/gpt-2/blob/master/src/encoder.py

参数

encoder_json_path （str） – GPT-2 BPE 编码器 json 文件的路径。
vocab_bpe_path （str） - bpe 词汇表文件的路径。
return_tokens – 指示是否返回拆分令牌。如果为 False，它将以字符串形式返回编码的令牌 ID（默认值：False）

forward(input： Any） → Any[来源]¶

参数: input （Union[str， List[str]]） – 输入要应用分词器的句子或句子列表。
返回: 分词文本
返回类型: 联合[列表[str]，列表[列表（str)]]

CLIPTokenizer¶

class （merges_path： str， encoder_json_path： Optional[str] = None， num_merges：可选[int] = 无，return_tokens：bool = False）[来源]torchtext.transforms.CLIPTokenizer¶

CLIP Tokenizer 的 Transform。基于字节级 BPE。

在 TorchScript 中重新实现 CLIP Tokenizer。原始实现： https://github.com/mlfoundations/open_clip/blob/main/src/clip/tokenizer.py

此分词器已经过训练，可将空格视为令牌的一部分（有点像 sentencepiece）所以一个单词的编码会有所不同，无论是是否位于句子的开头（不带空格）。

以下代码片段显示了如何将 CLIP 分词器与编码器和合并文件一起使用摘自原始论文实现。

例

>>> from torchtext.transforms import CLIPTokenizer
>>> MERGES_FILE = "http://download.pytorch.org/models/text/clip_merges.bpe"
>>> ENCODER_FILE = "http://download.pytorch.org/models/text/clip_encoder.json"
>>> tokenizer = CLIPTokenizer(merges_path=MERGES_FILE, encoder_json_path=ENCODER_FILE)
>>> tokenizer("the quick brown fox jumped over the lazy dog")

参数

merges_path （str） – bpe 合并文件的路径。
encoder_json_path （str） – BPE 编码器 json 文件的可选路径。指定时，使用 this 来推断num_merges。
num_merges （int） – 可选，要从 bpe 合并文件中读取的合并数。
return_tokens – 指示是否返回拆分令牌。如果为 False，它将以字符串形式返回编码的令牌 ID（默认值：False）

forward(input： Any） → Any[来源]¶

参数: input （Union[str， List[str]]） – 输入要应用分词器的句子或句子列表。
返回: 分词文本
返回类型: 联合[列表[str]，列表[列表（str)]]

BERTTokenizer¶

类（vocab_path： str， do_lower_case： bool = True， strip_accents：可选 [bool] = 无，return_tokens=False）[来源]torchtext.transforms.BERTTokenizer¶

BERT Tokenizer 的转换。

基于论文中引入的 WordPiece 算法：https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/37842.pdf

后端内核实现是从 https://github.com/LieluoboAi/radish 获取和修改的。

有关更多详细信息，请参阅 PR https://github.com/pytorch/text/pull/1707 摘要。

下面的代码片段显示了如何使用预训练的词汇表文件的 BERT 分词器。

例

>>> from torchtext.transforms import BERTTokenizer
>>> VOCAB_FILE = "https://huggingface.co/bert-base-uncased/resolve/main/vocab.txt"
>>> tokenizer = BERTTokenizer(vocab_path=VOCAB_FILE, do_lower_case=True, return_tokens=True)
>>> tokenizer("Hello World, How are you!") # single sentence input
>>> tokenizer(["Hello World","How are you!"]) # batch input

参数

vocab_path （str） – 预训练词汇文件的路径。路径可以是 local 或 URL。
do_lower_case （Optional[bool]） – 指示是否使用小写。（默认值：True）
strip_accents （Optional[bool]） – 指示是否去除重音符号。（默认值：None）
return_tokens （bool） – 指示是否返回令牌。如果为 false，则以字符串形式返回相应的令牌 ID（默认值：False）

forward(input： Any） → Any[来源]¶

参数: input （Union[str， List[str]]） – 输入要应用分词器的句子或句子列表。
返回: 分词文本
返回类型: 联合[列表[str]，列表[列表（str)]]

词汇转换¶

类（词汇：torchtext.vocab.vocab.Vocab）[来源]torchtext.transforms.VocabTransform¶

词汇转换，用于将输入批次的词元转换为相应的词元 ID

参数: 词汇 – 一个torchtext.vocab.Vocab类。

例

>>> import torch
>>> from torchtext.vocab import vocab
>>> from torchtext.transforms import VocabTransform
>>> from collections import OrderedDict
>>> vocab_obj = vocab(OrderedDict([('a', 1), ('b', 1), ('c', 1)]))
>>> vocab_transform = VocabTransform(vocab_obj)
>>> output = vocab_transform([['a','b'],['a','b','c']])
>>> jit_vocab_transform = torch.jit.script(vocab_transform)

教程使用：VocabTransform: SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

forward(input： Any） → Any[来源]¶

参数: input （Union[List[str]， List[List[str]]]） – 要转换为相应令牌 ID 的输入令牌批次
返回: 将输入转换为相应的令牌 ID
返回类型: Union[List[int]， List[List[int]]]

ToTensor¶

class （padding_value：可选[int] = 无， dtype： torch.dtype = torch.int64）[来源]torchtext.transforms.ToTensor¶

将输入转换为 torch 张量

参数

padding_value （Optional[int]） – 填充值，使批次中的每个输入的长度等于批次中最长的序列。
DTYPE (torch.dtype) –torch.dtype输出张量

forward(input： Any） → 割torch。张量 [来源]¶

参数: input （Union[List[int]， List[List[int]]]） – 令牌 ID 的序列或批次
返回类型: 张肌

标签到索引¶

class （label_names：可选[List[str]] = 无， label_path：可选[str] = 无，sort_names=False）[来源]torchtext.transforms.LabelToIndex¶

将标签从 string 名称转换为 id。

参数

label_names （Optional[List[str]]） – 唯一标签名称的列表
label_path （Optional[str]） – 包含唯一标签名称的文件路径，每行包含 1 个标签。请注意，应提供 label_names 或 label_path 但不能两者兼而有之。

forward(input： Any） → Any[来源]¶

参数: input （Union[str， List[str]]） – 输入要转换为相应 ID 的标签
返回类型: 联合[int，列表[int]]

截断¶

类（max_seq_len： int）[来源]torchtext.transforms.Truncate¶

Truncate input sequence （截断输入序列）

参数: max_seq_len （int） – 输入序列允许的最大长度

教程使用：Truncate: SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

forward(input： Any） → Any[来源]¶

参数: input （Union[List[Union[str， int]]]， List[List[Union[str， int]]]]]） – 输入序列或批次要截断的序列
返回: 截断序列
返回类型: Union[List[Union[str， int]]， List[List[Union[str， int]]]]

添加令牌¶

class （token： Union[int， str]， begin： bool = True）[来源]torchtext.transforms.AddToken¶

将标记添加到序列的开头或结尾

参数

token （Union[int， str]） – 要添加的令牌
begin （bool， optional） – 是在开始或结束还是序列处插入标记，默认为 True

教程使用：AddToken: SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

forward(input： Any） → Any[来源]¶

参数: input （Union[List[Union[str， int]]]， List[List[Union[str， int]]]]]） – 输入序列或批次

顺序¶

class （*args： torch.nn.modules.module.Module）[来源]torchtext.transforms.Sequential¶

class （arg： OrderedDict[str， Module]torchtext.transforms.Sequential)

用于托管一系列文本转换的容器。

教程使用：Sequential: SST-2 使用 XLM-RoBERTa 模型的二进制文本分类¶

forward(input： Any） → Any[来源]¶

参数: input （Any） - 输入序列或批次。序列中的第一个转换必须支持输入类型。

PadTransform 面板变换¶

类（max_length：int，pad_value：int）[来源]torchtext.transforms.PadTransform¶

使用给定的 padding 值将 tensor 填充到固定长度。

参数

max_length （int） – 要填充的最大长度
pad_value （bool） - 用于填充张量的值

forward(x：Torch。Tensor） → torch 的 Tensor 中。张量 [来源]¶

参数: x （Tensor） - 要填充的张量
返回: 使用 pad_value 填充的 Tensor 最多为 max_length
返回类型: 张肌

StrToIntTransform （StrToInt转换）¶

类 [来源]torchtext.transforms.StrToIntTransform¶

将字符串标记转换为整数（单个序列或批处理）。

forward(input： Any） → Any[来源]¶

参数: input （Union[List[str]， List[List[str]]]） – 要转换的字符串标记序列或批次
返回: 序列或批量转换为相应的令牌 ID
返回类型: Union[List[int]， List[List[int]]]

torchtext.transforms¶

SentencePieceTokenizer¶

GPT2BPETokenizer¶

CLIPTokenizer¶

BERTTokenizer¶

词汇转换¶

ToTensor¶

标签到索引¶

截断¶

添加令牌¶

顺序¶

PadTransform 面板变换¶

StrToIntTransform （StrToInt转换）¶

文档

教程

资源