torchtext.transforms
转换是常见的文本转换。它们可以使用torch.nn.Sequential
或使用torchtext.transforms.Sequential
以支持 torch 脚本化。
SentencePieceTokenizer
-
类 (sp_model_path: str)[来源]
torchtext.transforms.
SentencePieceTokenizer
从预先训练的句子词模型转换 Sentence Piece 分词器
Additiona 详细信息: https://github.com/google/sentencepiece
- 参数
sp_model_path (str) – 预训练句子模型的路径
- 例
>>> from torchtext.transforms import SpmTokenizerTransform
>>> transform = SentencePieceTokenizer("spm_model")
>>> transform(["hello world", "attention is all you need!"])
- 教程使用:
SentencePieceTokenizer
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[str, List[str]]) – 输入要应用分词器的句子或句子列表。
- 返回
分词文本
- 返回类型
联合[List[str], List[List(str)]]
GPT2BPETokenizer
-
类(encoder_json_path:str,vocab_bpe_path:str)[来源]
torchtext.transforms.
GPT2BPETokenizer
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[str, List[str]]) – 输入要应用分词器的句子或句子列表。
- 返回
分词文本
- 返回类型
联合[List[str], List[List(str)]]
CLIPTokenizer
-
class (merges_path: str, encoder_json_path: Optional[str] = None, num_merges: 可选[int] = 无)[来源]
torchtext.transforms.
CLIPTokenizer
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[str, List[str]]) – 输入要应用分词器的句子或句子列表。
- 返回
分词文本
- 返回类型
联合[List[str], List[List(str)]]
ToTensor
-
class (padding_value: 可选[int] = 无, dtype: torch.dtype = torch.int64)[来源]
torchtext.transforms.
ToTensor
将输入转换为 torch 张量
- 参数
-
-
forward
(input: Any) → 割torch。张量[来源]
- 参数
input (Union[List[int], List[List[int]]]) – 令牌 ID 的序列或批次
- 返回类型
张肌
标签到索引
-
class (label_names: 可选[List[str]] = 无, label_path: 可选[str] = 无,sort_names=False)[来源]
torchtext.transforms.
LabelToIndex
将标签从 string 名称转换为 id。
- 参数
-
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[str, List[str]]) – 输入要转换为相应 ID 的标签
- 返回类型
联合[int, 列表[int]]
截断
-
类 (max_seq_len: int)[来源]
torchtext.transforms.
Truncate
Truncate input sequence (截断输入序列)
- 参数
max_seq_len (int) – 输入序列允许的最大长度
- 教程使用:
Truncate
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[List[Union[str, int]]], List[List[Union[str, int]]]]]) – 输入序列或批次要截断的序列
- 返回
截断序列
- 返回类型
Union[List[Union[str, int]], List[List[Union[str, int]]]]
添加令牌
-
class (token: Union[int, str], begin: bool = True)[来源]
torchtext.transforms.
AddToken
将标记添加到序列的开头或结尾
- 参数
-
- 教程使用:
AddToken
-
forward
(input: Any) → Any[来源]
- 参数
input (Union[List[Union[str, int]]], List[List[Union[str, int]]]]]) – 输入序列或批次
顺序
-
class (*args: torch.nn.modules.module.Module)[来源]
torchtext.transforms.
Sequential
-
class (arg: OrderedDict[str, Module]
torchtext.transforms.
Sequential
)
用于托管一系列文本转换的容器。
- 教程使用:
Sequential
-
forward
(input: Any) → Any[来源]
- 参数
input (Any) - 输入序列或批次。序列中的第一个转换必须支持输入类型。