torchtext.data.utils¶
get_tokenizer¶
-
torchtext.data.utils.
get_tokenizer
(tokenizer, language='en')[来源]¶ 为字符串句子生成分词器函数。
- 参数
tokenizer – tokenizer 函数的名称。如果为 None,则返回 split() 函数,该函数将字符串句子按空格拆分。 如果basic_english,则返回 _basic_english_normalize() 函数, 首先对字符串进行规范化,然后按空格进行分割。如果 callable function,它将返回函数。如果 tokenizer 库 (例如 Spacy、Moses、Toktok、Revtok、Subword),则返回 相应的库。
language – 默认 en
例子
>>> import torchtext >>> from torchtext.data import get_tokenizer >>> tokenizer = get_tokenizer("basic_english") >>> tokens = tokenizer("You can now install TorchText using pip!") >>> tokens >>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']