torchtext.data.utils¶
get_tokenizer¶
-
torchtext.data.utils.get_tokenizer(tokenizer, language='en')[source]¶ 为字符串句子生成分词函数。
- Parameters
分词器 – 分词函数的名称。如果为None,它返回split()函数,该函数按空格拆分字符串句子。 如果为basic_english,它返回_basic_english_normalize()函数, 该函数首先对字符串进行标准化处理,然后按空格拆分。如果为可调用函数, 它将返回该函数。如果为分词库(例如spacy、moses、toktok、revtok、subword), 它将返回相应的库。
语言 – 默认为 en
示例
>>> import torchtext >>> from torchtext.data import get_tokenizer >>> tokenizer = get_tokenizer("basic_english") >>> tokens = tokenizer("You can now install TorchText using pip!") >>> tokens >>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']