torchtext.data.utils¶

get_tokenizer¶

torchtext.data.utils.get_tokenizer(tokenizer， language='en'）[来源]¶

为字符串句子生成分词器函数。

参数

tokenizer – tokenizer 函数的名称。如果为 None，则返回 split（）函数，该函数将字符串句子按空格拆分。如果basic_english，则返回 _basic_english_normalize（）函数，首先对字符串进行规范化，然后按空格进行分割。如果 callable function，它将返回函数。如果 tokenizer 库（例如 Spacy、Moses、Toktok、Revtok、Subword），则返回相应的库。
language – 默认 en

例子

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

ngrams_iterator¶

torchtext.data.utils.ngrams_iterator(token_list， ngrams）[来源]¶

返回一个迭代器，该迭代器生成给定的标记及其 ngram。

参数

token_list – 令牌列表
ngrams – ngram 的数量。

例子

>>> token_list = ['here', 'we', 'are']
>>> list(ngrams_iterator(token_list, 2))
>>> ['here', 'here we', 'we', 'we are', 'are']

torchtext.data.utils¶

get_tokenizer¶

ngrams_iterator¶

文档

教程

资源