令牌生成器会将整个输入拆分为令牌,令牌过滤器将对每个令牌应用某种转换。
例如,假设输入为The quick brown fox
。如果使用edgeNGram ,则将获得以下令牌:
但是,如果您使用标准的令牌生成器将输入分成单词/令牌,然后使用edgeNGram ,则会得到以下令牌
如您所见,在edgeNgram 或 之间进行选择取决于您要如何对文本进行切片和切块以及如何进行搜索。
我建议您看一下优秀的elyzer工具,该工具提供一种可视化分析过程并查看每个步骤(令牌化和令牌过滤)过程中生成的内容的方法。