tokenization

从2019年到现在,是时候重新审视Tokenization了

2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗? 来自 HuggingFace 的一篇文章给出了解释。 「9.9 和 9.11 到底哪个大?
  • 1