MambaByte - AI在线

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

给出一句「Hello, world!」你要怎么把它喂给 AI 模型？目前常见的方法是利用某种算法将它分为若干 token，比如 ["Hello", ",", "world", "!"]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法，而且可能无法很好地处理新词、专有名词或非标准用法。因此，不少研究者也在尝试另一种方法：直接让模型从字节中学习。在 Mamba 问世之后，这条路似乎有希望了。在定义语言模型时，通常会使用一种基