近日,一篇博客讲述了 LLM 在处理字符级文本时的能力提升。
作者表示,他一直在测试最新一代大型语言模型处理自然语言的能力,特别是字符计数、句子中的字符操作以及编码和密码解析。令人惊讶的是,与前几代 LLM 不同,最新模型能够解决这类任务。
LLM 处理单个字符的能力较差。这是因为所有文本都通过 LLM 标记器及其词汇表编码为标记。在英语和其他常用语言中,单个标记通常表示字符簇,有时甚至表示完整的单词。这使得任何比标记更细粒度的考虑都相当困难。
比如,让 OpenAI 模型对以下提示进行响应:
“Replace all letters "r" in the sentence "I really love a ripe strawberry" with the letter "l", and then convert all letters "l" to "r"
这是模型给出的答案:
可以看出,随着模型的迭代,ChatGPT 处理字符文本的能力越来越好。虽然 GPT-5 Nano 是唯一较弱的新模型,但它本身的规模也比较小。
模型测试结果
众所周知,LLM 的计数能力很差。实验结果表明,只有 GPT-4.1 能够计算出句子中的字符数。其他模型有时能够正确计算出所有单个单词的字符数,但在将所有数字加起来时却失败了。
然而,在推理能力设置为低的情况下,所有尺寸(包括 Nano)的 GPT 5 都能正确完成任务。
当要求模型统计特定字符的数量时,也有类似的情况。对于 GPT 5 来说,在大多数情况下对 r 的数量统计都是正确的,所有大小的模型甚至无需推理也能做到。然而,它的一致性较差。当将 strawberry 改为 strawberrry 时,结果会有所不同。
作者使用了 Base64(一种广泛使用的编码算法)和 ROT20 对模型进行测试。
测试句子是:
“Hi, how are you doing? Do you understand the cipher?
在用 ROT20 编码后,结果为:
“Bc, biq uly sio xicha? Xi sio ohxylmnuhx nby wcjbyl?
最后,用 Base64 编码后,我们得到了解码结果:
“QmMsIGJpcSB1bHkgc2lvIHhpY2hhPyBYaSBzaW8gb2h4eWxtbnVoeCBuYnkgd2NqYnlsPw==
大多数模型在 Base64 解码时都失败了,很可能是因为文本不是以正常语言的形态出现,使得验证解码更加困难。
以下是解码 Base64 的单独结果以及仅执行“内部” ROT20 解密编码)的结果。
结果显示,Claude Sonnet 4.5拒绝处理任何与正常文本不符的内容,无论是 Base64 还是 ROT 加密文本。Base64 可能会导致 Claude Sonnet 4.5 无法用于一些较为罕见的语言。Grok 4 也存在同样的问题,但只拒绝处理 Base64 文本。
Kimi、DeepSeek、Qwen 等模型有非常冗长的内部独白。解析 ROT20 密码通常需要消耗大约 3K 个 tokens。而与 Base64 编码结合时,输出通常达到 6-7K 个 tokens。
结论
两个有趣的结果是:
1. 较新/较大的模型更擅长概括 Base64 编码和解码;
2. 并且它们也更擅长在字符级别处理文本。
大多数最新一代的模型都能够解码 Base64 文本。模型对 Base64 解码算法的了解不仅仅是记住最常见英语单词的模式,而是能够从 Base64 中对其进行解码。SOTA 模型现在可以从 Base64 解码分发范围外的文本,这表明它们对算法有实际的理解,而不仅仅是记住了英语单词的翻译模式。
尽管模型对文本的理解是基于 token,但它们在字符级别处理文本的能力也越来越强。无论是在个体层面还是在解码替换密码时都能完成字符替换。
作者表示,推理模型和工具的使用进一步提升了 LLM 处理文本的能力,虽然字符级操作对于 LLM 来说远未解决,但它们在这一领域取得的进展还是令人欣喜。
参考资料:
https://blog.burkert.me/posts/llm_evolution_character_manipulation/
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1175.html
