LLM 在字符级文本处理方面越来越好-机器人产业网

导读：近日，一篇博客讲述了 LLM 在处理字符级文本时的能力提升。作者表示，他一直在测试最新一代大型语言模型处理自然语言的能力，特别是字符计数、句子中的字符操作以及编码和密码解析。令人惊讶的是，与前几代 LLM 不同，最新模型能够解决这类任务。LLM 处理单个字符的能力较差。这是因为所有文本都通过 LLM...

近日，一篇博客讲述了 LLM 在处理字符级文本时的能力提升。

作者表示，他一直在测试最新一代大型语言模型处理自然语言的能力，特别是字符计数、句子中的字符操作以及编码和密码解析。令人惊讶的是，与前几代 LLM 不同，最新模型能够解决这类任务。

LLM 处理单个字符的能力较差。这是因为所有文本都通过 LLM 标记器及其词汇表编码为标记。在英语和其他常用语言中，单个标记通常表示字符簇，有时甚至表示完整的单词。这使得任何比标记更细粒度的考虑都相当困难。

比如，让 OpenAI 模型对以下提示进行响应：

“
Replace all letters "r" in the sentence "I really love a ripe strawberry" with the letter "l", and then convert all letters "l" to "r"

这是模型给出的答案：

可以看出，随着模型的迭代，ChatGPT 处理字符文本的能力越来越好。虽然 GPT-5 Nano 是唯一较弱的新模型，但它本身的规模也比较小。

模型测试结果

众所周知，LLM 的计数能力很差。实验结果表明，只有 GPT-4.1 能够计算出句子中的字符数。其他模型有时能够正确计算出所有单个单词的字符数，但在将所有数字加起来时却失败了。

然而，在推理能力设置为低的情况下，所有尺寸（包括 Nano）的 GPT 5 都能正确完成任务。

当要求模型统计特定字符的数量时，也有类似的情况。对于 GPT 5 来说，在大多数情况下对 r 的数量统计都是正确的，所有大小的模型甚至无需推理也能做到。然而，它的一致性较差。当将 strawberry 改为 strawberrry 时，结果会有所不同。

作者使用了 Base64（一种广泛使用的编码算法）和 ROT20 对模型进行测试。

测试句子是：

“
Hi, how are you doing? Do you understand the cipher?

在用 ROT20 编码后，结果为：

“
Bc, biq uly sio xicha? Xi sio ohxylmnuhx nby wcjbyl?

最后，用 Base64 编码后，我们得到了解码结果：

“
QmMsIGJpcSB1bHkgc2lvIHhpY2hhPyBYaSBzaW8gb2h4eWxtbnVoeCBuYnkgd2NqYnlsPw==

大多数模型在 Base64 解码时都失败了，很可能是因为文本不是以正常语言的形态出现，使得验证解码更加困难。

以下是解码 Base64 的单独结果以及仅执行“内部” ROT20 解密编码）的结果。

结果显示，Claude Sonnet 4.5拒绝处理任何与正常文本不符的内容，无论是 Base64 还是 ROT 加密文本。Base64 可能会导致 Claude Sonnet 4.5 无法用于一些较为罕见的语言。Grok 4 也存在同样的问题，但只拒绝处理 Base64 文本。

Kimi、DeepSeek、Qwen 等模型有非常冗长的内部独白。解析 ROT20 密码通常需要消耗大约 3K 个 tokens。而与 Base64 编码结合时，输出通常达到 6-7K 个 tokens。

结论

两个有趣的结果是：

1. 较新/较大的模型更擅长概括 Base64 编码和解码；

2. 并且它们也更擅长在字符级别处理文本。

大多数最新一代的模型都能够解码 Base64 文本。模型对 Base64 解码算法的了解不仅仅是记住最常见英语单词的模式，而是能够从 Base64 中对其进行解码。SOTA 模型现在可以从 Base64 解码分发范围外的文本，这表明它们对算法有实际的理解，而不仅仅是记住了英语单词的翻译模式。

尽管模型对文本的理解是基于 token，但它们在字符级别处理文本的能力也越来越强。无论是在个体层面还是在解码替换密码时都能完成字符替换。

作者表示，推理模型和工具的使用进一步提升了 LLM 处理文本的能力，虽然字符级操作对于 LLM 来说远未解决，但它们在这一领域取得的进展还是令人欣喜。

参考资料：

https://blog.burkert.me/posts/llm_evolution_character_manipulation/

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1175.html

模型测试结果

结论

相关文章