汉字藏着什么秘密?AI科学家刚刚才搞懂!
来源:https://www.douban.com/note/876777044/?_i=4850547C7J0Ow0
2025年10月21日,DeepSeek发的一篇叫作《DeepSeek-OCR: Contexts Optical Compression》的论文,在AI界炸锅了。
其实这个文章,普通人也是可以理解的。而且你会发现这是一篇超有意思的文章。
为了给大家掰扯清楚这个事儿,我们先从一个豆瓣热帖说起吧。
去年十月份,有个叫“请输入昵称”的豆友,在“我发现个规律”小组,发了一条帖子《我发现汉字上半部分似乎信息量更大一些》。
他是因为一次偶然的打印事故,发现页面上出现了两行“半个汉字”的句子,他注意到这些“半字”,如果是下半部分被切掉了,就不太影响阅读,但如果是上半部分切掉,阅读就会明显困难起来。
你不信也可以来试试。
这个是他发的“下半体”:

你能看出来一些内容,但是不知道说的是啥,对吧,但你看“上半体”:

聪明的你,是不是基本上认了一个八九不离十?
那问题来了。难道我们老祖宗在几千年前造字的时候,就偷偷把一个字的灵魂全都塞在了上半部分吗?
其实,这个现象揭示了一个大脑工作的原理:人脑根本不是一台“扫描仪”,它是一台顶级的“压缩机”。
咱们以为阅读的时候,眼睛是在扫描每一个笔画。但是这就错了!你的大脑根本就没有仔细看,它只是快速抓住信息密度最高的关键特征(比如汉字的上半部分),然后立刻在你的“知识库”里搜索、匹配、解压出完整的字义。至于下半部分,大脑可能会觉得这部分信息太冗余了,不看也罢!
其实这个“bug”不只是中文独有。你去看英文也是一样的。这个就说明人类的视觉系统,都进化出了类似有损压缩的偷懒神技。
好,那这个跟DeepSeek的新论文有什么关系呢?这个论文其实就是在模拟人脑的这种识别能力。
现在的大模型,用比喻来说的话,它就不是压缩机,是真正的扫描仪。AI大模型处理一篇1000字的文档,它真的会一个字一个字地去读,产生 1000多个Text Token。文档越长,它越累,计算量爆炸式增长。在这个过程中它根本不懂什么叫抓重点,什么叫冗余信息。
DeepSeek这篇论文,就是想说,我们能不能不让AI傻乎乎地“读”字,而是教它像人一样“看”字呢?
还真的可以,他们干了件绝妙的事:把一篇密密麻麻的文字,拍成一张照片!
这张照片被AI压缩成极少数的“视觉Token”(比如100个)。这100个 Token就像我们刚刚看的“半个汉字”——它虽然是有损的、模糊的,但它抓住了整篇文档的关键视觉特征!
结果呢?AI解码器(Decoder)居然真的靠着这100个模糊的视觉Token,完美解压出了原文1000多个字的内容,准确率高达97%,实现了10倍的压缩率!
所以你看,你刚刚在半个汉字上体验到的大脑压缩算法,现在正被AI疯狂偷学。
这篇论文的真正意义,就是证明了“光学压缩”(把文本拍成照片)是解决AI长文本难题的天才之路。写到这里,还真有一种我们老祖宗的造字智慧和最前沿的AI科学接上头的感觉!
在这里要稍微简单说几个概念,为什么把文字变成图就能达成这个效果呢?
因为大模型的本质就是基于token的计算。现在大模型,有一张分词表,模型在计算你问的问题的时候,会查询这个表。并把句子切分成词汇表里“认识”的单词或子词,也就是token。所以,这种技术会导致Token的数量与你要处理的文本长度严格相关,线性增长。
如果你把这些文字弄到图片上,那么视觉模型它不关心你的文字是什么,它处理的是图片token,也就是说一张图切割成固定大小的网格,然后基于这些网格单元(图片token)去计算。那么这个时候,无论你文字多少,只要这个图片大小不变,那么它的token就是一个固定值。
而且相比文字token,图片token还编码了字体、字号、粗细、排版(分栏、行距)、表格线等。因为传统的文字Token是一维的线性序列,它天生就丢失了所有的排版、布局和几何关系。用文字Token描述一个复杂的几何图或化学分子式非常难。但图片Token不仅压缩了文本,还理解了文本的“空间结构”。所以,一些几何图形的识别效果也变好了。
因此DeepSeek论文里这个操作,可以说寻找到了一个更高信息压缩比的方法。这样一来有限的资源,就能更好地支持长上下文了。
更绝的是他们认为这个机制可以用来模拟人类的“记忆遗忘”。具体的方法是在多轮对话中,把比较久远的历史记录“渲染”成一张图来压缩保存。如果历史更久远,就把这张图的分辨率再降低(比如从Large模式降到Tiny模式),从而实现信息的“逐渐模糊”和“遗忘”,用极低的成本保留“几乎无限”的上下文。
总结一下,就是说:作为人类,我们可以从一个只剩上半部分内容的文字视觉信号中,解压出完整的语义。而DeepSeek的论文指出,机器也可以。
最后,容许我们畅想一下:从1D的文字序列,到2D的视觉处理,那会不会将来我们以3D token为单位进行计算呢?
还真有,这个概念叫体素(Voxels)也叫“3D像素”,还有一种东西叫“点云”,数百万个3D坐标点勾勒出物体表面,自动驾驶的激光雷达就在用这种技术,还有一种叫作“神经辐射场”的技术,直接生成3D场景,这都是模型升维的尝试。
如果你对量子力学略有所知的话,我们世界的体积不能细分到普朗克尺度以下,所以你会发现这种基于“体素”的算法,其实正是宇宙自己在做的事。一句话,人类最终的方向,其实就是在用计算机模拟宇宙。说不定,我们正好站在硅基智能睁开3D眼睛的前夜。
最后,推荐一本DeepSeek的技术书《DeepSeek原理与项目实战》。
一定要相信自己!有大模型辅助,每个人都应该开辟一个新的更高的阅读领域。