在奥利弗·萨克斯 (Oliver Sacks) 1985 年出版的《错把妻子当帽子的人》一书中,神经科医生描述了患者吉米·G. (Jimmie G.) 的案例,他可以回忆起遥远的过去,但无法形成新的记忆。吉米严重的顺行性遗忘症在一篇题为《迷失的水手》的文章中得到了概述,这意味着他的世界没有连续性;他的世界没有连续性。只是一个不断令人耳目一新的礼物。
这是我们今天构建的人工智能系统的一个恰当的比喻。 现代人工智能模型拥有巨大的、看似百科全书式的“长期”记忆,但实际上它是一个被时间冻结的思维,在训练过程中只创建一次。之后,他们可以在上下文窗口中短暂保存信息,但他们无法真正学习或存储新的经验。当窗户关闭时,记忆就消失了。
没有记忆的智能与人类的思维有着根本的不同。但解决人工智能的记忆问题远非那么简单。
为什么完美的人工智能内存会破坏系统
你可能会认为,如果人工智能系统拥有完美的、永久的长期记忆,它们会更聪明、更稳定、更像人类。但现实是,完美的记忆力会损害智力。
这适用于人类和机器。人与 摄影的 或者 高度优越的自传体 记忆常常在生活中挣扎,因为它们无法忘记。他们的头脑以同样的强度保留每一个细节。
结果不是清晰度,而是认知噪音;他们无法忘记不重要的细节,也难以提取相关信息。
未来具有永久、无错误记忆的人工智能也容易出现同样的问题。几个月前给出的一条措辞不当的指示可能会与关键的新指导一样重要。人工智能会过度思考,重播历史输入,而不是优先考虑手头的任务。该系统不会变得更加通用或更具适应性,反而会降低灵活性、降低一致性,并且可能对其用户的安全构成风险。
这些模式已经在机器学习中出现。逐字保留过多训练数据的模型可能难以泛化,并且在狭窄的上下文之外表现出不可预测的行为,紧紧抓住不相关的特定信息。
一个永远记住一切的人工智能将会变得脆弱,就像拥有完美记忆力的人类被压垮一样。在设计未来的记忆系统时,目标必须是选择性记忆,即人工智能有能力存储重要的内容、忘记不重要的内容以及更新过时的知识。
上下文窗口:人工智能思维的“工作记忆”
对于当今的法学硕士来说,他们拥有的最接近实时记忆的东西是上下文窗口——用户在任何给定对话或任务中提供的文本。此上下文不会永久存储;它只是一个临时的工作空间,相当于人类记忆中保存电话号码足够长的时间以便拨打的部分。一旦对话结束或令牌滚出窗口,模型就会完全忘记它们。
上下文窗口必然很短,因为每个新令牌必须关注上下文中存在的每个先前令牌。上下文越长,每一步需要的计算量就越多,从而增加了成本和能源需求。
实际上,这意味着任意长的内存都会使推理变得异常缓慢且昂贵。
因此,人工智能系统构建者必须选择一个上下文大小,以平衡实用性和计算可行性;当前模型的上下文窗口范围从数万个令牌到几百万个,但即使这些大小也严重考验了硬件和效率的极限。即使窗口非常大,上下文也不会存储为内存。该模型不会优先考虑旧信息而不是新信息,也不会在会话中建立稳定的信念。当新事实出现时,它也不会更新其内部参数。它只是对推理时窗口中的任何文本做出反应。
如果窗口很短,那么最近的信息就会从模型的脑海中消失。如果窗口很长,模型仍然不会对哪些数据重要、过时或错误做出任何决定。
从这个意义上说,扩展上下文窗口就像增加人类的短期记忆广度。
没有任何基本物理定律可以阻止超长上下文。然而,在撰写本文时,最大的商业部署上下文窗口只有数百万个令牌。研究模型走得更远,但回报递减;超过某个点后,模型就会充满细节,就像一个人经历认知超载一样。
这个问题可以通过压缩在一定程度上得到解决。这是一种人工智能模型总结现有上下文并重新启动的技术,使用此摘要作为新上下文窗口的开始。这意味着人工智能可以让对话继续进行,但由于摘要,一些信息会丢失。
而且持续的时间越长,原有的信息就会被进一步稀释,直至几乎消失殆尽。因此,压缩作为一种解决方案还远非完美。
微调:人工智能如何“学习”,以及它为何昂贵
微调是人工智能系统最接近形成新的长期记忆的事情。与上下文窗口不同,微调实际上重写了模型的内部权重。一旦这些权重发生变化,模型对于未来的每个查询都会有不同的行为。微调的作用非常强大,但风险也很大。
完全微调的成本很高,因为它需要整个训练流程:使用数千个精选示例和大规模 GPU 或 TPU 集群通过数十亿个参数进行反向传播。
即使是微小的微调也可能花费数千美元,并且数据中的任何错误都可能会扭曲模型的行为。这就是为什么微调需要仔细验证。
为了降低成本,现代系统经常使用LoRA(低秩适应)。 LoRA 没有更新所有模型的权重,而是添加了与原始网络并排的小型“适配器”矩阵。训练期间,仅更新这些适配器;核心模型保持不变。这使得培训变得更便宜、更容易恢复并且更安全。
但即使有了 LoRA,微调仍然是一个生硬的工具。它会全局影响模型,而不是有选择地影响模型。它无法决定记住或忘记什么。一旦应用,它的影响就会无处不在,而不仅仅是在触发它的对话中。
微调——无论是完全微调还是通过 LoRA——更像是脑部手术,而不是自然学习,是一种结构修改,而不是一个流畅、增量的记忆过程。
矢量数据库和 RAG:有用的工具,但不是真正的内存
矢量数据库经常与人工智能内存一起被提及,但它们从根本上来说并不是一个内存系统。它们的工作原理是存储已转换为嵌入的文本块——表示含义的数学向量。当您查询矢量数据库时,它不会像人类甚至人工智能架构那样“记住”任何东西。它只是查找在数学上与您的查询相似的文本块。
一些人工智能系统将语言模型与向量数据库配对,这一过程称为 检索增强生成 (RAG)。当用户提出问题时,系统会在矢量数据库中搜索相关段落,检索它们,然后将检索到的文本和用户的问题输入到模型中。然后模型使用这个临时上下文进行回答。有关此检索的任何内容都不会成为模型知识的一部分。
这非常有用,但它只是一个“记忆”。 RAG 不会更新模型的内部权重,也不会构建个人上下文。它无法区分真相和噪音,也无法学习。它只是一种更智能的复制粘贴形式。
RAG 可以通过让模型访问外部信息来模拟记忆,但它缺乏我们与真实记忆相关的所有品质:巩固、遗忘、优先级、情绪加权、时间衰减和结构整合。虽然矢量数据库是强大的检索工具,但它们并不是长期记忆的解决方案。
外部记事本:机器的假体记忆
人们很容易想象,如果人工智能有一个记事本——一个记下重要事实、偏好或指令的外部地方——那么我们就可以解决人工智能的记忆问题。在实践中,许多人工智能系统都会做类似的事情。当用户提到一个看似重要的细节时,系统会将其写入一个小型外部存储中,并附加时间戳、标签或主题。
下次用户与模型交互时,人工智能可以打开记事本,查看最相关的条目,然后将它们反馈到模型中,就好像它“记住”了它们一样。
虽然这些检索系统可以使用向量数据库和 RAG 逻辑,但许多系统可以通过更简单的搜索机制提供令人印象深刻的结果。对于个人记忆(数据集通常小于企业知识库),基本关键字匹配或时间顺序过滤通常足够有效,可以创造强烈的连续性感觉。
使用记事本,人工智能可以回忆起您最喜欢的写作风格,跟踪长期运行的项目,并恢复您可能已经忘记的细节。但模型本身并没有学到任何东西。 “记忆”存在于神经网络之外,人工智能会像人咨询规划师一样查阅它。没有任何东西被集成到模型的内部结构中,也没有任何东西作为知识而持久存在。
这就是为什么记事本最好不要被理解为存储器,而是被理解为假体存储器——一种捆绑在系统上的人工扩展,因为底层架构无法记忆。无论系统是从矢量数据库检索事实还是通过简单的关键字搜索查找过去的指令,其机制都是相同的。它提供了假肢体验的连续性,但模型本身并没有改变。
检索过程并不会让模型了解更多;而是让模型了解更多。它只是在适当的时候传递模型信息。它不会让模型记住;它会让模型记住。它只是根据需要重新引入过去的陈述。
类人记忆远远超出当今的人工智能架构
这样的系统很聪明而且通常很有用,但它们并不是通往类人记忆的垫脚石。他们缺乏遗忘、优先顺序、情绪权重、整合,以及定义生物智能的短期和长期存储之间微妙的团队合作。它们提供回忆但不理解,提供持久性但不整合。
在人工智能系统能够安全且有选择性地修改其内部表征(这远远超出了当今的架构)之前,它们的记忆仍将是外部的、脚本化的、本质上是假体的。

