AI 记忆术语表：28 个核心概念

发布于 2026-07-04 · 更新于 2026-07-04

这份术语表解释了 AI 系统处理记忆和上下文背后的那套词汇——从模型读取的原始文本单位，到它存储、检索、遗忘你所告诉它内容的种种方式。每个词条都给出简明定义，按主题分组，因此你既可以查阅单个概念，也可以从头读到尾当作入门读物。

基础

Token

token 是语言模型实际读写的最小文本单位。它常常是一个词、一个词的一部分、或一个标点符号，在英语中平均约相当于四分之三个词。模型衡量自身输入输出上限、以及通常的计价，用的都是 token，而非字符或词。

类比：token 之于 AI，如同一块块砖之于一堵墙；模型逐块砌出每一个回复。

上下文窗口（Context Window）

上下文窗口是模型一次能同时纳入考量的最大文本量，以 token 计。它包含当前这次交流中的一切：你的问题、任何指令、检索到的文档、以及模型自己正在生成的回复。一旦一段对话超过这个上限，较旧的内容就必须被丢弃或压缩，以腾出空间。

类比：可以把它视为一张容量固定的工作台面，一次只放得下那么多内容，其余的必须移走。

提示词（Prompt）

提示词是你交给模型去处理的文本：一个问题、一条指令、或一块供它工作的内容。提示词的质量和清晰度会显著塑造回复。实际上，发给模型的完整提示词往往会把你的消息连同隐藏的指令和背景上下文一起打包。

系统提示词（System Prompt）

系统提示词是放在一段对话开头的一组指令，用于在用户开口之前就定义模型该如何表现——它的语气、角色和规则。用户通常看不到它。它贯穿整次交流，持续引导每一个回复。

类比：它相当于舞台演员在幕布升起前拿到的说明，塑造他们如何演绎这一场戏，而观众自始至终不会听到。

知识截止日期（Knowledge Cutoff）

知识截止日期是这样一个日期：在它之后，模型没有任何内建的信息，因为它的训练数据止步于此。一个截止日期在 2024 年的模型，天然不会知道 2025 年发生的事。这与记忆是两回事：模型仍然可以在提示词里被告知更新的事实，或通过检索取来，但这些并未被烘进它最初的训练。

记忆是如何存储的

持久记忆（Persistent Memory）

持久记忆是 AI 系统跨越一段段独立对话所保留的信息，使它不必每次都从一张白纸开始。以「ChatGPT Memory」之类命名的功能，就是这一类的例子。与会话结束就重置的上下文窗口不同，持久记忆被保存在某个耐久的地方，之后再被取回。

类比：上下文窗口是短期工作记忆；持久记忆是你在一次次会议之间随身携带的那个笔记本。

情景记忆（Episodic Memory）

情景记忆存储具体的过往事件或互动，绑定在它们发生的时间和地点上，比如「星期二你让我起草一封辞职信」。它捕捉一个个具体的片段，而非一般性的事实。这个词借自人类心理学，描述的是对经历的记忆，而非知识。

语义记忆（Semantic Memory）

语义记忆存储一般性的事实和稳定的知识，剥离了它们被学到的那个具体时刻，比如「用户是素食者」或「用户在金融行业工作」。它是情景记忆的对照面：不是何时发生了什么，而是单纯什么是真的。系统常常把许多情景片段提炼成少数几条耐久的语义事实。

画像/偏好记忆（Profile / Preference Memory）

画像或偏好记忆是一组经过策展的、关于用户的稳定事实，比如他们的名字、语气偏好、反复出现的目标、或常设指令。它是语义记忆中一个聚焦的、往往对用户可见的子集，瞄准的是个性化。因为它小而长寿，它通常是用户最容易查看和编辑的那部分记忆。

记忆抽取（Memory Extraction）

记忆抽取是这样一个过程：读取一段对话，把其中值得记住的部分挑出来，再作为结构化的事实保存下来。系统不去存储整段文字记录，而是判断「这个值得留下」，把其余的丢弃。这一步决定了什么才真正进入长期记忆，而做错了它，就意味着要么忘掉有用的细节、要么囤积噪声。

类比：这如同开完会做笔记；你记下的是那些决定，而非说出口的每一个字。

嵌入（Embedding）

嵌入是一串数字，把一段文本的含义表示为数学空间中的一个点，使含义相近的文本彼此靠近。模型生成嵌入，是为了按含义而非按字面措辞来比较想法。它们是语义搜索和大多数现代检索的基石。

类比：嵌入如同给含义标一个坐标；「car」和「automobile」落在几乎同一个点上，而「banana」则相距甚远。

向量数据库（Vector Database）

向量数据库是一种专门的存储，设计用来存放嵌入，并快速找出与给定查询最相似的那些。它为许多记忆和检索系统里「按含义找相关内容」这一步提供支撑。普通数据库匹配的是精确值；向量数据库则按含义上的接近程度排序。

召回是如何工作的

语义搜索（Semantic Search）

语义搜索靠含义、而非靠匹配关键词来查找内容。它的工作方式是把查询和存储的条目都转成嵌入，再衡量哪些最接近。这让一次对「how to fix a flat tire（如何修补漏气的轮胎）」的搜索，能浮现出一份关于「repairing a punctured wheel（修理被扎破的车轮）」的文档，即便二者没有共同的词。

检索（Retrieval）

检索是把相关的存储信息——记忆、文档或事实——取出来的动作，以便用它回答当前的请求。它是庞大知识库与小小上下文窗口之间的桥梁。检索质量为答案质量设定了上限：模型只能用被取来的东西。

RAG（检索增强生成，Retrieval-Augmented Generation）

RAG 是一种技术：模型先检索出相关的外部信息，再用取来的材料作参考来生成答案。它让模型能够借助其训练数据之外的知识，并援引更新或更具体的来源。这个词出自 Lewis et al. 2020 年的一篇论文，它把一个神经检索器和一个文本生成器结合起来。

类比：这相当于一场开卷考试；模型不是纯凭记忆作答，而是先翻到相关的那一页。

召回（Recall）

召回是把一条存储的记忆重新带回活跃对话中，使模型能用上它。在日常使用里，它描述的是 AI「记起」你早先告诉它的某件事的那个时刻。从技术上讲，召回是检索成功的结果：恰当的记忆在恰当的时刻浮现出来。

注入（记忆注入，Memory Injection）

记忆注入是这样一步：在模型生成回复之前，把检索到的记忆或事实插入提示词。模型自身并不会主动去某个记忆库取用；是相关的条目在那一轮里被放入它的上下文窗口。设计良好的系统会把注入的记忆清楚地标记为参考数据、而非新的指令，以降低它被误读成一条命令的风险。

类比：这如同一位同事在你回答问题之前，往你桌上放了一张便条，让那个事实就摆在你眼前。

摘要（Summarization）

摘要把一段冗长的对话或文档压缩成一个保留要点的更短版本。记忆系统用它把更多历史塞入有限的上下文窗口，而不必留下每一个字。代价是细节：摘要节省了空间，但可能会把某些具体之处抹平，而这些之后可能恰恰要紧。

截断（Truncation）

截断是为了适配一个大小上限而把文本切掉，通常是丢弃一段对话中最旧的或最不相关的部分。当一次聊天长到超过上下文窗口，截断就是那种直接腾出空间的办法。与摘要不同，它不保留被移除内容的含义；被切掉的材料就此消失。

类比：这如同裁剪一张照片以适配画框；落在边缘之外的，是丢失了，而非被缩小了。

控制与隐私

幻觉（Hallucination）

幻觉是指模型用它陈述真话时那种同样的自信，说出某件虚假或凭空编造的事。它之所以发生，是因为模型默认生成的是听起来合理的文本，而非去查证事实。检索和记忆可以通过把答案锚定在真实来源上来减少幻觉，但无法消灭它们。

过期记忆（Stale Memory）

过期记忆是一个曾经为真、如今却已过时的存储事实，比如一个旧职称、一个从前的地址、或一个用户此后已经改变的偏好。因为记忆会持续存在，系统可能在某个事实早已不再准确之后仍然套用它。好的记忆设计包含随事实老去而更新或移除它们的办法。

记忆衰减/遗忘（Memory Decay / Forgetting）

记忆衰减是一种刻意的设计选择：让存储的记忆随时间减弱或过期，而非把一切永远留着。它可以基于年龄、一条记忆被使用的频率、或相关性。有意的遗忘让记忆库不至于被过时或琐碎的细节填满，也呼应了人类记忆淡去的方式。

类比：这如同一座需要除草的花园；不除草，有用的植物就会被曾经长出的一切挤占。

无痕/临时对话（Incognito / Temporary Chat）

无痕或临时对话是一段被刻意排除在持久记忆之外的会话，因此其中说过的任何话都不会被保存、也不会被用来个性化之后的对话。它给了用户一个途径，去问一次性的或敏感的问题，而不塑造他们的长期画像。会话结束时，其内容理应被丢弃。

训练数据（Training Data）

训练数据是模型在其最初开发期间学习所用的大量文本，它塑造了模型的一般知识和写作能力。训练一旦完成它就固定下来，并且与你在一段对话中说的任何话都是两回事。一个模型的内建知识、以及它的盲区，都可以追溯到这份数据里有什么和没有什么。

微调（Fine-Tuning）

微调是在一个已经训练好的模型上，用一组更狭窄的示例进一步训练，以专门化它的行为、语气或领域知识。它会永久改变模型的权重，这一点不同于记忆或检索——后者是在使用的那一刻才添加信息。因为它改动的是模型本身，比起把一个事实存入记忆，微调是一种更重、更慢的添加知识的方式。

类比：记忆相当于递给某人一张参考卡；微调相当于把他们送回学校。

训练用途退出（Training Opt-Out）

训练用途退出是一项设置或政策，让你的对话不被用来训练或改进未来的模型。它管的是你的数据会否反过来喂入模型的开发，这与它是否为了你自己的记忆而被保留是分开的两件事。各服务商之间的可用性和默认值差异很大，因此对你所用的任何服务，具体情况都值得查证。

数据保留（Data Retention）

数据保留是指一个服务商在删除你的对话和存储数据之前，会把它们保留多久。保留政策决定了还有哪些东西存在，可供你导出、召回、或者——如果你提出要求的话——抹除。一个短的保留窗口限制了暴露，但也限制了记忆和历史能回溯多远。

记忆导出（Memory Export）

记忆导出是这样一项功能：让你能把一个系统所存储的关于你的事实下载下来，通常是一个文件。它支撑透明度和数据可携权，让你能查看并带走一个 AI 记住了什么。导出往往与查看、编辑或删除单条记忆的能力配套出现。

以上定义与厂商无关，反映的是截至 2026 年 7 月的通行行业用法。