论文解读-长时记忆嵌入基准测试

2026-04-17

07:10

阅读次数： 0

📄 论文信息

标题： LMEB: Long-horizon Memory Embedding Benchmark

作者： Xinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

机构： 哈尔滨工业大学（深圳）、深圳环形区域研究所（SLAI）、北京大学

ArXiv： 2603.12572

代码： https://github.com/KaLM-Embedding/LMEB

HuggingFace 精选日期： 2026年3月16日（当日排名第1）

一句话总结

这篇论文提出了 LMEB（长时记忆嵌入基准测试），一个专门评估文本嵌入模型在长时记忆检索任务上表现的全面基准测试框架。简单来说，现有的文本嵌入评测（如 MTEB）只关注"从一堆文档里找到相关段落"这种传统检索，但当 AI 需要从碎片化的、上下文相关的、时间跨度很长的记忆中找回信息时，现有评测就不够用了。LMEB 填补了这个空白。

🎯 生活化比喻： 想象你有一个超级助手，它每天帮你记录生活。传统的文本检索就像在图书馆里找一本书——书是整齐摆放的，标签清晰。但记忆检索更像是你试图回忆"上个月那次和老王在咖啡馆聊天时，他提到的那个投资项目叫什么来着？"——信息是碎片化的、依赖上下文的、时间跨度很长的。LMEB 就是专门测试 AI 能不能应对这种"回忆"任务的考试。

1. 引言（Introduction）—— 为什么需要 LMEB？

1.1 记忆嵌入的重要性

记忆嵌入（Memory Embeddings） 是许多先进 AI 系统的基础技术。所谓"嵌入"，就是把一段文字变成一串数字（向量），方便计算机理解和比较文字之间的相似性。

在记忆增强系统（Memory-Augmented Systems） 中，AI 需要：

存储大量的记忆信息
检索相关的历史记忆
更新过时的信息
推理跨时间的关联

其中，检索是最核心的能力。如果 AI 找不到相关的记忆，后面的推理和回答都无从谈起。

1.2 现有评测的不足

目前主流的文本嵌入评测基准（如 MTEB、BEIR 等）主要评估的是传统段落检索（Passage Retrieval） 任务。这类任务的特点是：

信息是组织良好的——比如维基百科文章、新闻报道
查询和文档之间的关系比较直接明确
不太涉及时间跨度和上下文依赖

但在真实的 AI 记忆场景中，情况完全不同：

信息是碎片化的（Fragmented）——比如聊天记录中分散在各处的信息片段
信息是上下文相关的（Context-dependent）——需要结合前后文才能理解
信息是时间跨度很长的（Temporally Distant）——可能需要回忆几个月前的事情

💡 关键洞察： 现有评测就像只考"阅读理解"的考试，而 LMEB 加入了"回忆往事"的考题。两种能力虽然都涉及文本理解，但实际上差异很大。

1.3 LMEB 的核心贡献

LMEB 为此提供了一个统一的、全面的评估框架，主要包括：

22 个数据集，涵盖 193 个零样本检索任务
4 种记忆类型：情景记忆、对话记忆、语义记忆、程序记忆
同时包含 AI 生成和人工标注的数据
开源评测工具包和公开排行榜

论文评测了 15 个广泛使用的嵌入模型（参数量从数亿到 100 亿不等），发现了三个关键结论：

LMEB 提供了合理的难度水平（最好的模型也只能达到约 61 分）
大模型不一定比小模型好——模型架构和训练方法更重要
LMEB 和 MTEB 的评估维度是正交的——在传统检索上表现好的模型，在记忆检索上不一定好

2. LMEB 基准测试详解

2.1 总体概述与分类体系

LMEB 将记忆分为 4 大类型，每种类型关注不同的记忆检索场景：

记忆类型	英文名	特点	生活化例子	抽象层级	时间依赖
情景记忆	Episodic Memory	回忆具体发生过的事件，关联时间、地点、人物等	"上周三下午我在公司楼下见到了谁？"	低	高
对话记忆	Dialogue Memory	在多轮对话中维持上下文，记住之前聊过的内容和用户偏好	"我们之前讨论过哪些解决方案？"	中高	高
语义记忆	Semantic Memory	回忆通用知识和事实，不依赖时间或特定场景	"Transformer 的自注意力机制是怎么工作的？"	低	低
程序记忆	Procedural Memory	检索学习过的技能和操作步骤，用于多步推理和问题解决	"之前那个 API 调用的参数格式是什么？"	高	低

🧠 记忆类型的二维分类： 论文用两个维度来区分这四种记忆：

抽象层级（Level of Abstraction）：情景记忆最具体（"那天发生了什么"），程序记忆最抽象（"怎么做某件事"）

时间依赖（Temporal Dependency）：情景和对话记忆高度依赖时间线索（"上周""昨天的对话"），语义和程序记忆则相对独立于时间

四种记忆类型的详细说明

① 情景记忆（Episodic Memory）

情景记忆关注的是过去发生的具体事件，与时间线索、人物实体、空间位置紧密关联。比如 AI 助手需要回答"Caroline 在 2023 年 7 月参加了什么类型的团体？"——这需要精确定位到特定时间点和特定人物的事件。LMEB 包含 2 个情景记忆数据集（EPBench 和 KnowMeBench），共 69 个检索任务。

② 对话记忆（Dialogue Memory）

对话记忆关注的是多轮交互中的上下文维持。当你和 AI 聊了很久之后问"我们两天前讨论了什么？"，它需要从大量对话历史中找到正确的内容。LMEB 包含 6 个对话记忆数据集（LoCoMo、LongMemEval、REALTALK、TMD、MemBench、ConvoMem），共 42 个检索任务，语料库规模高达 168 万条记录。

③ 语义记忆（Semantic Memory）

语义记忆关注的是通用知识和事实的检索，不绑定特定时间或事件。比如从学术论文中找到回答某个问题的段落。LMEB 包含 8 个语义记忆数据集（QASPER、NovelQA、PeerQA、Covid-QA、ESG-Reports、MLDR、LooGLE、SciFact），共 15 个检索任务。

④ 程序记忆（Procedural Memory）

程序记忆关注的是已学技能和操作序列的检索，比如"之前用过哪个 API 工具？""解决类似问题时用了什么步骤？"LMEB 包含 6 个程序记忆数据集（Gorilla、ToolBench、ReMe、Proced_mem_bench、MemGovern、DeepPlanning），共 67 个检索任务。

2.2 数据集多样性分析

LMEB 的数据集覆盖了多种检索粒度：

事件级（Event-level）——情景记忆
对话轮次级（Turn/Round/Session-level）——对话记忆
句子/段落级（Sentence/Paragraph-level）——语义记忆
工具/经验/轨迹级（Tool/Experience/Trajectory-level）——程序记忆

论文使用加权 Jaccard 相似度（Weighted Jaccard Similarity） 来量化数据集之间的差异，发现：

对话类数据集因为共享对话主题，彼此相似度较高
程序记忆数据集因为各自关注不同领域（代码、规划、工具），相似度较低
同一记忆类型的数据集在可视化中倾向于聚集在一起

2.3 评估协议与可扩展性

LMEB 的评估协议构建在 MTEB v2 框架之上，提供了统一的评估流程。

支持的模型框架：

Transformers（Hugging Face 的标准框架）
Sentence-Transformers（专门为句子嵌入优化的框架）
vLLM（高效大模型推理框架）

统一的数据格式（IR-style） 包含四个组件：

文件	说明	格式
`queries.jsonl`	查询列表，每条包含唯一 ID 和查询文本	`{"id": "query_id", "text": "query text"}`
`corpus.jsonl`	记忆语料库，每条包含 ID、文本和标题	`{"id": "corpus_id", "text": "...", "title": "..."}`
`qrels.tsv`	查询与记忆项的相关性标注	`query_id corpus_id 1`
`candidates.jsonl`	（可选）限定候选记忆池，用于有限范围检索	`{"scene_id": "...", "candidate_doc_ids": [...]}`

评估指标：

NDCG@k（主要指标）——归一化折损累积增益，衡量排序质量，默认 k=10
Recall@k——召回率，衡量在前 k 个结果中找到多少正确答案
此外还支持 Precision、MAP（平均精确度）、MRR（平均倒数排名）等指标

📊 NDCG@10 是什么意思？ 假设你搜索"昨天的会议纪要"，系统返回了 10 个结果。NDCG@10 不仅看这 10 个结果里有多少是对的，还看对的结果排在多靠前的位置。排在第 1 名的正确结果比排在第 10 名的正确结果得分高得多。分数范围 0-100，越高越好。

一个重要的设计细节：对于包含相对时间表达的查询（如"我们两天前讨论了什么？"），LMEB 会在查询文本后附加明确的时间锚点（如 [Current time: 11:17 AM on Sunday 22 October, 2023]），避免时间歧义。

对于对话场景，candidates 文件会限制检索范围仅在对应的对话历史中，而非整个语料库——这模拟了真实世界中"只从我自己的聊天记录里找"的约束。

2.4 数据构建细节

LMEB 将所有收集的数据集统一转换为 IR-style 格式，确保一致的预处理、索引和评估。主要的处理包括：

情景和对话记忆的时间戳信息保留在语料库条目的 title 和/或 text 字段中
对话记忆的层级元数据（session/round/turn）编码在 title 字段中
使用Capped Recall@k——当某查询的相关文档数超过 k 时，以 k 为上限计算召回率，避免不直觉的结果

3. 实验设置

3.1 测评模型

论文评测了 15 个广泛使用的嵌入模型，覆盖从几亿到上百亿参数的各种规模：

类别	模型	参数量	向量维度
大于 1B 参数	KaLM-Embedding-Gemma3	12B	3840
大于 1B 参数	bge-multilingual-gemma2	9B	3584
大于 1B 参数	Qwen3-Embedding-8B	8B	4096
大于 1B 参数	NV-Embed-v2	7B	4096
大于 1B 参数	e5-mistral-7b-instruct	7B	4096
大于 1B 参数	Qwen3-Embedding-4B	4B	2560
小于 1B 参数	jina-v5-text-small	596M	1024
小于 1B 参数	Qwen3-Embedding-0.6B	596M	1024
小于 1B 参数	multilingual-e5-large-instruct	560M	1024
小于 1B 参数	bge-m3 (Dense)	560M	1024
小于 1B 参数	KaLM-Embedding-V2.5	494M	896
小于 1B 参数	KaLM-Embedding-V1	494M	896
小于 1B 参数	bge-large-en-v1.5	335M	1024
小于 1B 参数	EmbeddingGemma-300M	307M	768
小于 1B 参数	jina-v5-text-nano	239M	768

3.2 实验设置

论文在两种设置下评估所有模型：

无指令设置（w/o inst.）：模型只接收查询文本作为输入
有指令设置（w/ inst.）：模型接收查询文本 + 任务指令的拼接作为输入

输入最大长度设为 1024 tokens（部分老模型只支持 512 tokens）。

4. 主要实验结果

4.1 总体结果概览

无指令设置（w/o inst.）下的 Top 5 模型（按 Mean Dataset N@10 排序）：

排名	模型	参数量	情景记忆 N@10	对话记忆 N@10	语义记忆 N@10	程序记忆 N@10	总均分 N@10
🥇 1	NV-Embed-v2	7B	70.44	56.47	59.12	60.40	59.78
🥈 2	bge-m3 (Dense)	560M	67.00	55.61	56.29	55.37	56.83
🥉 3	EmbeddingGemma-300M	307M	68.19	53.94	53.58	57.32	56.03
4	Qwen3-Embedding-8B	8B	61.03	48.99	55.47	57.00	54.63
5	KaLM-Embedding-Gemma3	12B	67.01	50.89	47.81	60.70	53.91

有指令设置（w/ inst.）下的 Top 5 模型：

排名	模型	参数量	情景记忆 N@10	对话记忆 N@10	语义记忆 N@10	程序记忆 N@10	总均分 N@10
🥇 1	bge-multilingual-gemma2	9B	70.88	59.60	60.41	61.40	61.41
🥈 2	NV-Embed-v2	7B	68.45	56.42	62.18	58.77	60.25
🥉 3	KaLM-Embedding-Gemma3	12B	70.89	56.59	57.53	63.43	60.10
4	Qwen3-Embedding-8B	8B	60.85	51.69	55.51	59.12	55.94
5	e5-mistral-7b-instruct	7B	60.64	55.03	53.16	56.30	55.21

4.2 关键发现一：LMEB 难度合理

最好的模型（bge-multilingual-gemma2，在有指令设置下）也只获得了 61.41 分的 N@10 均分。这说明 LMEB 既不是太简单（让所有模型都拿高分），也不是太难（让所有模型都趋近于 0），提供了一个有区分度的评测标准。

💡 对比参考： 在传统的 MTEB 检索子集上，许多模型可以达到 70+ 甚至 80+ 的分数。而在 LMEB 上，即使最好的模型也只有约 61 分，说明长时记忆检索确实比传统段落检索更有挑战性。

4.3 关键发现二：大模型不一定比小模型好

这是一个非常有趣且实用的发现。在无指令设置下：

EmbeddingGemma-300M（仅 3 亿参数）在总均分上排名第 3（56.03），超过了 12B 的 KaLM-Embedding-Gemma3（53.91）和 9B 的 bge-multilingual-gemma2（45.10）
bge-m3 (Dense)（5.6 亿参数）排名第 2（56.83），超过了多个数十亿参数的模型
在情景记忆子任务上，307M 参数的 EmbeddingGemma-300M 拿到了 68.19，甚至超过了 7B 的 NV-Embed-v2（70.44 紧随其后）

这告诉我们什么？

模型架构设计比单纯堆参数更重要
训练数据的质量和多样性对记忆检索性能有决定性影响
小模型在部署成本和推理速度上有巨大优势，同时性能可能不输大模型

4.4 关键发现三：任务指令的影响因模型而异

是否在查询前添加任务说明（如"请检索与该查询相关的记忆片段"），对不同模型的影响截然不同：

偏好指令的模型	对指令不敏感的模型	不用指令更好的模型
KaLM-Embedding-Gemma3 bge-multilingual-gemma2 Qwen3-Embedding 系列 e5-mistral-7b-instruct multilingual-e5-large-instruct KaLM-Embedding V1/V2.5 jina-v5-text-nano	NV-Embed-v2 jina-v5-text-small	bge-m3 (Dense) bge-large-en-v1.5 EmbeddingGemma-300M

🔑 实际指导意义： 在使用嵌入模型做记忆检索时，不要盲目添加任务指令。应该针对具体模型进行测试，有些模型加了指令反而性能下降。这个差异主要受训练数据和训练方法的影响。

5. 相关性分析 —— LMEB vs MTEB：两个不同的世界

这部分是论文最有价值的分析之一。研究者计算了 LMEB 和 MTEB（传统段落检索基准）之间的皮尔逊相关系数和斯皮尔曼秩相关系数。

5.1 总体正交性

LMEB 与 MTEB 的相关系数分别为：

皮尔逊系数：-0.115（接近 0）
斯皮尔曼系数：-0.130（接近 0）

这意味着两个基准测试评估的是几乎完全不同的能力。在 MTEB 上排名靠前的模型，在 LMEB 上不一定表现好，反之亦然。

🎯 通俗解释： 这就像考数学和考体育的成绩关系——数学考第一的同学不一定跑步最快。传统检索和记忆检索虽然都用到了文本嵌入技术，但考察的是不同的"体能"。

5.2 各子类型的详细分析

LMEB 子类型	与 MTEB 的皮尔逊系数	与 MTEB 的斯皮尔曼系数	解读
情景记忆	（较低）	（较低）	传统检索能力不太能迁移到情景记忆
对话记忆	-0.496	-0.364	最差的迁移性！甚至是负相关——MTEB 越好，LMEB 对话越差
语义记忆	0.103	0.061	轻微正相关，有一定迁移性但很弱
程序记忆	0.291	0.429	相对最强的迁移性，可能因为工具/代码检索任务有重叠

对话记忆的负相关特别值得注意——这说明在传统检索上训练得越好的模型，反而越不擅长处理碎片化、冗余的对话数据。这可能是因为传统检索训练让模型倾向于匹配"干净"的文档，而对话数据本身就是嘈杂、重复、碎片化的。

6. 相关工作

6.1 嵌入评测基准的发展历程

论文梳理了文本嵌入评测基准的演进：

早期阶段：SentEval、SemEval 等，主要评估句子级语义相似度
检索导向：BEIR 整合了多个异构 IR 数据集，评估跨领域泛化能力
多语言扩展：MIRACL、AIR-Bench 关注多语言检索
统一框架：MTEB/C-MTEB/MMTEB 提供了统一的评估协议和排行榜，覆盖检索、分类、聚类、重排序、STS 等多种任务
多模态扩展：MIEB、VLM2Vec 评估图文嵌入

但以上所有基准都没有专门针对长时记忆检索进行评估——这正是 LMEB 要填补的空白。

6.2 嵌入模型的发展历程

文本嵌入模型的发展同样经历了多个阶段：

静态词嵌入：GloVe 等，通过池化得到句子表示，缺乏上下文感知
Transformer 架构：BERT 等，通过自注意力机制获得上下文化表示
专门的句子嵌入：Sentence-BERT 证明了在句子对任务上微调可以获得直接可比的嵌入
LLM 作为嵌入模型：GTE、Qwen3-Embedding、BGE、Jina、NV-Embed、KaLM 等，利用大语言模型的强大能力

常见的训练方法包括多任务对比训练（统一异构监督信号）和指令微调（让嵌入根据自然语言任务描述进行条件化）。

⚠️ 论文指出的关键问题： 虽然基于 LLM 的嵌入模型通常泛化能力更强，但它们在效率、延迟和部署成本上存在实际的权衡取舍。而且，在标准语义基准上的改进可能无法迁移到长时记忆检索场景。

7. 结论

LMEB 是第一个专门针对长时记忆嵌入进行系统评估的基准测试，其核心贡献和发现可以总结为：

填补评测空白：22 个数据集、4 种记忆类型、193 个检索任务，全面覆盖记忆检索的各个方面
LMEB 难度合理：最好的模型约 61 分，有足够的区分度
大小不是决定因素：300M 参数的模型可以超越 10B+ 的模型
与传统检索正交：MTEB 上的好成绩不能保证 LMEB 上的好成绩
完全开源：标准化数据格式兼容 MTEB，易于扩展新模型和新数据集

🚀 对实际应用的启示：

如果你在构建一个需要长期记忆检索的 AI 系统（比如个人助手、客服机器人），不要只看 MTEB 排行榜选模型，要用 LMEB 来评估

小模型值得考虑——在记忆检索场景下，bge-m3 (560M) 和 EmbeddingGemma (300M) 这样的小模型可能是更好的性价比选择

任务指令需要针对具体模型调优，不要假设添加指令就一定能提升性能

记忆系统的嵌入选型需要关注具体的记忆类型——情景记忆和对话记忆的需求与语义检索截然不同

数据集详细统计一览

下表汇总了 LMEB 中所有 22 个数据集的关键信息：

记忆类型	数据集	粒度	任务数	查询数	语料数	平均查询词数	平均文档词数
情景记忆	EPBench	事件	54	3,644	2,838	24.07	410.69
情景记忆	KnowMeBench	事件	15	2,162	27,062	31.80	58.68
对话记忆	LoCoMo	对话轮次	5	1,976	5,882	10.36	38.73
对话记忆	LongMemEval	会话	6	500	237,655	15.89	242.97
对话记忆	REALTALK	对话轮次	3	679	8,944	8.99	34.20
对话记忆	TMD	对话轮次	12	2,134	7,463	15.66	45.85
对话记忆	MemBench	对话回合	10	10,000	929,115	10.41	42.92
对话记忆	ConvoMem	对话轮次	6	5,867	500,221	23.19	27.33
语义记忆	QASPER	段落	1	1,335	65,300	7.93	77.45
语义记忆	NovelQA	段落	7	1,541	79,286	19.79	139.51
语义记忆	PeerQA	句子	1	136	18,593	15.65	24.67
语义记忆	Covid-QA	段落	1	1,111	3,351	9.54	110.91
语义记忆	ESG-Reports	段落	1	36	2,407	9.39	129.35
语义记忆	MLDR	段落	1	100	1,536	11.34	112.94
语义记忆	LooGLE	段落	2	3,052	28,190	13.72	164.82
语义记忆	SciFact	句子	1	188	1,748	12.89	39.93
程序记忆	Gorilla	工具	3	598	1,005	22.41	146.83
程序记忆	ToolBench	工具	1	1,100	13,862	46.06	87.93
程序记忆	ReMe	经验	9	1,217	914	13.51	47.36
程序记忆	Proced_mem_bench	轨迹	3	40	336	8.18	362.94
程序记忆	MemGovern	经验	48	121,475	121,475	18.59	104.01
程序记忆	DeepPlanning	项目	3	120	19,839	161.55	127.43

📈 数据规模亮点： 对话记忆类数据集的语料库规模最大（合计近 170 万条），这反映了对话场景中记忆碎片化的特点——需要从海量的对话历史中精确定位信息。而程序记忆类的查询数量最多（超过 12.4 万条），反映了其任务多样性。

个人点评与总结

这篇论文的价值主要体现在以下几个方面：

✅ 优点：

问题定义精准：清晰指出了传统嵌入评测对记忆检索场景的忽视，填补了一个真实的需求缺口
分类体系合理：四种记忆类型的划分（情景/对话/语义/程序）与认知科学中的记忆分类一致，有理论基础
"大模型不一定好"的发现极具实用价值：对于需要部署记忆系统的工程团队来说，这意味着可以在成本和性能之间找到更优的平衡点
与 MTEB 正交性的发现：提醒社区不要把 MTEB 成绩当作万能标尺
工程化设计好：兼容 MTEB 的数据格式和评估流程，降低了使用门槛

⚠️ 可改进之处：

目前仅评估了英文数据集，多语言支持有待扩展
论文主要关注 Dense Retrieval，稀疏检索（如 BM25）和混合检索的基线对比有限
对于为什么小模型能超越大模型，论文的分析还比较表面，更深入的模型架构和训练数据分析会更有说服力

🔮 未来展望： 随着 AI 助手、智能体系统的快速发展，长时记忆检索将成为越来越重要的基础能力。LMEB 为这个方向提供了一个可靠的评测标尺，有望推动嵌入模型在记忆检索场景下的持续进步。