股巢配资网当机器人在你家住了三天后，它能记住你昨晚几点回家、把钥匙放在哪里吗?——港科大团队打造会“记事”的家用机器人评测体系WorldLines

这项由香港科技大学（广州校区）与香港科技大学、Knowin公司联合开展的研究，以预印本形式发布于2026年6月17日，论文编号为arXiv:2606.18847，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

一个家用机器人，如果只会在你开口说话的那一刻给出回答，却完全不记得昨天发生的事，那它其实不比一台高级的语音助手强多少。真正有用的家庭助手，必须像一位长期住在你家的贴心管家，知道你喜欢几点喝咖啡，记得你上次把健身器材放到了哪个角落，甚至还要意识到"我没亲眼看到这件事，所以我不能完全确定"。这正是这项研究想要解决的核心问题。

一、家里的机器人为什么总是"健忘"

以一个具体场景来理解这个问题会更清晰。假设你告诉家里的机器人："我今天早上七点半去健身房，八点半回来，想在客厅看场电影，还买了些水果放进了冰箱。"这句话里藏着四类信息：你的日程安排、你的习惯偏好、物品的位置变化，以及需要跨越时间才能完成的任务安排。现有的家用机器人或智能对话助手，处理这类信息时往往只能应对当下那一刻，等下一次对话开始，之前说过的一切几乎已经消失在记忆的角落里。

研究团队观察到，现有的两类评测体系都存在各自的盲区。一类是针对语言对话的长期记忆评测，比如已有的LoCoMo、LongMemEval等研究，这类评测确实关注"记忆"，但它们评测的是机器人在纯文字对话中能不能记住用户说过的话，完全没有考虑真实家庭中物品被搬来搬去、设备被开了又关的那种动态世界。另一类是针对机器人执行任务的评测，比如PARTNR、MEMENTO等，这些评测关注机器人能不能完成搬东西、开冰箱等具体动作，但它们通常只评测单次短暂的任务，任务结束后世界就被重置了，完全不考虑跨天、跨场景的记忆积累。

换句话说，一方只管记事，不管干活；另一方只管干活，不管记事。这两者之间的巨大空白，正是这项研究想要填补的地方。

二、WorldLines：给家用机器人打造一个"连续剧"式的考场

研究团队创造了一个名为WorldLines的评测基准，其核心思路可以用"连续剧"来理解。

普通的机器人评测像是一集独立的综艺节目，每集开始时场景重置，选手从零开始表现。而WorldLines则像一部跨越多天的家庭生活连续剧，剧中的物品、设备状态和人物习惯在每一集之间都会延续，今天把键盘放到了沙发上，明天的剧情就要考虑这个变化。

这个"连续剧"是怎么拍出来的呢？整个制作流程分成几个环节，首先是搭建一个真实的家庭场景，包括房间布局、可以被搬动的物品、可以被操控的家电设备，以及一个家庭里有哪些成员、他们各自有什么生活习惯。接着，系统会为这个家庭设定一些跨越多天的"长期项目"，比如"妈妈正在进行两周的减脂计划"，或者"家里准备重新整理储物间"，这些项目就像连续剧的主线剧情，为多天的活动提供连贯的动机。

在这个基础上，系统用一种"闭环模拟"的方式生成每天发生的事情：家庭成员会按照自己的习惯和临时的状态（比如今天特别累、明天有客人来）做出各种行为，机器人也会介入并执行动作，每个动作都会被一个执法者检查——冰箱关着能不能直接往里放东西？手里已经拿着东西还能不能再拿另一样？只有符合现实物理规律的动作才会真正被记录下来，并改变世界的状态。每天结束时，系统还会提取"进位记忆"——今天发生的重要变化，会以结构化的方式传递给明天，就像剧组在拍第二集之前要先对齐上一集留下的悬念。

这样生成的多天生活轨迹，接着被转化成两类考题。一类是"记忆问答"，专门问机器人有没有记住过去发生的事情，比如"鲍勃曾经把咖啡机定时设错了几点？"或者"爱丽丝昨晚几点到家的？"。另一类是"具身任务规划"，让机器人根据它掌握的历史信息制定一套可以真正执行的动作计划，比如"请帮我准备客厅，我要打游戏"——机器人需要记得键盘现在在沙发上、饮料在冰箱里、衣服也堆在沙发上，然后给出一套符合真实场景约束的行动序列。

为了让考题更难作弊，每道题都有一个"截止时间点"，机器人只能看到那个时间点之前发生的历史，不能借助任何未来信息，而正确答案必须能从历史记录中找到明确的证据支撑。

三、WorldLines考什么：四个维度的家庭记忆能力

研究团队把家庭助手需要掌握的长期记忆能力拆解成四个相互关联的方面，每一方面都可以用日常生活场景来理解。

第一个维度是时空推理，也就是搞清楚东西现在在哪里，以及它是怎么到那里的。键盘上周还在书桌上，前天被鲍勃搬去了厨房，昨天机器人又把它放回了茶几，今天鲍勃翻找零件时顺手把它放到了沙发上。一个好的家庭助手不仅要知道键盘现在在沙发上，还要能说出这一路变迁的来龙去脉——这正是让现有AI系统普遍感到棘手的地方。

第二个维度是物体状态更新。不只是物品的位置，家电设备的状态也在不断变化，而且有些变化发生时机器人不在场。爱丽丝深夜回家说了句"明天会议很早"，机器人看到这个信息后主动把咖啡机定时设成了早上七点，第二天早上七点咖啡就好了。评测的关键不只是记住这件事，而是当爱丽丝事后问起时，机器人能把整个逻辑链说清楚，并且自动更新一条新的偏好规则：以后凡是深夜晚归超过十点半，默认第二天早上七点煮咖啡。

第三个维度是具身规划，也就是把记忆转化成可执行的行动。用户说"我想打游戏，帮我准备一下客厅"，这句话对应着一系列需要机器人自己推断的步骤：记得衣服在沙发上要先清理，记得键盘现在在沙发上所以不用去书桌找，记得饮料在冰箱里所以要去取，还要记得冰箱关着所以得先开门再取再关门。每一步都需要调用历史记忆，还要满足真实的动作前提条件。

第四个维度是主动辅助，也就是在没有被明确要求的情况下，主动提醒用户需要关注的事情。比如用户问"明天早上我应该提醒家人注意什么"，机器人需要综合今天孩子把科学展板放在沙发旁边、明天早上七点四十五分全家出门等多条信息，主动指出"要在出门前提醒打包科学展板"。

四、ObsMem：像侦探一样管理记忆

研究团队不只是提出了评测标准，还设计了一套名为ObsMem的新型记忆管理框架，作为应对上述挑战的参考方案。要理解ObsMem的设计思路，可以把它想象成一位训练有素的侦探。

这位侦探在处理案件信息时，有一套严格的信息分类习惯。他区分"我亲眼看到的"和"听别人说的"，也区分"已经确认的事实"和"根据现有证据的合理推断"，还区分"现在的状态"和"曾经的历史"。把这个侦探的工作习惯搬到机器人的记忆系统里，就得到了ObsMem。

ObsMem的第一个关键设计是观测者门控。机器人在处理每一条新信息时，首先要判断：这件事是我自己看到的，还是别人告诉我的？如果机器人亲眼看到自己把笔记本电脑放在了沙发上，这条信息会被标记为"直接观测到的事实"；如果鲍勃只是顺口提了一句"笔记本在书房"，这条信息则被标记为"他人报告的内容"，可靠程度低一个等级。这种区分在后续推理中至关重要——当两条信息发生矛盾时，系统能判断哪条更可信。

ObsMem的第二个设计是分类记忆轨道。收到一条信息后，系统会根据它的性质分别存入不同的轨道，就像图书馆把不同类型的书放在不同书架上。"事件轨道"像流水账一样按时间顺序记录发生过的每件事，而且是只增不删——就算某个状态后来被改变了，当时的那条记录也会永远保留，以便未来回答"之前是什么情况"这类问题。"状态轨道"则维护一张关于当前世界状态的快照，比如"键盘：沙发上"、"冰箱：关着"，每次状态改变都会更新快照，同时把旧状态存入历史。"信念轨道"记录的是机器人对自己知识的把握程度——如果一个状态是机器人亲眼确认的，且中间没有发生过可能改变它的事情，这个信念就是"新鲜的"；如果上次确认后有其他人进入了该区域做了些什么，这个信念就变成"陈旧的"或"不确定的"；如果出现了明显矛盾的信息，则标记为"有争议的"。"承诺轨道"专门记录各种约定和待办事项，比如"用户说让我明天早上提醒她"或者"鲍勃请求机器人顺手关上书房的门"。

ObsMem还有一个"情节整合"机制，可以理解成把流水账定期整理成章节摘要。当一段时间的活动告一段落，比如一次家庭集会结束，系统会自动创建一张"情节卡片"，把这段时间里的关键事件、状态变化和由此产生的承诺整理成一份摘要，同时保留原始事件记录作为证据备份。摘要让检索更高效，原始记录保证了精确性，两者并存而不互相替代。

在回答问题时，ObsMem不是对所有记忆进行一次大范围的模糊搜索，而是先分析这个问题的性质，再决定查哪个轨道。问"键盘现在在哪"，查状态轨道的当前快照，再查信念轨道看这个信息是否还可靠；问"是谁说键盘在书房"，查事件轨道中的"他人报告"类记录；问"帮我准备客厅打游戏"，则需要同时查状态轨道了解当前物品位置、查事件轨道了解用户历史偏好、查承诺轨道了解有没有待处理的事项，再结合这些信息制定行动计划。

五、评测结果：旧系统在哪里失败，ObsMem在哪里更好

研究团队把ObsMem和四个现有的主流记忆系统放在一起比较，这四个系统分别是A-mem、Mem0、GraphMem和MemoryOS，都是目前在AI记忆领域有一定代表性的方法。评测在310道记忆问答题上进行，另外还有21个具身规划任务。

从总体成绩来看，ObsMem的答题得分和"完全正确率"都明显高于其他系统。但更有意思的是整个比较揭示出的一个规律性现象。

四个对比系统在"大概找到了正确那段历史"这个指标上其实表现不错，也就是说，它们通常能知道"答案大概在某天的某段对话里"。然而在"精确找到了改变状态的那个具体事件"这个更严格的指标上，它们的表现就急剧下降，而ObsMem的这个指标要高出最好的对比方法约16个百分点。

这个差距的根源在于，家庭环境里同一天可能发生很多关于同一个物体的不同事件：早上鲍勃把键盘搬去了厨房，下午机器人又搬回来了，晚上鲍勃找零件时把它放到了沙发上。如果记忆系统只是把这些事件混在一起存成一段文字，检索时虽然能找到"当天关于键盘的记录"，却很难精确定位"最后一次改变键盘位置是哪次、结果是什么"。ObsMem的状态轨道专门为这种多次状态覆盖的场景而设计，每次状态变化都有独立的结构化记录，因此能精确回答这类问题。

论文中有一个极具代表性的例子：鲍勃的日常咖啡习惯是周末早上八点半，工作日早上七点。某天深夜鲍勃在疲惫状态下把咖啡机错误地设成了凌晨四点，第二天早上机器人检测到异常后把定时纠正回了工作日习惯的七点。问题是："鲍勃把咖啡机误设成了几点，机器人又纠正成了几点？"

Mem0给出的答案是"鲍勃设的是八点半，机器人纠正成了七点"——这个答案混淆了鲍勃的常规习惯（八点半）和那次误操作（凌晨四点）。原因是文字型记忆系统在检索时，"鲍勃常规设定八点半"这件事出现得更频繁、更显眼，反而把那次偶发的异常操作给淹没了。ObsMem正确地把"常规：八点半"、"异常操作：四点"、"纠正：七点"分别记录为不同类型的状态事件，因此能准确作答。

在消融实验中，研究团队逐一移除ObsMem的各个组件来测试每个部分的贡献。证据选择器是最关键的一环，一旦移除，系统的答题质量从0.699骤降至0.435，尽管它依然能找到不少相关信息，说明问题不在于找不到证据，而在于不知道怎么把来自不同轨道的证据整合成一个一致的答案。情节整合功能的移除造成了第二大降幅，尤其是跨越多个事件的复杂状态推理受到明显影响。信念轨道的价值在常规问题上相对有限，但在专门针对"机器人没有直接观测到的状态变化"这类隐藏状态问题上，移除信念轨道后的得分直接归零，充分说明了不确定性建模的必要性。

在具身规划任务上，ObsMem的优势体现得更加明显。规划任务不只是记住一件事，而是要把多条记忆整合成一套可执行的行动计划，每个步骤都要符合当前场景的物理约束。对比系统在状态一致性和前提条件有效性上的得分明显低于ObsMem，反映出文字型记忆在把信息转化为可执行约束时存在系统性的短板。

六、这套系统目前做不到什么

研究团队在论文中对这项工作的局限性有充分的说明，这些局限性也是未来改进的方向。

整个WorldLines基准建立在模拟的家庭环境中，使用的是Habitat和HSSD等仿真场景，而不是真实的家庭录像或真实机器人的运行日志。这种设定的好处是能够精确标注每一条状态变化的证据链和时间戳，使评测有据可查；但它也意味着现实中存在的感知误差、执行误差和复杂的人类行为无法被完整覆盖。一个人可以在走路时随手把东西塞到了某个地方，这种随机的、非正式的行为很难在受控仿真环境中自然产生。

ObsMem本身的运行也依赖于一些在真实场景中并不总是容易获得的输入：它需要知道每个物体的标识、每个动作的可见性注解以及标准化的行动描述格式。在真正的家用机器人部署中，这些信息需要由感知模块、定位模块和语义识别模块提供，这些技术本身都还在持续发展中。此外，ObsMem的分类检索和信念感知推理比简单的文字搜索慢，在实时交互中这种延迟会是一个实际问题。

---

说到底，这项研究做的事情，是给家用机器人的记忆能力划出了一条新的评测基准线，并且证明了当前主流的AI记忆方案在这条线面前还差得相当远。它揭示的不是一个小的改进空间，而是一整类尚未被认真对待的问题——当机器人需要在一个状态不断变化、自己也不总能亲眼见证一切的世界里长期工作，它究竟需要怎样的记忆能力，才能真正变得有用？

现有的很多智能设备，包括智能音箱、扫地机器人、智能家居控制中心，都在某种程度上面对这个问题。它们记住的是静态的用户设置，而不是动态的家庭历史。WorldLines和ObsMem的出现，相当于把这个问题从"工程实现细节"提升到了"可量化的科学研究对象"，这是让这个领域真正向前推进的必要一步。

感兴趣的读者可以通过arXiv平台搜索论文编号2606.18847，查阅完整的实验细节、提示词模板和数据构建方法，论文附录中还有相当丰富的额外实验分析。

Q&A

Q1：WorldLines评测基准和现有机器人评测有什么不同？

A：WorldLines最大的不同在于它模拟了跨越多天的连续家庭生活，物品位置、设备状态等世界信息在任务之间持续变化而不会重置。现有的具身机器人评测通常只测单次短暂任务，现有的对话记忆评测又不涉及物理世界的状态变化，WorldLines是第一个把两者结合起来的评测框架，专门考察机器人能否在动态变化的家庭环境中维持长期的世界状态记忆并据此规划行动。

Q2：ObsMem和普通的AI记忆系统有什么本质区别？

A：普通的AI记忆系统通常把所有信息压缩成一段文字存起来，检索时用语义相似性搜索。ObsMem的核心区别在于它按照信息的性质分开存储和管理：事件记录只增不删，状态信息单独维护快照和历史，信念可信度单独追踪，承诺和待办事项单独管理。回答问题时，系统先判断问题类型再决定查哪类记录，而不是对所有内容做一次模糊搜索。这种设计使它能区分"亲眼看到的"和"听说的"，也能区分"现在的状态"和"被覆盖之前的状态"。

Q3：这项研究对普通家用智能设备有什么实际意义？

A：这项研究指出了一个目前家用智能设备普遍存在的盲区：它们只记住静态的用户设置偏好，无法追踪家庭里物品和设备状态随时间的动态变化，也无法利用历史信息制定跨越多个步骤的合理行动计划。WorldLines和ObsMem为未来更智能的家用助理机器人提供了评测标准和设计思路，推动这类设备真正从"即时响应"向"长期记忆辅助"进化。

盛达优配提示：文章来自网络，不代表本站观点。