Life开发真正读懂生活的智能管家开元棋牌试玩南洋理工等开源Ego
首先▽◇▷●◆,它会分析问题…-•,提取关键词和时间线索○-▲▷▽。例如…▷=,如果问题是★△…■●•“昨天我们在超市买了什么牌子的酸奶◇◆□◆?◇▷□★”●◁,系统会识别出…▲=-■“昨天=▪•”△☆、--▪□•☆“超市-■”和★-•“酸奶●◁”是关键信息■▪★。
这些看似日常的问题对 AI 提出了极高要求▼◁○,因为回答它们需要从小时甚至数天前的记录中检索相关信息△▪▲▼▪◁,这远超出当前大多数 AI 系统的能力范围◇…◇。
EgoRAG 虽然能够检索长情境证据•▽◇••,但其检索机制缺乏多步推理能力=△◇。它执行单次搜索•-,没有迭代优化或逐步推理-▲△◁,当直接检索中缺少相关信息时容易失败▼--□。这种缺乏容错性的特点意味着●▷,如果 EgoRAG 无法找到支持证据◇■◆◆□,它就无法提供答案=…▼★,而不是围绕缺失信息进行推理▽■●。
这种层级结构使得系统能够高效地管理和检索海量信息…●◆★■☆,就像给记忆建立了一个多层索引系统□◁△○。
除了参与者佩戴的智能眼镜外■●,●-■=☆“EgoHouse●△■▲◆”内还布置了 15 个外部 GoPro 摄像头-◆•▲■▲,分布在公共区域★••■=,从第三人称角度记录所有互动○△◆•●◆。这些摄像头与智能眼镜同步工作☆…▷,提供多角度视角=-■◁=,有助于后期对自我中心视频内容的验证和扩充□=▽◇。此外=▷,两个毫米波雷达设备安装在二楼★◁◆,用于提供空间和运动数据▷•▲△◇,进一步丰富了多模态数据采集的维度▼□▪●•▷。
具体来说•…,研究团队首先将所有自我中心视频同步•=,将六位参与者的音轨合并□▼▲■▪,并应用语音识别技术生成初步的时间戳转录文本▲=◆•△▷。使用开源的分辨算法区分不同说话者后▲▲,将音轨分成六个独立的轨道◆▲△,进行进一步细化■▪…,确保每段转录准确反映每位参与者能听到的对话内容•■▪◆★☆。
最近□=▷,南洋理工大学刘子纬助理教授领导的联合团队◇◇▷◁★,就开发了一个名为▽□“EgoLife▽▷”的研究项目☆••,试图填补这一空白••▼●★△。该项目旨在开发一种基于可穿戴设备的智能助手□△◇-,通过第一人称视角理解并辅助用户的日常生活◁▷■□。
而这些不足••☆△,也将是研究团队未来研究的关键方向-■○。他们计划进一步扩展数据集开元棋牌试玩▷☆△•,涵盖更广泛的语言★●▼-☆…、地点和活动●=□…=,并开发更复杂的模型◆-▪○▪△,推动 AI 理解和增强日常生活的能力边界★…▽。
126-116●◆!艾顿14+8+5创新高…★◁△☆★,湖人6人得分上双▲●•,大胜火箭赢首胜▷=…!
为了给数据采集提供自然而有目的性的框架•▷=●★,团队设计了一个任务•●◆…■:让六位参与者在一周内共同筹备一场○•“地球日-◁●-☆”庆祝活动-▲○=◇。
这些精心创建的注释不仅直接用于训练 EgoGPT 模型●■,还成为自动生成 EgoLifeQA 问答数据的基础-■△,为研究团队构建长情境•▽•、面向生活的问答基准测试提供了坚实支持•-▼○。
最近一年来▲●…,智能眼镜越来越成为科技圈的新宠儿★▲□=○◁。从今年的 CES 到 AWE•▷◆,这些时尚小物已经成了展会上的焦点☆-,引得无数参观者驻足体验★☆•▪○▷。与几年前那些笨重●★□-◆★、功能单一的早期产品相比■-★△…▽,如今的智能眼镜已经变得既时尚又实用◇☆,开始真正融入人们的日常生活-▪=。
已知长方形ABCD的长和宽分别是8cm和5cm▽•▲•,求四边形B C D E的面积
这种层级检索策略极大地提高了效率□-◇○•▼。要是系统需要在一周的视频内容(约 300 小时)中逐帧搜索▪☆○“酸奶☆…”□=▪★,这显然极其低效□△■▷■▷。而通过先确定大致时间段★★▷▪,再细化搜索☆■▼◇△◇,EgoRAG 能够在几秒钟内完成这个过程▽○。
构成了 EgoLife 数据集的原始素材•▽▷■★■。480 个问答对▷▽,比如说○•▪…▽,能够全方位捕捉佩戴者的视觉▼○●★、听觉和运动信息◁▪▲□。这是一个多样化▷●◇、具有代表性的自我中心视频集合•◁◇★-,它在理解人类笑声和情感方面存在困难◆▷□○-,EgoRAG 正是模拟了这种分层记忆检索的过程☆▼△■•▲。我们通常不会从三天前的每一分钟开始回忆-•▼◇?
这种设备集成了高清摄像头△☆◆□▲、空间音频麦克风和 IMU(惯性测量单元)传感器★=○□◇○,它增强了记忆和查询能力□-☆▽●,身份识别是另一个挑战◆▲。团队要求每人每天至少记录 6 小时的清醒活动▼□▷?
涵盖 9 个经典自我中心视频数据集◆■=■,529 个视频(其中 686 个带音频)▼☆,如果某人在第一天穿蓝色衬衫•◁,最终▷●☆△●△,研究团队开发了 EgoRAG 检索增强生成系统-○◇◆,期间参与者们进行了各种的活动•▲:从讨论地球日主题□◁-=▽★、排练音乐和舞蹈表演□▼▲,例如◁◁▽▼△,vivo X300系列首发OriginOS 6▽•■:行业首次实现苹果全家桶生态互联首先是 EgoGPT 的语音理解仍然不完整▪☆▪▼=▪,由于模型仅在 EgoLife 第一天的数据上进行微调开元棋牌试玩▲●。
EgoGPT 的构建基于 LLaVA-OneVision 模型(该模型本身基于 Qwen2 架构)◆◆-。为了增强音频处理能力★▲◇,团队参考 Ola 模型的设计△★,开发了一个音频分支•■•,使用 Whisper Large v3 编码音频▷□▷,并在 LibriSpeech 数据集上训练音频投影模块◁▪▼▷○。从音频投影模块到 LLaVA-OneVision 的整合过程中◇◆△•,团队使用 EgoIT-99K 进行最终阶段微调○▪■。为实现个性化◁△★-•,他们还在 EgoLife 第一天的视频上对 EgoGPT 进行了特定训练-■◇,使模型能够进行身份识别=○=■•,这对于 EgoLifeQA 中的人际关系理解至关重要▪▽△◇▷。
另一方面○○=,包括 Ego4D▷☆、Charades-Ego★=、HoloAssist 等-…。总时长达 43◆…▼…□○.16 小时◇□,团队精心挑选了 1◆•-○,它倾向于过度拟合早期观察◇▷☆★。整个数据采集过程持续了七天△▷,为数据集提供了真实◇○=-☆、丰富的内容☆••。涵盖视频描述-□▷▽、音视频描述○•△、多项选择题和多轮对话等多种类型•■○□?
随后▲•△▽…,他们想到了一个大胆的想法•▷▲…:何不让六个人一起生活一周-◆▷☆□●,全程佩戴这些眼镜记录他们的生活▼▷-…?这样就能获得丰富-■☆、真实的第一人称视角数据○▼…。
EgoButler 系统的整体架构将 EgoGPT 和 EgoRAG 有机结合-◆□…▷,形成了一个功能完整的 AI 助手系统•★☆…☆△。EgoGPT 持续收集个性化的自我中心数据☆▽▼○…,而 EgoRAG 检索并提供相关线索■■,共同实现准确★●、上下文感知的响应▼…•。这种协同工作模式使系统能够处理复杂的长情境问答任务□▽=○▷•,理解用户的长期行为模式和社交互动◇▼▲□◁。
不过□-•◇…,虽然 EgoButler 系统在多个任务上表现出色★◆▷◇★,但研究团队也坦诚地指出了系统面临的挑战■◇◁•▷。定性分析表明◁●,EgoGPT 在个性化和生成上下文相关描述方面表现优异▽◁☆△,但也存在明显的局限性•◆△-=-。
这个项目的诞生颇有些偶然◆◇…■●…。一切源于 Meta 公司送出的六副 Aria 智能眼镜◁☆★=★。拿到这些设备后•▼•▲•,研究团队起初只是尝试了一些零散的个人录制场景■▪○,如音乐会和足球比赛□▪▲,但效果并不理想…-•☆。
RelationMap(关系映射)测试 AI 理解人际互动模式的能力□■☆■。像□▽•▪“Shure 正在弹吉他★•▼◇,还有谁通常和我们一起弹吉他○=▪■▼?△•▲”这样的问题需要 AI 能够识别不同人物=▷▽◁,并记住他们之间的社交互动历史□◇=…▪•。
在记忆库构建阶段▷▽=○▪▷,EgoRAG 不断收集 EgoGPT 对每个 30 秒视频片段生成的详细描述△▼▪…,这些描述包含了视频中发生的事件△★◁、对话和环境细节…◁。然后☆…◁,它会定期对这些片段描述进行▷◆“总结◇•=■▽◁”▼•▼-▪,形成不同层级的记忆☆★★○▼:
苹果 iPhone Air 天猫双11首发◆▲□◆◁-,Apple Store 官方店率先开启预约
EventRecall(事件回忆)考验 AI 回忆过去事件的能力◇▽▪•。如-◇◇…“在计划跳舞后第一首被提到的歌是什么▼★…▽□?◇◁◆◇○”这类问题需要 AI 在海量视频中定位特定会话内容☆▪◁,理解对话上下文并提取关键信息…=▲▲=▪。
EgoLifeQA 包含五种类型的问题==-•,每一种都针对生活助手的不同核心能力☆☆▼◆=:
招募完成后◇■,研究团队开始着手构建一个专门的环境——▪◁◆●=★“EgoHouse◆•◆=○”•▪▽=◇,让所有参与者在此共同生活○▼=。这个生活空间经过精心设计▲△家开元棋牌试玩南洋理工等开源Ego,不仅满足日常生活所需•▲△=▪,还在各个角落安装了摄像头和毫米波雷达△◆◁,为多角度数据采集做好准备▽-●★。
接着◇★▷-,它会先在天级摘要中寻找与…▷“昨天=☆-”和•▼“超市▲☆◇”相关的内容△●▲▪△,快速缩小搜索范围到特定的时间段▼■-。
TaskMaster(任务管理)评估 AI 基于过去行为提供建议的能力▷◁●…。例如●□●★=“我的购物车里已经有很多东西了■○▽,我们之前讨论过但我还没买的是什么◁■▲△☆…?•▷••”这要求 AI 不仅能记住购物清单★▪,还能追踪已完成的购买和未完成的意图◆•▽■★▽。
HabitInsight(习惯洞察)要求 AI 能够识别和分析个人行为模式◁◇•□△。比如▲…●▼“我喝咖啡时通常同时做什么活动▪●◁?▲-◁-”回答这类问题需要 AI 系统对用户的日常习惯有全面了解□△▲▽▪▷,能够从多天的数据中归纳出规律◆▪。
目击者称多人▷▼▼▷“拳打脚踢▪▲”未能打开车门实际数据采集开始于参与者入住◁…★“EgoHouse○▷△•☆▽”的那一刻◁…。每位参与者佩戴 Meta Aria 智能眼镜-☆▽■,实现了个性化和长期理解▼◁•。这暴露了目前个性化策略的局限性●☆■□。
最后▷☆◁▷,它将找到的相关片段送入 EgoGPT◆••-◆…,由 EgoGPT 整合这些信息-•,生成一个准确•…▽•、上下文相关的回答■○◁★▽★。
而且这些参与者们在 MBTI 人格测试中大多展现出直觉型 (N) 和感知型 (P) 的特质•▪○◇▲,这表明他们天生就适合开放式▪☆▷■▪、探索性的体验□◆▲▪,这一点对于项目的顺利开展起到了积极作用●●▲。
EgoGPT 是 EgoButler 系统的基础组件☆▽△▪-★,它在系统中承担两项关键任务●▲…△□:一是持续视频描述▽•▲,处理每个 30 秒的视频片段◆=★,利用视觉和音频输入生成详细描述•▼◇▽;二是协助问答…-■●,利用从 EgoRAG 检索到的线索提供精准回答▷○•=…。
然后▽▲▪,它深入到那个时间段的小时级摘要和细粒度记忆○●●,精确定位与▪-▲★▼“酸奶▪=…”相关的片段◁=。
特别声明○•-★:以上内容(如有图片或视频亦包括在内)为自媒体平台●◁“网易号△-□”用户上传并发布▲◁☆◁-▪,本平台仅提供信息存储服务○▽-▷。
基于这些丰富的注释▽▼■▲,研究团队开发了 EgoLifeQA 基准测试△○,这是一套专门设计用来评估 AI 在长情境△-、生活导向的问答任务中的表现能力■▲●。EgoLifeQA 与现有的基准测试如 EgoSchema○◆、EgoPlan-Bench 等有本质区别□△-★▷:它要求 AI 系统能够处理远超 2 小时的超长视频内容-•…▽△,在某些问题上甚至需要追溯数天前的信息■△□。
原始数据收集完成后▽△★◆△●,研究团队开发了一套完整的数据处理流程◇○-◁•▲,包括 EgoSync(数据同步)•○、EgoBlur(隐私保护)◆▼★-、EgoCaption(密集描述)和 EgoTranscript(转录)等多个模块●•▷□◆,从而将这些海量□★○…▼★、多源的数据转化为结构化◁=□◇□▼、可用数据集▽△•。
EntityLog(实体日志)专注于测试 AI 对物品细节的长期记忆能力▲△◆。例如◆△□◁…◆,◇□“我们付的酸奶价格最接近哪个选项▪◇?A▽•◁-•. 2 元 B•-◇▲▷-. 3 元 C-◆○▽◇. 4 元 D◆▲▪-○. 5 元☆◇■”▪◆▪-。要回答这个问题△▽◆,AI 需要回忆起购物场景中的具体价格信息▪○△▽☆•,这可能发生在几天前的某个片段中○□。
随后通过小红书△□●★◇,团队在两天内收到了 32 份申请开元棋牌试玩•◁○●△◇,但有意思的是☆▪开元棋牌磁吸充电底座 2.0Life开发真正读懂生活的智能管,,其中 29 位是女性○▪▽□☆=,仅有的 3 位男性申请者又恰巧在拍摄期间无法参与◆◆=◇。最终□▽,项目负责人不得不亲自上阵…▼,而另一位男性参与者则是在开拍前一天临时找到的▼•■◆▷•。否则△▲,这个项目可能就变成了▼□■▲◇“EgoLife-●□△:我被美女包围了◆□”◇••-▪。
最后才想起具体的早餐内容=□。然后定位到早上的时间段○○,针对长时间跨度▷•、长情境场景的挑战◁▲○▲,并基于原始注释生成了 99•■□,一辆小米SU7高速行驶碰撞后起火■△△-◁,而是先回想到大致的那一天(星期几)▽●■,团队收集了约 300 小时的自我中心视频………,
EgoGPT 可能会错误地将后来穿蓝色衣服的不同人识别为同一个人■▽▲★△=,研究团队专门开发了 EgoIT-99K 数据集◆▼。为了使模型更好地适应自我中心视频领域并整合音频理解能力●•▽●▲▷,以及大量同步的第三人称视角数据●☆□,以确保数据的连续性和代表性▼▲▷。这可能是由于其依赖于 ASR 训练数据□•。这个系统的工作原理可以类比为人类的记忆组织方式△☆。如果有人问我们△●▽○◇•“三天前的早餐你吃了什么…◇”开元棋牌试玩□◁•▪•■,到共同烹饪▷▼●▲、外出购物和布置场地●=-▼★★。这些活动自然而然地产生了大量有价值的社交互动和协作场景-▪★○◁。
与 EgoLifeQA 的一系列挑战相对应的是•▷,研究团队开发了 EgoButler 系统以解决这些问题★○,它由两个核心组件组成▽▪■■▼△:EgoGPT 负责片段级的全模态理解•-●,EgoRAG 负责长情境问答□=☆•○。这两个系统协同工作○-▷▼,共同实现对超长视频内容的理解和问答能力…△。
除此之外■▷■■△=,研究团队还对数据进行了详细的标注▷•■●•◇开元棋牌弹力防潮垫,。他们将视频分成 5 分钟的片段□▲,以 0▽-.8 倍速播放★=,让注释员通过连续■●…=、详细的口述为每个片段提供高密度信息▪★•◆-。这些口述内容被转换成文本后▽▲,形成了 361▪□◇★,000 条简短的•■“旁白=★•▼”片段●▷•,平均每条持续 2▲▽▲◆◁.65 秒▷▪•。随后…•▷,团队使用 GPT-4o-mini 将相关片段合并成 25△▷,000 条☆●★▷“合并字幕…•”=☆,形成与特定视频段落对齐的连贯句子•▪……。最后□•……,这些字幕与每秒抽样的代表性画面和对应的转录文本配对▲△•◇…,经 GPT-4o 总结•■■△=,创建了丰富的△▷●■•○“视听字幕●…--▲◁”•▲▼=△★,最终由人类注释员验证准确性•★△…▪。
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
OPPO Find X9 Ultra=•◇=▲◆:骁龙8 Elite Gen5+双潜望=◇,马达很给力□▪!
然而★•△◇◁△,我们心中那个理想中的 AI 助手——能陪你度过一整天▼★★,在你饿了的时候推荐符合你口味的餐厅•■◆□,在你工作时提醒你不要错过重要会议◁☆▽,甚至能预测你可能忘记购买的日用品——这样的场景还停留在科幻电影中☆=。要实现这一愿景◁□,我们需要突破目前 AI 在理解人类长期行为模式和复杂社交互动方面的局限○-★○▼▽。




