本期为TechBeat人工智能社区第658期线上Talk。
北京时间1月22日(周三)20:00,复旦大学博士生徐际岚的Talk将准时在TechBeat人工智能社区开播!他与大家分享的主题是: “联合第一视角 - 第三视角视频理解”,届时他将从视频理解的角度出发,探索模型在联合第一视角 - 第三视角视频理解方面的能力。
长按识别二维码,一键预约TALK!
人类天生具有观察学习的能力,即使是婴儿也能够通过观察父母的行为进行模仿学习。在具身智能领域蓬勃发展的当今,畅想一下在未来,具身智能体/机器人能否也具备这种能力,仅仅通过观察人类完成日常任务就学习到相应技能,能够辅助或代替人类完成任务。这个能力预示着具身智能体具备将第三视角的观察与第一视角的操作紧密结合、共同分析的能力。本次分享我们将从视频理解的角度出发,探索模型在联合第一视角 - 第三视角视频理解方面的能力。2. 数据集 - 基于异步对齐的第一视角 - 第三视角视频数据集EgoExoLearn
2.1 设定 - 全新的演示跟随设定用于采集配对的第三视角 - 第一视角数据
2.2 对比 - 异步对齐的数据集与同步对齐数据集的对比
2.3 基准任务与实验 - 跨视角关联、跨视角动作理解、跨视角技能评估...
3. 方法 - 基于检索增强的第一视角视频描述生成模型EgoInstructor
3.1 动机与挑战 - 如何通过互联网上海量的第三视角视频辅助第一视角视频理解
3.2 配对数据 - 从非配对的第三视角—第一视角数据集构建伪配对数据
3.3 模型 - 跨视角检索模型+检索增强的视频描述生成模型
3.4 对比实验
4. 应用 - 第一视角实时在线智能助手Vinci
4.1 能力展示
4.2 系统介绍
4.3 Demo演示
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2401.00789
项目主页:
https://jazzcharles.github.io/Egoinstructor/
论文链接:
https://arxiv.org/abs/2403.16182
代码链接:
https://github.com/OpenGVLab/EgoExoLearn
论文链接:
https://arxiv.org/abs/2412.21080
代码链接:
https://github.com/OpenGVLab/vinci
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!徐际岚,复旦大学计算机科学技术学院博士生在读,导师为张玥杰教授,合作导师上海交大谢伟迪老师,上海人工智能实验室研究实习生,研究方向为计算机视觉、视频理解、第一视角视觉,在计算机顶级会议期刊发表论文30余篇,其中以第一/共一作者身份发表5篇,谷歌学术引用1200余次。个人主页:
https://www.techbeat.net/grzytrkj?id=24936
如果你也想成为讲者
▼
单人Talk | 团队专场 | 录播or直播 | 闭门交流
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区