腾讯研究院AI速递 20250414（微信文章未删减版）

正文

生成式AI

一、 OpenAI宣布GPT-4下线，o3满血版以及o4-mini将登场

1.GPT-4将于4月30日从ChatGPT中移除，完全被当前默认模型GPT-4o取代，但仍可通过API继续使用；

2.OpenAI即将推出多个新模型，包括GPT-4.1系列、满血版o3推理模型以及o4-mini系列，最快可能下周面世；

3.为应对竞争压力，OpenAI大幅缩短了模型评估时间，从GPT-4的6个月减至几天，但安全测试流程受到质疑。

https://mp.weixin.qq.com/s/1HA9GuEwsfwplvExMJ2OUg

二、谷歌Veo 2震撼升级，一键get好莱坞级视觉盛宴！网友实测

1.谷歌在Next 2025大会上发布Veo 2视频创作工具，具备视频编辑、背景移除和帧插值等全面功能，使其从生成工具升级为专业视频创作平台；

2.网友实测展示了Veo 2惊艳效果，只需输入简单描述即可生成具有电影质感的视频，包括慢动作、360度旋转、特写镜头等专业效果；

3.Veo 2与Freepik AI Suite配合使用效果更佳，后者提供AI图像生成、风格定制和专业编辑功能，共同为创意工作者提供强大创作工具。

https://mp.weixin.qq.com/s/X4lduh4Q6dNkQOccazeLPw

三、OpenAI开源BrowseComp，重塑Agent浏览器的测试基准

1.OpenAI开源了智能体浏览器功能测试基准BrowseComp，包含1266个高难度问题，需要在互联网中搜索并匹配复杂约束条件；

2.基准极具挑战性，GPT-4o和GPT-4.5准确率仅为0.6%和0.9%，启用浏览功能的GPT-4o也只有1.9%，而OpenAI新Agent模型Deep Research达到51.5%；

3.BrowseComp由专业数据师创建，采用反向问题设计方法，人类测试者在不使用AI助手情况下仅解决29.2%的问题，证明单纯浏览能力不足，还需强大推理和信息处理能力。

https://mp.weixin.qq.com/s/g-F_9InACBhPnhjo8xiAoQ

四、VAST又开了两个3D项目：三维部件编辑与自动绑定框架

1.VAST开源了两个新3D项目：HoloPart（生成完整可编辑部件）和UniRig（通用自动绑定框架）；

2.HoloPart能推断物体被遮挡部分的几何结构，实现三维模型的完整部件分割，解锁了直观编辑和材质分配等应用；

3.UniRig采用自回归预测方法生成3D骨骼结构，在绑定精度和动画精度上分别提升215%和194%，展现出跨多种模型类别的通用性。

https://mp.weixin.qq.com/s/Apv_yeh815WGpSy6a3L-2g

五、CityGS-X，4090大场景几何重建，强大RGB渲染和几何精度

1.上海AI Lab和西工大推出CityGS-X架构，仅用4卡4090即可实现大规模城市场景重建，训练速度比现有方法提升一倍；

2.该研究提出并行化混合层次三维表征(PH²-3D)架构，摒弃传统分块算法造成的训练冗余，开发了动态多细节层次体素分配策略；

3.CityGS-X采用渐进式RGB-深度-法向联合训练方法，配合批处理级多任务渲染机制，在RGB渲染和几何精度上达到同类任务中的SOTA水平。

https://mp.weixin.qq.com/s/-xTYXeu_jz3qESHixYrQSA

前沿科技

六、科幻成真，3D全息图首次实现可用手直接触摸、抓取和操控

1.西班牙纳瓦拉公立大学研究团队首次开发出可用手直接触摸、抓取和操控的3D全息投影技术，能像现实物体一样进行物理交互；

2.该技术通过使用弹性漫射器代替传统刚性漫射器解决安全问题，用户可将手指插入条带之间与3D图形交互，系统会实时调整图像以适应变形；

3.这项创新将在2025年4月的CHI会议上展示，有望应用于教育和博物馆等领域，使多位用户无需佩戴VR设备即可协同操作三维图像。

https://mp.weixin.qq.com/s/KJZPBeCozL4zZN4KhLRChA

报告观点

七、Sam Altman：知识储备的价值正在让位于模式识别与综合能力

1.AI改变游戏规则，提出正确问题的能力和人类的灵活性将成为核心竞争力，模式识别与综合能力将超越知识储备的价值；

2.尽管AI能模拟情感并提供更佳反馈，人类对真实社交连接的需求将持续存在，这种基于生物本能的渴望无法被完全替代；

3.AI不是直接取代人类工作，而是推动工作形式深刻变革，人类将成为决策者和创造性思维者，AI则作为工具增强人类能力。

https://mp.weixin.qq.com/s/BGc85LfMzVLl1cycPPiF_A

八、Anthropic工程师的AI Agent教程：不做全场景、保持简单

1.明智选择应用场景，并非所有任务都需要Agent，要考虑复杂度、价值、关键能力可行性和错误代价；

2.保持系统简单，专注于环境、工具集和系统提示三个核心组件，避免过早复杂化；

3.从Agent视角思考，理解其上下文窗口限制，利用模型反馈改进设计，未来将朝预算感知、自进化工具和多Agent协作方向发展。

https://mp.weixin.qq.com/s/kl86BZejzUJ6rRBIxYN4fw

九、a16解读AI数字人：技术基本Ready、即将爆发的十亿级赛道

1.AI数字人技术已跨越"恐怖谷"，从基本的"会说话的头像"发展到具备全身动作和逼真表情的完整角色；

2.应用层即将爆发，数字人已广泛应用于消费者内容创作、中小企业广告营销和大型企业内容本地化等领域；

3.技术构成包括面部表情、声音合成、唇形同步、身体动作和环境交互，未来发展方向是实现角色一致性、精细表情和实时互动能力。

https://mp.weixin.qq.com/s/AYTyGlgVX3DZisrd9kQJiw

十、2025年了，人们到底在用AI做什么？国外大牛总结了100个案例

1.2025年AI应用重心从技术层面转向满足情感与个人发展需求，"治疗/陪伴"、"组织生活"和"寻找目标"成为前三大使用场景；

2."个人和专业支持"取代"技术协助和故障排除"成为主导主题，AI已广泛应用于健康生活规划、学习辅导、旅行安排和行政申诉等实用场景；

3.用户对AI的认知更成熟，既担忧数据隐私和过度依赖问题，也期待AI从提供信息向Agent实际行动的转变，未来将朝多智能体方向发展。

https://mp.weixin.qq.com/s/ZF6o0K-4al1WvI4uZAlKrg

👇订阅下方合集，获取每日推送