首页   

腾讯研究院AI速递 20250414

腾讯研究院  · 科技媒体  · 1 周前

正文

生成式AI

一、 OpenAI宣布GPT-4下线,o3满血版以及o4-mini将登场

1.GPT-4将于4月30日从ChatGPT中移除,完全被当前默认模型GPT-4o取代,但仍可通过API继续使用;

2.OpenAI即将推出多个新模型,包括GPT-4.1系列、满血版o3推理模型以及o4-mini系列,最快可能下周面世;

3.为应对竞争压力,OpenAI大幅缩短了模型评估时间,从GPT-4的6个月减至几天,但安全测试流程受到质疑。

https://mp.weixin.qq.com/s/1HA9GuEwsfwplvExMJ2OUg 

二、谷歌Veo 2震撼升级,一键get好莱坞级视觉盛宴!网友实测

1.谷歌在Next 2025大会上发布Veo 2视频创作工具,具备视频编辑、背景移除和帧插值等全面功能,使其从生成工具升级为专业视频创作平台;

2.网友实测展示了Veo 2惊艳效果,只需输入简单描述即可生成具有电影质感的视频,包括慢动作、360度旋转、特写镜头等专业效果;

3.Veo 2与Freepik AI Suite配合使用效果更佳,后者提供AI图像生成、风格定制和专业编辑功能,共同为创意工作者提供强大创作工具。

https://mp.weixin.qq.com/s/X4lduh4Q6dNkQOccazeLPw 

三、OpenAI开源BrowseComp,重塑Agent浏览器的测试基准

1.OpenAI开源了智能体浏览器功能测试基准BrowseComp,包含1266个高难度问题,需要在互联网中搜索并匹配复杂约束条件;

2.基准极具挑战性,GPT-4o和GPT-4.5准确率仅为0.6%和0.9%,启用浏览功能的GPT-4o也只有1.9%,而OpenAI新Agent模型Deep Research达到51.5%;

3.BrowseComp由专业数据师创建,采用反向问题设计方法,人类测试者在不使用AI助手情况下仅解决29.2%的问题,证明单纯浏览能力不足,还需强大推理和信息处理能力。

https://mp.weixin.qq.com/s/g-F_9InACBhPnhjo8xiAoQ 

四、VAST又开了两个3D项目:三维部件编辑与自动绑定框架

1.VAST开源了两个新3D项目:HoloPart(生成完整可编辑部件)和UniRig(通用自动绑定框架);

2.HoloPart能推断物体被遮挡部分的几何结构,实现三维模型的完整部件分割,解锁了直观编辑和材质分配等应用;

3.UniRig采用自回归预测方法生成3D骨骼结构,在绑定精度和动画精度上分别提升215%和194%,展现出跨多种模型类别的通用性。

https://mp.weixin.qq.com/s/Apv_yeh815WGpSy6a3L-2g 

五、CityGS-X,4090大场景几何重建,强大RGB渲染和几何精度

1.上海AI Lab和西工大推出CityGS-X架构,仅用4卡4090即可实现大规模城市场景重建,训练速度比现有方法提升一倍;

2.该研究提出并行化混合层次三维表征(PH²-3D)架构,摒弃传统分块算法造成的训练冗余,开发了动态多细节层次体素分配策略;

3.CityGS-X采用渐进式RGB-深度-法向联合训练方法,配合批处理级多任务渲染机制,在RGB渲染和几何精度上达到同类任务中的SOTA水平。

https://mp.weixin.qq.com/s/-xTYXeu_jz3qESHixYrQSA 

前沿科技

六、科幻成真,3D全息图首次实现可用手直接触摸、抓取和操控

1.西班牙纳瓦拉公立大学研究团队首次开发出可用手直接触摸、抓取和操控的3D全息投影技术,能像现实物体一样进行物理交互;

2.该技术通过使用弹性漫射器代替传统刚性漫射器解决安全问题,用户可将手指插入条带之间与3D图形交互,系统会实时调整图像以适应变形;

3.这项创新将在2025年4月的CHI会议上展示,有望应用于教育和博物馆等领域,使多位用户无需佩戴VR设备即可协同操作三维图像。

https://mp.weixin.qq.com/s/KJZPBeCozL4zZN4KhLRChA 

报告观点

七、Sam Altman:知识储备的价值正在让位于模式识别与综合能力

1.AI改变游戏规则,提出正确问题的能力和人类的灵活性将成为核心竞争力,模式识别与综合能力将超越知识储备的价值;

2.尽管AI能模拟情感并提供更佳反馈,人类对真实社交连接的需求将持续存在,这种基于生物本能的渴望无法被完全替代;

3.AI不是直接取代人类工作,而是推动工作形式深刻变革,人类将成为决策者和创造性思维者,AI则作为工具增强人类能力。

https://mp.weixin.qq.com/s/BGc85LfMzVLl1cycPPiF_A 

八、Anthropic工程师的AI Agent教程:不做全场景、保持简单

1.明智选择应用场景,并非所有任务都需要Agent,要考虑复杂度、价值、关键能力可行性和错误代价;

2.保持系统简单,专注于环境、工具集和系统提示三个核心组件,避免过早复杂化;

3.从Agent视角思考,理解其上下文窗口限制,利用模型反馈改进设计,未来将朝预算感知、自进化工具和多Agent协作方向发展。

https://mp.weixin.qq.com/s/kl86BZejzUJ6rRBIxYN4fw 

九、a16解读AI数字人:技术基本Ready、即将爆发的十亿级赛道

1.AI数字人技术已跨越"恐怖谷",从基本的"会说话的头像"发展到具备全身动作和逼真表情的完整角色;

2.应用层即将爆发,数字人已广泛应用于消费者内容创作、中小企业广告营销和大型企业内容本地化等领域;

3.技术构成包括面部表情、声音合成、唇形同步、身体动作和环境交互,未来发展方向是实现角色一致性、精细表情和实时互动能力。

https://mp.weixin.qq.com/s/AYTyGlgVX3DZisrd9kQJiw 

十、2025年了,人们到底在用AI做什么?国外大牛总结了100个案例

1.2025年AI应用重心从技术层面转向满足情感与个人发展需求,"治疗/陪伴"、"组织生活"和"寻找目标"成为前三大使用场景;

2."个人和专业支持"取代"技术协助和故障排除"成为主导主题,AI已广泛应用于健康生活规划、学习辅导、旅行安排和行政申诉等实用场景;

3.用户对AI的认知更成熟,既担忧数据隐私和过度依赖问题,也期待AI从提供信息向Agent实际行动的转变,未来将朝多智能体方向发展。

https://mp.weixin.qq.com/s/ZF6o0K-4al1WvI4uZAlKrg 

👇订阅下方合集,获取每日推送

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com