生成式AI
一、 OpenAI宣布GPT-4下线,o3满血版以及o4-mini将登场
1.GPT-4将于4月30日从ChatGPT中移除,完全被当前默认模型GPT-4o取代,但仍可通过API继续使用;
2.OpenAI即将推出多个新模型,包括GPT-4.1系列、满血版o3推理模型以及o4-mini系列,最快可能下周面世;
3.为应对竞争压力,OpenAI大幅缩短了模型评估时间,从GPT-4的6个月减至几天,但安全测试流程受到质疑。
https://mp.weixin.qq.com/s/1HA9GuEwsfwplvExMJ2OUg
二、谷歌Veo 2震撼升级,一键get好莱坞级视觉盛宴!网友实测
1.谷歌在Next 2025大会上发布Veo 2视频创作工具,具备视频编辑、背景移除和帧插值等全面功能,使其从生成工具升级为专业视频创作平台;
2.网友实测展示了Veo 2惊艳效果,只需输入简单描述即可生成具有电影质感的视频,包括慢动作、360度旋转、特写镜头等专业效果;
3.Veo 2与Freepik AI Suite配合使用效果更佳,后者提供AI图像生成、风格定制和专业编辑功能,共同为创意工作者提供强大创作工具。
https://mp.weixin.qq.com/s/X4lduh4Q6dNkQOccazeLPw
三、OpenAI开源BrowseComp,重塑Agent浏览器的测试基准
1.OpenAI开源了智能体浏览器功能测试基准BrowseComp,包含1266个高难度问题,需要在互联网中搜索并匹配复杂约束条件;
2.基准极具挑战性,GPT-4o和GPT-4.5准确率仅为0.6%和0.9%,启用浏览功能的GPT-4o也只有1.9%,而OpenAI新Agent模型Deep Research达到51.5%;
3.BrowseComp由专业数据师创建,采用反向问题设计方法,人类测试者在不使用AI助手情况下仅解决29.2%的问题,证明单纯浏览能力不足,还需强大推理和信息处理能力。
https://mp.weixin.qq.com/s/g-F_9InACBhPnhjo8xiAoQ
四、VAST又开了两个3D项目:三维部件编辑与自动绑定框架
1.VAST开源了两个新3D项目:HoloPart(生成完整可编辑部件)和UniRig(通用自动绑定框架);
2.HoloPart能推断物体被遮挡部分的几何结构,实现三维模型的完整部件分割,解锁了直观编辑和材质分配等应用;
3.UniRig采用自回归预测方法生成3D骨骼结构,在绑定精度和动画精度上分别提升215%和194%,展现出跨多种模型类别的通用性。
https://mp.weixin.qq.com/s/Apv_yeh815WGpSy6a3L-2g
五、CityGS-X,4090大场景几何重建,强大RGB渲染和几何精度
1.上海AI Lab和西工大推出CityGS-X架构,仅用4卡4090即可实现大规模城市场景重建,训练速度比现有方法提升一倍;
2.该研究提出并行化混合层次三维表征(PH²-3D)架构,摒弃传统分块算法造成的训练冗余,开发了动态多细节层次体素分配策略;
3.CityGS-X采用渐进式RGB-深度-法向联合训练方法,配合批处理级多任务渲染机制,在RGB渲染和几何精度上达到同类任务中的SOTA水平。
https://mp.weixin.qq.com/s/-xTYXeu_jz3qESHixYrQSA
前沿科技
六、科幻成真,3D全息图首次实现可用手直接触摸、抓取和操控
1.西班牙纳瓦拉公立大学研究团队首次开发出可用手直接触摸、抓取和操控的3D全息投影技术,能像现实物体一样进行物理交互;
2.该技术通过使用弹性漫射器代替传统刚性漫射器解决安全问题,用户可将手指插入条带之间与3D图形交互,系统会实时调整图像以适应变形;
3.这项创新将在2025年4月的CHI会议上展示,有望应用于教育和博物馆等领域,使多位用户无需佩戴VR设备即可协同操作三维图像。
https://mp.weixin.qq.com/s/KJZPBeCozL4zZN4KhLRChA
报告观点
七、Sam Altman:知识储备的价值正在让位于模式识别与综合能力
1.AI改变游戏规则,提出正确问题的能力和人类的灵活性将成为核心竞争力,模式识别与综合能力将超越知识储备的价值;
2.尽管AI能模拟情感并提供更佳反馈,人类对真实社交连接的需求将持续存在,这种基于生物本能的渴望无法被完全替代;
3.AI不是直接取代人类工作,而是推动工作形式深刻变革,人类将成为决策者和创造性思维者,AI则作为工具增强人类能力。
https://mp.weixin.qq.com/s/BGc85LfMzVLl1cycPPiF_A
八、Anthropic工程师的AI Agent教程:不做全场景、保持简单
1.明智选择应用场景,并非所有任务都需要Agent,要考虑复杂度、价值、关键能力可行性和错误代价;
2.保持系统简单,专注于环境、工具集和系统提示三个核心组件,避免过早复杂化;
3.从Agent视角思考,理解其上下文窗口限制,利用模型反馈改进设计,未来将朝预算感知、自进化工具和多Agent协作方向发展。
https://mp.weixin.qq.com/s/kl86BZejzUJ6rRBIxYN4fw
九、a16解读AI数字人:技术基本Ready、即将爆发的十亿级赛道
1.AI数字人技术已跨越"恐怖谷",从基本的"会说话的头像"发展到具备全身动作和逼真表情的完整角色;
2.应用层即将爆发,数字人已广泛应用于消费者内容创作、中小企业广告营销和大型企业内容本地化等领域;
3.技术构成包括面部表情、声音合成、唇形同步、身体动作和环境交互,未来发展方向是实现角色一致性、精细表情和实时互动能力。
https://mp.weixin.qq.com/s/AYTyGlgVX3DZisrd9kQJiw
十、2025年了,人们到底在用AI做什么?国外大牛总结了100个案例
1.2025年AI应用重心从技术层面转向满足情感与个人发展需求,"治疗/陪伴"、"组织生活"和"寻找目标"成为前三大使用场景;
2."个人和专业支持"取代"技术协助和故障排除"成为主导主题,AI已广泛应用于健康生活规划、学习辅导、旅行安排和行政申诉等实用场景;
3.用户对AI的认知更成熟,既担忧数据隐私和过度依赖问题,也期待AI从提供信息向Agent实际行动的转变,未来将朝多智能体方向发展。
https://mp.weixin.qq.com/s/ZF6o0K-4al1WvI4uZAlKrg
👇订阅下方合集,获取每日推送