首页   

腾讯研究院AI速递 20250331

腾讯研究院  · 科技媒体  · 3 天前

主要观点总结

本篇文章包含多个关于人工智能领域的新闻报道,涵盖了不同公司和项目的最新进展和成就。

关键观点总结

关键观点1: Gemini 2.5 Pro在Chatbot竞技场和IQ测试中表现突出,具备高智商和强大的3D能力。

Gemini 2.5 Pro在智商测试中达到130的高分,具备将2D图像转换为3D打印文件的能力。此外,用户现在可以使用Canvas功能,并且谷歌正在扩大其试用范围。

关键观点2: GPT-4o展示了一键抠图功能和新推理能力。

GPT-4o的新功能包括一键抠图、换装和换背景。多位用户测试表明其功能保留细节能力强,并能在复杂转换时实现良好效果。此外,GPT-4o显示出推理能力的迹象,表明OpenAI可能正在为GPT-5做准备。

关键观点3: 面壁智能发布首个纯端侧智能助手cpmGO。

面壁智能推出了首个纯端侧智能助手cpmGO,强调其具备隐私安全和离线运行优势。此外,小钢炮超级助手已在汽车智能座舱领域落地,实现全链条感知决策执行能力。

关键观点4: 腾讯元宝更新功能,可识别并处理更多格式的文件。

腾讯元宝升级后能够识别并处理包括Word、PDF、Excel以及多种开发文件在内的36种格式的文件。在开发场景中,元宝能够完成代码解读、审查等多项任务。

关键观点5: VAST公司将开源多个3D生成项目。

VAST公司计划开源八大3D生成项目,其中TripoSG和TripoSF已率先发布。这些项目涉及高细节3D网格模型的生成和渲染。

关键观点6: 马斯克旗下AI公司收购社交平台X。

马斯克将自己的社交平台X以全股票交易方式出售给自己的AI公司xAI,合并后新公司估值达1130亿美元。此次合并体现了马斯克的"All in AI"战略。

关键观点7: AI癌症诊断模型ECgMPL准确度高。

ECgMPL模型能够从细胞和组织微观图像中精准识别癌症,对多种癌症的诊断准确率高。研究团队采用多步骤图像处理技术和创新的ECgMLP架构,将其定位为医生诊断的辅助工具。

关键观点8: Anthropic发表关于大模型思维研究的两篇论文。

Anthropic开发了一种AI“显微镜”方法,通过追踪神经网络内部活动模式来揭示大模型如Claude的思维过程和信息流动路径。研究还发现Claude具备提前规划输出、多语言共享概念等能力。

关键观点9: OWL团队对Manus的复刻及对未来Agent系统的看法。

OWL团队利用CAMEL-AI框架成功复刻了Manus,并分享了关于通用Agent与垂直领域Agent的看法。他们认为对于垂直领域来说,关键是解决特定领域的核心痛点,并提供专业的UI/UX体验。


正文

生成式AI

一、 Gemini 2.5 Pro冲上Chatbot竞技场榜首,IQ或高达130

1. Gemini 2.5 Pro在Chatbot竞技场和IQ测试中登顶,智商高达130,超越人类平均水平100;

2. 该模型展示强大3D能力,可将2D图像转换为3D打印文件,制作蛋糕模型、解魔方、创建游戏;

3. Gemini Advanced用户现可使用Canvas功能,谷歌正努力扩大2.5 Pro的试用范围。

https://mp.weixin.qq.com/s/0VmN8rKyQROIuYxDXv5WXw 

二、 除吉卜力外,GPT-4o一键抠图「换装」!推理也初步显现

1. GPT-4o发现新功能"画笔编辑",支持一键抠图、换装、换背景,用户能通过涂抹区域+输入指令实现图像精准修改;

2. 多位用户测试表明功能保留细节能力强,能完成衣物更换、添加配饰、背景替换等操作,但复杂转换时效果尚有提升空间;

3. GPT-4o出现推理能力迹象,用户发现模型可显示推理时间和思维链过程,有迹象表明OpenAI正合并推理与非推理模型,或为GPT-5做准备。

https://mp.weixin.qq.com/s/B728Ff5JykKwoTjQtzsEnQ 

三、 面壁发布首个纯端侧智能助手,构建汽车超性能端侧大脑

1. 面壁智能推出cpmGO,首个纯端侧智能助手,强调端侧模型不同于云端部署的端侧AI,具备隐私安全和离线运行优势;

2. 小钢炮超级助手已在汽车智能座舱领域落地,实现全链条感知决策执行能力,支持9大类26款应用,合作伙伴占据智能汽车销量榜三席;

3. 面壁提出"模型即Agent"理念和"密度定律",认为大模型将越来越小却越来越强,未来端侧模型发展是大势所趋。

https://mp.weixin.qq.com/s/roeIL7mkEgDIAObqoy36ww 

四、 元宝再次更新「好用」功能,能读懂这36 种格式的文件了!

1. 腾讯元宝升级,可识别并处理36种格式文件,包括Word、PDF、Excel及各类开发文件(.py、.java、.json等);

2. 在开发场景中,元宝能完成代码解读、审查、Bug定位、修改建议、语法优化和语言转换等任务;

3. 此次升级是继接入DeepSeek V3-0324最新版和支持HTML代码实时预览后,元宝一周面向开发场景的第三次功能迭代。

https://mp.weixin.qq.com/s/J_--X15SBECfRrY_wnjO8A 

五、 VAST 的 3D「开源月」干货满满,将一口气开源八大项目

1. DeepSeek旗下的VAST公司将一口气开源8大3D生成项目,其中TripoSG和TripoSF已率先发布;

2. TripoSG作为基础3D生成模型,采用校正流Transformer架构,参数量达40亿,能从单张图像生成高细节3D网格模型;

3. TripoSF引入SparseFlex表示方法,支持高分辨率(最高1024³)、任意拓扑结构的网格重建,内存占用低且可通过渲染损失进行端到端训练。

https://mp.weixin.qq.com/s/XADpXsXvUDKXRnOdfcIWEg 

六、 马斯克xAI收购X,左手倒右手,新xAI估值飙至1130亿

1. 马斯克宣布将旗下社交平台X以全股票交易方式出售给自己的AI公司xAI,合并后新公司估值1130亿美元;

2. 此次合并体现马斯克"All in AI"战略,X估值为330亿美元(450亿减去120亿债务),xAI估值800亿美元;

3. 收购整合了数据、模型和计算资源,X平台的用户数据将为xAI提供丰富训练语料,新公司估值超过马斯克此前对OpenAI的收购要约。

https://mp.weixin.qq.com/s/-lG5E93RhzGaF5FvfyMXjw 

前沿科技

七、 AI「癌症神探」ECgMPL:准确度近100%,医生自叹不如

1. ECgMPL模型能从细胞和组织微观图像精准识别癌症,子宫内膜癌诊断准确率达99.26%,远高于医生78-81%的平均水平;

2. 该模型经调整后通用性强,能诊断多种癌症,结直肠癌准确率达98.57%,乳腺癌98.20%,口腔癌97.34%;

3. 研究团队采用多步骤图像处理技术和创新的ECgMLP架构,将模型定位为医生诊断辅助工具,具有速度快、成本低的优势。

https://mp.weixin.qq.com/s/uPdgT6NbVTfe_eeW2FsgGg 

报告观点

八、 Anthropic连发两篇论文:用A「显微镜」追踪大模型思维

1. Anthropic开发AI"显微镜"方法,通过追踪神经网络内部活动模式,首次揭示大模型Claude思维过程和信息流动路径;

2. 研究发现Claude会提前规划输出,具备多语言共享概念、并行计算路径和多步推理能力,而非简单逐字生成;

3. 团队通过干预实验揭示了Claude处理"幻觉"、拒绝回答和遭遇越狱攻击时的内部机制,为提高AI可靠性提供新方法。

https://mp.weixin.qq.com/s/ktIRy6W6mVzZaJhxhvH8QQ 

九、 OWL万字:复现Manus最好的团队,如何看待Agentic AI

1. OWL团队利用CAMEL-AI框架一天内复刻了Manus,实测性能达到开源界GAIA性能58.18%,超越OpenDeepResearch的55.15%;

2. Manus与OWL在技术上有区别,但两者均采用multi-agent系统完成任务,OWL认为MCP是未来趋势,将使各框架能接入统一标准的工具;

3. 通用Agent与垂直领域Agent各有优势,对垂直领域来说,关键是解决特定领域核心痛点,并提供专业UI/UX体验,而非被通用Agent轻易替代。

https://mp.weixin.qq.com/s/ZJGMCarDlJHpnDXE5R7UEA 

👇订阅下方合集,获取每日推送

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com