首页   

腾讯研究院AI速递 20250313

腾讯研究院  · 科技媒体  · 18 小时前

正文

生成式AI

一、  谷歌Gemma 3突然上线!单GPU最强多模态,手机可跑

1. 谷歌发布Gemma 3系列开源模型,推出1B、4B、12B、27B四种参数版本,仅需单GPU即可运行;

2. Gemma 3-27B在LMArena竞技场获1339 ELO分,击败多个大型模型,成为仅次于DeepSeek R1的最优开源模型;

3. 新模型支持多模态功能,可处理140+语言,具备128k上下文窗口,在数学性能方面较上代提升33-45分。

https://mp.weixin.qq.com/s/buqtV1nEDhpvdvEFhRcoIA

二、  OpenAI发布AI Agent系列工具与API,但建议用户“监工”

1. OpenAI发布Agent开发套件,包含Responses API、内置工具与智能体SDK,使AI能够自主操作计算机执行任务;

2. Responses API整合对话式接口与助手API工具调度能力,支持网络搜索、文件搜索和计算机使用功能,将逐步取代Assistants API;

3. 计算机使用工具可捕获模型生成的鼠标与键盘操作轨迹,但OpenAI建议用户在涉及系统操作时保持人工监督。

https://mp.weixin.qq.com/s/utzDzh_rTe3G8-GUgwRnTw

三、  10秒生成4分钟音乐,8GB显存就能跑!Hugging Face趋势榜一

1. DiffRhythm是一款全新AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏;

2. 该模型采用简单高效的全diffusion架构,只需歌词和风格提示即可创作,无需复杂的多阶段架构;

3. DiffRhythm支持本地部署,最低只需8GB显存即可运行,已登上Hugging Face趋势榜首位,模型和推理代码已全部开源。

https://mp.weixin.qq.com/s/u5Y68MvzHPHBKEQKoHmv_A

四、  Agent应用潮?国产首款创作型Agent,轻松创作互动小说

1. 国产首款创作型Agent工具"谜境Agent"正式上线,专注于互动小说创作,将传统4-6个月的创作流程压缩至5-10分钟;

2. 该工具搭载DeepSeek R1模型,具备快速生成剧本大纲、自动生成角色图及场景图、自动配音配乐等功能;

3. 谜境Agent支持边玩边制作模式,可自动构建画面交互逻辑,支持选项/点击/数值等多种互动玩法,用户可随时一键修改内容。

https://mp.weixin.qq.com/s/lH2uqs6V1n_eXlc35nDUEg

五、  百万年轻人"抽象"创作,AI二次元社区「狸谱」凭啥火出圈

1. AI二次元社区「狸谱」迅速走红,月活突破100万,应用商店"图形与设计"榜单一度冲至第2名,站内已有7000万张图片;

2. 该平台主打"抽象"创作,推出炖图、动态Live、灵魂提取器、挂件等功能,让手残党也能轻松创作二次元内容;

3. 狸谱背靠"阶跃星辰"技术支持,精准切中二次元圈创作需求,成功在线上线下同时破圈,成为年轻人释放"厨力"的新平台。

https://mp.weixin.qq.com/s/NMETpkXldSneFV4UO1v9Kg

前沿科技

六、  谷歌收购加拿大眼动追踪技术制造商AdHawk Microsystems

1. 谷歌计划以1.15亿美元(约8.32亿元人民币)收购加拿大眼动追踪技术公司AdHawk Microsystems,这是3个月内第二笔XR相关收购;

2. AdHawk专注于基于微机电(MEMS)的低功耗眼动追踪技术,较传统基于摄像头的方案更快速分析用户眼球位置,支持12小时以上续航;

3. 该收购是谷歌重返智能眼镜市场的重要一步,结合近期发布的Android XR系统和与三星合作的Project Moohan头显,暗示谷歌正积极布局AI眼镜领域。

https://mp.weixin.qq.com/s/fI59-dWJR6iJS_I0IZ7GEQ

七、  AI现实动物森友会,NVIDIA携手国际组织助力野生动物保护

1. NVIDIA与多个国际组织合作,利用AI技术协助野生动物保护工作,应对联合国估计的100多万物种面临灭绝威胁;

2. 西雅图非营利AI研究机构Ai2提供EarthRanger平台,利用NVIDIA GPU训练模型预测大象活动,整合100多个数据源监测野生动物;

3. 南非初创公司Rouxcel开发RhinoWatches追踪犀牛行为,OroraTech提供野火监测服务,Wildlife Protection Solutions部署3000个AI摄像头实时监控动物和偷猎者。

https://mp.weixin.qq.com/s/K7j5l33Gv4FY7xidnwNFPQ

报告观点

八、  十问腾讯混元快思考模型Turbo S:什么是长短链融合思考?

1. 腾讯推出混元旗舰快思考模型Turbo S,首字响应时间降低44%,吞吐提升100%,API定价更低,每百万token输出仅需2元;

2. Turbo S采用创新的Hybrid Mamba Transformer架构,结合Mamba与Full Attention优势,相比传统注意力机制降低计算复杂度,减少90%以上KV缓存消耗;

3. 通过长短思维链融合技术,Turbo S在保持快速响应的同时提升数学、代码等需深度思考场景的能力,满足用户90%无需深思的直觉请求和10%需深入思考的问题。

https://mp.weixin.qq.com/s/Xw2yJhuc75oDW1MgqFFCPA

九、  LangChain创始人激辩MCP:行业新标准,还是昙花一现?

1. LangChain创始人Harrison Chase与LangGraph负责人Nuno Campos围绕MCP协议展开辩论,讨论其是否会成为行业新标准;

2. Harrison认为MCP在为"无法控制的agent"引入工具方面有价值,适合非开发者使用,尤其适用于长尾连接和集成场景,类似Zapier;

3. Nuno持怀疑态度,指出当前模型调用工具成功率仅50%,认为MCP需要简化复杂度、支持服务器使用、改进身份验证并解决随机工具引入导致的质量下降问题才能成为标准。

https://mp.weixin.qq.com/s/etvDsU422z8uiknCn6fw4A

👇订阅下方合集,获取每日推送

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com