本文主要报道了关于生成式AI、OpenAI学院、Meta高端AI智能眼镜、腾讯元宝、MiniMax Audio最新语音模型、百度端到端语音语言大模型、Libra对话创造Agent等相关科技进展和报告观点,包括相关的测试情况、功能特点等。同时,也介绍了基于AI的脑-声神经假体技术等相关前沿科技内容。
GPT-4.5通过标准图灵测试成为历史首次事件,“人设”成为关键因素,添加人设后模型表现更佳。识别AI的最有效方法是测试异常反应和探索知识盲区。
OpenAI推出免费的AI课程和学习社区平台,内容包括数十小时的视频课程和实时互动活动。社区功能允许用户与同行和专家交流,未来会扩展全球化活动和多语言支持。
Meta的高端AI智能眼镜将于年底发布,价格超过1000美元。新品配备右镜片下方的小型单目显示屏、高质量摄像头和内置应用程序界面,并随附神经腕带实现手势控制。
腾讯元宝的图识别功能得到了升级,新功能适用于多图场景,如电子书摘录、朋友圈照片组等,提供整体理解和内容生成。
MiniMax Audio的新模型支持多种语言和音色,可将长文档转换为语音。平台提供情感设置选项,音色自然且丰富。
百度发布基于互相关注意力的端到端语音语言大模型,融合了大语言模型和语音技术,降低了响应时间并降低了调用成本。技术创新点包括引入Cross-Attention解决跨模态难题和支持多种情感表达。
Libra允许用户通过自然语言对话创建本地Agent,采用本地优先架构降低了Token服务总成本。核心技术包括低比特量化、Token Vibe Orchestration上下文管理和Meta Agent-Orchestration框架。
研究人员开发了一种脑-声神经假体技术,能够将失语症患者的脑信号转换为语音。该技术采用循环神经网络转导器框架,能同步解码文本内容并处理新词,为日常交流提供可能。
报告指出人类社会倾向于建立基于叙事和神话的秩序而非追求真相的问题。面对超级智能的未来,精神技能的价值超过智力技能。
生成式AI
一、 历史首次!GPT-4.5通过标准图灵测试,靠的竟是装人设?
1. GPT-4.5通过经典图灵测试,73%参与者将其误认为人类,远高于真人对照组的50%识别率;
2. "人设提示"是关键因素,无人设时GPT-4.5胜率骤降至36-38%,添加人设后模型能展现内向性格、使用俚语和适当犯错;
3. 识别AI最有效方法是测试异常反应和探索知识盲区,而非闲聊日常或询问情绪体验。
https://mp.weixin.qq.com/s/w803loeqzJ2uIysNHv4cWg
二、 OpenAI推出OpenAI 学院,一个面向所有人的AI学习社区
1. OpenAI推出"OpenAI学院"(Academy),提供免费AI课程和学习社区,主打"专家引领+社群共创";
2. 平台内容包括数十小时免费视频课程,如《提示词大师课》《ChatGPT Edu学术助手指南》,并举办每周多场实时互动活动;
3. 社区功能允许用户直接与同行和专家交流,目前仅支持英文,未来将扩展全球化活动和多语言支持。
https://mp.weixin.qq.com/s/w0TQrGfy0lYetQXsHL6wmw
三、 Meta高端AI智能眼镜年底上线,独立新品牌,内置屏幕
1. Meta计划年底发布售价超1000美元的高端AI智能眼镜,将采用独立品牌,而非Ray-Ban合作款;
2. 新品代号Hypernova,配备右镜片下方小型单目显示屏、高质量摄像头,内置应用程序界面,并随附神经腕带实现手势控制;
3. Meta未来产品路线包括今年推出专为运动员设计的Oakley Meta眼镜,2027年推出双目显示屏的Hypernova 2和真正AR眼镜Artemis。
https://mp.weixin.qq.com/s/32nyijUzVqvI1yXxLmEhmw
四、 元宝「好用」功能继续进化:能识图,更能「连看十图」
1. 腾讯元宝更新识图功能,现支持一次上传并识别多达10张图片,结合混元模型的多模态理解能力;
2. 新功能适用于电子书摘录、朋友圈照片组、课堂板书或产品草图等多图场景,提供整体理解和内容生成;
3. 功能已在手机版(2.11.0+)、电脑版(1.8.0+)和网页版全面上线,用户只需上传图片并提出简单需求即可。
https://mp.weixin.qq.com/s/sB08geM6bE-TF4PZRubiZw
五、 MiniMax Audio最新语音模型,一次性可以输入20万字符
1. MiniMaxAudio推出新模型Speech-02,支持17种语言及300多种真实音色,可一键将长达20万字的文档转为语音;
2. 平台提供情感设置选项,包括高兴、生气、伤心等8种情绪,还可调整声音深度和强度,音色自然度高且情感丰富;
3. 用户仅需10秒录音即可1:1克隆声音,每日免费赠送4000积分(约5分钟音频),适用于跨境电商、AI出海、角色扮演等场景。
https://mp.weixin.qq.com/s/1ebL03kt-hWv7gsOKpyxFA
六、 百度端到端语音语言大模型,懂方言、带情感,免费体验
1. 百度发布基于互相关注意力(Cross-Attention)的端到端语音语言大模型,实现超逼真语音交互;
2. 模型将大语言模型与语音技术融合,响应时间从3-5秒降至1秒,调用成本最高降低90%;
3. 技术创新点包括引入Cross-Attention解决跨模态难题、EALLQA技术降低推理成本,并支持17种情感表达。
https://mp.weixin.qq.com/s/fdoqvJt2t98EH5bleR3iYQ
七、 Libra用对话就能创造专属本地Agent,Token成本直降90%
1. Libra用户可通过自然语言对话即可创建专属本地Agent,无需编程技能;
2. 采用本地优先架构,将Agent服务Token总成本降低90%,消费级硬件如Apple M3 Ultra即可流畅运行;
3. 核心技术包括低比特量化、Token Vibe Orchestration上下文管理和Meta Agent-Orchestration框架,支持长程推理。
https://mp.weixin.qq.com/s/6VHQ-uXop_zS0U_ldUw7-g
前沿科技
八、 基于AI的脑-声神经假体,将失语症患者脑信号转为人声
1. 研究人员开发脑-声神经假体技术,能将失语症患者脑信号转为语音,解码能力媲美Siri和Alexa;
2. 该技术可在80毫秒内合成语音,无需发声即可转换脑部神经活动信号,延迟低于1秒;
3. 系统采用循环神经网络转导器框架,能同步解码文本内容并处理词汇外新词,为失语者日常交流提供可能。
https://mp.weixin.qq.com/s/L5TRLPOdjpP7hnleCidvwg
报告观点
九、 对话《智人之上》作者:ASI时代精神技能比智力技能更宝贵
1. 人类社会优先考虑秩序而非真相,通过叙事和神话建立秩序,而真相则被视为辅助性元素,是信息茧房形成的根源;
2. 互联网时代信息自由流动未能促进真相传播,反而因为真相昂贵复杂而虚构廉价简单,导致人们被困在各自的信息茧房中;
3. AI将发展为具有自主决策能力的代理,可能无感知地控制人类,而面对超级智能的未来,精神技能比智力技能更为宝贵。
https://mp.weixin.qq.com/s/xNs46pBq8pWhMGRWpFieyQ
👇订阅下方合集,获取每日推送