厉害了! 一名完全瘫痪、失去发声功能的妇女刚刚恢复了以对话速度说话的能力。借助AI,大脑植入物学会了读懂她说话的意图,并用她自己的声音合成她的话。
视频无剪辑, 1倍速
1. 与之前最好的系统相比,它们只能让患者以每分钟8-14个单词的速度“打字”,而这个系统可以实现每分钟90+个单词的语音输出,而且是基于大脑活动,不需要任何声音训练数据,患者无需尝试发出声音。
2. 系统配置:一个覆盖在其语言运动皮层的253通道ECoG阵列,通过23000次无声语言尝试训练的深度神经解码器,RNN-T架构在80毫秒内解码,输出为个性化的合成语音和实时文字转录。
3. 解码器每80毫秒传输一次语音,与大多数系统等待整个句子输出不同,它能够随着大脑的思考即时输出语音,延迟仅约1秒,几乎实现了实时的神经意图到语音的流式转换。
4. 在测试中,这种语音传输快速、流畅且准确:50个短语集达到每分钟91个单词,12%的单词错误率和11%的字符错误率;在更大的1,024单词集(自然句子)中,每分钟47个单词,59%的单词错误率和45%的字符错误率。虽然不是完美,但已经可用。
来源:www.nature.com/articles/s41593-025-01905-6
#ai创造营##科技##程序员# 黄建同学的微博视频
视频无剪辑, 1倍速
1. 与之前最好的系统相比,它们只能让患者以每分钟8-14个单词的速度“打字”,而这个系统可以实现每分钟90+个单词的语音输出,而且是基于大脑活动,不需要任何声音训练数据,患者无需尝试发出声音。
2. 系统配置:一个覆盖在其语言运动皮层的253通道ECoG阵列,通过23000次无声语言尝试训练的深度神经解码器,RNN-T架构在80毫秒内解码,输出为个性化的合成语音和实时文字转录。
3. 解码器每80毫秒传输一次语音,与大多数系统等待整个句子输出不同,它能够随着大脑的思考即时输出语音,延迟仅约1秒,几乎实现了实时的神经意图到语音的流式转换。
4. 在测试中,这种语音传输快速、流畅且准确:50个短语集达到每分钟91个单词,12%的单词错误率和11%的字符错误率;在更大的1,024单词集(自然句子)中,每分钟47个单词,59%的单词错误率和45%的字符错误率。虽然不是完美,但已经可用。
来源:www.nature.com/articles/s41593-025-01905-6
#ai创造营##科技##程序员# 黄建同学的微博视频