前阵子体验到了字节的新品 Ola Friend 耳机,感谢播客「脑放电波」的胡老师提供的试用。这款耳机被称为 AI 耳机,也勾起了我对 AI 硬件重新梳理一下的兴趣。今天就聊聊这个话题。
1 AI 耳机:Ola Friend
Ola Friend 中 Ola 的意思是葡萄牙语的「你好」,所以产品名字指的是「你好,朋友」。
这款耳机是分离式的 OWS,即 Open Wearable Stereo(开放式穿戴耳机),跟我们熟悉的耳机类型 TWS 不一样。后者即 True Wireless Stereo(真无线耳机)。当然这个概念都是自研自创的,不是那种严谨的命名方法,W 在两个里面含义都不同。
现今的主流耳机是 TWS 蓝牙耳机。蓝牙耳机的风潮源于一款历史性产品, 即苹果公司的 AirPods。
2011 年乔布斯去世后,苹果一度被唱衰为要陨落的巨星。没有乔布斯的苹果,大家认为会缺乏创新。更让大家不理解的是,乔布斯为什么选择库克?在媒体语境、大众语境里,乔布斯是产品经理,而库克只是无趣的供应链管理者、职业经理人。我当年作为预备产品经理,也对库克没有好感。
但是坦白说,乔布斯从 1996 重新回归苹果后,库克应该是第一功臣,在供应链的大量工作让苹果能起死回生、缓过气来,才有机会做出 iPod 和 iPhone。在加入苹果之前,库克早就是电脑行业最资深的「库存大师」之一了。
库克掌管的苹果公司也没有丧失创新能力,AirPods 就是经典一例。此后,蓝牙耳机行业完全被改变。
AirPods 的重要意义在于,做出了最佳体验的分离式耳机,并且进行推广。过去的分离式蓝牙要正常连接有难度,在于分离式的同步问题。如果是手机连接两个耳机的蓝牙,就会产生或多或少的延迟。AirPods 为代表的蓝牙耳机实现了主耳机、副耳机的技术,即主耳机连接手机,副耳机连接主耳机。也因此这类耳机叫 TWS 耳机。
所以 2017 年就是蓝牙耳机的转折年,如今街头多数年轻人,几乎都在戴这种耳机了。
当然,AirPods 也顺便改造了播客市场,尤其国内的播客市场。有了降噪蓝牙耳机后,在马路上、公车地铁里,也都能听到清晰的内容了,播客顺势在 2019 年后,无论供给还是消费,都有大幅的增长。这太重要了。
TWS 耳机在耳机领域占绝对优势。根据 IDC 中国 2024 年上半年的统计,蓝牙耳机出货量 5540 万台,其中 TWS 出货 3508 万台,在 63% 左右。也能看得出来,耳机确实是大市场,一年有 1 亿多的量。
也由于耳机实在是个巨大的市场,就能容纳各种耳机的商业空间。OWS 就是其中在快速增长的一种。有统计 OWS 耳机在 2023 年一年有 1000 万台的销量,也不算小了。
那么,OWS 耳机的需求在哪呢?主要还是舒适度。TWS 耳机几乎都是入耳式的,戴久了耳道会不舒服,因为需要通过塞入耳朵固定和降噪,还会存在气压问题,内外气压不同也会有压迫感。OWS 耳机提到比较多的优点就是不用入耳、不用耳道固定。
说到这个,可能会联想到骨传导。OWS 跟骨传导又不一样,骨传导是在耳朵上方的,比较有距离。我家有台韶音的耳机,游泳的时候体验很好。
OWS 乍一看好像也在耳朵眼,其实没有进去。OWS 是挂在耳朵上的,就不用塞紧了。别的说实话差不多。
那我们说回来 Ola Friend。
(官方样图)
这款耳机的设计挺有意思的,钱包盒一样,挺精致的,放桌上跟小提包一样。乍看一眼很漂亮。里面打开设计也有风格。科技感还是很足。
只是佩戴的话,稍微费点功夫,不像 TWS 掏出来一塞就行。
佩戴之后,耳朵是真的挺舒服的,有种给耳朵卸下重担的感觉。长期佩戴都没有问题。
本来是想当成主力耳机用一段时间,但这就要提到 TWS 耳机的痛点了:没有降噪。这属于绝对性的因素,对我而言,平时出门、坐地铁、赶飞机的路上,还是必须开降噪的。这就让佩戴场景相对有限。
音质而言个人体验是很不错的,在蓝牙耳机里算很好的。Ola Friend 的技术背景是够硬的,背后的公司 Ola Dance是 2019 年成立的,由前 BOSE 高管李浩乾与多名 BOSE 工程师共同创立。他们也是最早 OWS 的倡导者。
都是 Dance,这不是巧了嘛,Byte Dance 收 Ola Dance,很合理。这也是刚刚发生的事情,就在今年 9 月份。
那么字节为什么要做耳机呢?当然因为刚提到的 AI。
一款蓝牙耳机,为什么是 AI 耳机?那是因为能够唤醒AI。其实 2017 年的分水岭产品 AirPods 就主打唤起 Siri 的功能。只是当下提 AI 更加有吸引力,营销是一方面,豆包跟 Siri 也不可同日而语了。你懂的。
早在 2020 年,iFLYBUDS 作为讯飞的智能耳机,就发布,并成为垂直场景的主流产品。说到讯飞,当然这款耳机就跟翻译有关系了。最重要的功能是会议记录和转写。这款耳机说起来,硬件算是 TWS,长得也是普通耳机的样子。
Ola Friend 跟豆包的联动,解决了更多有意义的场景。过去唤醒 AI,顶多也就是定个闹钟、问个天气。
有了豆包,有大量的知识可以获取,还能持续对话得到更深入的信息,有点低配贾维斯的意思了。尤其对我这种开车和走路时经常想事情,想到就想去搜的场景来说,是真的很好使,比 Siri 中间差了好几个小爱同学。也是第一次通过耳机有这种顺滑的聊天体验。
所以 Ola Friend 的整体评价就是:在 1200 块钱的价位上,我确实还挺喜欢这个产品的,挺想购买的。可以跟 AirPods 替换着用,作为备用耳机。
这样就能理解为什么官方宣传是 AI 耳机了。重点还是有豆包的支持。
豆包是今天使用率最高的国内 AI 产品。根据 Questmobile 2024 年 9 月发布的 AI 原生应用半年报,豆包的月活高达 3000 万,是第二名文小言 1000 万的三倍。各位应该也能体验到,豆包算是第一个破圈,身边老人小孩都有在用的产品。
可是豆包的联动并不能解决很多问题,关键是,不是系统级支持。因此,音乐、播客无法接入,豆包无法唤起,也无法控制手机里的其它功能。作为 AI 耳机,它也只能跟豆包聊天。哪怕聊天也有点费劲,必须在系统设置里打开后台 APP 刷新,让豆包持续常驻在后台才行。这是个作为第三方公司,无解的问题。
我很佩服字节的行动力,这款产品当下也很好用,属于 AI 耳机当下体验最好的。
但不得不聊到,所有第三方设备面临的局面,即真正系统级的 AI 入口,将会是另一个 AI,Apple Inteligence。Apple Inteligence 在北美已经发布。根据 10 月 23 日库克访华的问答,库克老师说:「我们正在努力推进,这背后有一个非常具体的监管流程,我们需要走完这个流程,也希望尽快将它带给中国消费者。」作为跟中国官方关系最好的美国企业之一,苹果的 AI 应该的确是指日可待。
等到苹果的 AI 正式发布,有了系统级的支持后,iOS 将会是最好用也最常用的 AI 产品。而耳机将会是调用系统 AI 的入口,第三方 AI 将没有吸引力。且不说 iOS 会不会给第三方耳机开放接口,哪怕开放了,使用体验也必然不如官方自己的配件要好。
这也是一个大的趋势。目前华为、小米、OPPO,vivo 都有自己的 TWS 耳机。他们都会完成系统级 AI 的支持,也会完成与各种配件的联动。他们的耳机目前卖的也都挺好,也大有把入口牢牢抓在手里的趋势。
2 AI 眼镜:Meta & Ray-Ban
既然说到 AI 硬件,在 AI 耳机之后,第二个值得一提的就是眼镜。
其实人的复杂信息输入设备,就是眼睛耳朵。作为眼耳鼻舌身五感里,鼻子、嘴和四肢只能输入很有限的信息。
另外,作为可穿戴的设备,就需要找地方放。设想你是一个可穿戴设备的产品经理,手机之外,能想到还可以做手腕上的手表,还可以想到做耳朵上的耳机。这是苹果的路线。再接下来,最日常的可穿戴产品,可不就是眼镜了。
(即刻看到的一张网图)
提到 AI 眼镜,就必须提到雷朋(Ray-Ban)和 Meta 合作的智能眼镜,这一代 2023 年 10 月发售,据说已经卖了近 200 万台。
这个产品非常成功,也确实是我自己眼前一亮的产品。今年去参加 13 叔(姬十三)办的一个聚会,现场播客「脑放电波」的另一位主播白老师就带了一台过去。13 叔也有一台。体验过后,我就忍不住自己下单买了。日常经常用。
出去旅行的时候用。
参加播客活动的时候用。
在维权上电视的时候也用。
要聊为什么这个眼镜体验好,我们先回顾一下。
大家对科技公司的眼镜最初的印象可能是 Google Glass,这是 2012 年发布的 AR 眼镜。当年它的野心也很大,目标是长期要替代智能手机。
Google Glass 有摄像头,像素 500 万,在右眼上方有一个微型显示器,大概相当于 25 寸屏幕在 2.5 米远的效果。这是增强现实(Augmented Reality)最早的「大单品」,能够在正常进行现实生活的时候,可以获取和处理数字信息。
这个眼镜很轻,只有几十克,用的是安卓系统,有骨传导的音响系统,有蓝牙,有 16G 硬盘存储和 680M 的内存。唤起的方式是「ok glass」,跟今天唤起 AI 的方式也类似。当年发布的时候看起来也很有科技感。
可是为什么后来不行了呢?还是要回到产品的定位和用户需求说。
Google Glass 有 7 个基础功能:搜索、导航、拍照、录视频、发消息、打电话、视频聊天。在科幻电影里那种有 AR 虚拟显示屏的操作(比如钢铁侠)不一样,操作起来并没有那么那么顺滑。说白了,跟手机比起来没有那么有效率。
语音对话准确率本来就有限,另外问题是,这个眼镜本来就是连接手机的,既然手机在旁边,掏出来快速点击操作,甚至往往更方便。除非像地图导航这种场景,否则就有点脱裤子那啥了。
基础功能之外,还有个问题,这个眼镜不像眼镜,确实有科技感,可在大街上走起来特别奇怪。当你看屏幕的时候,就跟翻白眼一样,边看边翻来翻去,很是社死。同时,还有隐私问题,当年 Google Glass 铺天盖地的新闻和争议,戴着这个简直就是在说:我随时可能偷拍你。
最后很麻烦的是,定价 1500 美元,小一万块钱人民币。对于多数人,买它就只是买个玩具的话,很难狠下心做决定。就跟 Vision Pro 面临的窘境一样,产品是好产品,但价格摆在这,就不会有好的转化率。
这个价格看似跟高端一些的智能手机接近,但在用户朴素的消费观念里,消费不只是比绝对值,是要比使用频率和需要程度。对于收入普通的朋友,也会买很贵的智能手机,因为太重要了,iPhone 看起来大几千,如果用几年,一天几块钱,带来的是能回消息更快、处理事情更顺滑,看视频玩游戏更过瘾,算起来当然可以接受。而 Google Glass 和 Vision Pro 这种打开率不高的玩具比起来,就会尴尬。
说回来 Meta 眼镜,在某种程度上,很多功能也很接近。它的主要调整是:第一,把手机能做的绝大多数的功能,在眼镜上全部删掉,Google Glass 的 7 大功能,主要就留下了拍照和视频。硬件上配了耳机,拍照、视频、音乐/播客,就构成最核心的功能了。
Meta 眼镜的三个主打功能,最后一个就是 AI,跟 Ola Friend 跟豆包联动一样,作为融合了耳机功能的 Meta 眼镜,也连接了 Meta AI,也能顺畅对话。只是国内使用相对不方便,就不展开说了。
对我来说,前两个功能就很够用了。一个是作为开放式耳机,听歌听播客,不难受。作为眼镜,不用再额外增加一个穿戴设备。另一个,拍照和拍视频,我在开车的时候,出去玩、尤其运动的时候,经常戴。
这个眼镜的造型很正常,不会给人压力。你可能会疑虑,是不是偷拍就更方便更容易了。的确存在这个问题,Meta 眼镜也考虑到了,于是做了个小功能,拍摄的时候,左眼上方是摄像头,而右眼上方会有个明显的 LED 白灯在闪。
闪烁提示还不能完全防止偷拍,肯定有人会不注意,所以这款眼镜在某些国家地区也是禁用的。不过对我来说,主要用来拍路上看到的有趣瞬间,拍小动物,拍花花草草的,都很方便。有时手机来不及掏出来,或者不适合掏出来。在这个场景下的确很刚需。
比如在狂喜播客节台上聊天的时候,就顺手拍了一些值得纪念的瞬间。这是视频里的一小块截图。
那么对于 Meta 眼镜来说,三个新功能是不是值很多钱呢?当然也未必,这就要提到,Meta 眼镜实际价格也只有人民币 2000 多。
作为眼镜,你可能会说,是挺贵的啊。这是 Meta 聪明之处,跟雷朋眼镜的合作也是亮点。雷朋眼镜本来就是轻奢的眼镜品牌,动辄 1000 - 2000 里,本来价格就不便宜。Meta 眼镜的样式算不错的,哪怕没有这些智能的功能,也能有 1000-2000 的价格,那么多点功能,算起来价格就没有太离谱了。
这就是整体来说,为什么 Meta 眼镜能成立:简单,便宜。
扎克伯格曾经说过:「一年半前你问我,什么时候人们会更喜欢使用眼镜作为主力设备使用,我会说,要到眼镜的显示效果足够好的时候。现在,我认为可能有三种路径,其中一种就是无显示屏、只具有人工智能的眼镜。」
这样的眼镜,Meta 也不是首创。Snapchat 旗下的 Spectacles 眼镜也是一样的,发布时间更早,在 2016 年。也同样有闪烁的 LED 灯提醒,同样可以拍照录像。跟 Snapchat 配合,录短视频非常方便。
Meta 眼镜的野心显然就没有 Google Glass 那么大了,它重点强调的也是在 Instagram 的使用。连摄像头的竖屏比例,都是为了 Instagram 服务的。
所以 Meta 眼镜的确更像耳机这样的配件。像华为也有智能眼镜配件,实际上的重点在麦克风和耳机,有语音输入交互,没有拍照录视频。
这是一种大的阉割,也就跟 AR 眼镜区分开了。AR 行业里当然也依然有探索者和好产品,像雷鸟 X2。只是相对影响力没那么大了。
在每个历史阶段,无论是元宇宙还是 AR,无论是区块链还是 AI,在硬件身上,往往都是热门概念基础上的营销话术。Meta 眼镜是款好眼镜,Olaa Friend 也是一款好耳机。但 Meta 眼镜是不是 AI 眼镜?Ola Friend 是不是 AI 耳机?值得思考。
3 AI 硬件,还是能用 AI 的硬件?
仔细思考一下,Ola Friend 和 Meta 眼镜的真的有 AI 功能吗?并不是,他们的 AI 只是调用和唤醒,AI 的信息获取和处理,依然都来自于手机。
当然不能说语音交互方面它们没有做出努力。Meta 眼镜有活活 5 个麦克风,就是为了准确识别「主人」的声音。各路 AI 耳机也都具备一定的降噪和更准确识别语音的技术能力。类似的技术,像华盛顿大学就在研究的「Target Speech Hearing」。不过这些依然是技术解决方案,为了提高效率、提升体验,它们与 AI 的关系并不直接。
说到底,100 块钱的华强北耳机,能不能唤起豆包?也可以。
那么 AI 硬件到底是 AI+ 还是 +AI,就是个有意思的问题。没有 AI 是不是就不成立了,还是有 AI,纯粹是锦上添花。
例如讯飞智能办公本,我之前评测体验过(一款 AI 场景的惊喜硬件产品)。这跟刚才说的讯飞耳机一样,是翻译垂直场景。
另外还有一个产品:Plaud Note。在众筹网站上发布后,已经交付了十几万台,简单说,是一个贴在 iPhone 背面的 AI 录音机。很薄,有点像外挂充电宝那种,可以持续录音 30 个小时。
说到录音,iPhone 的录音不行吗?第一,手机通话不能录音(这个 iOS 18.1 版本提供了,只是会强制提示对方)。第二,可以转文字并翻译。整理成笔记。同时可以跟 OpenAI 的接口联动。
我个人还没用过,据说效果很好。像开会、上课、跟别人聊天,能持续记录和整理信息,就很方便。这跟讯飞智能办公本有点像。
我之前喜欢这个办公本,就是因为专门的设备专门用。设想一下,如果用手机录音,会有很多打扰。这跟用墨水屏电子书读书的逻辑一样。
Plaud Note 之外,还有一个更火的产品 AI Pin,由两位苹果设计师创立的公司 Humane 发布的,他们拿到了新的硅谷教父山姆·奥特曼的投资,含着金钥匙出生。很多媒体直说 AI Pin 就是下一代 iPhone。而媒体风向的变化是随着评测和试用越来越多开始的,体验翻车的比比皆是。AI Pin 的那些评测视频特别出圈,我看过一些。各位也比较容易能搜到。
AI Pin 的概念是,一个很小的方形小盒子,也有摄像头,可以随时拍一下,问问题。比如「告诉我我在看什么」。还有能够直接投影到手掌上,做一些交互。作为硬件的特色是,它可以挂在脖子上,或者贴在胸口,也算是个潮流饰品。
只是在产品方面,最大的问题,慢。有个国外的大哥 Marques Brownlee 的一个视频很出圈,他用 AI Pin 问面前这辆车是什么,在等的过程中,用手机解锁、拍照、识别、查看,得到结论之后,AI Pin 都还没有反应过来。
另外一个 Rabbit R1 也是类似,创始人吕聘老师当年我见过的,是一位奇人。这个设备简单说是一个带屏幕的青春版 AI Pin,比 AI Pin 最大的优势是便宜,200 美刀,而 AI Pin 是 699 美刀。
还有一种新品类是 AI 智能指环,套在手指头上的,功能类似,有的是翻译、转文本等等,跟讯飞那个很像;有的是监控体征的,跟手表很像。指环的特色通常是手指的手势控制。这个也不展开说了,大家应该能体会到,可能面临同样的问题。
不过说起,有一个挺好玩的,在亚马逊上卖的戒指,穆斯林专用的 Muslim Islamic Prayer Smart Rings,用来做仪式的闹钟提醒、指出准确的礼拜方向等等。
前阵子还有一个挺知名的产品,Friend AI 项链,主打情感陪伴、虚拟朋友的概念。几乎没有特别的功能,没有摄像头,只有麦克风。
Friend AI 的宣传片在推特上有 2300 万的播放,宣传片里,一个女生边吃饭边在手机上看剧,Friend AI 还能听到电视里的声音,会说:「这部剧被低估了,太精彩了」。女生一不小心把酱汁洒在了 Friend AI 上,它立马回复:「嗯…味道不错。」
由于全靠声音判断,不知道准确率是不是真能达到宣传片那么夸张,能够准确识别是酱汁滴到了自己身上。而且刚刚所谓的「说话」,其实是通过 iPhone 的通知推送。
这让我想到小时候的电子宠物。不过奇怪之处就在于,既然只是个麦克风的作用,为啥不用 APP?也许是为了能持续打开麦克风。以及有一个实体存在,给人的情感连接更不同?
Friend AI 这类产品还有很多,比如 AI 虚拟手办,怎么说呢,就是个大盒子,触屏的,能够简单做一些交互,里面有个纸片人。这......也是一言难尽吧。
以上总结来看,AI 硬件大概分为三类。
第一类,是手机的延伸。需求是真实的,围绕手机的。比如刚刚说的,在手机不方便打开的时候,耳机和眼镜帮助我们提供手机上的信息,或者记录信息(拍摄 or 录音)。这方面,手表也是类似的作用。
第二类,是独立硬件的垂直场景。比如讯飞和 Plaud Note,是办公专用的记录和翻译的工具。这个类别下,我还看到还有一些更特别的,比如 AI 轮椅、AI 盲人助行器,都还挺有意思的。
第三类,是想要替代手机的可穿戴计算设备,很多主打的是「AI 助理」的概念。听起来很性感,AI 助理也是我们理想中 AI 能带来的未来。可是,扎心的问题是:AI 助理,何必是硬件助理?
4 手机不香吗?
我们为什么还需要另一个硬件?它到底比手机好在哪了?这是个最扎心的问题。我常有这种感受:目前的手机已经做到非常极致的体验了,而这种极致,也扼杀了下一代计算设备的影子。你想,拿起手机,划一下,点击几下,各种操作都能实现,各种信息呈现也都很完整、准确。
对于手机来说,有两个体验极致的重点。
一个是可得性。打开就能看到,随时能从兜里套出来,这点极为重要。Vision Pro 显然是不行的,很容易理解。
可得性也可以在跟折叠屏手机的对比上看得出来。很多人总会认为折叠屏代表着未来,因为看起来折叠屏技术复杂、工艺难,打开就能拥有巨大的屏幕,似乎是体验更好。但实际上这不是关键,不是越牛逼的技术就越代表未来,折叠屏的工艺确实了不起,我自己用过,横向、纵向折叠的都用过,也很感慨如今的技术水平。可是,始终没办法作为主力机,就是每次折叠,实在受不了,看起来小小的动作,就会降低打开的欲望。很多用折叠屏的朋友,外屏使用的频率比内屏还高——那么问题来了,为什么不直接用只有外屏的手机呢?就我而言,iPhone + iPad 的解决方案,还是优于折叠屏。
第二个是确定性,语音交互和语音的准确性。
哪怕 AI 的水平再厉害,在交互方面,也容易出现小问题。平时常用语音输入文字的朋友也知道,每次多多少少会有那么一两个错别字,发给朋友倒还好,对方也能识别出来。但真把语音当成真正的交互,有错别字就意味着意思会理解错,而改错是非常麻烦的。遇到需要确定性的场景,点击操作,还是比语音交互更有效率。因此,除非是手和眼睛不能在手机屏幕的场景下,否则并不需要别的硬件。
语音的交互有个专门的概念,LUI(Language User Interface),现在我们日常使用的是 GUI(Graphical User Interface)。从 PC 到手机都是。LUI 的主要问题还有:无法多线程,无法精准定位,也会有比较大的延迟。如今通过语音跟 AI 对话的节奏,很难做好,交谈的延迟会特别违和,跟人与人正常的交谈差不少。AI Pin 面临的就是这个问题。
对于定位而言,可以类比的是鼠标。鼠标非常伟大,解决了过去光标移动麻烦、需要一点点移动的问题。而声音更麻烦,很难用「你听错了我刚刚说的第三句话的第二个词」来做修正。这点,大家可能对锤子科技的 TNT 有印象。
再说远一点,是不是未来的 LUI 是现在的我们想象不到的?是不是因为我已经 35 岁了,中了亚当斯的科技三定律?
当年英国科幻作家道格拉斯·亚当斯说:
- 任何在我出生时已经有的科技都是稀松平常的世界本来秩序的一部分。
- 任何在我15-35岁之间诞生的科技都是将会改变世界的革命性产物。
- 任何在我35岁之后诞生的科技都是违反自然规律要遭天谴的。
仔细想想,好像也不是。我清楚地记得,高中的时候我盯着铅笔盒,就想象过,这玩意儿要是有屏幕能玩就好了。大屏幕、触控、信息呈现、联网这些,在当年都是可以想象到的。
虽然以前没有智能手机,但可以想象到如果有,会很棒。那我们目前能想象比手机更好的东西吗,可能不是更大的屏幕的手机,折叠屏,不方便;也不是元宇宙,因为纯粹的虚拟世界肯定也不是我们想要的。
至于 AI Pin 想象的随时投屏、XR 领域的增强现实等等技术,如果能达到科幻片中的场景,必然是更好的替代品。但目前还没有看到技术上能达到手机体验的可能性。
还有一个层面,是具身(embody)的问题。微软推出的 Recall 功能很有意思,能够把我们在电脑所有的操作记录下来。未来如果有个可穿戴设备,把我们每天所见所闻记录下来,这个将会是另外一种大杀器。因为手机并不能记录外部世界我们的所见所闻。
这也是黑镜一般的剧情,可以再回顾下第一季第三集。
对于未来,还有很多前辈和年轻人都在努力,我也充满期待。只是当下看到的进展,并没有真让人眼前一亮的产品。
今天而言,手机依旧还是最好的信息时代联网通信、处理信息的终极解决方案。如果科技领域有福山这样的学者,也可以写一本《历史的终结》。乐观点看,这本书写完以后,就可能很快发现并没有终结。
所以每当出来一个新产品的时候,我们就得思考一下:同样的需求,为什么不用手机。像刚才说的,AI Pin 和 Rabbit R1 就是典型的案例。没错,有个屏幕很酷,但是日常使用时,有视网膜屏幕、高性能芯片的手机,速度更快、屏幕更大,为什么不用?
而再说回来,刚才说的「专门设备专门用」的垂直场景,倒是个好的方向。
比如智能枕头,已经有团队做了很多年了。现在就往往不提智能枕头了,提就是 AI 枕头。 比如智能家居,我们都很熟悉的智能音箱。还有儿童玩具,玩偶机器人。还有教育,比如儿童相关的 AI 手表,AI 学习机,AI 学习灯,等等。但是归了包堆,都是硬件本来就成立,AI 更多就是补充,或者至少跟 2023 年至今所说的大模型 AI 关系并不大。
还有 AI PC 的概念,也是在强调 AI,但实际上电脑本来就是 AI 的原生硬件。
还看过一个 AI 婴儿车,能自己开。我也是挺拿不准到底是不是有真实需求的,总觉得,父母可能不会放心婴儿自己在前面走?
有的已经属于纯粹噱头。比如 AI 鼠标、AI 键盘。我在搜集材料的时候搜到一个 AI 鼠标的产品,官方宣传可以「智能生成视频」。这个当场吓到我了,一款鼠标可以做视频?结果看了一下,说是鼠标滚轮长按 5 秒钟,就会出现一个 AI 软件,能生成视频。这尼玛,跟我打开别的软件和网站,有什么区别?那跟鼠标,又有什么关系?
所以说回来,AI 硬件现在也是个没那么实在的概念,并不是一个统一定义的、有明确产品价值的概念。真要说杀手级的 AI 硬件,也有,就在各位自己手上:手机。AI 这把屠龙刀不是在少年手上,是在龙自己手上。
5 撕不开的入口
刚刚说的都是 AI 硬件的观察,并不代表这次 AI 都是泡沫。其实对于非颠覆式的改变,我是很乐观的。我们日常生活工作里,将会有越来越多的 AI 技术。诺贝尔奖都忍不住颁给杰夫·辛顿了,很有意思。(关于人工智能和姐夫·辛顿的故事,可以参见「半拿铁」的人工智能风云录。)
AI 会影响新的互联网入口,但跟 AI 硬件面临的问题非常接近。互联网入口是长期以来的兵家必争之地。最早的入口是浏览器和门户网站,后来是搜索引擎,再后来是手机和 APP。每次都是技术驱动,创造了新的入口。
那么在入口方面,AI 是会颠覆还是会优化。AI 是创造了新的入口,还是让原来的入口更方便了呢?是旁边砸出一个新的门来,还是铁门换成了不锈钢门呢?
我的感受是目前还是后者。
系统级的支持才是绕不过去的。比如 AI 助理最经典的一种演示:「帮我点杯咖啡」。支付宝做了点星巴克的功能,在周鸿祎直播间,荣耀的老板现场也演示怎么点三杯瑞幸。这些都让人眼前一亮。我们在操作手机的时候有一些环节复杂、步骤明确、容错率高的操作,都是可以语音的,是可以 AI 来帮助的。我之前写过一篇文章(从 ChatGPT 看 AI 未来的 7 种场景可能性),在「三五环」播客 104 期也聊过。比如这样的场景:
小 A 打开了手机,说我想知道丝瓜和鸡蛋能做出什么菜来。AI 回复说,搜到了三个点赞量挺高的小红书笔记,还有两篇你经常阅读的公众号的文章,以及三个 B 站上过首页的相关视频。小 A 说现在没工夫看视频,把小红书的笔记的主要流程念给我听。念完之后,小 A 说这个做法太油了,帮我找一个更清淡的做法。AI 再找到另一篇,回复给小 A。
这个系统级的实现几乎是必然的。各个应用都是系统的供给方。而具体系统怎么推荐,比如先推荐美团还是饿了么,比如推荐小红书还是微博,那就是个要磨合的问题了。这将会是个大问题,国内的互联网公司本质上几乎都是广告公司(阿里、字节、美团等等),让他们只提供内容和服务,是不太现实的。犹如在移动时代,搜索引擎很快就被各个供给方给抛弃了一样,没有人想让消费场景都让给别人。
系统级的实现,就意味着强者愈强,入口愈发坚固。现在除了卖水的英伟达,苹果、微软这种大公司是 AI 浪潮里吃得最香的公司。五大巨头,英伟达、亚马逊、Alphabet、苹果、微软,五家的市值,占据了所有科技公司的 65% 的市场份额。
国内也是类似,手机厂商一定都会有 AI,要么自研,要么合作。前几名的原生 AI 应用主要是豆包、文心一言、通义千问等这些大公司的产品。刚刚说的硬件也一样,耳机、眼镜、智能家居,这些跟手机关联的,跟数据和网络需要互通的产品,都是会逐步被大厂生态覆盖的。要么大品牌,要么就是白牌。
还有个有意思的数据《2024年Q3全球AIGC行业月报》,显示前三名是剪映、豆包、美图秀秀。
其实也都是老产品。这也是我这两年的观察:AI 产品面向的都还是过去的场景,那过去场景的产品+AI,是更有优势、更有竞争力的。
真要说不管体验,还是生产力都是在 AI 之前完全无法做到,而等 AI 来了才成立的,非常少。大多数场景下,AI 都是一个杠杆,甚至有时候都没有真正提效,都是噱头。
我们日常中最常用到的 AI 功能,目光可及的未来里,可能还是+AI 的形式。不管是 iOS、安卓这样的操作系统,还是剪映、Photoshop 这样的多媒体处理工具,或者 Office 这样的办公软件,等等,它们的 AI 能力将会越来越强大,而小公司单纯靠 AI 能破局的可能性会比较小,除非一件事情的工作流程完全变掉。
因为对于每个场景来说,老玩家的资产基础好,花得起钱;长期迭代的综合体验更好,新玩家的体验差不足以转移用户。这样形成的用户黏性、商业基础会循环,让老玩家更有壁垒。
AI 还在不断进步,但更多是增程式,不是颠覆式。而对于互联网产品来说,入口太硬了,别人都攥在手里,撕不开。
对互联网产品来说,入口争夺战已经结束了,现在是入口攻城战。它们都有高高的围墙,一般人很难进去。哪怕是美图秀秀这样的小城池,也很难攻打进去。
ToB 又是另外一幅场面,是有很多有意思的机会的。比如编程,GitHub有自己的 Copilot,今年 10 月 ChatGPT 也推出了代码开发相关的产品 Canvas。AI 不一定写代码,但是对于代码这种逻辑性很强、总结的经验又很有用的任务,AI 可以完成代码补全、纠错、写备注等等工作。
我之前三五环聊过蚂蚁的 Codefuse。包括百度,阿里,腾讯,智谱,商汤,字节在内,全都有自己的 AI 代码工具。未来普通人写代码,完全能成立。上次跟王亚辉老师也聊到这件事儿来着,作为多年游戏行业从业者,他对未来小团队甚至个人都能做出很多好玩的游戏这件事,很乐观。
这个趋势是不可逆的。有点像我们过去用画笔,后面会有更好的工具——Photoshop。它不会消灭画师和设计师这个职业,但会重塑行业。
类似的还有,动态捕捉行业、动画行业、影视行业等等,都会有更多 AI 的参与。
6 少谈 AI,多谈体验
AI 已经不是那种宏大叙事。耳机很好,眼镜很好,但就跟我们昨天买的挺好用的键盘一样、挺好用的电视机一样,属于一种个性化的选择了。做 AI 耳机、AI 眼镜也跟之前做互联网产品的门槛低不一样了,需要把硬件本身面临的场景都做透、做好才行。
回到开头说的 Ola Friend,很难说字节靠耳机就能如何如何,也很难说创业公司靠一个小硬件就能颠覆大厂的产品。不讨论宏大叙事,只聊聊 AI 有没有能让我们体验更好的机会,反而可能会打开新局面吧。
想想前面说的 Plaud Note 小工具、穆斯林的小戒指、小朋友用的小手表,都挺好的。还是常说的那句话,大的时代结束了,多看看小的机会。
少谈谈 AI 有多牛逼,多谈谈体验上有哪些机会吧。
怎么看机会,我倒是看到一个好玩的说法,华强北严选。去看看华强北最近在模仿什么产品,晚上工厂运转的时候流水线上都是什么。如果华强北都懒得做的市场,很可能没什么前途。
以上,我聊的是我掌握的情况。大家有建议和批评的,欢迎交流。也希望能对大家有启发。
——
哦对,最后推荐一个歸藏老师的小报童专栏《AIGC 周刊》。这应该是中文世界最好的 AIGC 周刊了。里面都是具体的、实际在发生的 AIGC 的进展,比如最新一期就聊了 Claude 的版本更新、开源的视频生成模型 mochi 是什么,SD 在 3.5 版本做了哪些调整,谷歌、苹果、Meta 等等公司在 AI 方面的最新进展,也推荐了一些近期知名的 AIGC 作品,还有一大堆好文章,非常划算。感兴趣的朋友可以自行关注。