欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!
人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。
快跟我们一起开启这场 AI 之旅吧!
先来看视频:
以下为文字版本:
生活中,AI 图像识别无处不在。
看到不认识的植物?拍张照片,分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样,能轻轻松松判断出,哪里是道路,哪里是树木。人脸识别技术,也让我们实现了刷脸支付。
而这一切,都离不开一项技术——卷积神经网络。这项技术,就像 AI 的眼睛。
想了解 AI 的眼睛是怎么工作的,我们先要看一看动物的眼睛是怎么工作的。
20 世纪 50 到 60 年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了研究,他们发现,在一幅画面进入猫的视野之后,猫大脑中负责视觉的神经元,被不同的东西激活了。为了方便理解,我们看个例子。比如这样一幅画面,有的神经元对画面中物体的边缘线条非常感兴趣,会着重处理这些信息,有的神经元对大块的颜色比较敏感,更擅长处理这些信息。这些神经细胞一起工作,帮助生物识别各种复杂的图像。埃德加·德加 《去外省的赛马场》(At the Races in the Countryside)1869
这项研究,让大卫和托斯坦获得了 1981 年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法,卷积神经网络。在 1980 年代,日本科学家福岛邦彦设计了一个叫做 Neocognitron 的模型,用来识别日文手写字符,Neocognitron 中有不同的“层”,用来提取对不同的信息,最后综合这些信息对识别到的字符进行判断。这启发了一位叫做扬·乐昆的法国科学家,扬·乐昆设计出了最早的卷积神经网络,并且基于卷积神经网络,建立了 LeNet 模型。这个模型在当时被很多银行用来识别手写字符。我们通过一个简单的例子,来看看卷积神经网络是如何工作的。和神经网络相比,卷积神经网络在识别图片的时候,多了两个过程:卷积和汇聚。一张图片,在计算机的眼里,其实是一个个像素点组成的矩阵,卷积核不是单独去考虑每一个像素点上的信息,而是同时对某个区域,比如 3×3,5×5 的像素点信息进行处理。这样可以综合考虑相邻像素点的信息,更好地提取出更高级特征。你可以想象一下,卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片,把看到的信息处理记录下来。而且我们可以设置有不同侧重点的观测员,以提取图片中的不同维度信息。比如,有的观测员着重提取颜色信息,有的着重提取物体边缘轮廓信息,有的专门提取某个特定形状的信息。最后综合这些信息,帮助神经网络做出更好的判断。此外,卷积神经网络还有一个重要的步骤——汇聚(又称池化)。图片往往是一个非常大的矩阵,汇聚能够把一块区域里的信息压缩成一个信息。假如,对一个 16×16 的矩阵,可以通过汇聚的方法,提取 2×2 格子里颜色最深一格的信息,就能把它变成这样的 8×8 的矩阵。如果再进行一次相同的汇聚,就可以把 8×8 的矩阵,变成 4×4 的矩阵。虽然图像汇聚后会有一些变化,但是依然保留了整个图像中的基本特征。卷积和汇聚,让卷积神经网络能够非常好地对图片信息进行提取,对于图像的学习处理效率上有了非常大的提升。当然,卷积神经网络也会使用跟神经网络一样的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。那么,AI如何改变一些行业的生态?接下来的几集中,我们将一同探究。本文为科普中国-创作培育计划作品
出品|中国科协科普部
监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
作者丨北京云御纪文化传播有限公司
审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
本文封面图片及文内图片来自版权图库
转载使用可能引发版权纠纷
原创图文转载请后台回复“转载”