首页   

AI 画画又快又好,那 AI 到底是怎么画画的?

科普中国  · 科学  · 4 小时前

主要观点总结

文章介绍了人工智能在图像生成领域的应用,包括GAN、Stable Diffusion等技术,以及跨模态检索技术在图像和自然语言处理中的应用。文章还讨论了AI图像生成技术的广泛应用,包括在美术、社交媒体、娱乐等领域的使用,并指出了对AI生成内容的一些担忧和法律问题。

关键观点总结

关键观点1: 文章介绍了人工智能在图像生成领域的最新进展,包括GAN和Stable Diffusion技术的应用。

文章中详细解释了GAN的工作原理,包括生成器和鉴别器的交互过程,以及如何通过训练生成逼真的人像和其他风格的图像。此外,文章还介绍了Stable Diffusion模型的工作原理,以及它如何应用于图像生成。

关键观点2: 文章强调了跨模态检索技术的重要性。

跨模态检索技术能够将不同形式的数据(如文本和图像)进行关联对应,这使得AI能够根据我们输入的文本信息生成图像信息。这项技术在图像生成、多媒体搜索等领域有广泛的应用。

关键观点3: 文章讨论了AI图像生成技术的广泛应用和潜在问题。

AI图像生成技术已经广泛应用于美术、社交媒体、娱乐等领域。然而,也有人对AI生成图片和视频的真实性表示担忧,担心它们可能被用于诈骗或造谣。文章指出,许多AI公司已经开始对提供的AI服务做出限制,同时许多国家也开始考虑制定针对AI生成式内容的法律法规。


正文


欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!


人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。


快跟我们一起开启这场 AI 之旅吧!









先来看视频:



以下为文字版本:

(阅读大约需要 5 分钟)


这是一位英国小女孩苏珊,这是她的爸爸,亚当。在这对父女的照上有一个相同点,仔细看一看他们的照片,你能找到这个共同点吗?


AI 生成图片


好吧,揭晓答案。共同点就是,这两张照片都是 AI 生成的,没有什么苏珊和亚当父女,他们的身份是瞎编的。


看到这样的照片,你可能会觉得有点惊讶,毕竟在过去,游戏、动画电影里的人物做的再逼真,还是能一眼看出这是 AI 合成的人像。但现在这两张图片上的人,看着几乎跟真人差不多。


除了生成人类照片,AI 还可以根据我们的需求画出各种各样风格的照片。今天这一集,我们就来说一说 AI 是怎么样画出这样的图片的?


生成式对抗网络


AI 生成图像的背后,有一项非常重要的技术——GAN。


GAN 是 Generative Adversarial Networks 的首字母缩写,意思是生成式对抗网络。它是 2014 年,伊恩·古德菲洛和他的同事一起提出的。GAN 听起来很高大上,但它的原理其实非常好理解。


假如我们要建立一个 GAN,专门画人脸照片。在这个网络里面,有两个重要的成员,生成器和鉴别器。


生成器的任务就是负责生成人像图片,这些生成的图片,会和真人的照片混在一起,让鉴别器去做判断。鉴别器要识别出,哪些是生成器生成的,哪些是真正的人类照片。


如果生成器生成的照片如果骗过了鉴别器,那么生成器就得分,反之就是鉴别器得分。


可以想象,最开始的时候,生成器生成的照片其实非常简单,放在真实照片里面一眼就能看出来。


但随着成千上万次的学习训练,生成器生成的图片会越来越接近真实的人类照片。在这个过程中,鉴别器为了得分,也需要提升自己的鉴别能力。


而为了骗过越来越聪明的鉴别器,生成器又要继续提升自己的能力,就这样,经过几千万次的训练,AI就能画出极其逼真的人像了。


图库版权图片,转载使用可能引发版权纠纷


当然了,除了画人像,人们也可以让 GAN 去画不同风格的图像。


比如让 GAN 生成毕加索风格的画,那它的鉴别器就不再需要判断图片是不是像真人了,而是需要判断出哪些图片是毕加索的真迹,哪些是 AI 生成的作品,在这样的训练下,就可以画出不同类型风格的图片了。Style GAN 模型做的就是这件事。


除了 GAN,还有一种图像生成技术——Stable Diffusion。最近比较火的 MidJourney 就是通过这种模型生成的。简单地说,Stable Diffusion 能够将一堆杂乱无序的噪声图像一步步去噪声,最终生成预期图片的过程。


当然了,我们今天熟悉的图像生成软件还有一个很重要的功能,根据自然语言描述的内容生成图像。


这个过程可不简单,但幸好有两项技术,让这件事成为了可能。


首先是图像识别技术。在过去几十年里,无论是自动驾驶、还是搜索图片中的物品,它们都依赖于 AI 对图像上内容的识别。在这个过程中,人类已经对大量图片上的内容进行了标注,并且用它们训练 AI,让 AI 能够识别出各种各样的东西。


另一项重要技术,就是自然语言识别了。在过去几十年时间里,人们也一直在想办法让 AI 看得懂我们写的字,了解我们在说什么。这让 AI 能够更好地理解我们给定的文本的含义。


当你说“树上有只猫头鹰”的时候,计算机能够知道你说的是一种鸟,而不是树上有一只“猫”一个“头”,外加一只“鹰”。


在图像识别和自然语言处理技术日趋成熟之后,一种叫做跨模态检索的技术出现了。


模态说的是数据的存在形式,比如文本、图像、视频等形式。跨模态检索能够将不同模态的数据进行关联对应,比如将文本中的“杯子”和图片中杯子的图像建立关联。


在跨模态检索技术的帮助下,AI 就可以把我们输入的文本信息转化成图像信息了。


在今天,基于 GAN、stable diffusion 的 AI 图像生成技术已经有了非常多的应用。除了在图像生成上,在生成音乐、视频、文字生成上面都有极其广泛的应用。


甚至从 2022 年末开始,很多公司就放出风声,要用 AI 画师代替人类画师。而在各种各样的社交媒体上,我们也可能看到 AI 生成的图片和视频了。


当然了,对于 AI 生成图片、视频之类的事情,有一些人也表示了担忧,毕竟,它们生成的照片视频实在是太逼真了,有些不怀好意的人,可能会拿这些照片进行诈骗,或者造谣生事。


很多 AI 公司也考虑到了这一点,开始对提供的 AI 服务做出了一些限制。而很多国家也纷纷开始考虑,要完善对 AI 生成式内容的法律法规。


相信随着规则的健全以及技术的进一步发展,AI 技术给我们带来的利会远远超它们的弊,AI 终将会更好地为人类服务。



策划制作

本文为科普中国-创作培育计划作品

出品|中国科协科普部

监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

作者丨北京云御纪文化传播有限公司

审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授

策划丨符思佳

责编丨符思佳

审校丨徐来 林林


相关推荐

1.它被国外评为最具营养活力的蔬菜,但我打赌 90% 的人没吃过

2.长得像姜但比鸡腿还好吃!这个小众食材突然爆火,谢谢广东人!

3.越来越多人查出甲状腺问题,是熬夜、压力大导致的?

4.最不该玩手机的时间,其实不是睡前

5.一种咖啡因含量比咖啡还高的饮品,很多人喝了就失眠


本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷
原创图文转载请后台回复“转载”


点亮“在看”

一起涨知识!

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com