首页   

AI文生图最大问题不存在了,最新Gemini 2.0指哪改哪,网友已经玩坏了 | 附指南

APPSO  · app  · 昨天

主要观点总结

本文主要介绍了Gemini文生图模型的更新,该模型在文生图的可控性和用户体验方面表现出色。文章详细描述了Gemini模型在局部修改、视角改变等方面的功能,并提供了使用技巧。同时,文章还提到了Google最新图像生成模型Imagen 3的一些功能,并对比了Gemini与Imagen 3在可控性方面的差异。

关键观点总结

关键观点1: Gemini文生图模型的更新突破了可控性的限制。

文章介绍了Gemini模型的更新及其特点,指出该模型在文生图的可控性和用户体验方面表现出色,率先突破了可控性的限制。

关键观点2: Gemini模型具有强大的局部修改功能。

文章通过实例展示了Gemini模型的局部修改功能,能够精准地根据指令修改图片的局部,并保持其他部分不变。

关键观点3: Gemini模型支持视角改变。

文章提到Gemini模型还支持改变视角,这对于短片故事板、产品多视角展示等非常有帮助。

关键观点4: 使用Gemini模型时需要注意一些技巧。

文章提供了一些使用Gemini模型时的技巧,如指令要简单直给,注意模糊指令的方式,以及进入Studio后的基础设置等。

关键观点5: 文章最后提到了招聘伙伴的信息。

文章最后提到了招聘信息,包括简历投递邮箱和岗位信息链接等。


正文

最近的热点实在太多了,当 Gemini 的文生图模型更新出来时,原以为只是平平无奇的小更新——万万没想到,属实是个大招。
在此之前,要么用 Stable Diffusion,要么走回 Photoshop 老路,反正还没有哪个模型,可以用如此简单的对话,就完成如此精细的修改。
Gemini 率先突破可控性这件事并不令人意外,二月时,Google 就推出了最新一代的图像生成模型 Imagen 3,当时就强化了提示词的跟随功能。
当时还只面对付费用户,现在在 AI Studio 中已经可以看到更完整丰富的呈现。可以说,在目前文生图的可控性程度,以及相对应的用户体验上,Gemini 的确做到了无人能出其右。
下面我们会具体解释为什么这样下结论。同时在测试过程中,我们也发现了一些使用技巧,一并奉上。
可控性不好?不存在了
诚实的说,单纯讲生成还是有一点不稳定,但是 Gemini 2.0 Flash Experimental 展示出了堪称逆天的修改可控性。
下面这组花田图里,使用了 Imagen 3 的官方实例:Impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet。
中间的修改提示词,是为了把天空换成蓝绿色:turn the clouds at the back of the picture in to blue-greenish color
注意看中间圈出来的地方,花田和天空过渡处的油彩,基本没有变化——模型充分理解这个修改提示词里「局部改色」的意图,只对天空局部改动,其它任何地方都保持了不变。
接下来这组城市街景的例子更明显,生成提示词:generate a Tokyo street crossroad, cars passing the traffic light and people walking around
细部有些地方还是不太能看的,生成这一步的不稳定性还是没有被完全驯服。真正有惊人改变的,是细部的指令跟随。
「我想要变成夜景」「街上应该有灯光」,提示词可以非常直给就完成修改。来感受一下四轮对话之后,形成的整体变化对比。
四张图渐次展示了城市从白天、黄昏、傍晚、再到夜晚的样子。而在四轮对话中,说改车就改车,不说改动行人就保持原样——不可控性不存在了!
Tip:生成+修改最稳定
局部修改的功能,如果是在现有图片上改动,效果没那么好,比较粗暴。下面是两张现图改夜景的例子。
最稳定的组合是从生成到修改,一条龙完成,在后续的修改里可控性就更高。
整体变化,一句话完成
除了局部改动,还可以改动视角,这也是非常实用的功能。对于短片的故事板、产品多视角展示,都相当有帮助。
产品图的修改真正做到了随心所欲。
要描述的是图片最终的样子,而不是修改图片的过程
Gemini 理解模糊指令是没问题的,只是需要注意一下模糊的「方式」。
比如想变换镜头视角,要描述的应该是最后形成的结果,如「从左边拍摄的样子」,而不是「镜头移动到左边」。这毕竟还是一个静态文生图,并不能呈现镜头移动。
换句话说,指令越简单直给反而越好。
一进入 Stduio 还有一个官方示例是做一张生日卡片,可以直接尝试。不过,想要更高的可控性,最好复制粘贴了之后,自己新建一个对话。
接下来我修改了里面的元素,花朵被替换成星球,再简单做个 3D 效果。
然后,我对 Gemini 给出了那个最震撼的指令:我要五彩斑斓的黑
等待时间来到了一百多秒😂 在等待的过程中,还有两个必须提醒的地方:
一些基础设置必不可少
进入 Studio 之后,需要在右侧 Model 一栏,选择最新的 Gemini 2.0 Flash Experimental。
成功进入后,记得左侧的 Library 一栏,设置一下账号关联生成 Library,否则有可能无法保存会话
最后来看下, Gemini 想明白了怎么改黑色了吗?
500s 过去了,毫无动静——AI 还是理解不了五彩斑斓的黑啊!


我们正在招募伙伴

📮 简历投递邮箱
hr@ifanr.com
✉️ 邮件标题
「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com