随着OpenAI的12天活动渐入尾声,人们的热情却已悄然消退,这种零星发布的方式确实让人难以理解。与此同时,谷歌的新产品却持续吸引着公众的目光。不仅是其视频生成技术Veo 2在多个维度超越了Sora,更值得关注的是与我们日常使用更为密切的Imagen 3。作为谷歌第三代图像生成模型,Imagen 3在多个方面的表现已经不逊于,甚至超越了Midjourney和DALL-E 3。
在此前发表的《谷歌的Gemini 2.0强到不行?谈谈我的体验及感受》一文中,我详细探讨了Gemini 2.0的卓越性能。值得一提的是,Imagen 3与Gemini的深度融合更是令人印象深刻。相比其他主流图像生成模型,Imagen 3的使用门槛显著降低。用户只需访问gemini.google.com/app便可直接体验,无论是免费版的1.5 Flash模型还是2.0 Flash Experimental Preview都可轻松使用。
更为便捷的是,在gemini.google.com/app平台上,图像生成功能已经无缝整合到对话模型中,用户无需特意选择特定模型即可开始创作。这不仅提升了用户体验,也清晰展现了谷歌在多模态大模型发展方向上的战略布局。
# ImageFx 上面使用 Imagen 3
除了在 Gemini 上面使用,也可以在谷歌的 ImageFX 平台上面进行使用,Image FX 是 Google Labs 推出的一款人工智能图像生成工具,它允许用户通过文字描述来创建独特的图像。其使用方式也非常简单,并没有什么门槛。相比使用 Gemini 来生成图像,ImageFx 平台上面使用 Imagen 3 生成的图片明显效果更好,而且也支持多种参数的调节。
比如做一个简单对比,首先生成一张展现细节和照片级真实感的图像,使用如下 Prompt :
A cinematic scene of a modern glass atrium during golden hour, with dramatic light rays filtering through the glass ceiling, creating complex light and shadow patterns on the marble floor, rich warm colors, photorealistic architectural photography style
在 Gemini 上面生成结果如下
对比 ImageFx 上面生成图片如下
并且,ImageFx 也相当智能,针对我们给出的提示词,识别除了一些关键点和对应可以修改的风格等。点击对应黄色标出的可以直接选择其他不同的风格。
比如当前是现代风格,我们改为 medievel 即中世纪风格,重新点击 Create。
整体的质量,真实感以及细节,给人的感觉都非常好,并且 ImageFx 的生成速度非常快。
在 ImageFx 上面,还可以针对 seed 进行记录和调节,这对于后续创作和调节有着非常重要的作用。有关 seed 的使用技巧和理解如下。
- 理解 seed 的作用
- seed 是图像生成的随机种子,使用相同的 seed 和提示词可以生成相同的图像
- 当你找到一个满意的图像效果时,记录下这个 seed 值很重要
- 高效利用 seed
- 当你生成了一张满意的图片,可以保存它的 seed 值用于后续创作
- 使用相同的 seed 但略微修改提示词,可以生成风格相似但内容不同的图像
- 这对于需要创建一系列风格统一的图像时特别有用
- 实验和迭代
- 可以通过微调 seed 值(比如在当前值上加减一些数字)来探索相似但略有不同的效果
- 记录下产生好效果的 seed 值范围,这样可以在这个范围内继续探索
- 创作技巧
- 对于特定类型的图像(如人像、风景等),可以收集一些效果好的 seed 值
- 在使用保存的 seed 时,可以结合不同的提示词来获得新的创意效果
- 如果想要完全不同的效果,则使用新的随机 seed
- 工作流程建议
- 建立一个记录系统,记下优秀作品的 seed 值和对应的提示词
- 可以给不同风格或类型的 seed 值分类整理
- 在进行商业项目时,这种系统化的方法特别有用
在 ImageFx 上面,可以对 seed 进行锁定和解锁,当我们锁定 seed,对上面的 prompt 进行少许调整,将地板改为木地板。便会生成与之前相当接近的风格,但是地板已经变成了木质地板。
大概总结一下,Imagen 3 目前的主要优势如下:
- 图像质量方面:
- 更好的细节表现
- 更丰富的光影效果
- 更少的图像伪影
- 更准确的纹理呈现
- 更好的视觉连贯性
- 技术特性:
- 与 Gemini 多模态模型深度集成
- 支持多语言生成
- 内置 SynthID 数字水印技术
- 更强的提示词理解能力
- 更好的构图能力
- 功能改进:
- 支持更复杂的场景生成
- 更好的人物生成能力
- 提升了艺术风格的还原度
- 更强的视觉连续性
- 支持更多的创意控制选项
与目前主流的 Midjourney 、DALL-E 3 以及 Stable Diffusion 相比,虽然某些方面可能还有差距,但是已经有了自己的优势,尤其是在照片级质量和企业级应用上面。 并且结合 ImageFx,创作 AI 绘画也更加简单和方便了。