又是一个OpenAI刷屏的日子!就在昨天,OpenAI突然宣布在GPT-4o中集成了迄今为止最强大的图像生成器,并向所有用户开放使用。这一新功能不仅能精准渲染文字,还支持多模态输入输出,理解复杂指令并结合上下文,堪称AI图像生成领域的一次革命。
先看看网友们,通过GPT-4o生成的吉卜力转绘

手快的人已经开始在闲鱼接单了。。。

GPT-4o生图能力大幅提升,一句话就能P图
首先来看GPT-4o的新功能。这次OpenAI给GPT-4o加上了原生的图像生成能力,而且效果相当惊艳。最令人震撼的是它超强的指令遵循能力和一致性表现。

指令遵循能力大幅提升
GPT-4o可以处理包含10-20个不同物体的复杂场景,并能准确地将指令与图像细节关联起来。比如:“只有一滴红酒的空玻璃杯”

“看不见的大象”(通过环境细节暗示大象存在)

“4步图解如何撸猫”

这些复杂的指令,GPT-4o都能精准执行。
多轮对话实现精细修图
最厉害的是,GPT-4o支持通过多轮对话来逐步完善图像。用户只需在对话中提出修改要求,无需任何额外操作,GPT-4o就能精准修改图像细节,同时保持内容一致性。
比如让它把一只橘猫放进魔兽世界场景,然后再生成PNG透明版,GPT-4o都能完美执行。

超强的风格迁移与知识运用
GPT-4o还能轻松实现各种风格的图像生成,比如用莫奈的风格画一只猫。更厉害的是,它能将大语言模型的知识融入图像生成中。比如直接生成可用的鸡尾酒配方图,或者制作披萨的分步指南。

仍有一些局限性
当然,GPT-4o的图像生成也存在一些限制:
- 长图像可能出现剪裁问题
- 有时会产生幻觉,胡编乱造
- 难以准确渲染超过20个不同概念
- 非拉丁语言(如中文)文本渲染不够准确
- 密集文本下效果欠佳
免费用户,有一定限制,想要畅快体验的话还是要升级plus,可以使用虚拟卡去充值plus:https://yeka.ai/i/XIAOTONG5
总的来说,这次更新让GPT-4o的图像生成能力有了质的飞跃。不少网友惊呼:“PS真的要被淘汰了?”虽然还为时尚早,但AI在图像处理领域的进步确实令人瞩目。
这场技术海啸面前,拒绝进化的人终将被拍在沙滩上。立即打开ChatGPT输入你的第一个指令——记住,未来属于会下命令的人,而不是只会点鼠标的人。