时隔4个月,OpenAI的图像生成模型真的要更新了。
今日,社交平台X上有消息称,OpenAI正在大模型竞技场 Chatbot Arena上测试新的图像模型GPT-Image-2,使用的代号为maskingtape-alpha、gaffertape-alpha和packingtape-alpha。但目前相关测试已经下线。
目前,GPT-Image-2 已经开始向部分 ChatGPT 用户进行灰度开放。
网友们的激情被瞬间点燃,纷纷下场测试GPT-Image-2的实力到底几何。
有人将其与Nano Banana Pro做对比。
有人直接用它让奥特曼和马斯克达成了世纪大和解。
黄色滤镜终于消失了
OpenAI的图像生成一直有一个被广泛吐槽的问题,"黄色滤镜"。
这个问题从DALL·E时代就存在了。用户生成的图片普遍偏暖,有一层淡淡的黄色调,像是加了一个复古滤镜。在GPT-Image-1(也就是ChatGPT当前内置的图像生成模型)中,这个问题有所改善但没有彻底解决。很多用户抱怨:明明想要冷色调的科技感场景,出来的图片却总带着一层温暖的光晕。
但经过用户实测,这个问题在GPT-Image-2上得到了解决。
文字渲染能力质变
如果说色彩问题是一个持续的小烦恼,那文字渲染就是AI图像生成领域的一道历史性难题。
前代的很多AI图像模型都有一个共性问题,生成一张海报,文字部分大概率是乱码;画一个店铺招牌,上面的字母像是在发高烧时写的。
这就是扩散模型(Diffusion Model)架构本身的短板。扩散模型在生成整体视觉结构方面表现优异,但由于图像生成过程基于概率采样且缺乏对符号结构的显式建模,在生成需要精确字符结构的文字时往往表现不稳定。
但到了GPT-Image-2,这个情况终于得到了改善。
这是一张用GPT-Image-2生成的一个拥有各种语言电子广告牌的赛博朋克世界。
它还能生成网页截图。
生成一张解剖图,各个部位的名词标注清晰可见。
更让人惊叹的是这张手写笔记,它不是印刷体的文字叠加在图片上,而是看起来真的是用笔在纸上写的,毫无违和感。
但目前,GPT-Image-2在文字渲染能力上也不是完美的。有用户用GPT-Image-2生成了一幅李白《静夜思》的草书作品,最后的结果草书含量不高,落款印章的印字有点不明觉厉,甚至还多了一句。
但一个AI模型能渲染出中文书法,笔画之间还有连贯性,整体有书法的美感,这需要模型对中文字形结构有极其深入的理解。
人像真实感升级
有网友说:“判断你用的是ChatGPT-Images-1.5还是2的最快方法:生成一张Sam Altman的自拍。如果看起来真的很像他,那就是2;如果只是像下面这张图一样粗略的近似,那就是1.5。”
相较于1.5,GPT-Image-2所生成的人像在皮肤质感上有了质的飞跃,眼尾的皱纹、胡须、皮肤质感、发丝光影都精准还原。
过去的几个月里,谷歌凭借Nano Banana占据了真实感和文本渲染的制高点,但从今天流出的GPT-Image-2测试结果来看,图像生成模型的格局可能真的要被改写了。(AI普瑞斯)