3月25日,OpenAI对GPT-4o和Sora进行了重大更新,提供了全新文生图模型。除了文生图之外,该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能。
OpenAI首席执行官奥尔特曼在周二直播活动中宣布,正式推出基于GPT-4o模型的原生图像生成功能,不再调用独立的DALL-E文生图模型。此前,ChatGPT于2022年底上线时仅支持文字聊天,约一年后集成DALL-E 3图像生成模型,但二者系统独立。而此前AI图像生成器“理解提示词能力差”“无法准确生成图片中的文字”等问题,严重限制了其在教育、职场等领域的应用。
此次升级后,ChatGPT图像生成功能进步显著。它能大致准确按照提示词生成图像中的文本,在生成黑板板书、印刷体、科学常识绘图等涉及图像文字的场景中,从几乎不可用达到接近商用水平。图像编辑功能也更加实用,如可将合照转化为动画画风,根据简单提示词生成相对论漫画彩图,还能根据漫画草稿一键上色、更换主要角色。在商业应用方面,模型可根据用户上传照片和卡片模板自定义生成新卡片,还能基于聊天上下文生成具有一致性的系列图像,这对游戏角色设计意义重大。
不过,OpenAI承认新图像生成器存在局限性,会受到模型幻觉影响,在密集文字和非拉丁语文字图像生成方面易出问题。自周二起,该功能向所有免费和付费用户推出,未来几周内开发者可通过API调用。此次升级无疑为ChatGPT的发展注入新动力,也让人期待其在更多领域的应用表现。