已经分不清网络上的图像和视频是真人还是由 AI 生成的了。
这是我的一位同事在看完最近遭到疯传的 TED 演讲者视频发出的感慨,也是这几天网上数百万人的感受。
不信你仔细看看下面这段视频?
如果不是抱着「知道答案找问题」的心态去审视这些视频,不仅我们难以分辨,就连 AI 识别软件也得懵圈。而这般逼真的效果,很大程度上取决于图片过硬的质量。
此前《劈波斩浪》的导演陈坤也曾提到,和传统电视剧拍摄手法有所不同,AI 视频生成主要分两步走:文生图、图生视频。
经过一番深挖,网友发现这个视频的原照片正是出自 Stable Diffusion 团队的前成员 Leo Kadieff 之手。
他在 linkedIn 揭秘道,这些所谓的 TEDx 演讲者照片其实是由 FLUX+LoRA 制作而成的,过程中甚至不需要经过任何的微调。
他还表示,仅需一个 22MB 的小文件,用户就不必在每个提示词里堆砌一大堆与真实相关的词汇。简单一句「一张 RAW 超现实照片,超高清,8k」就足以解决生成的照片没有人味的问题。
附上 FLUX 体验地址:https://fal.ai/models/fal-ai/FLUX
AI 生成的图片或视频,是否已经真的毫无人味?
短短几天,仿佛潘多拉的魔盒已经打开,越来越多真假难辨的图片/视频正在迅速占领社交媒体。
不信你再仔细观察下面这些照片/视频。
为了避免混淆,网友特意给图片打上了文字标注,看着眼前逼真的图片和「I am not real」的提醒,如此割裂的场景,瞬间让人毛骨悚然。
网友分享了几张「2015 年左右的无聊的 Snapchat 照片」,这看起来像是某个外国友人逝去的青春,但很遗憾,这全都是由 FLUX 生成的。
不过,也有翻车的案例,比如像下面这张在 TEDx 大会上,身着恐龙服装的模特手持麦克风,脖子上挂着 Google 标志挂绳的图片,看着 AI 味就很重。
静态图片也已经进化到 next level 了,搭配可灵 AI、Runway 等视频生成工具,图片就能「活」起来。看看网友这支用 FLUX 和其它 AI 工具协作完成的视频广告,会勾起你购买的欲望吗?
以下视频来源于
AI大舞台
一个播放晚间新闻的主持人就这么水灵灵地生成了
从能引起恐怖谷的「威尔・史密斯吃意大利面」再到如今真假难辨的视频生成,短短不过两年时间,却截然上了一个大台阶。
此外,以子之矛攻子之盾,倘若将图像饱和度调至最高,AI 生成的牙齿就会显得异常诡异,甚至图像色彩整体也极不协调。
一时间,人类仿佛找到了对抗 AI 图片的新大陆。而这个工具正是出自 Claude 之手,堪称用 AI 魔法打败魔法,有杀毒软件和网络病毒互撕的那味了。
那这种方法靠谱吗,别急着高兴,老规矩,我们得先实测一下。比如我随手上传了我身旁同事的真实照片,嗯——怎么看着有些不太对劲?
再将马斯克这张最经典的露齿图上传,把饱和度拉到最大,但仔细看下来,似乎也不太符合上面提到的「牙齿」定律。
不光我这么想,回过味来的网友的质疑声也如潮水般涌向工具原作者的评论区。
有些网友觉得,高质量的 AI 图片在颜色和亮度的平衡上,可能比人类用 Photoshop 编辑得还要好,而这种识别方式明显有失偏颇。
人们通常通过识别图片压缩和颜色变化来判断图片是否由 AI 生成,但这可能是错误的,因为这些特征也可能是由其他因素(如反射表面或光线条件)造成的。
甚至同时放出了人类与 AI 生成图片直观的识别效果,并直接对着作者一顿贴脸输出。
面对网友的一连串质疑,招架不住的工具与作者也不再那么「嘴硬」,承认了这种识别方法存在的一些缺陷。
眼见不一定为实,AI 正在污染我们的生活
正如上面所述,FLUX 正是出自 Stable Diffusion 原版人马之手。
本月初,Stable Diffusion 的原班人马也成立了新公司——Black Forest Lab(黑森林实验室)。其中该公司由 Stable Diffusion 的核心开发者 Robin Rombach 领衔。
公司刚成立,Black Forest Lab 就获得了 3200 万美元的种子轮融资,领投方是著名风投机构 Andreessen Horowitz(a16z),多位业内知名人士也参与了投资。
Black Forest Lab 推出的首个产品便是名为 FLUX.1 的图像生成模型系列,其中包含了专业版、开发者版和快速版三种版本,这些模型在视觉质量、提示词遵循、图像细节和输出多样性等方面都达到了新的高度。
FLUX.1 [pro]:顶级性能版本,提供最先进的提示跟随和图像质量,通过 API 和精选合作伙伴获得。
FLUX.1 [dev]:开源权重、指导精简的模型,适用于非商业用途,提供与 pro 版本类似的性能但更高效。
FLUX.1 [schnell]:最快的版本,专为本地开发和个人使用而设计,基于 Apache 2.0许可证。
据官网透露,文生图的推出仅仅是个起点,未来该公司还将计划推出视频生成模型。当时,前 OpenAI 大神 Andrej Karpathy 也在线送上祝福,称开源的 FLUX.1 图像模型非常强大。
结果不出所料,不到两周时间, FLUX 便掀起了当下的病毒式传播。
与此同时,玩梗的网友表示,已经没有人稀罕那个每天提供两次免费生成图片机会的 DALL·E 3 了,因为现在的 FLUX.1 才是艺术家们永远的神。
而在上周末同期爆火的还有直播版 Deepfake AI 工具——Deep Live Cam。
用户只需一张照片即可在视频或图像中实时换脸,且整个换脸过程仅需几分钟就能完成,无需依赖于任何专用的硬件加速设备。
当不成世界首富,但至少可以顶着马斯克的脸过一把世界首富的瘾,以至于有网友调侃,马斯克一觉醒来,发现自己在全世界直播。
甚至有 Reddit 网友发现,在 Google 浏览器上搜索「贝多芬」图片,排名第一的竟然是由 AI 生成的肖像。
从前段时间曝出的 AI 文字污染蔓延至图片/视频领域,越来越多的信息空间正在被 AI 占领。我们正站在一个令人既兴奋又不安的十字路口。
兴奋的是,假如一张照片就能做到视频换脸或实时换脸,放到一些诸如直播以及等行业来说,这是否意味着人人都是董宇辉的时代正在来临。
甚至不少大牌明星也已经开始向 AI 出售自己的肖像权。
此前,传奇演员布鲁斯·威利斯(Bruce Willis)授权 AI 公司 Deepcake 创建他的「数字替身」,并在未来的项目中使用他的脸和肖像,而威利斯则不必参与任何拍摄或制作。
就这样,在 AI 技术的重塑下,这位 68 岁高龄且患有「失语症」的传奇影星得以以另一种「曲线」形式重返「大荧幕」。
但不安的是,真人演员的原生特质或许也会被逐渐磨灭,成为导演和制片人手中肆意摆弄的乐高,如同流水线一般,一点一点地「拼出」整部影视作品。
在如此逼真的数字形象中,「眼见为实」的常理将遭到严峻的考验。
作为消费者,又该如何去辨认视频中的名人们究竟是自己所认知的人类,还是只是作品制作者手中的「提线木偶」?作为名人,在面对肖像权受到不法侵害时,又该如何证明「我」不是我的人生哲学?
即便是放到最为热议的 AI 诈骗议题上,当 AI 以最亲近的面孔化身收割普罗大众的镰刀,而现有的法律在这紧锣密鼓的 AI 节奏中明显慢了一拍之时,人类又似乎只能束手无策。
若干年后,真实与虚假已然分不清了。
或许在这类技术大规模应用之前,我们只能山不转水转,正如《连线》作者 Jason Parham 曾提出的建议:
让我们拥抱被扭曲,接受生活在图像充满了欺骗性的无常中。我们要保持勤勉,因为未来是一个持续理解和「去理解」,崩塌和重建的游乐场。
附上工具体验地址:
FLUX(生成图片):
https://fal.ai/models/fal-ai/flux
可灵 AI(生成视频):
https://klingai.kuaishou.com/image-to-video/new
Runway(生成视频):
https://runwayml.com/
Elevenlab(配音工具):
https://elevenlabs.io/
识图工具:
https://claude.site/artifacts/6890e3d7-e65e-41ff-a7d4-3ccb38040b46