演讲图片“以假乱真”的Flux成文生图模型新王记者实测
微卷长发披肩,面带露齿微笑,可以清楚看到眼角的褶皱、嘴边的酒窝以及细微的碎发,再加上颇有现场感的谷歌挂牌和舞台光,任谁看,这都是一位精英女性正在台前演讲的图片,拍照师选择的角度不错,捉住了她演讲中的出色刹时。
Flux天生的“Ted演讲”图片。

但现实上,这张图片完全由“Flux”系列年夜模子天生,该年夜模子已经在GitHub上开源,任何人都可以去测验考试使用,该模子的研发公司黑丛林本年8月方才创建,开创人是引导环球有名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach)。
8月13日,新京报贝壳财经记者测试了Flux的后果,发现作为开源模子,其天生写实类图片的质量和后果可谓业界一流,此外还能正确天生英笔墨母,消耗算力较低,不外多次天生依然会呈现手指等细节的差错,此外该模子也无法正确天生汉字。
“Flux和SD都是一样的diffusion扩散模子,但分歧的是Flux基于Dit架构的模子,整体后果优于传统Unet架构的模子(SDXL,SD1.5等),尤其是在对提醒词的语义懂得上会有很年夜的晋升,但对运行的硬件门槛要求也比拟高。”8月13日,拥有本身文生图模子的AIGC创作者DynamicWang(下称DW)在接受新京报贝壳财经记者采访时表现。
实测:“通俗版”能天生超写实人像 测试12次呈现2次手指差错
据相识,Flux拥有高达120 亿个参数,是以可以提供与文生图范畴的头部模子Midjourney相媲美的视觉后果,其包含三个系列模子:Flux Dev、快速版本的Flux Schnell,以及Flux Pro.,此中前两个模子已经开源,任何人都可以使用。
8月13日,新京报贝壳财经记者使用Flux Schnell版本进行了实测,输入“脖子上佩带新京报工牌,手举发话器在奥运会现场采访的女记者(英文)”后,Flux Schnell用时几秒钟就天生了图片。可以发现,不仅女记者、手持发话器等均被正确懂得且质量靠近实景,其还正确天生出了工牌上的新京报英文“The Beijing News”。
新京报贝壳财经记者使用Flux Schnell模子天生的图片,图中记者工牌显示为新京报的英文。
不外,相比真实的照片,Flux Schnell天生图片的后果依然存在不少漏洞,如记者进行的12次天生中有2次图片呈现了人物的手指数目差错,记者试图让其天生中文时,其天生的图片呈现了乱码,显然其无法懂得中文。
另外,AI天生的人物的皮肤过于滑腻,当记者将AI天生的图片混入通俗照片并随机请网友评价时,对方固然并未看出图片为AI天生,但表现该人物“磨皮比拟严重”。
但在总体上,记者体验后发现,Flux确切在天生图片的光芒质感、敌手指发丝等细节的处置、对笔墨的懂得以及对提醒词的懂得上做到了令人惊艳的后果,也难怪其会在浩繁文生图年夜模子中脱颖而出。
据相识,Flux Schnell是专精运行速率的蒸馏版本,模子平台还给出了每次天生耗费的详细算力价钱:1美元可以天生333张上述记者测试天生的图片,显然其不但在机能上,在本钱上也有相称的上风。
今朝,因为Flux Pro依然闭源,记者还无法测试,但显然其机能会比Flux Schnell加倍优秀,是以有不少外国AI圈内子士惊呼,Flux系列年夜模子将成为文生图视频的“新王”,且开源还令其比Midjourney更易于使用。
DW奉告记者,Flux的训练参数目也是相称伟大的,但相对应的便是它要运行的硬件门槛相较于SDXL等之前的文生图模子晋升得也异常高,无论是训练照样推理,都必要极高的显存与算力,“以是从我的概念,对付开源社区来说,越高的参数目意味着这不再是小我玩家和创作者所能微调的量级”。
开创团队黑丛林试验室:8月方才成立 但成员年夜有来头
新京报记者阅读Flux的开发团队“黑丛林试验室”的官方社交平台发现,该团队8月1日方才创建,开创人是引导了环球有名文生图开源项目Stable Diffusion的罗宾龙巴赫(Robin Rombach),其他开创团队成员则年夜多是从AI始创公司 Stability AI去职的工程师。
黑丛林试验室在社交平台表现,“我们深深植根于天生式 AI 研讨社区,致力于开发和推动用于图像和视频等媒体的最先进的天生式深度进修模子。”
该公司表现,其使命是为媒体开发和推动最先进的天生式深度进修模子,并推进发明力、效力和多样性的界限。为了实现这一目的的第一步,他们宣布了 Flux.1文本天生图像模子套件,其在图像细节、提醒相应、作风多样性和场景繁杂性方面界说了文本天生图像的新前沿。
黑丛林试验室称,Flux.1 模子采纳了其称之为“多模态和平行扩散 Transformer 块的混合架构”,使得其比之前的扩散模子更进一步,交融了流匹配和其他优化技术。
黑丛林试验室方面晒出图表称,其 Pro 和 Dev 模子是迄今为止最好的图像天生器,而其相对较弱的 Schnell 版本(即记者测试版本)固然未超出 SD3-Ultra 和 Ideogram,但也超出了 Midjourney v6.0 和 DALL-E 3(HD)。黑丛林试验室称,Flux.1 (schnell) 是迄今为止最先进的少步模子,不仅在其种别中表示精彩,还超出了壮大的非蒸馏模子。
今朝,黑丛林试验室已经得到了3100万美元种子轮融资,以及Brendan Iribe、Michael Ovitz等着名投资者的支撑。此外,Flux火爆风也吹到了海内,魔搭社区已经第一光阴上架了Flux模子,百炼平台也上线了首个Flux中文优化版,可更好地舆解和执行中文指令。
新京报贝壳财经记者 罗亦丹
编纂 岳彩周
校对 刘军