NanoBanana,OpenAI你学不会

来源: 投资界 阅读量:10281次 时间:2025-12-24 16:12:53   

奥特曼向OpenAI的全体员工发了一封内部信,他坦言道,虽然OpenAI仍处于*地位,但是谷歌正在缩短差距。并奥特曼也承认,正是由于谷歌最近一系列的产品发布,为OpenAI带来了不小的压力。

事实也正如奥特曼所言,谷歌这次带来的,除了赢得满堂彩的Gemini 3 Pro,还有让整个AIGC圈震撼的Nano Banana Pro。在此之前,所有生图模型的底层逻辑都是临摹世界。通过海量的数据库,寻找最接近描述的图,将其拼凑给你。

而Nano Banana Pro的出现,则彻底打破了这个规则。它并不是在“画图”,而是在“模拟物理世界”。其*的突破在于,引入了思维链推理机制,先让模型进行思考,再去画图。

在落下*个像素之前,模型会先在潜空间内进行逻辑推演,计算物体的数量、确定光影的投射角度、规划空间嵌套关系。它不再依赖文本作为中转站,推理结果直接以高维向量的形式指导像素生成。

那么问题来了,为什么OpenAI开发不出Nano Banana Pro?

01

在回答问题之前,不妨先看看Nano Banana Pro,它和OpenAI现在生图主要使用的GPT-4o到底有何区别。

以“三个苹果”的生成任务为例,提示词为:“左侧苹果带有咬痕,中间苹果附着水珠,右侧苹果呈现腐烂状态”。面对这一指令,GPT-4o通常会迅速生成一张色彩明艳、构图*的图像。

但在细节核验时往往暴露出概率生成的缺陷,中间苹果上面的水珠其排布不符合客观规律,而右边苹果的腐烂看起来又过于刻意。

相比之下,Nano Banana Pro输出的图像不仅数量精确,且每个对象的属性都严格对应——左侧的缺口、中间的折射光感、右侧的氧化纹理,均被精准还原。

这种表象差异的背后,是两条截然不同的技术路径。

GPT-4o的生成机制本质上基于统计学相关性,它在海量训练数据中检索“苹果+咬痕”的视觉特征,并通过概率分布进行拼贴与融合。它并未真正理解“三个”的数量概念,也未构建“腐烂”的物理模型,仅是根据高维空间中的特征距离进行近似匹配。

而Nano Banana Pro引入了思维链机制,将图像生成过程从单纯的“像素预测”升级为“逻辑推演”。在落下*个像素前,模型内部已完成了一轮符号化的规划:首先确立实体对象(Object 1, 2, 3),随即分配空间坐标,最后绑定物理属性。

针对“咬痕”,它推演的是几何形态的改变;针对“水珠”,它计算的是光学反射与折射的物理规律;针对“腐烂”,它模拟的是材质属性的演变。这是一套从语义理解到逻辑规划,再到执行生成的全链路闭环。

这种机制在处理涉及物理规律的复杂场景时优势尤为凸显。

提示词“窗台上的半杯水,阳光从左侧射入”。

而具Nano Banana Pro会先行计算光源向量,推导阴影投射方向以及液体介质的光线折射率。这种基于物理常识的推理,使得生成结果不再是视觉元素的堆砌,而是对物理世界的数字模拟。

这一过程看似丰富了细节,实则引入了噪声。文本作为一维的线性信息载体,在描述三维空间关系、拓扑结构及复杂的物体属性绑定时,存在天然的低带宽缺陷。改写过程极易导致原始意图中的关键约束被修饰性语言淹没,造成信息的有损传输。

我让GPT-4o以字母榜LOGO为参考,生成一个字母榜的招牌。

但Nano Banana Pro实现了对文字的精准控制。在同样的提示词下,Nano Banana Pro提取出了上方的字母榜,左右两侧的A和Z,以及最下方的弧线,并将这些元素置于不同的图层、不同的材质。

Nano Banana Pro则采用了原生多模态架构,这是一种统一模型的解决方案。

用户的输入在模型内部直接映射为包含语义、空间及物理属性的高维向量,无需经过“文本-图像”的转译中介。这种端到端的映射关系,如同建筑师直接依据蓝图施工,而非依赖翻译人员的口述传达,从而根除了中间环节的信息熵增。

但这也造成了另外一个问题,提示词门槛被拉高了。我们回到一开始三个苹果的提示词上。

这是输入给GPT-4o的提示词,简单易懂,就是在描述画面构成。

在涉及计数、方位布局、多物体属性绑定等精确控制任务上,Nano Banana Pro表现出色。它能清晰区分不同对象的属性归属,避免了扩散模型常见的“属性泄露”问题(如将红杯子的颜色错误渲染到蓝杯子上)。

当然,GPT-4o依然保有其独特的生态位。其优势在于推理速度与基于RLHF调优后的审美直觉。

由于剥离了复杂的逻辑推理环节,其生成效率更高,且更能迎合大众对高饱和度、戏剧化光影的视觉偏好。对于追求视觉冲击力而非逻辑严谨性的通用场景,GPT-4o依然是高效的选择。

然而,当需求从“好看”转向“准确”,从“相关性”转向“因果性”,Nano Banana Pro所代表的“先思考、后执行”模式便构成了降维打击。它牺牲了部分的生成速度与讨好眼球的滤镜感,换取了对物理逻辑的忠实还原。

02

橘生淮南则为橘,生于淮北则为枳。Nano Banana Pro和GPT-4o之所以会有如此的差距,正是因为其开发者,谷歌和OpenAI在AI这条路上,选择两种完全不同的发展方向。

谷歌选择的是“原生多模态”这条路。

这就像一个人从小就会说中文、英文、法文,这三种语言在他脑子里是同时存在的,他不需要先把英文翻译成中文再思考。

而OpenAI走的是“模块化拼接”这条路。

它的逻辑是,让专业的人做专业的事。GPT-5负责理解语言和逻辑推理,GPT-4o负责生成图像,Whisper负责处理语音。

每个模块都做得很好,然后通过API把它们连起来。这就像一个团队,有文案、有设计师、有程序员,大家各司其职,通过开会和文档来协作。

这两种路线,没有*的对错,但会导致完全不同的结果。

换句话说,Gemini从诞生之初,就理解物理世界的基本运行逻辑。杯子掉在地上会摔碎,水倒进杯子里会形成液面。这些东西不是靠文字描述学来的,而是通过看真实世界的视频,自己总结出来的。

所以当你让Nano Banana Pro画“一个杯子从桌子上掉下来的瞬间”,它不会画出一个漂浮在空中、姿态僵硬的杯子。它会画出杯子在下落过程中的倾斜角度,杯子里的水溅起来的形态,甚至是杯子即将触地时周围空气的扰动感。因为它见过太多这样的场景,它知道真实世界是怎么运作的。

反观OpenAI,它的起家靠的是文本。从GPT-1到GPT-3再到GPT-5,它在语言模型上一路狂奔,确实做到了世界*。但视觉能力是后来才加上去的。

所以DALL-E学到的,更多是“这个东西大概长这样”,而不是“这个东西为什么长这样”或者“这个东西会怎么变化”。它可以画出一只很漂亮的猫,但它不理解猫的骨骼结构,不理解猫的肌肉如何运动,不理解猫在跳跃时身体会呈现什么姿态。它只是见过很多猫的照片,然后学会了“猫长这样”。

更关键的是训练方式的差异。

这导致GPT-4o被训练成了一个“讨好型人格”的画家。它学会了怎么画出让人眼前一亮的图,学会了怎么用高对比度和饱和色来抓住眼球,学会了怎么把皮肤修得像瓷器一样光滑。但代价是,它牺牲了物理真实感。

而谷歌没有走这条路。Gemini的训练更注重“真实”而不是“美”。世界本就如此,它没有书本里描绘的那么美。

03

那么谷歌又是如何追上OpenAI,以至于让奥特曼发内部信来强调危机感的呢?

谷歌选择在“准确性”和“逻辑”上发力。谷歌将其称为“Grounding”,也就是“接地气”,也就是“真实性”。

为了实现这个目标,谷歌把思考过程,引入了图像生成过程。这个决策会大大增加计算成本,因为在生成图像的时候加入推理步骤,生成速度也就变慢了。但谷歌判断这个代价是值得的,因为它换来的是质的提升。

当你给Nano Banana Pro一个提示词,比如“画一个厨房,左边是冰箱,右边是灶台,中间的桌子上放着三个碗”,模型不会直接开始画。它会先启动思维链:

首先,识别场景类型:厨房。然后,识别对象:冰箱、灶台、桌子、碗。接着,确定空间关系:冰箱在左,灶台在右,桌子在中间。再确定数量:三个碗。然后推理物理逻辑:厨房里通常会有什么光源?桌子应该离冰箱和灶台多远才合理?三个碗应该怎么排列?最后,确定视角和构图:从什么角度看这个场景最合适?

这一整套思考完成后,模型会在内部生成一些“思考图像”,这些图像用户看不到的,但它们帮助模型理清了思路。最后,模型才开始生成真正的输出图像。

这个过程看起来复杂,但它解决了一个核心问题:让模型“理解”而不是“猜测”。

而Nano Banana Pro则是真正去理解厨房这个概念:“用户说厨房,厨房是用来洗菜做饭的,所以这个厨房需要满足这些空间关系和物理逻辑,我要按照这个逻辑来构建。”

反观OpenAI,它目前的策略是把最强的推理能力集中在o1系列模型上,也就是之前代号为Strawberry的项目。o1在数学推理和代码生成上确实很强,它能解决一些人类数学家都觉得有挑战的问题,能写出复杂的算法代码。

至于图像生成,OpenAI的判断是:目前GPT-4o的“直觉式”生成已经足够好了,足够维持用户体验,足够在市场上保持*,并不需要继续提升。

还有一个因素是产品理念的差异。OpenAI一直强调的是PMF,也就是Product-Market Fit,产品市场契合度。它的策略是“快速迭代,快速验证”。

DALL-E 3只要能通过提示词和GPT-4拼起来用,那就先发布,先占领市场。后台的架构可以慢慢改,用户看不见的地方可以慢慢优化。

这个市场策略被称为“胶水科技”,其*的弊端在于积累的技术债太多了。当你一开始选择了模块化拼接的架构,后面想要改成原生多模态,就不是简单地加几行代码的问题了。这可能需要重新训练整个模型,需要重新设计数据管道,需要重新构建工具链。

谷歌慢工出细活,可他们也有自己的难处。

原生多模态模型的维护成本也更高。如果你想提升图像生成能力,就需要调整整个模型。这就是为什么,Nano Banana Pro只能伴随着Gemini 3的更新,没办法自己单独更新。

这种“按下葫芦浮起瓢”的问题,在模块化架构里就不存在,因为当你你只需要优化图像生成模块,根本不用担心影响到文本模块。

所以OpenAI确实没办法训练出来Nano Banana Pro。

然而这并不意味着谷歌可以高枕无忧了,因为AI领域迭代速度太快了。我敢打赌,不出半个月,就会有一大帮生图模型问世,直接对标Nano Banana Pro。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

猜你喜欢
女性乳房保健的按摩手法是什么?按摩六招式让你乳房坚挺不下垂
女性乳房保健的按摩手法是什么?按摩六招式让你乳房坚挺不下垂

乳房对于女人来说非常的重要,可以增强女人的美观,但是很多女性再生育哺乳之后却出现了乳房下垂的现象,那么该如何预防乳房下垂呢?中医介绍,推拿按摩可以帮你有效的预防乳房下垂,下面就为大家介绍一下乳房保健的按摩手法。预防乳房下垂的按摩六招式1.将.....

做什么运动具有补肾功效 夜晚在床上做3个运动能补肾
做什么运动具有补肾功效 夜晚在床上做3个运动能补肾

我们现在的生活压力是很大的,生活中很多的人还没有时间去做做运动,忙碌的生活让很多的人出现了肾虚的现象,人们应该注意了解一些养肾的方法,专家表示在晚上可以一边看电视一边在床上做运动,我们看看这些方法吧。1.腹式呼吸平躺在床上,嘴合上,用鼻慢慢.....

如何按摩才能做到科学的保健养生 常按四大保健穴位强身延年益寿
如何按摩才能做到科学的保健养生 常按四大保健穴位强身延年益寿

我们都想健康长寿,如何才能实现这个目标呢?当然需要加强日常的保健养生了,那么如何才能做到科学的保健养生呢?穴位按摩是一个不错的方法,下面中医就为大家带来了四大保健养生穴位,经常按摩强体养生,延年益寿。涌泉穴动作要领:将左脚放到右膝上,右拇指.....

得了癌症后,一口发物都不能碰?北大肿瘤专家对忌口有不同的看法
得了癌症后,一口发物都不能碰?北大肿瘤专家对忌口有不同的看法

都说“天上龙肉,地上鹅肉”,老刘最近为了吃上一口鹅肉愁死了。老刘,六十三岁,前不久查出了肺结节,医生说要先观察,如果有恶性的倾向就做手术。全家对待这件事都非常上心,对老刘做出了各种限制,尤其是饮食,列出了一长串“发物”的黑名单。老刘心心念念.....

睡姿不对,身体遭罪!分享3种“最佳睡姿”,没准就有适合你的
睡姿不对,身体遭罪!分享3种“最佳睡姿”,没准就有适合你的

“睡觉不能脚朝西头朝东!”阿强和同事出差,订了一个双人间,同事神神叨叨地让他换一个朝向睡觉。“你说的都是迷信,朝哪睡其实都没关系。”“之前我就是脚朝西头朝东睡不着,换了之后马上就好了,其实和地球磁场有关.....”“打住打住,越说越玄乎,我.....

夏季来袭,儿童感冒了该如何区别风寒、风热感冒?抓住1个关键点
夏季来袭,儿童感冒了该如何区别风寒、风热感冒?抓住1个关键点

“我家孩子受了“寒”,为何要吃感冒清“热”冲剂?”王女士看着医生开的药忧心忡忡,迟迟没敢喂给孩子吃。王女士的儿子小亮今年5岁,昨天夜里被子盖不严,一大早就咳嗽,还嚷着浑身疼痛。王女士检查后发现儿子发烧了,一边咳嗽还捂着嗓子喊疼,估计是昨晚受.....

午餐这样吃,你不胖谁胖?
午餐这样吃,你不胖谁胖?

在减肥界,究竟是不吃早餐还是不吃晚餐已经撕了很久了,但无论是早餐党还是晚餐党,大家都很坚定地表示,午餐还是要吃的。既然午餐辣么重要,那么吃错午餐就很麻烦了~所以今天呢,给大家总结了几种常见的错误午餐,可以检查一下自己有没有吃错。1:低热量/.....

JAHA:辅助生殖技术妊娠的院内并发症
JAHA:辅助生殖技术妊娠的院内并发症

辅助生殖技术已成为不孕症常见的治疗手段,不孕症这一问题已影响到全球约4800万对夫妇。随着孕前心血管危险因素(如慢性高血压、肥胖和糖尿病)的增加,孕产妇年龄的增加引起了人们对与辅助生殖技术相关的妊娠并发症的担忧。辅助生殖技术是一组治疗不孕症.....