GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

新智元报道

编辑：定慧 Aeneas

【新智元导读】就在刚刚，GPT-5悄悄身披马甲出道了？一个代号为「Lobster（龙虾）」的神秘模型在WebDev Arena横空出世，轻松吊打Grok-4，网友纷纷猜测：这就是GPT-5本尊！更有提前试用者曝出：GPT-5编程能力惊人，甚至能改屎山代码。

GPT-5来了？但是「龙虾」版！

GPT-5「Lobster」疑似现身WebDev Arena，引发社区狂热猜测：网友实测比Grok-4好的离谱。

WebDev Arena是一个大模型能力匿名评测的网站，使用相同的提示词，在双盲的情况下，给你认为最好的模型投票。

很多待发布的模型，都会有各种各样「奇怪」的代号提前进行实测。

Lisan al Gaib在实测中捕捉了GPT-5！

并且用同样的提示词，GPT-5生成的页面效果非常惊艳（左边是GPT-5，右边Grok-4）。

他使用的提示词是：

Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.

创建一个令人惊叹的神经网络或类脑图结构的交互式动画——使用艺术性的色彩、平滑的过渡和精美的视觉效果。整个页面应充满活力、沉浸感和震撼力，不使用任何按钮，仅通过滚动或持续的动画进行交互。让其令人叹为观止。

疑似GPT-5，并且命名为「龙虾」的LLM给出了惊艳的答案。

此外，GPT-5其他版本的代号也疑似曝光。

GPT-5：Lobster

GPT-5-mini：Nectarine

GPT-5-nano：Starfish

多位用户表示该模型在代码生成、交互表现上已超越Claude，令他们震惊。

与此同时，Reddit网友发现，OpenAI现在正在将所有o3请求秘密地转接到GPT-5上处理。（LMArena中新的匿名 OpenAI模型「zenith」，所以OpenAI为了测试GPT-5到底起了多少「外号」？）

它现在能够处理o3在「正确/接近正确的解答率」只有0%的极高难度数学问题，并且在风格上与o3有显著不同。

甚至，有网友表示，已经有非科技行业的员工已经获得了GPT-5预览版的访问权限。

但可能由于保密协议的关系，无法知晓到底是哪家公司能这么幸运被随机选中。

看来GPT-5已经是箭在弦上了！

GPT-5抢先体验：实锤了，很强

显然，如今GPT-5如今已经近在咫尺。

比如OpenAI CEO奥特曼，就已经开始在各个场合暗戳戳地宣扬这个强大的神秘模型。

在最近的一次采访中，他这样描述了自己对GPT-5的使用初体验。

与此同时，AI圈也按捺不住地躁动起来。已经有多位提前体验GPT-5的用户出来透露说，GPT-5的表现极其惊艳！

不过，目前我们尚未得知，GPT-5究竟会在何时发布，会提供给哪些客户。

据悉，GPT-5旨在实现奥特曼的一项计划：将传统的GPT系列大模型与o系列推理模型，整合进一个统一的模型界面中。

现在，外媒已经为我们收集了一波体验者的感想。

简单来说就是——

在自然科学领域，推理更深入；

在浏览器里自动完成复杂任务；

写作更流畅，逻辑更在线；

更重要的是：在编码上有炸裂提升！

GPT-5跟Anthropic的混合式Claude模型类似。在未来，用户或许能控制GPT-5对特定问题思考的深度，模型自身也会根据问题的难易度，自动开启或关闭推理能力。

也就是说，如果我们去问「strawberry里有几个r」这种问题，即使我们要求，它也不会傻到去耗费巨额算力来思考。

如果你问它「怎么优化一个10年没动的数据库结构」，它才开始认真调用深层逻辑能力。

但其中一位体验者表示，GPT-5最显著的进步，就体现在编程上！

程序员哭了：屎山代码有救了？

根据他的说法，GPT-5不仅更善于解决学术和编程竞赛问题上，甚至在处理现实世界工程师面对的实际编程任务时，表现都更加惊艳了。

比如那种包含大量屎山遗留代码的庞杂代码库，它能都能进行修改，完全没在怕的。

正是这种处理复杂场景的细致能力，让OpenAI的模型过去始终落后于Anthropic。毕竟在开发者群体中，大家都公认，Claude才是真正的编程王者。

一位体验者亲测后表示，GPT-5在编程上，甚至直接胜过了Anthropic的Claude Sonnet 4！

因此，我们可以直接窥见OpenAI在自动化复杂编程上的野心了。

毕竟，目前市面上最能赚钱的AI产品之一就是编程助手，像Cursor就靠Claude赚得盆满钵满，据说年营收都达到上亿美元了。

显然，OpenAI很想把这块大蛋糕抢回来。

不仅如此，在OpenAI领导层的眼里，是否能自动化真实世界的复杂编程任务，就是实现AGI的关键。

安抚英伟达和投资人

总之，如果GPT-5表现强劲，对于英伟达、数据中心建设公司和投资者而言，都能起到很好的安抚作用。

毕竟在去年，曾有一波大模型撞墙论曝出。

而GPT-5的好消息，就意味着即使预训练的边际收益递减也没关系，因为提升AI模型能力的真正关键，就在于后训练阶段的强化学习。

也就是说，OpenAI的路线没有撞墙，只是换道超车了！

另外还有个细节，此次更加被证实。

它会根据问题的类型，把你的提问发送给一个擅长闲聊GPT大模型，或是一个擅长逻辑和推理的o系列模型。

最终我们所看到的GPT-5的表现，就是这俩模型组合拳的效果。

彩蛋：GPT-8都在路上了？

甚至这次，还有投资人爆料，OpenAI高管曾私下说——

我们在不换架构的前提下，有信心做到GPT-8。

这可实在太猛了。虽然听起来像是「PPT先行」，但也传递出一个关键信息。

OpenAI并没有打算卷新架构，而是靠更聪明的调度、更强的推理、更多的后训练数据，一步一步把现有技术用到极致。

所以，照例每日一问：GPT-5啥时候来？

参考资料：

https://x.com/scaling01/status/1948878978699460808

https://x.com/scaling01/status/1948775211702046772

Top

1、中国哲学与维根特斯坦哲学的区别,中国哲学与维根特斯坦哲学的区别与联系

2、收割200亿，6800名投资者遭毒手，昔日千亿首富等待宣判,亿万富翁投毒

3、关于下一代潜艇SSN(X)的国会报告,我国下一代常规潜艇谍照

小编推荐

柬埔寨驳斥“先入侵泰国”指控：我们才是受害者

小米SU7超过特斯拉拿下榜一；打工人的“保命四件套”火了；刘强东又扔出一枚新炸弹

当前文章：http://www.share.sjzclz.cn/JJY/detail/fpfgxk.html

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

Top

小编推荐

相关阅读

网友评论