刚刚,DeepSeek悄悄更新,一手实测来了


你好啊,我是欧巴。

刚下班到家,屁股还没坐热。

发现 DeepSeek 新模型悄悄发布了!

好好好,现在都喜欢搞偷袭是吧。

刚刚,DeepSeek悄悄更新,一手实测来了

并且刚升级的 V3 模型已经上线各官方入口,关闭深度思考模式就能体验到。

刚刚,DeepSeek悄悄更新,一手实测来了

回想起 DeepSeek V3 的初代模型一出场就技惊四座,凭借 557.6 万美元的训练成本取得和全球顶尖 AI 大模型同样的性能,引起圈儿内震惊。

我还记得当时梁文锋在接受访谈时谦虚的说了一句意味深长的话:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

按照一贯调性,这次“小更新”肯定没有表面看起来那么简单

来,话不多说,咱们一测究竟。

实测

咱们先直接拿出当时测 Claude 3.7 Sonnet 的例子,这是目前全球最强的“AI 编程模型”。

(猛戳回顾?)连夜实测Claude 3.7 Sonnet,AI编程的天花板又被干碎了

提示词:创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风(例如移动的云、摇曳的树木)、雨(例如落下的雨滴)、太阳(例如闪耀的光线)、雪(例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。

回答完事儿后,点击代码块右下角的运行 HTML 进行预览。

刚刚,DeepSeek悄悄更新,一手实测来了

刚刚,DeepSeek悄悄更新,一手实测来了

说实话,真就没啥大差别,我只能说太强了,这哪是小更新???

同样的例子再来看 R1 的表现。

刚刚,DeepSeek悄悄更新,一手实测来了

刚更新的 V3 效果直接碾压 R1,这提升效果一看就感受到了吧。

光是 V3 的版本更新都这么强了,上半年即将发布的 R2 模型得强成啥样,不敢想象。。

还有今年会发布的 V4,真是越来越期待了。

解释下,DeepSeek V3 和 R1 的关系。

V3 是基础模型,R1 是在 V3 的基础上进一步发展而来的推理模型。也就是说基础模型是地基,只有地基打得好,推理模型才能把楼建的高。

继续测,问他一道 2024 阿里巴巴全球数学竞赛的题目。

刚刚,DeepSeek悄悄更新,一手实测来了

意料之中回答正确,轻松拿捏。

刚刚,DeepSeek悄悄更新,一手实测来了

既然编程和数学都难不倒他,那就只能拿出情商了,咱们直接拿出测 GPT-4.5 情商的问题。

(猛戳回顾?)GPT-4.5实测,80%的人都严重低估它了

提示词:我心情不太好,什么也不想做

刚刚,DeepSeek悄悄更新,一手实测来了

这回答就像 GPT-4.5 一样,是一个善解人意的好友啊,安全感直接拉满了。

DeepSeek 你这回可真的谦虚过头了。。

目前各大测评榜单还没有出跑分,但光看实测,就已经是拳打 OpenAI,脚踢 Claude 的存在了。

尾声

最后还有个变化值得一提,这次 DeepSeek 升级 V3 模型后,将开源许可证变成了和 R1 模型一样的 MIT 协议

程序员朋友们一定知道,MIT 协议是非常友好的,在开源软件中被广泛使用,这意味着完全可以将它用于商业用途。

看似不经意的一个小更新,其实正在悄悄酝酿着一场更大的风暴。

也许 AI 江湖的天花板,又要被 DeepSeek 亲手刷新了。

往期文章

OpenAI发布3个新款语音模型,一文快速回顾

Claude用不了?这个方法一键把文字转成网页

一张图一句话,即梦最强数字人实测

刚刚,DeepSeek悄悄更新,一手实测来了

既然你看到这里了,如果觉得不错,请帮我一键三连,转发给你的朋友,这对我很重要。

另外如果想第一时间收到推送,请将本公众号加个星标?

刚刚,DeepSeek悄悄更新,一手实测来了

谢谢你看我的文章,祝你有财安康,我们下期见。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片