Kimi探索版正内测中,国产第一个o1?

图片[1]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

Kimi探索版?国产o1?
今天,登录Kimi网站,发现会话窗口出现了一个特殊的提示。
输入“/”使用Kimi探索版,解决复杂的搜索问题。

图片[2]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

“/”命令?这不是之前就有了吗?
再想想?不对。那个是“@”命令,快捷调用Kimi+的,也就是kimi的官方智能体。

图片[3]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

那这个“/”命令又是个啥?输入试试。

图片[4]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

原来是快捷调用Kimi探索版,专门用来解决复杂问题的,类似于OpenAI的o1模型,智力程度特别高,推理能力特别强,在某些特殊领域(比如数学、编程、推理)特别好用。
Kimi探索版,这算是国产第一个o1模型了吧?
第一只螃蟹,没想到是由月之暗面推出的。不过再一细想,也属正常。
毕竟,月厂主打的就是长文本、总结和推理能力,第一家也确实应该由月厂来做。
就是这使用次数(5次/天),略显抠搜……喂,我可是你们家的399登月会员呢~

图片[5]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

为了给大家测试,我是用1次少1次。

图片[6]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

怎么个复杂法?
对于OpenAI的o1模型,我们知道它采用了Cot(Chain of Thought,思维链)技术,并且会进行Self-play RL(自我对弈强化学习)强化学习,可以做非常复杂的推理任务,智力程度堪比博士。
技术词说了那么一堆,怎么个复杂法?
我们直接用Kimi上手体验。
问:标注三国战役地点,对应现代城市和地区。
Kimi先进行了思维链拆解:

图片[7]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

搜索三国主要战役–>查找三国战役地点–>查找每次战役对应的现代城市和地区。
然后,爬了185个url。

图片[8]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

百度百科:我赢麻了。
这185个url,要是我一个个去找。真的,这一天的时间都得耗在这里。
最后,生成了一个简洁干练的回答,总结了41次大小战役以及其对应的现代地点。

图片[9]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

计算多个小品里的虚拟酒食价格,不管问题有多跳跃,都能回答。

图片[10]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

如果回答有问题,它还会进行自我反思(其他问题的回答),补充回答。

图片[11]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

卧槽,你还是人吗?哦,机器呀,放心了。再一细想,我又完全放心不下了。。
什么是Cot?什么是Self-play RL?这里的case,就是对技术最好的解释。
细思极恐,细思极恐啊。
同样的问题,我们问问某个下载量遥遥领先的大模型,它只能回答出10个,信源只有8个。

图片[12]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

难怪月厂国庆期间猛加班,感情是在忙这个呢。
图片[13]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

图片[14]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

还能再复杂吗?
可以,我们先来测测数学领域。
问:甄嬛和薛宝钗的生日相差几天?
这个问题涉及不同的文学作品,而且是计算农历,一不小心很多AI都会扑街,就像这样。

图片[15]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

或者,又比如这个模型已经搜到了生日,但还是不肯计算。

图片[16]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

来看看Kimi探索版呢?

图片[17]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

嗯,这才是正确的人类计算方式啊。先确定两人生日,然后一个个计算,最后再累加,这里面没有捷径。只有按照思维链,一步步推理、计算,才能得出最终唯一的结果。
上难度,我们给它来道AIME 2024年竞赛题,一项专门为美国顶尖高中数学学生设立的挑战性考试,看看Kimi怎么答。

图片[18]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

将问题发给Kimi后,它马上就开始解题,不到30s,就全部解答了出来。

图片[19]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

对照答案,完全正确,204分钟。
注意看左下角,我全程是关闭联网的,也就是说Kimi是通过自身的底层模型来答的这道题,而并非上网搜索。
那推理领域呢,我们发给Kimi一道推理题。
注:本题已经过改编,即使AI联网搜索也找不到答案。这是全网唯一的题目。
问:某公司被窃,A、B、C、D四人涉嫌被拘留。侦破结果表明,罪犯就是其中的某一个人。A说:“是C偷的。”B说:“我没偷。”C说:“我也没偷。”D说:“如果B没有偷,那么就是我偷的。”现已査明,其中只有一个人说了假话,从上述条件可以确定谁偷成立?
Kimi答:

图片[20]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

我们可以通过分析每个人的陈述来确定谁是罪犯。已知只有一个人说了假话,其他人都说了真话。我们逐一分析每个人的陈述:
A说:“是C偷的。”
B说:“我没偷。”
C说:“我也没偷。”
D说:“如果B没有偷,那么就是我偷的。”
我们假设每个人分别说了假话,然后验证是否符合条件。
假设A说假话
A说假话,说明C没有偷。
B说真话,B没有偷。
C说真话,C没有偷。
D说真话,D说“如果B没有偷,那么就是我偷的”,B没有偷,所以D偷了。
此时,只有A说假话,其他人都说真话,符合条件。
假设B说假话
B说假话,说明B偷了。
A说真话,C偷了(矛盾)。
C说真话,C没有偷(矛盾)。
D说真话,D说“如果B没有偷,那么就是我偷的”,B偷了,所以D不偷。
此时,A和C的陈述矛盾,不符合条件。
假设C说假话
C说假话,说明C偷了。
A说真话,C偷了。
B说真话,B没有偷。
D说真话,D说“如果B没有偷,那么就是我偷的”,B没有偷,所以D偷了(矛盾)。
此时,C和D的陈述矛盾,不符合条件。
假设D说假话
D说假话,说明“如果B没有偷,那么就是我偷的”是假的,即使B没有偷,D也没有偷。
A说真话,C偷了。
B说真话,B没有偷。
C说真话,C没有偷(矛盾)。
此时,A和C的陈述矛盾,不符合条件。
综上所述,只有假设A说假话时,所有条件都符合。因此,罪犯是D。
正确答案,确实是D,他是小偷。
这是我制作的逻辑对照表,你看一眼就明白了。只有A说假话时,其他人都说了真话,符合条件,得出D是小偷。

图片[21]-Kimi探索版正内测中,国产第一个o1? - AI资源导航站-AI资源导航站

这道题,曾难倒过不少AI,没想到Kimi探索版居然答对了。
Kimi,依然还是那么牛,不愧是国产之光。

© 版权声明
THE END
喜欢就支持一下吧
点赞87 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片