OpenAI o1 发布到现在,都快一个月了,但它给AI圈带来的震撼和影响,其实才刚刚开始。
反正圈内的不少大佬,直接就给 o1 来了一顿猛猛夸。大模型拆解用户提问的能力,还有深度思考的能力,已经成了大伙们卷的一个新方向。
但与此同时,就像在等《 黑神话 · 悟空 》发售一样,不少网友也和差评君一样猴急,盼着国内的大模型们,何时能有类似的产品出现。
也有差友在公众号后台,一直私信,表示自个都被 o1 钓成翘嘴了,现在是吃不饱、睡不香,只想在国内也用到类似深度思考的功能。
然而这一次,差评君发现还真有人给整出来了。。。
它便是年初,才刚掀起圈内长文本竞赛的 Kimi ,而这次他们发布的 Kimi 探索版,可以模拟人类的推理思考过程,自主分解复杂问题进行深度搜索,还加上了即时反思的功能,帮助用户完成分析调研。
更重要的,这次探索版,搜索量达到了普通版的 10 倍,一次搜索甚至可以精读 500 个页面。
翻译一下,以前我们向 AI 提出复杂的提问,得在脑子里把预想的问题人为拆一下,让 AI 一个一个答。而现在,不仅解放了双手,还可以一次穷尽更多信源,只需想好问题, Kimi 就会像个分析师一样来为你服务。
难怪产品负责人说, “ 如果 Kimi 搜不到的信息,大概率用户也很难自己通过传统搜索引擎找到答案 ” 。
今天一大早, Kimi 探索版在 PC 端开始了灰度测试,据说手机端很快就会上。
结果,用户的火爆很快把 “ Kimi 崩了 ” 送上热搜。
官方也很快发了致歉公告,并预告一下大概在周一,探索版的功能就会全量开放。
先给前段时间断了网的差友们,用几句话简单介绍一下 Kimi 的来头。
这么说吧,差评君愿意把它称之为国产大模型的一束光,光是在 PC 网页端,今年以来 Kimi 的月访问量就从 140 多万涨到 2400 多万,增长了 1670 % 。
爆火到他们服务器一度宕机。资本市场,甚至还炒作起了 Kimi 概念股。。。
这次发布的 Kimi 探索版,某些方面其实和 OpenAI o1 有点类似,那就是会解难题、懂思考了,但差评君觉得,它和 o1 还是有不少差异的。其中最大的不同,便是在使用场景上。
OpenAI o1 主打的,是能回答博士级别的问题,解比如物理、数学、生物上的难题等等。不过也因为这儿,差评君当时在用上 o1 的第一时间,其实憋了好几个题目没敢问。
毕竟 Preview 版本一周只能提问 40 个问题,我生怕问得简单了,配不上博士级别的模型,浪费了额度。。。
好在差评君靠人脉,找来了好几位博士,和他们联手和砍拿下三双给 o1 上了一波压力。当然,最后博士们对 o1 的评价,也是相当高。
而这次 Kimi ,则选择了另外一条更实用、更接地气的道路,那就是把思考和拆解问题的劲儿,聚焦在是和咱们普通人更近的生产力场景上,尤其是大学生、上班族们常干的调研分析类任务。
在体验了一番之后,我的评价是,如果 AI 也有 MBTI 的话:那它活脱脱就是一个思维和计划缜密 & 执行力强的 J 人。
首先,差评君发现, Kimi 探索版在解答问题时,真就和人思考时一个样。
它会拆解长难提问,自己规划解答思路,最后分步骤并执行任务。
就比如说国庆假期一过,在座的各位巴菲特们,估计股票账户里都是一片红。
差评君给 Kimi 探索版的第一题便是:如果我们在 5 年前,分别花了 10 万人民币,买入了比亚迪股票、茅台股票、还有黄金,现在它们分别价值多少?
说实话,这题对咱们普通碳基生物而言,其实并不复杂,主要就是步骤有点多,得花个小几分钟才能算清楚。
而 Kimi 探索版把差评君的问题,成功拆解成了三步:先分别查 5 年前的价格,再查当天的价格,最后计算并制表。
Kimi 也是三下五除二,在一分钟不到的时间内,一步步得出了结果。
差评君也才知道,《 只 》要在 5 年前买入 10 万人民币的比亚迪股票,这会儿已经价值 70 多万了。
其实类似的问题,差评君其实也甩个隔壁的 Perplexity 试了试。。。但且不说表格没画清楚了,它抓取的五年前的股票和黄金价格,相比实际价格都偏差了不少。
它的表现,我只能说 not even wrong 。
大概清楚了 Kimi 探索版能力的深浅之后,差评君也立马给 Kimi 上了一波难度。
说实话,出去玩儿的时候,攻略往往是最烧脑和最让人头疼的了。
于是我的第二问便是:帮我查询 9 月北京环球影城各个游乐项目,在一天不同时段的平均排队时长,列出表格,再根据这个设计一条耗费排队时间最少的游玩路线。
光是看到这个题面,我就感觉自个儿的头发在不停地掉。。。
Kimi 则依旧稳如老狗,给出了搜游乐项目、搜索平均排队时长、设计路线这三步走的思考过程,并在阅读了 53 个网页后,按步骤来了一波解题。
最后的结果,也还真是井井有条。
相同的问题,差评君也在其他几款主流的 AI 助手里试了试,而我看到最多的两个字,却是 “ 抱歉 ” 。。。
随后,我也趁热打铁,给 Kimi 整上了网上那些让人抓狂的咨询机构面试题。
其实这类题目,往往都没有绝对的正确答案,它们考察的就是应聘者临场的逻辑思维、数据分析、问题解决和沟通表达能力。
大伙们也可以看一看 Kimi 的回答,能不能让在座的各位面试官们信服。
问题:中国 2023 年的社会用电总量如果都用太阳能发电,需要多少平米的太阳能板,面积相当于几个足球场?
问题:如果所有钢琴都定期调律,估算一下北京需要多少名全职的钢琴调律师?
除了拆解和解决问题的能力,差评君还发现, Kimi 探索版在信息的大量收集方面,简直就是启动了 V8 引擎,突出的就是一个马力十足,能一次搜索几十个关键词,阅读几百个网页。
就比如说,诺贝尔奖正在陆续颁奖中,如果让一个普通的碳基生物,汇总一下近十年所有诺贝尔物理学奖得主的姓名、生卒年月、还有国籍,并且统计出他们的平均获奖年龄。
反正看到这活儿,差评脑袋里已经出现浏览器被几十上百个网页塞满、电脑开始卡顿的画面了。
而同样的问题交给 Kimi ,在短短不到 1 分钟的时间内, AI 一次性搜索了几十个诺贝尔奖得主的信息,并且阅读了 200 多个网页,从中汇总出来咱们想要的信息。
最后 Kimi 也是沉着冷静,给出了计算结果:近十年诺贝尔物理学奖得主的平均得奖年龄,在 75 岁前后。
而 “ 在 2024 年《 财富 》中国科技 50 强企业中,哪些公司的总部在北京? ” 这个问题中,差评还发现了个有趣的现象,那就是 Kimi 正答着题目呢,自个儿就开始反思了。。。
在反思一番后,又补充上了两个答案。
要是差评君当年高考时,也这么严谨地验算,这会儿应该不是个律师就是个医生了吧。
另外差评君觉得,其实很多时候,咱们还有很多模糊搜索的需求。
特别是熬夜看球、通宵打游戏了之后,经常记性不太好,常常连问题本身都记不太清了。。。
就比如前段时间,差评君想找个数学家的资料,但他的名字感觉就在我嘴边,但却死活想不出具体名字。只依稀记得了几个特征,那就是:属于欧洲的一个家族,哥哥、弟弟、父亲都是数学家,他们互相之间还嫉妒彼此。
结果 Kimi 立马就成功发现,我要找的是数学家伯努利,还顺带把他们的 “ 族谱 ” 的都列出来了。
同样 Kimi 也在答题时,也进入了反思和补充环节,给回答又加了亿点点细节。
提问:欧洲有一个家族,哥哥、弟弟、爸爸都是数学家,他们互相之间还嫉妒彼此,这个家族叫啥名字?展示一下他们各自的成就。
包括有时候记不起具体的公司名,咱只要还记得一些故事和细节,也能顺畅地搜索。
问题:上个世纪有个硅谷公司,做过类似 iPhone 的产品,这个公司叫什么,这个公司的早期员工后来参与了哪些重要公司的创立。
总的来说,综合体验一波 Kimi 探索版后,差评君觉得 AI 帮助用户解决的问题范围,有了指数级扩展,真的多了一位可以帮着快速收集、调研和分析的私人助理。对传统搜索来说,也是一种颠覆。
说实话,从年初 Kimi 掀起的长文本竞赛,咱就不难看出,其实除了那些 Benchmark 分数、排行榜,普通用户最在意的,还是大模型到底能给大伙们解决怎样的痛点。
毕竟有了真正好用的工具,才好在发现和创造过程中,探索更大的世界。
所以 Kimi 探索版,真的让我回不去了。
撰文:江江
编辑:江江
美编: 萱萱
图片、资料来源:
Kimi 官网 、Kimi 官微