我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外
事情起源是因为孩子在图书馆借了一本书,其中有这么一个故事。
讲的是于谦帮两个卖油人解决了一起分油纠纷的问题。
总的来说就是 如何使用一个3斤的油葫芦和一个7斤的油坛子,把油桶里的10斤油平分?
于是我决定用大模型进行一下测试
这个问题非常考验大模型的逻辑推理能力
我们来测试一下全球各个模型的回答
本文共测试了8个国内外模型: OpenAI: GPT o1、GPT4o、GPT 4o mini、 Google: Gemini 国内:Kimi、豆包、文心一言、讯飞星火
为了测试GPT的能力,我用了: www.yixiaai.com 这个站来进行测试,主要测试了GPT4o、GPTo1、GPT 4o mini三个GPT模型。
ChatGPT o1 模型 【8步 正确】:
结论: 用了8步正确解决问题,并且每步都给除了各个容器的状态,很人性化,很直观。
ChatGPT 4o 模型 [8步 正确】:
结论:用了8步正确解决了问题,但是总体描述让人看的头大,就像你的老师讲了一节课,课时你啥也没记住。
GPT4o mini 模型【7步 错误】
结论:使用7步完成,但是过程是错的
无法用油葫芦从油坛子里面准确取出一斤油
google的Gemini模型【错误】
结论:错误 中间出现了11斤油
Kimi 【8步 完全错误】
结论:虽然也用了8步,但是结论完全错误,10斤的油平分两份居然是两个7斤,这个推理能力也是堪忧。
百度文心一言【完全错误】
结论:完全错误,一个6斤,一个3斤就达到了平分的目的,完全不知所云
豆包 【错误】
结论:回答貌似还可以,但是有明显的逻辑问题
3斤的油葫芦里面怎么能放下4斤的油?
讯飞星火【完全错误】
结论: 它在说什么?
我已经完全搞不懂了,总是就是倒来倒去,最后油蒸发掉,然后就能平分了
结论,本文测试了国内外8个模型,只有GPT o1和GPT 4o模型答对了,其他模型都回答错误。
由于我没有把Authropic的Claude模型加进来测试,所以从上面的问题测试看出来,目前OpenAI的最新模型能力还是很明显的领先于其他大模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...