我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

博客2周前发布 yixia_editor
362 0

事情起源是因为孩子在图书馆借了一本书,其中有这么一个故事。

讲的是于谦帮两个卖油人解决了一起分油纠纷的问题。

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

总的来说就是 如何使用一个3斤的油葫芦和一个7斤的油坛子,把油桶里的10斤油平分?

于是我决定用大模型进行一下测试

这个问题非常考验大模型的逻辑推理能力

我们来测试一下全球各个模型的回答

本文共测试了8个国内外模型: OpenAI: GPT o1、GPT4o、GPT 4o mini、 Google: Gemini 国内:Kimi、豆包、文心一言、讯飞星火

为了测试GPT的能力,我用了: www.yixiaai.com 这个站来进行测试,主要测试了GPT4o、GPTo1、GPT 4o mini三个GPT模型。

ChatGPT o1 模型 【8步 正确】:

结论: 用了8步正确解决问题,并且每步都给除了各个容器的状态,很人性化,很直观。

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

ChatGPT 4o 模型 [8步 正确】:

结论:用了8步正确解决了问题,但是总体描述让人看的头大,就像你的老师讲了一节课,课时你啥也没记住。

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

GPT4o mini 模型【7步 错误】

结论:使用7步完成,但是过程是错的

无法用油葫芦从油坛子里面准确取出一斤油

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

google的Gemini模型【错误】

结论:错误 中间出现了11斤油

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

Kimi 【8步 完全错误】

结论:虽然也用了8步,但是结论完全错误,10斤的油平分两份居然是两个7斤,这个推理能力也是堪忧。 我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

百度文心一言【完全错误】

结论:完全错误,一个6斤,一个3斤就达到了平分的目的,完全不知所云

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

豆包 【错误】

结论:回答貌似还可以,但是有明显的逻辑问题

3斤的油葫芦里面怎么能放下4斤的油? 我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

讯飞星火【完全错误】

结论: 它在说什么?

我已经完全搞不懂了,总是就是倒来倒去,最后油蒸发掉,然后就能平分了 我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

结论,本文测试了国内外8个模型,只有GPT o1和GPT 4o模型答对了,其他模型都回答错误。

由于我没有把Authropic的Claude模型加进来测试,所以从上面的问题测试看出来,目前OpenAI的最新模型能力还是很明显的领先于其他大模型。

© 版权声明

相关文章

暂无评论

暂无评论...