我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

博客1年前 (2024)发布 yixia_editor

665 0 28

事情起源是因为孩子在图书馆借了一本书，其中有这么一个故事。

讲的是于谦帮两个卖油人解决了一起分油纠纷的问题。

总的来说就是如何使用一个3斤的油葫芦和一个7斤的油坛子，把油桶里的10斤油平分？

于是我决定用大模型进行一下测试

这个问题非常考验大模型的逻辑推理能力

我们来测试一下全球各个模型的回答

本文共测试了8个国内外模型： OpenAI： GPT o1、GPT4o、GPT 4o mini、 Google： Gemini 国内：Kimi、豆包、文心一言、讯飞星火

为了测试GPT的能力，我用了： www.yixiaai.com 这个站来进行测试，主要测试了GPT4o、GPTo1、GPT 4o mini三个GPT模型。

ChatGPT o1 模型【8步正确】：

结论：用了8步正确解决问题，并且每步都给除了各个容器的状态，很人性化，很直观。

ChatGPT 4o 模型 [8步正确】：

结论：用了8步正确解决了问题，但是总体描述让人看的头大，就像你的老师讲了一节课，课时你啥也没记住。

GPT4o mini 模型【7步错误】

结论：使用7步完成，但是过程是错的

无法用油葫芦从油坛子里面准确取出一斤油

google的Gemini模型【错误】

结论：错误中间出现了11斤油

Kimi 【8步完全错误】

结论：虽然也用了8步，但是结论完全错误，10斤的油平分两份居然是两个7斤，这个推理能力也是堪忧。我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

百度文心一言【完全错误】

结论：完全错误，一个6斤，一个3斤就达到了平分的目的，完全不知所云

豆包【错误】

结论：回答貌似还可以，但是有明显的逻辑问题

3斤的油葫芦里面怎么能放下4斤的油？我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

讯飞星火【完全错误】

结论：它在说什么？

我已经完全搞不懂了，总是就是倒来倒去，最后油蒸发掉，然后就能平分了我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

结论，本文测试了国内外8个模型，只有GPT o1和GPT 4o模型答对了，其他模型都回答错误。

由于我没有把Authropic的Claude模型加进来测试，所以从上面的问题测试看出来，目前OpenAI的最新模型能力还是很明显的领先于其他大模型。

# 博客

文章版权归作者所有，未经允许请勿转载。

安娜的档案

lanjing

2,213 0

DeepSeek R1 满血版使用指南及7个可使用DeepSeek R1的网站推荐【2025年2月更新】

lanjing

689 0

Z-Library 最新入口官方网址及镜像客户端合集 (2024持续更新)

lanjing

1,976 0

暂无评论

暂无评论...

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

我们来测试一下全球各个模型的回答

ChatGPT o1 模型【8步正确】：

ChatGPT 4o 模型 [8步正确】：

GPT4o mini 模型【7步错误】

google的Gemini模型【错误】

Kimi 【8步完全错误】

百度文心一言【完全错误】

豆包【错误】

讯飞星火【完全错误】

Z-Library 最新入口官方网址及镜像客户端合集 (2024持续更新)

安娜的档案

相关文章

暂无评论

热门工具

最新文章

我用国内外8个大模型来解决【于谦分油问题】-结论真的很意外

我们来测试一下全球各个模型的回答

ChatGPT o1 模型 【8步 正确】：

ChatGPT 4o 模型 [8步 正确】：

GPT4o mini 模型【7步 错误】

google的Gemini模型【错误】

Kimi 【8步 完全错误】

百度文心一言【完全错误】

豆包 【错误】

讯飞星火【完全错误】

Z-Library 最新入口官方网址及镜像客户端合集 (2024持续更新)

安娜的档案

相关文章

暂无评论

热门工具

最新文章

ChatGPT o1 模型【8步正确】：

ChatGPT 4o 模型 [8步正确】：

GPT4o mini 模型【7步错误】

Kimi 【8步完全错误】

豆包【错误】