讓AI做2024新高考1卷數學最後一題:AI智商橫向對比!

慈雲數據 5個月前 (06-15) 技術支持 42 0

大家好,我是木易,一個持續關注AI領域的互聯網技術産品經理,國内Top2本科,美國Top10 CS研究生,MBA。我堅信AI是普通人變強的“外挂”,所以創建了“AI信息Gap”這個公衆号,專注于分享AI全維度知識,包括但不限于AI科普,AI工具測評,AI效率提升,AI行業洞察。關注我,AI之路不迷路,2024我們一起變強。

一些結論

即使是當下最先進的AI模型,在面對高難度數學推理題時,仍有很大的提升空間。

模型名稱題目理解解答過程總體評價
GPT-4o完全正确輸出大量内容,但大部分不正确,僅成功給出一組答案題目理解強,但解答過程不準确
GPT-4 turbo理解與題目要求不符解答與題目無關,推理和計算不準确題目理解和解答均存在較大問題
Kimi Chat理解較爲準确解答中出現AI幻覺,第一小問解答不正确題目理解較好,但解答過程出現錯誤
通義千問初步理解正确,但未詳細解釋題目思路正确,但詳細解答過程中出現錯誤初步理解正确,詳細解答不夠準确

牽動着無數家長和學子們的一年一度的高考剛剛落下帷幕,那麽,今年的高考數學難嗎?有考生吐槽:一出考場就哭了。

之前我曾經用高考語文作文橫向對比過部分AI模型/工具的創意寫作能力,并且做了後續的AI互評,讓AI來評價AI寫的文章。感興趣的小夥伴可以翻看這裏:

  1. 讓AI寫高考作文:GPT-4、Kimi、通義千問“創意寫作”能力橫向測評!

  2. AI文章互評:得分最高的竟然不是GPT-4!

今天,讓我們繼續。今天我将以2024年新高考數學一卷的最後一題爲基準,來測試各大AI模型/工具的表現。

2024年新高考數學一卷最後一題

這道題目是一道數列大題,對于AI來說應該算是很難的級别了,因爲這并不是考察AI的知識積累,而是單純的考察AI的推理能力,包括對題目的理解,知識點的定位,以及解答方法的分析推理。

其次,由于是數學題目,包括很多數學公式,所以我隻能以圖片的方式來發送給AI模型,這對于AI的多模态支持也是一個挑戰,能夠看出AI對圖片的解析是否正确。

提示詞:中文詳細解釋這道題目,然後寫出詳細完整的解答計算過程。

題目

答案

下面測評開始。

GPT-4o模型

回答速度極快,大概幾秒鍾就開始響應我的問題。題目理解完全正确,但後面的解答過程中,雖然洋洋灑灑輸出了一大堆,但基本都不正确,即使是第一小問。第一小問中,答案應該是三組:(1,2),(1,6),(5,6),GPT-4o成功給出了一組。

GPT-4 turbo模型

與GPT-4o不同,GPT-4 turbo模型在題目的理解上就出現了很大的問題,基本上牛頭不對馬嘴,更不用提後續的解答過程了。

這樣的測試結果和OpenAI官方發布的GPT-4o和GPT-4 turbo的對比測評結果是相符的。

Kimi Chat

Kimi的表現可圈可點,可以說對題目的理解方面,是明顯強于GPT-4 turbo模型的。雖然這可能與提示詞/題目都是中文的有關系,Kimi這種中文大模型會天然有一定的優勢,但足以說明,Kimi在圖片内容識别和題目的理解上是不錯的。

但同樣的,在後續的問題解析部分,Kimi也出現了AI幻覺,從第1問開始就不是很正确。我後續又追問了幾個問題,讓Kimi來寫出具體的第1小問的解答,均未得到正确的結果。

通義千問

通義千問并沒有遵循我在提示詞裏說的先詳細解釋題目,而是簡單地寫了一段初步理解。但從通義千問的簡述來看,它對這道題目的理解是基本正确的。但同樣在後續的解答中出現了幻覺,隻能說是有思路,但沒有做對。

結語

讓AI做高考數學題目,離回答正确還有不小的距離。


精選推薦

  1. 使用GPT-4o模型的5種方法,總有一種适合你!

  2. 關于最新模型GPT-4o的14條總結,都在這裏!

  3. 免費的GPT4終于要來了!OpenAI直播發布會詳細解讀

  4. 春日暖陽,何不來看一場OpenAI的發布會


都讀到這裏了,點個贊鼓勵一下吧,小手一贊,年薪百萬!😊👍👍👍。關注我,AI之路不迷路,原創技術文章第一時間推送🤖。

微信掃一掃加客服

微信掃一掃加客服

點擊啓動AI問答
Draggable Icon