AI作答高考卷,測出了什么?
2024-06-25 10:01:05? ?來源:光明網 責任編輯:蔡秀明 我來說兩句 |
光明網評論員:AI作答高考卷,測出了什么? 光明網評論員:大模型作答高考卷,一個有意思的實驗: 2024年全國高考結束后,上海人工智能實驗室的司南評測體系(Open Compass)選取了包括GPT-4o在內的中外6個開源模型,針對高考全國新課標I卷“語數外”三門課程進行了全卷能力測試。結果顯示,阿里巴巴的Qwen2-72B語文成績奪冠,124分;GPT-4o英語成績居首(似毫無疑問),111分。6個大模型均是數學“學渣”,最高分也沒有超過80分。 大模型在高考季刷一下話題,很有趣,因為信息披露有限,也不必得出一些可以較真的結論。只是在測評中,也有一些大模型訓練的蛛絲馬跡可以捕捉,助人們更豐富地理解AI。 比如,6個模型在語文卷中現代文閱讀部分得分差距不大,卻在文言文考題中差距極大,墊底的是來自法國Mistral的對話模型。這可以略窺不同模型在訓練材料中的語言占比,感受一下歐洲大模型對漢語訓練材料的看重程度到底幾何。 比如,閱卷老師表示,多數模型無法理解“本體”“喻體”“暗喻”等語文概念,寫作文不像寫作文,更像問答題。這是因為AI輸出本質上是一種基于數據的模式匹配,而不是傳遞人的情感體驗,因此無法生成文章之為文章的那個情感紐帶,生成文章字里行間的“潛臺詞”,故而只有“回答”而不能“作文”。 比如,6個大模型都折戟數學,遠未達到及格水平。尤其耐人尋味的是,它們對數學主觀題目的回答“具有迷惑性”,甚至出現了過程錯誤但答案正確的情況。這句話說白了就是,大模型沒有足夠的邏輯推理能力,但在學到人類這個深度能力之前,它先學會了用數據占有優勢撒謊,還可以編造復雜謊言。(見光明網評論員文章《你被人工智能騙過么》) 實際上,“語數外”三科閱卷老師在整體點評時都提到了主觀題的問題,除了語文數學上述問題之外,英語閱卷人也提出了大模型的作文超字問題——英語已經是三科中客觀性最強的科目。這意味著,大模型在處理復雜上下文時可能會遇到困難,難以準確理解多義性、歧義性和語境變化。而這種多義性與歧義性,以及兼縱理性與情感的處理要求,恰恰是今天大模型們要進軍的醫療、司法等領域決策過程的特征。 在現實世界里,高考是選拔賽,也是成人禮。綜合理解卷面上的問題與背后的考察意圖,是“人”成熟的一個標識,繼續社會化的重要準備。大模型“參加”這次高考,作為一個黑盒模型,決策過程難以解釋,面對稍微復雜一點的語境,調試性又明顯不足,看來還沒到說成熟的時候。 |
相關閱讀:
打印 | 收藏 | 發給好友 【字號 大 中 小】 |
信息網絡傳播視聽節目許可(互聯網視聽節目服務/移動互聯網視聽節目服務)證號:1310572 廣播電視節目制作經營許可證(閩)字第085號
網絡出版服務許可證 (署)網出證(閩)字第018號 增值電信業務經營許可證 閩B2-20100029 互聯網藥品信息服務(閩)-經營性-2015-0001
福建日報報業集團擁有東南網采編人員所創作作品之版權,未經報業集團書面授權,不得轉載、摘編或以其他方式使用和傳播
職業道德監督、違法和不良信息舉報電話:0591-87095403(工作日9:00-12:00、15:00-18:00) 舉報郵箱:jubao@fjsen.com 福建省新聞道德委舉報電話:0591-87275327