自从OpenAI2022年推ChatGPT,“AI大模型”新概念火爆全球,各大企业及组织纷纷研究专属AI模型,其中最为出名的是OpenAI的ChatGPT、阿里巴巴的通义千问等,如果这些AI大模型都去高考,那么谁的成绩最好?
近日,上海人工智能实验室旗下司南评测体系OpenCompass针对七家AI大模型,进行了高考九科目的全科目测试,从而全面评测大模型实例。
本次参与测试的AI模型,分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室&商汤、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。
本次评测以参加高考人数最多的河南省分数线作为参考,从图中可看出,文科成绩最好的是阿里巴巴的通义千问,以546分成绩拿下第一,刚好达到文科一本线分数;理科成绩最好的是上海人工智能实验室&商汤联合研发的浦语文曲星,以468.5分拿下第一,不过没有达到一本线,而是只能上二本门槛。
而OpenAI的GPT-4o在文科上得分531分,排名第三,理科得分为467分,排名第二。
据评测机构分析,AI在文科科目如语文、历史、地理、思想政治等科目上展现了深厚的知识储备和理解能力,但在理科科目中,数理推理能力普遍存在短板。特别是在面对带图片的题目,得分率仅有37.64%。
这也可以看出:尽管大模型在基础知识掌握上表现出色,但在逻辑推理和知识灵活应用方面仍有较大差距。