众所周知,由于ChatGPT的火爆,多国多企业多机构纷纷加入生成式大语言模型,国内自然也不例外,如今他们取得了什么样的成就?
近日,知名市场调研机构SuperCLUE发布了最新的中文大模型10月榜单,从榜单中可知:GPT4以绝对优势继续霸榜位列第一,之后Claude2、GPT3.5次之。
至于国内,vivo自研大模型vivoLM以70.74的好成绩位列第四,在国内大模型中排行第一。紧随之后分别是月之暗面的Moonshot、百度的文心一言4.0和商汤科技的SenseChat 3.0。
根据SuperCLUE的表示,本次榜单主要考察大模型在中文能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大维度的上百个任务。
需要注意的是:本次评测共选取了国内外最具代表性的20个通用大预言模型,并非全球所有,而且与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。
根据这次评测,可得知:国内第一梯队大模型格局以基本形成,头部的几个中文大模型已与GPT3.5极为接近,但与GPT4的距离依然很大,尚未发现有对标和媲美GPT4的迹象。
最后,SuperCLUE认为按照其发展,今年第四季度将会出现全面超越GPT3.5的通用大模型,但如何赶超GPT4,仍然是个新难题。