提起弱智吧,可能大家第一时间想到的是那些不正常的问题及人物,因为弱智吧是一个充满荒谬、离奇、不合常理发言的中文社区,然而弱智吧竟然登上正经AI论文,甚至成为了最好的中文训练数据?!
据了解,该AI论文来自中科院深圳先进技术研究院、中科院自动化研究所、滑铁卢大学等众多高校及研究机构联合团队。
按照他们官方表示:使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等多平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。(图片中显示的“Ruozhiba”就是指百度贴吧弱智吧)
最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这也让许多平台开始绷不住,声称“弱智吧才是人类面对AI的最后一道壁垒。”
根据研究人员的分析,弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益,当然弱智吧的作用并非这点,它最大贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。
通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。
网友认为弱智吧为什么如此适配AI,可能原因是弱智吧题目的异质,像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能。而且弱智吧书文本质量很高,用词准确且间接。
其实很少人知道的是,从ChatGPT、文心一言等诸多AI大模型发展史来看,弱智吧高度参与了大模型的发展,算是这一波AI浪潮的重要见证者了。
直到今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。