随着ChatGPT的兴起,越来越多公司进军人工智能(AI)大模型领域,纷纷推出相关产品,如谷歌的BingChat、百度的文心一言等。然而这些大模型很少集中于中文,但这个状况或许会改变。
近日,2023年第七届世界智能大会在中国天津省(国家会展中心)如期举办,中国新一代百亿亿次超级计算机,即天河新一代超级计算机在本次展会上迎来首次亮相,同时亮相的有天河天元大模型和天河E级智能计算开放创新平台。
据了解,由于中文大语言模型的书籍非常稀缺,为充分发挥超算在算力方面的优势,推动国产异构超级计算机平台在AI应用开发和服务领域中的应用,国家超算天津中心手机整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据及专业的中医/医药/法律等诸多领域书籍,训练数据集总token数高达350B,经过后续训练最终打造出了国产中文语言大模型——天河天元大模型。
据国家超算天津中心表示:“天河E级智能计算开放创新平台”将带来突破百亿亿次的跨模态的超级计算算力,支撑传统的科学工程计算,并服务智能混合计算,打造全方位的算力赋能创新和数字经济高质量发展载体。