天津大学“伏羲传语”多语言大模型正式发布并开源,应对大模型多语言能力不足
红星资源局8月16日新闻,日前,天津年夜学自立研发的“宓羲传语”(FuxiTranyu)多语言年夜模子正式宣布并开源。
“年夜语言模子在各种义务中表示出了壮大的才能,然而,很多年夜模子在应对分歧语言时并不会表示出平衡的才能,这通常与预训练的语料数据的配比有关。多半基准测试注解,年夜模子在多语言才能上仍旧存在不敷,尤其是面临低资本语言时。”研发团队卖力人、天津年夜学智能与计算学部传授、博士生导师熊德意奉告红星资源局,该模子采纳了多语言预训练数据平衡策略,以应对年夜模子在分歧语言间的机能差别问题及低资本语言机能低的挑战。
熊德意先容,模子完全从头开端训练,研发团队完成了年夜范围多语言数据的网络和处置、8B基座模子预训练、指令对齐训练及多语言基准测评全进程。预训练数据起源涵盖互联网、册本、论文、百科、代码数据。这次预训练使用了研发团队网络的28万亿词元数据中的6060亿词元数据。

除了基座模子FuxiTranyu-8B,宓羲传语还推出了两个指令微调模子:FuxiTranyu-8B-SFT及FuxiTranyu-8B-DPO。前者在多样化的多语言指令数据集长进行了有监视指令微调,后者则在人类偏好数据集上经由过程DPO技术进一步加强了模子的对齐才能。相比基座模子,指令微调模子在多语言才能、对齐才能上获得了明显的晋升,可以或许更好地遵循人类指令,天生的回复更相符人类代价观。
红星资源局相识到,宓羲传语年夜模子支撑“一带一起”沿线、亚洲及欧洲多个国度及地域的语言,合计43种,包含汉语、英语、阿拉伯语、葡萄牙语等富资本语言,以及孟加拉语、缅甸语、泰米尔语等低资本语言,笼罩汉藏语系、印欧语系、亚非语系等10年夜语系。除此之外,宓羲传语还支撑C++、Java、C、C#、Python等16种编程语言。
据悉,为了进一步推动多语言年夜模子的研讨与利用,研发团队已将宓羲传语基座模子、指令微调模子及58个预训练反省点在 HuggingFace平台上开源。
红星消息记者 王田
编纂 杨程