跟上ChatGPT浪潮 全球第一款繁体中文语言模型开放测试 智能应用 影音
D Book
236
DFORUM
LITEPOINT

跟上ChatGPT浪潮 全球第一款繁体中文语言模型开放测试

  • 刘宪杰台北

联发科携手中研院、国教院打造全球首款繁体中文AI语言生成模型。符世旻摄
联发科携手中研院、国教院打造全球首款繁体中文AI语言生成模型。符世旻摄

由联发科集团辖下的前瞻技术研究单位联发创新基地、中央研究院词库小组和国家教育研究院三方所组成的研究团队,今日开放全球第一款繁体中文语言模型到开源网站提供测试。

本次公开释出以开源语言模型BLOOM开发的繁体中文大型语言模型(large language model),比目前开源可用的最大繁体中文模型大1,000倍,所使用的训练数据也多1,000倍。

该模型已公开让外界下载,可应用于问答系统、文字编修、广告文案生成、华语教学、客服系统等。

联发创新基地负责人许大山博士表示:「此次结合中研院及国教院,成为台湾极少数能训练大型语言模型的团队,既发展自主训练大型人工智能模型的能力,也让繁体中文的大型语言模型研究及应用更为普及。」

开放原始码释出的大型语言模型,目前多数仍以英文为主要优化的对象,繁体中文的语言模型相对不足。为此中央研究院词库小组在2019年开发并公开BERT和GPT-2的繁体中文优化版本,但是因为数据量的差距,这些模型与主流的大型语言模型差距越来越大。

为了建立该项语言模型,国家教育研究院提供了大量高品质的繁体中文语料,作为主要的训练材料。联发创新基地则建置了训练的硬件环境,制订各种符合国际标准的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示的特别训练。

责任编辑:陈奭璁