
活动中,孔江平介绍北大语言学实验室相关研究成果。澎湃新闻记者 程婷 图
12月16日—19日,北京大学举行北京大学语言学实验室成立一百周年系列活动。活动中,“中华民族语言文字接触交融大数据模型”成果发布。
据北大语言学实验室主任、北大中文系教授孔江平介绍,北大语言学实验室是集科研、教学、社会服务于一体的多学科交叉平台,其前身是1925年成立的北大语音乐律实验室。2021年12月,北大语言学实验室获批为教育部哲学社会科学实验室。在教育部经费的支持下,2022年春北大语言学实验室启动了“中华民族语言文字接触交融大数据模型建设”项目。该项目组织国内12所大学和科研机构的约20名专家的研究团队,近200名博士生和硕士生,对中华民族语言文字接触交融情况进行了大规模的田野调查,历经四年,初步完成了基础的调查工作和大型数据库建设。
此次发布的中华民族语言文字接触交融大数据模型,涉及中华民族语言文字接触交融大数据模型数据库的结构;语言活力的基础模型和算法——主要讨论语言活力的基本要素和分类方法;文字活力的基础模型和算法——主要讨论语言活力的基本要素和分类方法;中华民族语言文字接触交融大数据模型的内容和形式——主要讨论数据库的形式;中华民族语言文字接触交融通用语言词汇模型与算法——主要讨论词汇的语意结构、相关的基本算法和分类的方法;中华民族语言文字接触交融音位系统相似度模型与算法——主要讨论利用音位系统相似性来对语言进行分类。该大模型的建设,有助于让沉睡在田野中的即将消亡的声音活起来、传承下去。
孔江平介绍,在该项目中,除了大数据模型以外,主要成果还有关于中华民族语言文字接触交融的系列书籍。按语言接触和融合的实际,该系列书籍共分为十七卷,将于明年陆续出版。
此外,北大语言学实验室还在“人类语言涌现和演化研究”“语言障碍与教育公平研究”和“基于人工智能的语言应用研究”等方向上开展了多项重大课题的研究。本次活动期间,有声博物馆项目建设同步启动。
北大党委副书记姜国华表示,北大语言学实验室是文理学科交叉创新的典范,希望实验室继续传承科学方法传统,主动服务国家战略,做文明火种的守护者、交叉创新的开拓者、立德树人的践行者和中国学派的建构者。
教育部语言文字应用管理司司长杨鸿表示,北大语言学实验室积极服务国家语言文字重大战略任务与需求。他希望北大继续以中文系和语言学实验室为重要阵地,进一步深耕国家通用语言文字推广普及、引领语言文字数智变革、厚植复合型人才沃土,为构建新时代语言文字事业高质量发展体系作出更大贡献。
教育部语言文字信息管理司司长刘培俊表示,在智能时代,语言文字已成为大语言模型以及人工智能技术创新的数据要素、智能基座和战略基础。期待北大语言学实验室未来在国家标准研制、关键技术攻关、跨学科协同等方面发挥更大作用,有效赋能经济社会发展。