教育部、国家语委支持布局五个领域的大语言模型建设项目
文章字数:
本报综合讯(记者 冯琪) 据新京报消息,3月31日,记者从教育部召开的新闻发布会上获悉,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目;教育部已经启动布局了新型国家语料库的建设,包括“中华文脉新型语料库”“中华大阅读体系语料库”等。
教育部语言文字应用管理司副司长王晖在会上指出,“中华文脉新型语料库”可以简单理解为瞄准的是智慧教师,“中华大阅读体系语料库”瞄准的是智慧学伴。现在在一些应用领域,主要是在语言的教育教学和研究领域,有多个语料库,但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。
记者注意到,《教育强国建设规划纲要》提出,要建设“新型国家语料库”,近日印发的《关于加强数字中文建设 推进语言文字信息化发展的意见》(下称《意见》)中提出,到2027年初步建成国家关键语料库和国家战略语言资源信息库等。
对此,3月31日的发布会上,教育部语言文字信息管理司司长刘培俊指出,将以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。
“目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。”刘培俊说道。他进一步表示,接下来将夯实“机制、标准、人才”三个基础。第一是逐步建立健全语料共建共享新机制,第二是研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,第三是依托高校研究机构推进多学科交叉融合。
王晖透露,2025年,教育部已经启动布局了新型国家语料库的建设工作,主要包括两方面:一是规范引领,加强制度的供给,研制语料库建设规范,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设整体打造出标杆。
教育部语言文字应用管理司副司长王晖在会上指出,“中华文脉新型语料库”可以简单理解为瞄准的是智慧教师,“中华大阅读体系语料库”瞄准的是智慧学伴。现在在一些应用领域,主要是在语言的教育教学和研究领域,有多个语料库,但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。
记者注意到,《教育强国建设规划纲要》提出,要建设“新型国家语料库”,近日印发的《关于加强数字中文建设 推进语言文字信息化发展的意见》(下称《意见》)中提出,到2027年初步建成国家关键语料库和国家战略语言资源信息库等。
对此,3月31日的发布会上,教育部语言文字信息管理司司长刘培俊指出,将以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。
“目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。”刘培俊说道。他进一步表示,接下来将夯实“机制、标准、人才”三个基础。第一是逐步建立健全语料共建共享新机制,第二是研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,第三是依托高校研究机构推进多学科交叉融合。
王晖透露,2025年,教育部已经启动布局了新型国家语料库的建设工作,主要包括两方面:一是规范引领,加强制度的供给,研制语料库建设规范,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设整体打造出标杆。