央广网北京3月31日消息(记者冯仪)3月31日,教育部召开新闻发布会,介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》推进语言文字信息化发展情况。
会上,教育部语言文字信息管理司司长刘培俊表示,加强新型国家语料库建设,是落实教育强国建设规划纲要、服务教育强国建设的重要任务,是建强国家关键语料基础设施的重要举措,是加强数字中文建设、推进语言文字信息化发展、推动语言文字高质量发展的基础支撑,也是经济社会信息化建设、数字化赋能和智能化发展的基础要素。
总体考虑是“聚焦一关键、统筹两手抓、夯实三基础”进行整体布局、分步实施、务求实效。具体的部署安排,要坚持战略牵引、需求驱动、应用为要,启动实施国家关键领域语料库建设计划。
一是聚焦“需求”这一关键。在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。
二是统筹“夯实新基建”与“服务制高点”两手齐抓。以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。三是夯实“机制、标准、人才”三个基础。第一是逐步建立健全语料共建共享新机制,第二是研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,第三是依托高校研究机构推进多学科交叉融合,为语言科技、语料建设以及人工智能创新应用培养高素质人才。
教育部语言文字应用管理司副司长王晖补充,“新型国家语料库”建设是在语言文字应用管理司参与研制《教育强国建设规划纲要》的过程当中,汇聚专家学者的意见建议,凝练语言文字支撑强国建设的战略支点过程当中谋划和提出的,并且写入了《教育强国建设规划纲要》。
当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性的进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性,我们应当积极统筹、广泛协同、大力推进。
现在在一些应用领域,主要是在语言的教育教学和研究领域,有多个语料库。但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。
王晖提到:“对此,我们总的考虑是,立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。”
据悉,2025年,语言文字应用管理司已经启动布局了新型国家语料库的建设工作,主要包括两方面:一是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设整体打造出标杆,“中华文脉新型语料库”也可以简单理解瞄准的是智慧教师,“中华大阅读体系语料库”瞄准的是智慧学伴。在此基础上,探索建设系列教育、语言文化国家新型语料库群,服务教育强国、文化强国建设。
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。