中国建成8000万词级蒙古语语料库

22.01.2016  17:20
      经过10年的搜集、标注和撰写,中国已建成8000万词级蒙古语语料库。目前,这个语料库已上线运行。  

  记者从内蒙古自治区社会科学院了解到,2005年启动的蒙古语语料库建设工程,计划用20年建成中国首个2亿词级的蒙古语、达斡尔语、鄂温克语、鄂伦春语大型综合性语料库。工程分2期进行,目前,一期工程已完成,二期工程开始实施。

  蒙古语语料库建设工程实施的10年间,课题组在使用蒙古语的中国8个省区、蒙古国的5个省市、俄罗斯布里亚特共和国和卡尔梅克共和国境内的97个采集点,搜集了6725人共4192小时的自然口语语料和4000多小时的书面语料,建成8000万词级蒙古语语料库。

  据了解,蒙古语语料库建设工程将为抢救濒危民族语言、保护弱势语言、保存开发利用蒙古语等少数民族语言资源提供基础,并为蒙古语等少数民族语言文字的规范化、信息化提供一个理想的信息资源。