人民日报出版社主管 人民周刊杂志社主办

人民财经网

首页 > 要闻 > 正文

国内多数模型训练使用中文数据占比超60%

  2025-08-19 11:50:44  人民日报

本报北京8月18日电  (记者王云杉)记者从国家数据局获悉:中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

在人工智能时代,Token(通常所说的词元)是处理文本的最小数据单元。国家数据局局长刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

(责编:李茜)

相关热词搜索:

上一篇:政策问答·回应关切|持续提振消费,还有哪些举措
下一篇:最后一页

人民财经网版权及免责声明:

1.凡本网注明“来源:人民财经网”或“来源:人民周刊”的所有作品,版权均属于人民财经网(本网另有声明的除外);未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品;已经与本网签署相关授权使用协议的单位及个人,应注意作品中是否有相应的授权使用限制声明,不得违反限制声明,且在授权范围内使用时应注明“来源:人民财经网”或“来源:人民周刊”。违反前述声明者,本网将追究其相关法律责任。

2.本网所有的图片作品中,即使注明“来源:人民财经网”及/或标有“人民财经网(www.peoplecen.com)”“人民周刊”水印,但并不代表本网对该等图片作品享有许可他人使用的权利;已经与本网签署相关授权使用协议的单位及个人,仅有权在授权范围内使用图片中明确注明“人民财经网”或“人民周刊记者XXX摄”的图片作品,否则,一切不利后果自行承担。

3.凡本网注明“来源:XXX(非人民财经网或人民周刊)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

※ 联系电话:010-65363526 邮箱:rmzk001@163.com