1. 赛迪智库网络安全研究所
2. 中国软件评测中心(工业和信息化部软件与集成电路促进中心)
3. 赛迪智库无线电管理研究所
纸质出版:2026
移动端阅览
韩冰(文), 王佳音(文), 钟新龙(文). 大模型训练中文数据研究[J]. 软件和集成电路, 2026,(4):48-50.
韩冰(文), 王佳音(文), 钟新龙(文). 大模型训练中文数据研究[J]. 2026, (4): 48-50.
韩冰(文), 王佳音(文), 钟新龙(文). 大模型训练中文数据研究[J]. 软件和集成电路, 2026,(4):48-50. DOI: 10.19609/j.cnki.cn10-1339/tn.2026.04.013.
韩冰(文), 王佳音(文), 钟新龙(文). 大模型训练中文数据研究[J]. 2026, (4): 48-50. DOI: 10.19609/j.cnki.cn10-1339/tn.2026.04.013.
<正>当前,国内模型通过不断优化数据处理流程、提升数据质量标准、创新训练方法,在中文任务上展现出良好性能。同时,跨语言迁移技术、多语言对比学习等方法的发展,为模型进一步提升数据利用效率开辟了新路径,这些方法也是未来技术攻关的重要方向。当前,学术界与产业界对大模型训练阶段的中文数据使用情况存在认知差异。为厘清这一核心问题,我们对比分析国内外主流大模型的训练数据构成及性能表现,并开展了专项研究工作。研究表明,我们需明确数据统计口径的界定标准,在此基础上可发现国内外模型在中文数据使用比例上存在显著分化,且数据占比与模型综合性能之间存在复杂的关系。
0
浏览量
下载量
CSCD
关联资源
相关文章
相关作者
相关机构