一种自动化的对专业领域大模型进行应用能力测评的方法研究

陈祖泉

doi:10.13992/j.cnki.tetas.2024.s2.018

Chinese

您当前的位置：

首页 >

文章列表页 >

一种自动化的对专业领域大模型进行应用能力测评的方法研究

构建智能化运维系统 | 更新时间：2026-04-20

- 一种自动化的对专业领域大模型进行应用能力测评的方法研究
- 一种自动化的对专业领域大模型进行应用能力测评的方法研究
- 电信工程技术与标准化 2024年37卷第S2期页码：124-132
- 作者机构：
  
  中国移动通信集团设计院有限公司
- 作者简介：
- 基金信息：
- DOI：10.13992/j.cnki.tetas.2024.s2.018
  中图分类号： TP18;TP391.1
- 纸质出版：2024
- 稿件说明：
移动端阅览
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 电信工程技术与标准化, 2024,37(S2):124-132.

陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 2024, 37(S2): 124-132.
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 电信工程技术与标准化, 2024,37(S2):124-132. DOI： 10.13992/j.cnki.tetas.2024.s2.018.

陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 2024, 37(S2): 124-132. DOI： 10.13992/j.cnki.tetas.2024.s2.018.

摘要

不同的大模型在不同应用场景中的表现可能存在差异

随着大模型在各行业中的逐渐普及

评估大模型在专业领域的表现显得尤为重要

只有通过系统性的评估

才能确保模型在特定任务中的性能达到预期标准

避免在实际应用中出现失误或偏差。同时评估结果能够揭示大模型在某些方面的不足和潜在的改进方向

指导研究人员优化模型的设计和训练过程

从而提升模型的整体性能。本文提出了一种自动化、体系化的针对专业领域大模型的能力测评的方法

包括通用选择题作答能力、专业领域选择题作答能力、工具调用能力、回答参考一致性、RAG框架下的回答参考一致性、问题回答一致性等测评指标

并依据测评指标相应地给出两种指导专业领域大模型选型的思路。

Abstract

关键词

Keywords

references

赵睿卓,曲紫畅,陈国英,王坤龙,徐哲炜,柯文俊,汪鹏.大语言模型评估技术研究进展[J].数据采集与处理,2024(03).

张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023(03).

浏览量

下载量

CSCD

文章被引用时，请邮件提醒。

提交

工具集

关联资源

物理AI驱动数据中心底座智能化的探讨

面向动环监控系统的AI架构设计与研究

无线维护智能大模型架构的研究

基于大模型的装维场景智能助理的研发与应用研究

基于人机协同的大模型自动标注IT图谱算法

相关机构

光合泰智(杭州)科技有限公司

苏州苏驼云计算有限公司

中国移动通信集团广西有限公司桂林分公司

中国移动通信集团广西有限公司南宁分公司

中国移动通信集团广西有限公司北海分公司

AI问答

地址：北京市丰台区顺八条1号院2号楼北阳晨光大厦2层邮编：100079
联系电话：（010）53879206 Email：tmw@bjxintong.com.cn
技术支持由北京北大方正电子有限公司提供京ICP备09082226号-64 京公网安备11010602201714号
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰