中国移动通信集团设计院有限公司
纸质出版:2024
移动端阅览
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 电信工程技术与标准化, 2024,37(S2):124-132.
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 2024, 37(S2): 124-132.
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 电信工程技术与标准化, 2024,37(S2):124-132. DOI: 10.13992/j.cnki.tetas.2024.s2.018.
陈祖泉. 一种自动化的对专业领域大模型进行应用能力测评的方法研究[J]. 2024, 37(S2): 124-132. DOI: 10.13992/j.cnki.tetas.2024.s2.018.
不同的大模型在不同应用场景中的表现可能存在差异
随着大模型在各行业中的逐渐普及
评估大模型在专业领域的表现显得尤为重要
只有通过系统性的评估
才能确保模型在特定任务中的性能达到预期标准
避免在实际应用中出现失误或偏差。同时评估结果能够揭示大模型在某些方面的不足和潜在的改进方向
指导研究人员优化模型的设计和训练过程
从而提升模型的整体性能。本文提出了一种自动化、体系化的针对专业领域大模型的能力测评的方法
包括通用选择题作答能力、专业领域选择题作答能力、工具调用能力、回答参考一致性、RAG框架下的回答参考一致性、问题回答一致性等测评指标
并依据测评指标相应地给出两种指导专业领域大模型选型的思路。
赵睿卓,曲紫畅,陈国英,王坤龙,徐哲炜,柯文俊,汪鹏.大语言模型评估技术研究进展[J].数据采集与处理,2024(03).
张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023(03).
0
浏览量
20
下载量
CSCD
关联资源
相关文章
相关作者
相关机构