前言
本文为书生·浦语大模型实战营的课程笔记系列第六节
关于评测的三个问题
为什么需要评测
- 模型选型
- 能力提升
- 应用场景效果评测
对于不同主体的看待角度来说:
- 普通用户:了解模型的特色能力和实际效果
- 开发者:监控模型能力变化,指导优化模型生产
- 管理机构:减少大模型带来的社会风险
- 产业界:找出最适合产业应用的模型,赋能真实场景
需要评测什么
- 知识、推理、语言
- 长文本、智能体、多轮对话
- 情感、认知、价值观。
怎么样测试大语言模型
- 自动化客观评测
- 人机交互评测
- 基于大模型的大模型评测
当然,也有其他评测角度,比如利用提示词工程,评测大模型对prompt的敏感性,反映模型鲁棒性
OpenCompass
这部分的介绍请参考官方文档和配套教学文档,这里不再赘述
- 官方仓库: https://github.com/open-compass/opencompass
- 官方教程: https://opencompass.readthedocs.io/zh-cn/latest/
作业
基础作业
使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能
- 只需要把教学视频和配套文档里的
internlm-chat-7b
模型修改为internlm2-chat-7b
评测即可,模型已经在开发机中了,路径:/share/model_repos/internlm2-chat-7b
- 运行代码:
|
|
- 跑评测耗时还挺久的,跑起来就去干别的了
- 然后由于开发机所剩算力不够被强制停机了,没看到最终结果 :P
进阶作业
使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能
- 2种思路,时间关系就不实操了
- 使用api评测方式
- 使用 LMDeploy 转换的 turbomind 格式,参考教程:评测 LMDEPLOY 模型
后记
本节课是实战营的最后一节课了,有始亦有终。
本次实战营的课程内容涵盖了大模型的全链路开源体系,从基础的模型理解,到趣味的实践Demo,再到知识库的搭建,微调实践,量化部署,以及模型评测,每一节课都在为我打开一个新的视角,让我对大模型有了更全面的认识。
这是一次丰富的学习经历,期待下一次的学习之旅!