书生·浦语大模型实战营（六）：OpenCompass大模型评测

前言

本文为书生·浦语大模型实战营的课程笔记系列第六节

教学视频：B站 BV1Gg4y1U7uc
配套文档：InternLM/tutorial opencompass

关于评测的三个问题

为什么需要评测

模型选型
能力提升
应用场景效果评测

对于不同主体的看待角度来说：

普通用户：了解模型的特色能力和实际效果
开发者：监控模型能力变化，指导优化模型生产
管理机构：减少大模型带来的社会风险
产业界：找出最适合产业应用的模型，赋能真实场景

需要评测什么

知识、推理、语言
长文本、智能体、多轮对话
情感、认知、价值观。

怎么样测试大语言模型

自动化客观评测
人机交互评测
基于大模型的大模型评测

当然，也有其他评测角度，比如利用提示词工程，评测大模型对prompt的敏感性，反映模型鲁棒性

OpenCompass

这部分的介绍请参考官方文档和配套教学文档，这里不再赘述

官方仓库： https://github.com/open-compass/opencompass
官方教程： https://opencompass.readthedocs.io/zh-cn/latest/

作业

基础作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

只需要把教学视频和配套文档里的 internlm-chat-7b 模型修改为 internlm2-chat-7b 评测即可，模型已经在开发机中了，路径： /share/model_repos/internlm2-chat-7b
运行代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 在 opencompass 目录和环境下
conda activate opencompass
python run.py --datasets ceval_gen \
    --hf-path /share/model_repos/internlm2-chat-7b \
    --tokenizer-path /share/model_repos/internlm2-chat-7b \
    --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \
    --model-kwargs trust_remote_code=True device_map='auto' \
    --max-seq-len 2048 \
    --max-out-len 16 \
    --batch-size 4 \
    --num-gpus 1 \
    --debug

跑评测耗时还挺久的，跑起来就去干别的了
- 然后由于开发机所剩算力不够被强制停机了，没看到最终结果 :P

进阶作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能

2种思路，时间关系就不实操了
1. 使用api评测方式
2. 使用 LMDeploy 转换的 turbomind 格式，参考教程：评测 LMDEPLOY 模型

后记

本节课是实战营的最后一节课了，有始亦有终。

本次实战营的课程内容涵盖了大模型的全链路开源体系，从基础的模型理解，到趣味的实践Demo，再到知识库的搭建，微调实践，量化部署，以及模型评测，每一节课都在为我打开一个新的视角，让我对大模型有了更全面的认识。

这是一次丰富的学习经历，期待下一次的学习之旅！