Featured image of post 书生·浦语大模型实战营(六):OpenCompass大模型评测

书生·浦语大模型实战营(六):OpenCompass大模型评测

本文为书生·浦语大模型实战营的课程笔记系列第六节:OpenCompass 大模型评测

前言

本文为书生·浦语大模型实战营的课程笔记系列第六节

关于评测的三个问题

为什么需要评测

  • 模型选型
  • 能力提升
  • 应用场景效果评测

对于不同主体的看待角度来说:

  • 普通用户:了解模型的特色能力和实际效果
  • 开发者:监控模型能力变化,指导优化模型生产
  • 管理机构:减少大模型带来的社会风险
  • 产业界:找出最适合产业应用的模型,赋能真实场景

需要评测什么

  • 知识、推理、语言
  • 长文本、智能体、多轮对话
  • 情感、认知、价值观。

怎么样测试大语言模型

  • 自动化客观评测
  • 人机交互评测
  • 基于大模型的大模型评测

当然,也有其他评测角度,比如利用提示词工程,评测大模型对prompt的敏感性,反映模型鲁棒性

OpenCompass

这部分的介绍请参考官方文档和配套教学文档,这里不再赘述

作业

基础作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

  • 只需要把教学视频和配套文档里的 internlm-chat-7b 模型修改为 internlm2-chat-7b 评测即可,模型已经在开发机中了,路径: /share/model_repos/internlm2-chat-7b
  • 运行代码:
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 在 opencompass 目录和环境下
conda activate opencompass
python run.py --datasets ceval_gen \
    --hf-path /share/model_repos/internlm2-chat-7b \
    --tokenizer-path /share/model_repos/internlm2-chat-7b \
    --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \
    --model-kwargs trust_remote_code=True device_map='auto' \
    --max-seq-len 2048 \
    --max-out-len 16 \
    --batch-size 4 \
    --num-gpus 1 \
    --debug
  • 跑评测耗时还挺久的,跑起来就去干别的了
    • 然后由于开发机所剩算力不够被强制停机了,没看到最终结果 :P

进阶作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型使用 LMDeploy 0.2.0 部署后在 C-Eval 数据集上的性能

  • 2种思路,时间关系就不实操了
    1. 使用api评测方式
    2. 使用 LMDeploy 转换的 turbomind 格式,参考教程:评测 LMDEPLOY 模型

后记

本节课是实战营的最后一节课了,有始亦有终。

本次实战营的课程内容涵盖了大模型的全链路开源体系,从基础的模型理解,到趣味的实践Demo,再到知识库的搭建,微调实践,量化部署,以及模型评测,每一节课都在为我打开一个新的视角,让我对大模型有了更全面的认识。

这是一次丰富的学习经历,期待下一次的学习之旅!

使用 Hugo 构建
主题 StackJimmy 设计