-熟悉大模型评估的维度和方案,熟悉常用的开源评估集合(MMLU/MATH/LongBench/HumanEval/MBPP/AIME等)及SOTA大模型的水平-熟悉常用的模型评估框架opencampass/eval 等
-熟悉基于大语言模型的自动评估方案,对LLM-as-a-Judge有深入理解
-快速深入理解业务需求,并针对性给出效果评估方案
-构建能够全面准确评估模型通用(知识/写作/对话等)和垂直能力(指令遵循/工具调用/代码/数学等)的评估方案
-以开源和领域场景需求为基础,建设标准的标注及自动评估流程,提高模型评估效率
-研究多模态理解和生成场景的评估方案,以开源和领域场景需求为基础,建设标准的标注及自动评估流程,提高模型评估效率
-研究基于大模型的自动化评估方案,在LLM-as-a-Judge及垂直领域奖励评估方向进行深入研究