千帆大模型评估工程师（J）

Company

Baidu

Location

Beijing, China

Type

Full-time

            -熟悉大模型评估的维度和方案，熟悉常用的开源评估集合（MMLU/MATH/LongBench/HumanEval/MBPP/AIME等）及SOTA大模型的水平-熟悉常用的模型评估框架opencampass/eval 等
-熟悉基于大语言模型的自动评估方案，对LLM-as-a-Judge有深入理解
-快速深入理解业务需求，并针对性给出效果评估方案
-构建能够全面准确评估模型通用（知识/写作/对话等）和垂直能力（指令遵循/工具调用/代码/数学等）的评估方案
-以开源和领域场景需求为基础，建设标准的标注及自动评估流程，提高模型评估效率
-研究多模态理解和生成场景的评估方案，以开源和领域场景需求为基础，建设标准的标注及自动评估流程，提高模型评估效率
-研究基于大模型的自动化评估方案，在LLM-as-a-Judge及垂直领域奖励评估方向进行深入研究
        

★ SearchEuropeanJobs.com

千帆大模型评估工程师（J）

★ Ready to Start Your European Career?