通过结构化评估深化和拓宽大型语言模型评估

2024-10-23 00:53:05  阅读 16 次 评论 0 条
请拖动到本页下方,找到飞猫云下载链接,根据本页下方提示的方法,即可免费下载。

StructEval:通过结构化评估深

化和拓宽大型语言模型评估

摘要:评估是开发大型语言模型(LLMs)的指挥棒。当前的

评估通常对每个原子测试目标采用单一项目评估范式,难以

辨别模型是否真正具备所需的能力,或者只是记忆/猜测特定

问题的答案。为此,本文提出了一种新的评估框架,称为

StructEval从原子测试目标出发,通过在多个认知

StructEval。

水平和关键概念上进行结构化评估,深化和拓宽了评估,从

而为LLM提供了全面、稳健和一致的评估。在三个广泛使用

的基准上的实验表明,StructEval是一种可靠的工具,可以抵

抗数据泄露的风险,减少潜在偏差的干扰,从而就模型能力

提供更可靠和一致的结论。我们的框架还为未来有原则和值

得信赖的LLM评估协议的设计提供了指导。

1简介

评估是开发大型语言模型(LLM)的基础(Ouyang等人,

2022;Touvron等人,2023b;OpenAI,2023),提供必要的

测量、反馈和视角,以促进有用性、可靠性和安全性的增强

(Chang等人,2023)。因此,提出了各种大规模的基准来

评估LLM的能力,如语言理解(Hendrycks等人,2021;Huang

等人,2023a),指令遵循(Li等人,2023;Zheng等人,2023b),

推理能力(Cobbe等人,2021;Srivastava等人,2022a)。

图1:之前的单项评估和我们的结构化评估范式的说明。

不幸的是,目前对LLM的评估通常采用单项评估范式

(Milton等人,2011),这种范式在有效性、稳健性和全面

性方面仍然存在不足。如图1a所示,为了评估LLM中的事

实知识,他们将事实知识划分为一组原子测试目标(例如,

苹果品种、胰岛素功能),并用单个实例(例如,哪个不是

苹果品种)对每个目标进行评估。然而,这种单项评估范式

很难辨别一个模型是否真正具备所需的能力,或者只是记忆

/猜测特定问题的答案。一方面,单项评估依赖于孤立实例的

正确性,孤立实例对与特定实例相关的混杂因素敏感

(Poerner等人,2020;Zhu等人,2023b),并且容易受到

偏见或捷径的影响(Cao等人,2022;Xie等人,2023;Wang

等人,2023a),这使得很难辨别模型的正确反应是由于真

正理解arXiv:2408.03281v1[cs.CL]2024年8月6日还是仅仅记

忆(Cao等。

另一方面,LLM训练数据和记忆能力的快速扩展增加了

静态基准中数据污染的风险(Carlini等人,2022;Jiang等人,

2024),可能导致模型能力评估的夸大(Magar和Schwartz,

2022;Oren等人,2023;Shi等人,2023)。也就是说,由

于测试实例对训练数据集的潜在污染,模型的真实能力可能

会被高估。此外,由于基准构建所需的资源巨大,目前大多

数基准以静态方式评估模型。因此,由于无法及时更新、复

杂性和多样性,它们可能会很快达到饱和。

为了应对上述挑战,之前的研究主要试图人工构建更新、

更难、更多样化的基准。例如,Kasai等人(2022);Yu等

人(2023)根据最近的新闻或文章设计了评估基准;Wang

等人)在原始数据集中添加了扰动,以评估模

型的稳健性;Hendrycks等人(2021);Huang等人(2023a)

从人类专业考试中收集测试实例,以增加难度和多样性。尽

管投入了大量资源,但之前基准测试的单项评估范式仍然难

以确定评估的绩效是否能够忠实、公平地反映模型的能力。

本文提出了一种新的结构化评估框架StructEval,可以全

面、稳健、有效地评估LLM。这是通过采用以教育学理论为

指导的结构化评估来评估多个认知水平和关键概念中每个

测试目标的模型能力来实现的,而不是依赖于单个测试立场

的正确性。具体来说,如图1b所示,StructEval由两个模块

组成,分别深化和拓宽当前评估。给定一个种子实例,第一

个模块识别其非底层测试目标,然后围绕该测试目标生成多

个测试实例,这些实例与布鲁姆分类学中概述的六个认知水

平相一致(Krathwohl,2002)。同时,第二个模块提取必须

理解的关键概念来回答种子问题(Trochim,1989),然后基

于知识图围绕



免费下载链接
飞猫云链接地址:https://jmj.cc/s/jcav00


压缩包解压密码:res.99hah.com_FjdoTPldFi

下载方法:如果您不是飞猫云会员,请在下载页面滚动到最下方,点击“非会员下载”,网页跳转后再次滚动到最下方,点击“非会员下载”。

解压软件:Bandizip

飞猫云免费下载方法:
  1. 打开飞猫云链接地址的页面,拖动到最下方,找到“非会员下载”的按钮并点击
  2. 此时,如果没登录,可能会提醒您注册帐号,随便注册一个帐号并登录
  3. 再在新打开的下载页面,再次拖动到最下方,找到“网页端 非会员下载”的按钮并点击。
本文地址:https://res.99hah.com/post/9160.html
版权声明:本文为转载文章,版权归原作者所有,转载请保留出处!

评论已关闭!