AILawBench
作 者:许新冉*
摘 要:

什么是BenchMark

BenchMark,即基准,其起源于土地测量领域,当时用一个物理标记(称为“bench mark”)作为高度测量的参考点。这种标记通常是建筑表面的一个水平凹槽,用来支撑水准尺所放置的水平面或“平台”。随着时间推移,该术语的含义逐渐扩展,泛指任何用于比较或评估的标准或参考点。本文重点关注计算领域的基准测试,即通过将硬件或软件系统与某一标准或参考点进行比较来评估其性能。更具体而言,我们将视线聚焦于AI开发,其中基准测试常被用于实现模型间的横向比较、追踪模型进展并识别其不足之处。[1]

在AI领域,最知名的BenchMark就是“图灵测试”了,当然它仅处于概念雏形阶段。历史上,学者们曾面临一个核心难题:如何界定一个算法或系统是否具备”足够的智能”。由于”智能”这一概念本身含义模糊,学界对此争论不休。而图灵则创造性地绕过了智能的定义,提出了“图灵测试”,将该问题变成了一个可执行、可量化的任务判断。测试的核心逻辑是:在测试人与被测试者(人类与机器)相互隔离的情况下,若测试人无法通过对话分辨出超过30%的回应来自机器而非人类,那么这台机器即可被视为通过测试,具备类人智能水平。到1976年,基准测试已成为计算领域相当普遍的做法,美国政府为采购计算机系统,在评估过程中开始采用专门设计的标准模拟软件库,用于测试核心功能任务中的特定子程序(如文件管理、文字处理等)。

当然,“图灵测试”本身是一种通用测试,用来判断机器是否具有某些普遍的认知功能。如今的AI基准测试更聚焦于某些特定的领域或目标,根据模型在具体应用中的实用效果来评价其性能。[2]基准测试可应用于软件和硬件解决方案,后者例如评估CPU、GPU或TPU的性能,本文关注的是面向软件的基准测试。

根据目前学界的定义,BenchMark是人工智能领域中用于评估模型性能的标准化框架,它由测试数据集(可能包括人机交互环节)性能评估指标组合而成,作为被研究社群共同认可并采用的共享标准,旨在代表和测量模型处理一个或多个具体任务的能力。其中,测试数据集独立于模型的训练数据,通常由多个包含输入信息和对应期望输出(如参考答案或真实标签)的样本构成,确保评估的客观性和泛化能力;而性能评估指标则通过预设的机制规范,将模型在特定任务上的表现量化为单一数值或分数,通过统计系统输出在个体层面的成功与失败并对整个数据集的结果进行汇总,为比较不同模型的优劣提供统一标准。在某个基准测试中取得最佳成绩的模型,通常被认为在相应任务上达到了最先进(SOTA)水平。[3]

至于BenchMark中的人工因素,尽管人类始终参与基准测试中数据集和评估指标的设计与构建过程,但他们可能在测试时扮演不同角色,或直接或间接。在自动化评测或定量基准测试中,任务、数据集和指标首先由人类决策设定,随后测试的执行不再需要直接的人类干预。而在定性基准测试中,人类会介入并参与评估过程,例如作为评估者、裁判或质询者(如对抗测试)。

举例而言,我想测试大模型的法律思维能力,就先得对“法律思维能力”进行定量分析。这种量化建立在捕捉“法律思维能力”这一抽象概念的具体表征上,如大模型在司法考试中的得分高低,那么有了「法律思维能力——司法考试得分」这个指标之后,就可以去构建数据集,也即历年考试真题,让大模型去做这些测试题,观察其得分情况。当然,这是一个最简单的简化,其好处在于法考题数据非常容易获取,具有易执行性(这点对于实践项目交付非常重要);坏处在于,司法考试得分真的能体现出法律思维能力吗?司法考试题、中国政法大学的期末考试题、江平奖学金测试题,哪个更能体现出法律思维能力呢?除了考试题,还有别的方法来测试大模型的法律思维能力吗?

注意,对抽象能力的测评一定是一个压缩、降维的过程。也即在让抽象、宏观命题变成具体命题时,不可避免地会出现损耗。我们需要尽可能让损耗变低(指标要全),同时要兼顾围绕指标构建数据集的可行性。[4]

那么,在我们的项目中,会检索大量既有的BenchMark,思考他们的不足,并在此基础上优化或提出我们自己的BenchMark。

在阅读时需注意,过往研究可能存在以下问题:

  • 评估方法不一致(Inconsistent evaluation methods):不同的团队可能对成功标准有不同的解释,或者使用不同的测试条件;
  • 选择性报告(Cherry-picking concerns):团队可能只报告其最佳表现,而不是平均表现;
  • 缺乏可重复性(Lack of reproducibility):外部研究人员无法独立验证所声称的结果;
  • 任务子集缺失(Task subset variations):由于评估困难,某些任务可能会被排除,导致结果不可比较。

一些常用的检索途径

  • Github - 全球最大的代码托管和版本控制平台,由Git提供技术支持。开发者可以在这里存储、管理和共享代码,进行协作开发,以及使用Issue追踪、项目管理等功能。
  • Arxiv - 一个开放获取的预印本平台,主要用于物理学、数学、计算机科学、生物学等领域的学术论文快速传播。研究人员可以在此发布尚未经过同行评审的研究成果。
  • OpenReview - 一个专注于学术论文开放评审的平台,特别在机器学习和人工智能领域广泛使用。它支持透明的同行评审过程,允许公众查看评审意见和讨论。

计算机顶会一览及其论文查询(重点摘录项目相关)

顶会顶刊,通常是指《CCF推荐国际学术期刊和会议目录》(点击下载)和ACM计算机学分类系统相关子领域的A类期刊和会议,此外也有相关专家和团体的推荐。通常将国际计算机类刊物和会议分为10个领域,每个领域分别选出期刊和会议的A、B、C三类,也就是大家说的CCF-A、CCF-B和CCF-C。下文主要介绍人工智能领域的CCF-A类顶会。顶会论文主要有两种检索方式,一是逐个会议查询;二是通过“公开审稿”的集成系统(openreview),它相当于把第一种方式中的大部分会议打包到了一起。建议先通过第一种方式熟悉各个会议的基本风格及特色,然后再通过第二种方式进行高效检索。

路经一:探索顶会官网

官网的好处在于,它除了过往论文整理外,还提供实践表、论文写作指引等内容。

ICML.png

以下是一些人工智能顶会:

AAAI

AAAI(Association for the Advance of Artificial Intelligence),即国际先进人工智能协会。该协会成立于1979年,目前全球会员超过6000名,是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级学术会议之一。可以通过点击此处浏览历届会议情况并进行论文检索。以AAAI-25为例,进入页面如下图所示:

截屏2025-11-08 21.02.07.png

点击OpenReview即可进入论文检索页面,可以根据论文标题、作者、摘要等进行检索。

IJCAI

IJCAI(International Joint Conferences on Artificial Intelligence),即国际人工智能联合会议。可以通过点击此处浏览历届会议情况并进行论文检索。以IJCAI-25为例,进入页面如下图所示:

截屏2025-11-08 21.24.44.png

可以通过顶部菜单栏Program选择不同项目进行检索,例如可以点击此处查看主会的情况,可以根据论文标题、作者、摘要等进行检索。

ICML

ICML(International Conference on Machine Learning),即国际机器学习大会。可以通过点击此处浏览2025年的会议情况并进行论文检索。

ICLR

ICLR(International Conference on Learning Representations),即国际学习表征会议,是深度学习领域的国际顶级会议之一。可以通过点击此处浏览2025年的会议情况并进行论文检索。

路径二:OpenReview查询

OpenReview官网主页面有四个板块:新闻(news)、活跃的会议(active venues)、接受投稿(Open for Submissions)和会议集成(All Venues)。其中,会议集成部分按照首字母顺序列出了大部分人工智能顶会的论文公开审稿记录。以ICLR为例,点击「ICLR」,再点击「ICLR 2025 Conference」,就会看到如下页面:

OpenView_ICLR.png

一般我们只看接受发言(Accept Oral)和接受(Accept Spotlight)两个部分的论文,可以在分栏下的搜索栏以特定关键词检索。当找到某篇具体的论文后,点击去,可以看到论文全文、审稿意见、审稿人评价,以及作者对审稿人意见的回应等内容。



* ^ 

  1. ^  Maria Eriksson et al., Can we Trust AI BenchMarks? An Interdisplinary Review of Current Issues in AI Evaluation, (25 May, 2025) https://arxiv.org/abs/2502.06559 p.3.

  2. ^  Inioluwa Deborah Raji et al., AI and the Everything in the Whole Wide World Benchmark, (26 Nov, 2021) https://arxiv.org/abs/2111.15366pp.2-3.

  3. ^  同上注。

  4. ^  关于大模型BenchMark中可供思考和批判的一些角度,可参见:“在大语言模型中定义与测量文化:框架的构建与裂痕”