社会科学中的概念和测量(读书笔记)
作 者:许新冉
摘 要:本文是对Gary Goertz*所著的《社会科学中的概念和测量》(Social Science Concepts and Measurement)一书的阅读摘录和总结。

绪论:概念与测量的本体语义学路径

我们在社会科学研究中,会处理各种各样的概念。它涉及我们所研究之事物的意义、语义和本体论。因此,概念是对“是什么”的问题的回答。如“民主是什么”或“贫困是什么”等。传统上,这些定义多见于哲学与理论思辨,但在当代研究语境下,这些概念往往会被转化为各类指标和数据,用以进行量化分析。本书选择用“杂耍球”这个比喻,来解释概念的多重面向。

该图的中间部分是一个语义学球体。这里的核心问题是,概念的含义是什么。这意味着概念化是关于定义的学问。例如,在政治和道德哲学领域,分析的重点是关于一些核心政治概念的定义。

但如果一个人只关注定义,那么就有可能对概念和它们的本体论有一种完全单一的看法。因此,在讨论语义学时,将因果关系,描述和规范性问题置于语义学讨论的前面是非常关键的。那么如何决定什么应该放到概念的语义学中呢?正如上图的箭头所指向的那样,三个重要的因素决定了社会科学中概念的语义学内容。

描述层(经验效度):概念是对现实的准确映射。核心使命是准确描述真实世界,本书舍弃了“唯名论”(即认为概念只是随意的标签),主张一种现实视角。同时,描述的准确性会反过来修正概念的语义,形成双向互动——如果一个概念(如“贫困”)无法解释或捕捉到现实中的等级差异,那么它的定义就是失败的。此外,概念还必须触及事物的本质,这是其本体论基础,例如心理学中的“抑郁”或社会学中的“贫困”都是真实存在的现象,研究者的任务是通过概念化来精准地刻画它们的边界。

因果层:概念不再是静止的定义,而是识别与承载世界“因果力量”的实用载体。概念不仅作为自变量或因变量去参与概念间的逻辑推演,它内部就蕴含着潜在的因果结构。一方面,在“病理模型”中,抽象的特质会被视为诱发具体指标表现的根本原因;另一方面,强调概念内部不同维度间(如各项自由权利)并非简单的语义拼凑,而是存在着相互驱动的经验性关联。因此,科学的概念建构应当遵循因果机制的逻辑,优先选择那些具有显著解释效力与影响力的特质作为定义的核心要素。

规范层(价值导向):概念是道德与政治的抉择。大多数社科概念在哲学上都是“混合”的,既包含经验事实,也预设了道德、审慎或政治上的价值判断;规范性视角的变迁会直接改写概念语义,例如DSM手册对“同性恋”定义的删除以及残障群体对“失聪”概念的重新界定,都体现了社会正义和道德评价对概念建构的干预;同时要警惕“中立陷阱”,任何声称完全“中立”或“纯描述性”的概念(如“良治”或“民主”)往往都隐含了深层的规范性价值(如权利、自由、公民期待)。

概念结构的核心是聚合问题,可以把概念看作一个聚合的过程,即把多个元素聚合在一起形成某个「概念」。因此,概念是个连续的统一体,在这个连续体中可以根据可替代性而划定三个层级,分别是最小值(最弱联系)、平均值和最优值。

  • 最弱联系概念结构:最小值是概念聚合起来的核心,不可替代。例如把一辆法拉利的发动机给拆走后,它就不满足汽车的要求了;
  • 平均结构:平均值具有适度的可替代性,好的可以弥补坏的,但坏的依然会拉低总分。就好像考试偏科不要紧,只要总分够高就行;
  • 最优值概念结构:最优值是可被替代的,强调“可能性”。例如荒野求生时,你有三种逃生工具,只要其中一种能用就能活命。

对复杂概念的数值测量意味着决定各元素之间聚合的规则和结构,这是不可回避的过程。

而不同维度的聚合需要一个共同的量度,但不同的维度、数据和指标往往包含着不同的量度。心理学上有许多经典的指标分类,如史蒂文斯分类法(Stevens classification,见下表,只是诸多分类之一)。

量度层次 核心特点 典型例子 聚合难度与数学特性
名义 (Nominal) 仅进行类别划分,成员之间没有高低、大小之分。 性别、宗教、国籍、邮政编码 极难聚合。无法进行加减乘除,仅能计算频率或众数。
顺序 (Ordinal) 具有等级或高低顺序,但各等级之间的间距无法精确衡量。 满意度(很满意/不满意)、军衔、名次 较难聚合。间距不相等且不确定,通常仅能计算中位数。
间隔 (Interval) 单位间距相等,但没有绝对的零点(零不代表“无”)。 摄氏温度、年份、智商得分 一般。可加减,但不能乘除(如 40°C 并非 20°C 的两倍)。
比率 (Ratio) 既有相等间距,又有绝对零点(零代表“完全没有”)。 身高、收入、真实数量、绝对温度 最理想。可进行所有数学运算,最适合进行复杂概念聚合。

理想状态下人们需要将二元的、顺序的以及间隔指标转化成比率变量。这些方法都需要一系列数学操作来完成。当然,在哲学层面,学者通常认为不同维度不可通约。例如,在《弱点》(Disadvantage)中,沃尔夫和德-沙利特(Wolff & De-Shalit)强烈反对将生活中的所有要素缩减成单纯的数值刻度。他们认为,不同要素之间的聚合必然会遗漏一些十分重要的事情。在语义学层面,如果人们对概念之特征的不可通约性(incommensurability)要求过高,那么便不能够创造一个定义。

最后,社会科学的概念常以“概念对”或“两极概念”形式出现(如民主与专制、和平与战争)。但简单地将一方视为另一方的“否定”往往是不够的,例如“和平”并不等同于“非战争”,专制也不等同于非民主,这种语义上的差异直接影响因果推论。此外,学者常用类型学来组织复杂的概念集,但传统的类型学构建原则(互斥且穷尽)在实际操作中存在方法论缺陷,严苛的分类可能导致经验研究和逻辑推导上的偏差。

概念化与测量的基本框架

概念结构.png

上图是本书的核心,即概念化与测量的基本框架(逼着)。其中基本层是我们要去分析的概念,如发展、贫困和福祉等。第二层(SL)指代这些概念的不同维度,毕竟每个复杂概念都有诸多特征或属性。第三层,也即数据-指标层(DIL),是指我们要去测量的具体数据或指标,如收入、教育水平和寿命等。术语“指标”指代量化数据(包括以0—1设计的“存在-缺席”)。概念的测量往往要从其本体论和定义开始探讨,因此,上图用虚线来指代基本层和特征/属性之间的本体论关系。通常,每个特征/属性有多个(量化)指标,它们用虚线箭头表示,意味着因果关系的存在。上图中也有也有许多“?”,它们表示了概念的内部结构,即多个属性是如何聚合在一起的。人们需要考虑数值指标如何组成第二层的属性,以及各个属性如何组合成最终的概念。对这些问题的回答方式决定了不同的量化策略。学者背景各异,采取的策略自然不同。笔者在这里引入了“默会知识”这个概念。毕竟,量化路径的选择往往并非出于严密的逻辑推演,而是植根于研究者长年累月的实践积淀。这种知识深藏于手感、直觉与不成文的规范中。

评判概念结构图是否合适,可参考以下准则:

  • 完整性准则:概念定义应该是完整的,它不应该遗漏任何必要或重要的维度;
  • 冗余性准则:决定冗余性是否可取。用逻辑词“和”或者“加”来表示非冗余,用逻辑词“或”表示冗余。

根据奥卡姆剃刀而言,冗余并非是一个好做法。毕竟,高度冗余意味着在用同义词定义事物,这并不能增进理解,反而产生了大量可随手删减的废词。但如果在SL层使用逻辑连接词“或”来衔接时,冗余可能是必需的。这意味着达成某个概念可以有多种路径。在这种语境下,为了确保系统的稳健或全面,冗余不仅可能存在,甚至是刻意追求的。

值得注意的是,特征层和指标层,也就是第二层和第三层之间存在着逻辑背离,二者的重心不同。前者关心的是概念的语义定义,而后者关心的是数学运算(如平均值、加权)。很多时候,数学上的操作与语义上的定义并不完全对应。

在平均值逻辑下,指标被视为对“同一事物”的重复测量。例如在测量“生活质量”时,如果收入、住房面积、人均绿地这几个指标高度相关,从第二层看就可能认为它们都是在“重复”反映生活水平这同一个核心维度。在这种模式下,研究者无需列出穷尽的指标清单,因为不同角度的测量所捕获的信息是一致的。少一个指标或多一个指标,理论上不应大幅改变最终的均值结果。因此,只要有足够多、高度相关的指标,就能勾勒出事物的原貌,此时削减冗余反而能提升测量的经济性。

但并非所有的测量都应采取这种逻辑,在“或”与“阈值”的处理逻辑下,也即各指标相关性较低、却共同界定某一维度时,冗余就成了一种刻意的设计。例如在计算贫困时,我们可能会考虑使用“或”逻辑,即只要家庭满足清单中的任意一项(如使用木柴或牛粪烹饪),即可被判定为贫困。或者,在“消费贫困”中,个人在各种生活必需品(食品、衣物、住房等)上的支出被累加。只要这个总和低于设定的阈值,就被界定为贫困。在这两种思路看来,冗余和不完全相关的指标不仅是可能的,更是确保概念完整性的必要手段。

同时,由于待测量之概念的复杂性,研究者可能需要综合多个逻辑加以判断。例如,判定一个自动化系统是否具有“准法律主体”特征,所需要的内容可能就包括:(自主性 > 阈值 AND 责任承担能力 > 阈值) AND NOT (受人类实时指令操控)。它不再简单地给各项指标打分求和,而是设定了必须同时满足的阈值:系统既要拥有足够的自主性,也要具备承担后果的责任能力,二者缺一不可(逻辑与);同时,它还设有一票否决项,即如果系统仍受人类实时操控(逻辑非),其独立主体身份便不能成立。这种逻辑嵌套清晰地划定了工具与主体的界限,即便某个算法的自主性再高,只要它不具备责任能力或尚未摆脱人类指令,就依然只能被视为工具而非主体。

在社会科学研究中,许多核心概念——如“法治意识”“创新能力”或“幸福感”——是无法像身高、体重那样直接用仪器测量的。这些无法直接观测、只能通过外在行为或指标来推断的抽象特质,就被称为潜变量。潜变量分析的核心逻辑在于假设存在一个潜藏的特质作为“因”,支配并导致了受访者在各项观测指标上的表现。例如,正是因为个体内心拥有“环保意识”,才表现为垃圾分类或节水习惯。通过观察多个指标间的相关性,研究者利用加权平均等统计手段剔除随机误差,从而从数据中“萃取”出那个抽象的、最真实的数值。

这种模式与本书提出的语义-本体框架在逻辑起点上便分道扬镳。潜变量方法本质上是一种因果驱动的统计路径,它将概念视为一种不可见的“因”,而将各项指标视为其排泄出的“果”。在这种视角下,语义内容被挤压到了底层的指标中,概念的生成过程完全依赖自下而上的数据合成,并极度迷信指标间的高度相关与冗余。简言之,在潜变量模型中,指标只是互为影子的重复测量,研究者通过数学手段消除噪声,以捕捉那个躲在数据背后的单一分值。这种方法在本质上是一维且扁平的,往往为了统计上的稳健性而牺牲了概念的逻辑深度。

相比之下,本书提出的语义-本体框架遵循一套自上而下的界定逻辑。它强调概念的实质内涵应在顶层维度就得以确立,而非通过底层数据的统计特征来被动推断。在这种范式中,维度与指标的关系更像是“拼图”而非“影子”:每个维度都承载着独特的语义功能,它们未必高度相关,却共同拼凑出概念的完整轮廓。因此,该框架不再盲目推崇平均值逻辑,而是根据现实需求引入了“最薄弱环节”、“或”以及“阈值”等更具解释力的逻辑门,从而构建出多层次、多逻辑的概念体系。这使得该框架更适用于处理那些逻辑结构复杂、不能被简单数学代换的社会科学与法律概念。

建构概念的准则

  • 内涵准则:若术语带有极端的正负情绪,须深究其如何通过规范性偏见影响概念的界定边界、测量范围及编码逻辑。
    • 术语往往并非中性的标签,而是承载了特定的道德褒贬或政治倾向。如果一个术语(如“独裁”或“正义”)包含了强烈的消极或积极内涵,研究者就必须深究这些情感底色如何潜移默化地影响了样本的筛选范围和编码标准。在规范性色彩浓厚的领域,这种内涵往往决定了研究者的“红线”画在哪里——例如,将某种政体标定为“专制”而非“非西方民主”,本身就预设了一套关于合法性的评价体系。
  • 多词准则:面对多词概念,应着重解析各构成要素间的交互逻辑。
    • 当一个概念由多个词汇组合而成时(如“竞争性威权”或“转型正义”),它不再是单一的语义点,而演变成了一场概念间的“化学反应”。多词准则要求研究者明确:形容词究竟是在做“减法”(通过增加限制维度来缩小外延子集),还是在做“加法”(通过复合属性创造出新的中间地带)。例如在“议会制民主”中,“议会制”与“民主”是如何交互并重新定义权力结构的?我们需要剖析这些词汇是呈嵌套关系、相交关系,还是通过某种逻辑门(如“和”与“或”)紧密耦合在一起的,以确保复合概念的结构稳固。
  • 多术语选项准则:审视同一概念下的多种称谓,权衡不同术语选用的理论代价。
    • 针对同一个现象,往往存在多个竞争性的术语选项(如“赤贫”、“极端贫困”与“非常贫穷”),而选择特定的称谓绝非简单的文字游戏,它意味着对理论侧重点的重新锚定。该准则要求研究者反思:为什么放弃“君主制”而选择了“专制”作为民主的对立面?使用“赤贫”是否暗示了某种生理极限的测量,而“非常贫穷”则更多指向相对的社会剥夺?每一次术语的选择,本质上都是在进行一次本体论的站队。研究者必须清晰说明,所选术语在表达精度、历史语境或理论兼容性上,究竟优于其他选项在哪。
  • 范围准则:清晰划定概念的适用边界,界定其“可应用”与“不可应用”的经验区间。
    • 范围准则要求研究者明确界定概念所适用的观察总体(即分析单位),并在该范围内对所有对象进行系统编码。这一准则强调,不应人为截取如“仅限专制国家”这种二分法后的子集作为研究范围,而应选择如“所有国家”这样的完整集合,以确保零分案例(如非君主制国家)与非零案例同样具备实证与因果分析的意义。对于诸如无政府状态、外国占领或转型期等可能导致编码失效的边缘性情况,必须通过明确的讨论与论证来判定其是否属于该范围,从而保证数据收集的完备性与理论边界的严谨性。
  • 连续统准则;始终将概念视为连续统一体,并以正向极点(正极)作为衡量的起点。
    • 世界并非由纯粹的极端组成。通过连续统视角,我们可以准确刻画如“竞争性威权”这种既带有民主特征又具有专制色彩的中间状态(灰色地带),并允许相邻概念在语义空间中自然重叠。事实上,社会现象中往往不存在所谓的“种类差异”或“质的不同”,只有“程度的差别”。当人们说 A 与 B 有质的区别时,在连续统视角下,本质上是指 A 接近 1.0(正极),而 B 接近 0.0(负极),两者的差异体现为极大的分值跨度(即“非常不同”),而非逻辑上的断裂。
  • 二分法准则:严禁将复杂概念降维为非黑即白的二分逻辑。
    • 应极力避免将复杂现实简单切分为非黑即白的对立类别,二分法在本质上是信息的严重损失。作者指出,无论是世界银行设定的“贫困线”,还是政治学中对“民主/专制”的硬性划分,大多源于对亚里士多德传统逻辑中非对即错的盲目延续,而非基于统计学或现实需求。尽管在确定案例范围(如判定某一政治实体是否进入数据集)时,二分法抉择往往因技术局限而显得难以逃避,但在描述现象的属性与本质时,研究者应跳出这种“种类差异”的窠臼,转而采用能容纳灰色地带的连续测量,以实现对社会现象更具本体准确性的捕捉。
  • 理想类型准则:坚持以理想类型进行概念化,将其置于基本连续统的极端正向位置。
    • 理想类型准则主张研究者应将概念锚定在连续统的最极端正向位置(即“正极”),以此作为衡量现实案例的绝对参照系。作者指出,理想类型在现实中往往具有“零外延”或极低频率的特征,旨在捕捉那些完美契合定义但极少出现的案例,从而避免因阈值设定过低而导致的“乌比冈湖效应”或信息流失(如 1900 年存在种族排斥的美国仍被评为民主满分)。该准则反对为了达成共识而退求其次的“最小定义”,认为仅罗列必要条件而忽视充分性的最小化策略无法构成真正的理想类型;它要求概念化应超越特定历史语境或平均水平的“代表性”,通过确立一个绝对的极点,清晰地揭示出不同时空背景下案例与完美状态之间的差距。
  • 灰色区域准则;将中间状态显性化,对灰色地带进行独立的语义建构。
    • 灰色区域准则强调不应仅将中间地带视为两极之间的随意插值,而应将其作为一种独特且具有独立理论价值的现象进行专门的语义建构。作者指出,灰色区域往往孕育出如“竞争性威权”这类具有特定内涵的连字符概念,其案例的分布疏密通常构成核心的因果之谜。遵循此准则要求研究者像对待理想类型一样,严谨地界定中间状态的本体属性,从而深度揭示复杂现实中那些既非此又非彼的独特运行逻辑。
  • 负极准则:明确界定负向极点的内涵,而非仅将其视为正极的缺失。
    • 负极准则主张研究者不应仅将负极视为正极的缺失(即简单的“非正极”),而必须对其进行独立的语义建构与明确定义。作者指出,负极往往缺乏统一术语且表述混杂(如专制研究与民主研究对极点的互换),这反映了概念逻辑的不对称性。遵循此准则要求研究者不仅要关注正向的理想类型,更要赋予“对立面”同等的分析深度,通过确立清晰的负向内涵来完善整个概念对的连续统结构,避免因忽视负极而导致的理论缺失。
  • 否定的异质性准则:审视负极是否存在异质性,以防其干扰因果推断。
    • 否定异质性准则指出,由于正极通常是内涵高度集中的理想类型,其对立面(负极)往往表现出极端的异质性,这会直接危及因果推理的有效性。作者通过“比例代表制”的案例说明,如果对照组(非比例代表制)同时包含美国与朝鲜这样异质的个体,统计系数将变得难以解释。遵循此准则要求研究者必须追问“与什么相比”,审慎处理负极或非灰色地带案例在实证分析中的构成,因为对照组的选择(是向正极看齐、向负极靠拢,还是兼而有之)极可能改变统计结果的正负符号或显著性水平,甚至彻底翻转因果结论。
  • 概念不对称准则:预设概念对之间是不对称的。若主张二者互为镜像、反转或逻辑否定,须提供严密证明。
    • 概念不对称准则主张应将“不对称”视为概念对的默认状态,即对立面(负极)绝非正极的简单镜像、反转或逻辑否定。作者指出,负极往往包含正极定义中不具备的独特属性,这种语义上的独立性直接导致了因果机制的不对称——解释财富产生的变量往往无法有效解释贫穷的根源,解释战争的理论框架也并不等同于和平理论的逆推。遵循此准则要求研究者必须证明概念对之间是否存在对称性,而非含蓄地假设二者在统计模型或理论架构中互为正负号,从而避免因忽视负极的自主特征而导致理论解释力的错位。
  • 通过否定准则来定义:慎用“否定式定义”;在建构过程中,正向属性的权重应优于负向属性。
    • 通过否定准则来定义指出,尽管在学术实践中经常使用缺失(如“缺乏民主”定义专制)或排他(如“非政府、非营利”定义公民社会)来界定概念,但这种“负向定义”往往具有局限性,特别是在处理复杂的灰色地带时,会导致其陷入“非正极且非负极”的定义困境。作者强调,虽然在某些多样性极高的领域(如将“质性方法”定义为“非统计学”)负向定义具有操作上的便利,但从本体论严谨性出发,研究者应优先追求正向属性的建构。遵循此准则要求我们在完全依赖否定逻辑进行概念化时必须保持审慎,尽量通过正面特征的勾勒来确立概念的实质内涵,而非仅仅将其视为某种核心特质的缺位。
  • 概念重叠准则:在语义邻近的概念间,允许观察值在隶属度上存在重叠。
    • 概念重叠准则主张拒绝传统类型学中“类别互斥”的僵化规则,允许观察值在语义临近的概念间拥有重叠的隶属关系。该准则认为,由于现实世界中的客体(如多重族裔身份的个人或处于收入等级边缘的国家)往往共享多个定义性特征,强行使用二分法将其归入单一类别会造成严重的描述失真。遵循此准则要求研究者承认并容许这种“部分所属”状态,通过承认概念间的交叉与兼容,实现对复杂社会现象更具包容性且符合本体论现实的精确刻画。
  • 定义性属性准则:提供一份完整且严密的定义性属性清单。
    • 定义性属性准则要求研究者针对多维度、多层次的概念,给出一份完整且严密的第二层维度(即定义性属性)清单。这一准则强调,无论是进行经验测量还是因果推断,仅罗列部分特征是不足的,必须建立如卡尔对“民主”四维度或努斯鲍姆对“人类福祉”十项能力那样的穷尽式框架。它与“完整性准则”高度契合,要求研究者超越对零散指标的零碎讨论,通过显性化的编码规则确立概念的核心边界,从而为后续的描述性推理提供坚实的本体论基础。
  • 惯常嫌疑犯准则:甄别文献中公认且无争议的“惯常属性”,并识别那些被忽视的“不寻常属性”。
    • 惯常嫌疑犯准则要求研究者在构建多维度概念时,明确区分文献中公认且无争议的核心属性(惯常嫌疑人)与那些特定的、可能具有争议的新增维度(不寻常的嫌疑人)。作者指出,所谓的“最小概念化”通常只涵盖那些众所周知的基本要素,虽易达成共识,却往往因缺乏充分性而显得残缺,甚至违反了“理想类型准则”。引入“不寻常的嫌疑人”往往源于特定地域或历史语境的需求(如卡尔将“文官控制军队”纳入民主定义),这种对既有清单的挑战与扩充,正是推动概念从“最小共识”向“完整本体”深化的关键动力。
  • 复杂概念准则:审慎处理具有多重构成特征的概念,确保其结构逻辑的一致性。
    • 复杂概念准则警告研究者在建构拥有过多第二层维度的复杂概念时应保持克制与审慎。作者指出,当定义性属性超过 5 至 7 个时(如施米特对“社团主义”的经典定义),概念将变得极其臃肿且难以处理,这不仅增加了后续经验测量的难度,更在因果分析中埋下了“概念同义反复”的隐患。该准则提醒我们,在缺乏数据收集和因果逻辑约束的纯理论探讨中,堆砌维度虽易,但真正有效的概念化应在保持本体完整性的同时,追求结构的清晰与精炼,以确保概念在因果理论框架内具备实质的操作性。
  • 因果力量准则:遴选第二层维度的核心判准,应为其具备的因果力量与解释能力。
    • 因果力量准则主张概念化不仅是描述性的,更应是本体论意义上的因果重构。作者强调第二层维度的遴选应基于其内在的“因果力量与能力”,即解释现象为何能够产生特定影响的本质属性,而非其表象特征(如同铜的原子结构之于其导电性,优于其微红的颜色)。遵循此准则要求研究者将概念维度直接锚定在因果机制中:若在一个概念中引入了缺乏因果影响的维度,不仅会造成聚合计算时的“因果测量误差”,更会因掺杂无关信息而削弱理论的解释力。因此,概念建构应通过对因果机制的深度挖掘实现自我反馈与修正,确保所选维度真正承载了跨情境的因果效能。
  • 因变量准则:深究因变量的内容与结构如何反向约束解释策略的选择。
    • 因变量准则强调,概念的内部结构(特别是其聚合逻辑)会直接决定因果解释的侧重点与策略。作者指出,对于采用“最弱连接”或“必要条件”逻辑构建的复杂指标(如人类发展指数或性别不平等指数),因变量的最终得分往往受限于表现最差的那个“短板”维度。例如,印度在性别不平等指数上的低分并非源于全面落后,而是由于“孕产妇死亡率”这一单一维度的极低表现。因此,当概念作为因变量时,研究者不能仅提供泛泛的宏观解释,而必须针对其结构特征,聚焦于解释导致整体得分受限的具体维度及其背后的因果机制。
  • 因果机制重叠准则:当不同概念指向同一对象时,须评估这种重叠对因果机制假说是否产生实质影响。
    • 因果机制重叠准则指出,由于同一客观现象往往能被多个概念同时界定(如既是“内战”也是“政变”),研究者必须审视这种“语义重叠”是否会导致因果机制的混淆。作者强调,不同的概念往往锚定完全不同的因果逻辑(如内战关注山区叛乱,政变关注高层权力更迭),如果研究者试图测试某种特定机制,就必须甄别那些虽符合定义但在底层逻辑上属于“异质机制”的重叠案例。遵循此准则要求我们在进行理论检验时,应根据因果机制的适用性来审视样本,避免因强行囊括由于不同机制驱动的案例而得出错误的伪造结论。
  • 概念同义反复准则:严查自变量与因变量在定义属性上是否存在重合,以防循环论证。
    • 概念同义反复准则要求研究者严密审查自变量与因变量在定义性属性上是否存在重合,以防止将“概念间的逻辑包含关系”误认为“经验上的因果关系”。作者指出,随着概念维度的增加,这种定义性的重叠风险也随之升高(如将“人权”既视作因变量,又将其作为“民主”这一自变量的构成维度),这会导致统计上的显著关联实际上仅是本体论上的自我论证。遵循此准则不仅要审视维度清单的交集,还需分析概念的聚合结构——例如在“最弱连接”逻辑下,单一重合维度的低分可能直接拉低整体得分,从而在数据层面制造出虚假的强相关,彻底遮蔽真实的因果推论。

语义的映射——模糊逻辑

本书的核心方法是将语义与数字联系起来,对语词的数据转化绝非中立。任何对指标的数学处理,本质上都是在重塑概念的内涵。当我们调整“从语词到数字”的映射规则时,其实就在重新定义我们要研究的对象。这需要我们在概念化的过程中,考虑到语义的微妙之处。

以空乘人员口中的“飞机满了”为例:从数学角度看,“满”应当严格对应100%的装载率。但在实际的语义模型中,“满”是一个程度概念。当飞机的上座率达到90%至95%时,在空乘人员的认知里,这就可以称为“满员”了。此时,他们便会自然地对外宣布“飞机已满”,而无需等待最后几个座位被占。这种语义转换揭示了语言的细微差别:如果真实数据确实达到了100%的物理极限,乘务员往往会改用“座无虚席”或“没有空位”这种更为绝对的表述,以区别于常规意义上的“满员”。而当数据回落到85%至90%区间时,语义贴合度随之下降,表述也相应修正为“足够满了”。从另一个角度说,数学语境下“非常满”这样表述是没有意义的,类似于100%的100%。

这也就是本书所说的“所有指标和变量转换均是语义转换。不存在所谓中性转换。所有的变量转换都会改变基本概念的含义。”

理解了这一点之后,我们可以更加准确地描述和解释变量转换对概念含义的影响。首先,语义是不对称的,诸如「贫困-富裕」「民主-专制」这样的概念对并非彼此的逆像。“空的飞机”不等于“满的飞机”的镜像。在语义转换中,从“空”到“半满”的逻辑,与从“满”到“极满”的逻辑完全不同。再比如,贫困有其特定的规范内涵(涉及道德、生存底线),而富裕涉及的是积累和权力。简单地将一个连续数轴的两端分别命名为贫困和富裕,会掩盖两者各自独特的语义特征。

其次,另一种常见的测量模式会将概念对进一步扩充为几个类别,如将收入划分为贫困、中等收入、富裕,从而将连续的变量转换为离散的类别。一般会有3-5个类别,如很高兴、高兴、中等、不满、非常不满等,最多不会超过7类。然而,学界很少有人讨论这种分类的理由是什么(本书后续将会详述)。这里仅简要地指出,这种分类的思维可能是有问题的,实践中我们很少平分数据,毕竟某些区间比其他区间更重要(例如,临近贫困线的一美元,比百万富翁多出的一美元更具语义重量)。

这也就涉及最后一个讨论,概念不仅是描述性的,也是规范的。比如罗尔斯的“正义论”倾向于保护最弱势群体,这种政治哲学立场会直接影响我们如何设定“贫困”的语义转换函数(例如,给低收入区间更高的权重)。这也提示我们,要去关注分类之间的重叠区域(灰色地带),这种分界反映了我们对政体质变的判断,而非简单的数字高低。

在本书看来,我们可以用X → Y 来表示这个语义转化的过程。其中,X是具体的社会现实,而Y是一个在[O,1]之间的数字,用以表示X在多大程度上能够与所述概念相贴合。以“受教育的年限”和“受过教育的概念”为例:

显然,二者不是一个线性增长的关系,而是一个S型曲线,曲线的变化点是值得我们关注的地方。这种做法不同于传统思维,如下图所示:

虚线代表了传统线性转换的思路,而实线代表了本书二分转换的思路。前者认为数据的每一点变化在语义上是等重的。例如,从10分涨到20分,与从80分涨到90分,对“民主”概念的增益是一样的。而后者则认为概念存在“质变”。在某个临界点之前,数据的增长不改变本质;一旦越过临界点,身份彻底转换。研究者选择线性还是二分,会直接改变描述性结论、因果推理的结果,甚至影响规范性(道德)判断。因此,研究者不能默认使用线性转换,还必须证明这种转换符合概念的实际含义。

同时,我们也可以更好地看待二分法这件事。逻辑上的“否定”与语义上的“相反”其实并非一回事。“非”仅仅是对成员资格的剥夺,例如“非贫困”只意味着摆脱了赤贫,却并不等同于步入“富裕”。在世界银行的国家收入分类案例中,这种逻辑得到了证实。“富裕”与“贫困”在人均国内生产总值(GDP)这条数轴上并非互为镜像的函数,而是各自占据了两端极小的特定区间。当一个国家跨越特定的高收入门槛时,它才被赋予“富国”的满分贴合度,而一旦高于贫困线,它在逻辑上便属于“不穷”,但这与其是否“富裕”之间存在着广阔的语义鸿沟。这种不对称性证明了,社会科学概念往往是独立的定性判断,而非一个连续数值两端的简单正负关系。因此,统计学中的线性假设往往是不成立的。

量度

对变量不感兴趣以至于忽略了它们的单位,这很令人抱歉。——J.W.Tukey

量度本身多种多样,本书语境下有名义量度、定序量度、区间值量度、比率量度、模糊逻辑量度五类。一般学界是将之分为定类变量、定序变量、定距变量和定比变量四类。名义变量是指诸如出席/缺席、男/女这样的分类变量,它们的取值是有限的、离散的。一般用0、1编码,因此也称为0-1变量。值得注意的是,这可能会让人误解,认为1比0更高,但其实它们是两个独立的、不连续的概念。它们之间不存在过渡,也没有“中点”。

定序量度(如:非常差、差、一般、好、非常好)在社会科学中最常见,也最难处理。研究者通常假设这些层级是等距离的(等比分配)。但语义上,“好”与“非常好”的距离,往往不同于“一般”与“好”的距离。正如作者在前文所建议的,应该使用模糊逻辑的 S 曲线来拟合定序变量。通常在极端情况下(如 1-2 级或 4-5 级),层级间的语义距离会缩小;而在中间阶段,微小的变化往往意味着质的飞跃。所以,在使用定序变量时,需要注意:

  • 寻找概念的“中间点”(0.5 点),这是判定一个事物从“不具备”到“具备”的重要参考点;
  • 奇数层级优势(3, 5, 7):使用奇数层级可以提供一个明确的中点。作者推荐以5层级作为默认数,因为它能提供足够的点来绘制具有弯曲拐点的语义转换曲线;
  • 语义距离的非均等性:研究者必须考察各层级间的语义权重。例如在“政治恐怖量表(PTS)”中,最高级别的屠杀与次高级别的酷刑,其距离可能比底层的细微侵害要近得多。

区间值量度,区间意味着层级间的距离是相等的(如摄氏度)。它允许移动,但比例关系无意义。值得注意的是,定序数据只能进行中位数或百分比分析,无法计算平均值、标准差,更无法直接进行线性回归。因此,统计学界存在一个非正式的共识,即当层级达到10层左右(有时7层以上),数据的分布形态开始趋近于连续变量。此时,将其视为区间值所带来的“数学偏误”通常被认为在可接受范围内。因此,许多定序量度会被假装为区间值量度。这种做法隐含了一个假设:原始数据与概念之间是线性关系,我们需要反思这一前提。

比率量度最广泛的定义是它拥有真实的0值(表示性质完全不存在)。只有比率量度能让你说出“A是B的2倍”。在民主指数中说“A比B民主5倍”没有意义,但在财富统计中这是成立的。统计模型通常不区分区间和比率,但理论框架必须区分。例如,发动战争的必要条件可能是“期望效用 > 0”,此时0就是一个具有质变意义的定性点。

模糊逻辑量是本书的特色产物,它通过 [0, 1] 的映射,解决了传统量纲中的问题。

  • 首先,对于名义量度的优化。如果你将“富裕”定在年入 100 万,那么 99 万的人在数据上就被归为“不富裕”。这种突兀的断裂违背了常识。模糊逻辑量允许一个人以 0.85 的程度隶属“富裕”集合。它捕捉的是那种“逐渐进入”或“正在脱离”某个状态的动态过程,这比死板的分类更接近社会现实;
  • 其次,模糊变量的数值不是由数学公式随意计算的,而是由概念的内涵决定的。在测量“民主”时,从完全独裁到出现一点竞争性选举(0.1 到 0.4),这种语义上的跨越极其巨大;而从成熟民主到更完美的民主(0.8 到 0.9),虽然数值增长一样,但在模糊变量看来,这种“程度的增益”相对较小;
  • 再次,模糊逻辑变量引入了一个极具哲学意义的标尺:0.5点。这是事物性质发生逆转的关键点。0.5 以上意味着“更倾向于属于该概念”,0.5 以下意味着“更倾向于不属于”;
  • 最后,模糊变量通过[O,1]限制,表达了语义的饱和。当一个国家的法治水平达到[1]的程度,即使其法律条文再增加、效率再提高,它在”法治国家“这个概念里的隶属度也不会再增加了。这防止了极端异常值(如超级大国或超级富豪)在多维度计算中产生过大的权重,保护了概念结构的稳定性。

值得注意的是,在进行数学运算时,数据的“量度层级”会发生改变。例如,在衡量贫困时,我们有几个“是或否”(0 或 1)的指标。一旦将这些 0 和 1 相加得到一个总分,这个分数就不再是简单的名义量度,而变成了区间值量度。再比如,在研究军事能力时,将不同国家的数值相除得出比率。这时,原本可能只是区间层面的变量就被自动赋予了比率量度的特征。然而,名义变量或定序变量在严格意义上是不允许进行加减乘除运算的。以加法运算为例,它本身就隐含了“单位等距”的假设。如果你能把两个指标相加,你就已经默认了它们处于区间层级,即便它们原本只是定序或名义变量。但这种转换在政治学、经济学等学科中非常普遍,甚至在潜变量模型(如因子分析)中被视作理所当然,以至于研究者往往忽略了量度性质已经发生了质变,这可能会带来问题。因此,任何时候通过数学运算(加或乘)结合指标时,必须反思这种结合在理论上是否支撑量度的转换。

另一个值得注意的是数字0。除了在比率量度中 0 代表“绝对虚无”外,在区间量度(如政体得分或标准化变量)里, 0 往往只是人为设定的、可随刻度移动的“中性点”或“平均值”。这种性质的模糊在处理交互项时尤为危险,因为交互模型中单项系数的含义完全取决于另一个变量为 0 时的状态;如果 0 点只是理论上随意的分界线,那么由此得出的因果解释就会失去根基。因此,除非确有理论上的真实起点,否则不应在量度中滥用 0 ,以免在复杂的变量相乘或逻辑推演中产生严重的解释偏误。

灰色区域与混合概念

概念构建应当容纳“灰色地带”,并将其转化为理论探讨与经验分析的对象。这要求我们深入挖掘灰色地带在本体、语义、结构及测量上的属性。通常,灰色地带与“混合概念”互为表里,主要呈现为两种形式:

其一,语义混合。在语义层面,混合性主要表现为“连字符概念”的出现,其核心逻辑是通过整合两个对立的语义域来定位事物的中间状态。例如,兼具民主与专制特征的“竞争性威权体制”,或糅合议会制与总统制的“半总统制”。与增加修饰语以强化理想类型(如“非常富裕”)不同,混合概念(如“竞争性-威权体制”)的作用是产生一种向中间推移的力量。这种构建方式往往带有矛盾修辞的色彩,反映了现实中某些体制既包含民主竞争又保留专制特征的复杂性。值得注意的是,这种混合往往伴随着术语选择的不对称性,例如人们习惯称“半总统制”而非“半议会制”,或使用带有误导性的“消极和平”,这些术语选择本身就体现了研究者对概念重心的预设

其二,结构混合。与此前强调的同质性聚合不同,结构混合主张不同聚合逻辑的交替使用。传统的“同质性”概念倾向于在各层级统一使用平均值或求和逻辑,而混合结构则主张在不同层级或同一层级内嵌套使用不同的规则。例如,结合逻辑词“和”与“或”,或同时采用加法与乘法。这种结构性混合为界定复杂现象提供了更精密的基础,使得概念不再是单一规则的产物,而是多种逻辑共同作用的结果。

灰色区域通常是混合概念的天然栖息地,它描述了事物未能完全达到理想类型阈值的状态。正如作者所言,灰色区域的产生主要源于两种结构性缺失:一是核心必要条件的匮乏,二是有利性条件的积累不足(即未能跨越“n选m”的门槛)。当某些特征虽然存在但不足以支撑起完整的定义时,便形成了一个从1到(m-1)的连续地带。这种混合结构不仅适用于界定极端典型的状态,更是理解那些“处于中间”或“不够充分”的复杂现实的关键工具。

在评估不同测量方法的相似性时,研究者极易被高相关系数(如 0.8 以上)所蒙蔽。这种高分通常源于“极端案例”的贡献:对于瑞典(稳固民主)或尼加拉瓜早期(稳固专制)这类非黑即白的案例,所有数据库都能达成高度共识。由于极端值在统计中拥有更大的权重(杠杆力),它们能轻易拉高相关系数。然而,这种高相关性并不代表测量工具的可靠,而仅仅是因为数据集中包含了大量无可争议的极端样本。一旦视角移向中间位置的“半民主”或“竞争性威权”国家,测量间的一致性便会雪崩式垮塌。例如,当民主得分从极端的 10 分降至中间区域时,不同数据库间的方差会激增 8 到 10 倍。这说明中间地带不仅是分类的难题,更是观测者的“争议炼狱”。

最强有力的反驳来自于对“政权变动”的观察。虽然不同数据库在静态分值上看起来高度相关,但一旦涉及政权改变程度的编码,相关性便会从 0.8 以上暴跌至 0.1 到 0.3。事实上,大多数政权更迭都发生在灰色区域。由于不同测量方法对“什么构成了民主化”或“什么构成了倒退”存在根本的语义分歧,它们对同一时期的尼加拉瓜或中美洲国家给出了完全不同的动态描述。这意味着,相关系数无法捕捉到这些关键的质变逻辑。在灰色区域,测量工具间的“貌合神离”才是常态。

为了更精确地定义中间状态,作者提出了两项核心准则:

  • 独立边界准则(准则 I):不应假设两极是对称的。应当分别、独立地界定“白与灰”以及“黑与灰”的界限。
  • 特征混合准则(准则 II):灰色区域应同时包含两极概念的特征。它是两极特征的混合体,例如“竞争性威权”必须同时具备民主的竞争性与威权的控制性。

因此,灰色地带不应理解为白与黑的过渡,而是一种独立的理想类型,即两极特征达到相对平衡的区域(如 40%—60% 的范围)。极端状态(全民主或全专制)通常只有一种形式,但灰色区域(中间地带)则存在多种属性配置(如多种半总统制模型),它具有家族相似性。

一个例子如下图所示:

这个图展示了如何用“梯形结构”来处理灰色区域的概念。图中左侧边界在 -4 处开始上升,右侧则在 9 处完全降至 0。这种非对称性说明界定“竞争性威权与专制”的界限,以及“竞争性威权与民主”的界限,需要分别独立地进行概念化,而非简单的镜像对称。对于“竞争性权威”这一概念而言,从左侧专制发展而来,还是从右侧民主发展而来,其实对应着不同的政治现实,不能打包到一起讨论。

当我们想要证明“中间地带”的国家(如竞争性威权)更容易发生内战时,必须回答一个关键问题:它是比谁更容易?是比成熟的民主国家,还是比严厉的专制国家?很多研究习惯性地将灰色区域以外的所有案例都当作对照组,但这会把完全不同的情况混为一谈。科学的研究设计要求我们必须明确且合逻辑地选择比较对象。如果一个结论只是因为包含了某些不相干的极端案例才显得显著,那么这种因果关系就是站不住脚的。

  • 灰色区域准则III:在因果推断中,必须明确说明并证明选择特定对照组的合理性。

类型学

类型学是社科研究者常不自觉使用的一种方法。构建类型学的金律是“互斥性(Mutually Exclusive)”与“穷尽性(Exhaustive)”,即每一个案例必须且只能属于一个类别。然而,现实中的复杂现象(如精神障碍或专制政权)往往具有重叠的特质,硬性分类不仅违背了事物的本质,更会产生许多难以归类的灰色地带。类型学通常以两种形式存在:名义类型(纯粹的类别划分)和偏序类型(具有内在等级或连续倾向的划分)。例如,我们将世界上所有的政体切分为三个不相交的集合:

  • 类型 A:总统制(如美国,行政首脑即国家元首,不向议会负责)
  • 类型 B:议会制(如英国,行政首脑向议会负责,国家元首通常是象征性的)
  • 类型 C:半总统制(如法国,既有普选产生的总统,也有向议会负责的总理)

这种划分强迫每一个国家只能跳进一个抽屉。但现实中,魏玛时期的德国、当代的斯里兰卡或俄罗斯,其行政权力的分配极其复杂。如果你强行遵守“互斥性”,你就会纠结于某个国家到底算总统制还是半总统制;为了满足“穷尽性”,你可能又不得不发明“超级总统制”、“有限议会制”等越来越多的新抽屉,导致分类体系臃肿且碎片化。因此,不如将其视为以议会制和总统制为两极、半总统制为中间灰色地带的“概念对”。例如,我们为每个国家在两个维度上分别标定其隶属度:

  • 维度 X:总统权力强度(从 0.0 纯虚位元首到 1.0 绝对行政主导)
  • 维度 Y:政府对议会的负责程度(从 0.0 完全不负责到 1.0 随时可被不信任投票罢免)

这样我们可以将每个国家转化为政体代码。与其争论一个国家是不是“半总统制”,不如承认它在“总统制特征”上有 0.7 的隶属度,在“议会制特征”上有 0.8 的隶属度。这种“多列并行”的编码方式,承认了案例可以同时属于多个概念,完美解决了互斥性规则带来的信息流失。这种视角下,所谓的“类型”实际上消失了,取而代之的是具有内在连续性的语义维度。

对2x2式连列表的批判

内涵-外延:概念结构与经验描述

内涵是概念的基本特征或属性,是概念的“本质”或“核心”;而外延是符合概念特征的具体案例或实例,是概念的“实际”或“应用”。二者呈反比关系, 即内涵越复杂,外延就越小;而内涵越简单,外延就越大。以萨托利(Sartori)的研究为例,当他给“民主”增加如“社会公正”等新特征时,符合条件的案例数量(外延)必然会因门槛变高而保持不变或缩小。这种逻辑在“理想类型”中达到极致,如达尔(Dahl)定义的民主由于内涵极深,在现实中几乎找不到外延为非零的案例。本书作者认为,如果我们改用“或”或“充分条件”连接的架构,内涵与外延的关系将发生逆转。在这种结构下,新增维度意味着提供了更多进入该概念的路径。以福利国家的性别批判为例,女性主义学者通过引入“单身母亲的处境”来丰富福利国家的内涵,其目的并非收缩研究范围,而是为了扩展外延,使该概念能覆盖更多原本被边缘化的群体。从数学逻辑看,通过“取最大值”或“加总”进行聚合时,新增维度只会让案例的隶属度上升或维持原状,绝不会下降。

同样,这一观点有其哲学基础,即维特根斯坦的“家族相似性”。这类被称为“凝聚概念”的对象(如“内战”)并不存在所有成员共有的核心特征,而是通过重叠的特质交织而成。在这种结构中,特性的缺失可以由另一种特性的存在来弥补。这种“可替代性”虽然使概念边界变得模糊,却能更真实地描述复杂世界中那些没有严格共性却又紧密关联的现象。在增加形容词时(如“议会制民主”),一方面,形容词可以作为新增维度起到约束作用,从而缩小外延;另一方面,形容词也可能仅是限定给定维度上的特定取值。例如在韦伯式国家概念中,领土控制为零时被称为“法理国家”,缺乏国际承认时被称为“事实国家”。这种操作打破了标准的逆向规律,使概念根据实证状况在不同极值间灵活移动,而非简单的线性收缩。

事实上,这类连字符概念有三种可能的语义结构:

  • 充分必要条件结构:在经典逻辑中,形容词通常作为新增的必要条件出现,其语义本质是子集操作。以“总统制民主”为例,这不仅要求满足“民主”的共有属性,还必须同时具备“总统制”的特定属性。在模糊逻辑的运算中,这表现为取两个集合隶属度的最小值。这种“和-连字符”结构通过增加维度的限制提高了入选门槛,产生了一种“阶梯效应”,使得最终生成的连字符概念在外延上必然是母概念(如“民主”)的一个子集。

  • 嵌套概念:当形容词用于区分不同层级的复杂现象时,便形成了嵌套结构。以“革命”概念为例,从要求最低的“造反”,到涉及政权更迭的“政治革命”,再到包含国家与阶级结构快速转型的“社会革命”,每增加一个形容词(如“社会的”),就引入了更多的必要条件。这种嵌套关系建立了一系列具有不同阈值的概念阶梯。在统计分析中,这种子集关系意味着子集变量拥有更高的入选阈值,若将其与超集变量同时纳入模型,极易引发共线性,或因信息重合而失去额外的因果解释力。

  • 非标准语义:并非所有形容词都代表新增维度,有些修饰语的功能是将特定维度的值固定为 0。例如在“民主-专制”的连续统中,形容词(如“非自由的”)并非删除了“自由”这一维度,而是将其值设为 0。以“非正式法律”为例,在“法律”的概念中,“正式性/程序性”本是一个核心维度,“非正式”这个连字符直接将该维度的值固定为 0。这代表了概念从理想类型向灰色区域或混合区域的水平推移。将某个维度固定为 0 后的外延变化取决于实证分布,可能增加也可能减少。这种操作彻底打破了内涵与外延之间传统的反比关系,展现了语义实践中的灵活性。

双层理论:复杂因果理论中的复杂概念

复杂的因果理论由基本层概念(核心假设)与第二层维度共同交织而成。之所以称为“双层”,是因为第三层(数据指标层)仅负责测量,不参与因果机制的建构。真正的理论深度源于第二层维度对基本层的界定——在这种结构下,第二层不仅定义了基本层,往往还是其产生的原因。

逻辑工具(和、或)不仅用于构建概念,更能模拟理论中的因果关系。必要条件逻辑(如“国家危机”之于“社会革命”)对应了概念构建中的“最弱联系”聚合;而充分性联合(如金登的“三源流模型”)则展示了多个因素必须同时满足(“和”逻辑)才能触发结果。这种逻辑建模为因果推断提供了严密的数学基础,使理论能够精确表达因素间的互动模式。可以参见下图的示例:

层级间有两种关系:一是因果关系,即第二层因素直接促成基本层现象;二是可替代性 (Substitutability)。可替代性指的是多种不同手段可以达到同一目的,如在奥斯特罗姆的理论中,实现“监督“存在多样化路径。这些路径之间并非因果驱动,而是“做事情的不同方法”,反映了概念构建中的“家族相似性“或“或“逻辑,揭示了社会现象实现路径的多样性。

双层理论是通向复杂因果机制分析的桥梁。它实现了本体论、可替代性与因果机制的统一,使研究者能够超越简单的变量相关,进入现象生成的深度解析。总之,双层框架识别出了构成因果力量的关键特质,为社会科学提供了一个兼具描述精准度与解释效力的实用工具。



* ^  Gary Goertz,是享誉国际的政治学与社会科学方法论专家,其研究深度跨越了国际冲突与和平、制度准则以及研究方法三大领域。他不仅在国际政治研究中深入探讨了和平的兴起及其演化逻辑,出版了如《和平之谜》等里程碑式著作,更在方法论领域做出了卓越贡献,通过《社会科学中的概念和测量》和《两种文化》等著作系统地界定了概念构建、定性与定量研究的整合方式,致力于将不同方法论融入连贯的研究议程中。


Gary Goertz, Social Science Concepts and Measurement, Princeton University Press, 2020.