科学计量指标的元评估与负责任使用:理论框架与科技创新赋能路径
创始人
2025-12-06 02:01:12

本文刊载于《中国科学院院刊》2025年第10期“政策与管理研究”

鲍锦涛1 步一2*

1 北京大学 科学研究部

2 北京大学 信息管理系

在国家深化科技体制改革的系统工程下,构建以创新价值、能力、贡献为导向的科技评价体系成为关键环节。针对当前“破五唯”改革后如何建立新范式的核心挑战,文章引入元评估作为核心理论框架,旨在对科学计量指标的效度、信度与公平性进行系统性审视,以破解“指标-行为”互构循环、防范新的指标异化风险。文章系统剖析了科学计量指标在概念测量、结果稳定性及无偏见性方面面临的固有挑战,综述了国际负责任评价原则的前沿探索。在此基础上,文章立足中国情境,提出了构建负责任指标生态系统的系统路径:通过指标设计的本土化调适、评价场景的精细化解构,以及制度技术的协同化赋能,推动科技评价从“计量管理”向“价值治理”的范式转型,最终服务于国家科研新体制的建设,以及科技创新能力的系统性提升。

一、科学计量评价的挑战与元评估的必然性

科学计量指标作为科研管理的“可见之手”,其改革与规范使用尤为重要。它在提升资源配置效率的同时,若设计或应用不当,极易引发指标异化、价值偏离等系统性风险,与改革目标背道而驰。中国科技评价体系历经40年“量化启蒙—国际接轨—改革纠偏”演变。根据《中国科技论文统计报告》的统计,2023年,我国在各学科最具影响力期刊上发表的论文数占世界总量的27.7%,世界排名已达第一。当前,在“破五唯”取得阶段性成果的基础上,改革正步入深水区,面临从“破”到“立”的关键跃迁,亟待克服简单的指标替换陷阱与深层的制度惰性困局,以构建真正契合科研规律与体制要求的高质量评价体系。深层矛盾体现为原创导向与跟风研究的价值倒挂、技术攻关与产业需求的计量盲区、成果转化与学术贡献的制度割裂三大脱节问题。

这些问题的本质在于评价工具与创新规律的断裂。行政主导的“指标-资源”绑定机制形成路径依赖(如科研机构将评价指标内化为组织目标),而绩效合法性机制进一步固化“指标-行为”互构循环(如学者为应对考核采取专利/论文拆分、热点跟风等策略)。这种评价体系的内在缺陷,其核心机制可由古德哈特定律(Goodhart’s Law)所揭示:当一项测量指标成为决策目标时,它就会失去其作为测量工具的效力。制度社会学视角揭示,唯有打破这种由指标扭曲行为、行为又反过来固化指标的自我强化循环,才能释放科技创新活力。这标志着单纯改进单一指标的传统思路已难以为继,必须引入对评价体系本身的反思与重构,即元评估(Meta-assessment)这一更高阶的思维。

元评估旨在对评估指标本身的效度(validity)、信度(reliability)、公平性(fairness)及其社会效果进行系统性检验与反思。在国家着力建立以创新价值、能力、贡献为导向的科技评价新体系的当下,元评估为破解上述困局、防止改革进程中出现新的指标异化提供了关键的理论工具与方法论指引。本文基于元评估的三维框架,剖析中国科学计量评价在效度、信度与公平性上的核心挑战,并尝试提出一套服务于科技体制改革目标的负责任指标生态系统重构路径。

二、科学计量指标元评估的理论框架与国际经验

2.1 元评估的核心维度及其挑战

元评估作为对评估指标本身科学性、适用性及伦理影响的系统性审查,其核心在于剖析支撑指标价值的三大关键维度:效度、信度与公平性。这三大维度共同构成了评估指标能否真实、稳定且无偏倚地服务于科研评价实践的基石,对其进行深入审视是提升评估质量、优化学术生态的必经之路。

(1)效度维度关注指标能否准确测量其预设的目标概念,其核心挑战在于克服各类测量失真

这里的首要问题体现为“概念漂移”,即指标的实际测量对象偏离了其理论目标,这在社会科学中被认为是构念的概念化及其操作化之间的偏差。期刊影响因子(JIF)被广泛用作单篇论文质量的代理变量即为典型例证。Waltman和Traag的研究指出,引用分布高度偏斜,少数文章获得大部分引用。以期刊为例,前10%的论文往往占据超过一半的总引用量,这使得JIF难以代表单篇论文的真实质量;同时,依赖JIF这样的群体指标去推断个体(即单篇论文)水平存在逻辑错误。这直接暴露了“以刊评文”方式在反映个体研究成果质量上存在显著的效度缺陷。其次,“学科盲区”是跨学科评价中的普遍障碍。不同学科领域知识传播与引用积累的速率存在根本差异,例如:数学领域论文的被引半衰期超过10年,而临床医学则可能不足2年。这种差异使得直接比较不同学科论文的原始被引次数几乎失去意义。为了应对这一挑战,提升指标效度,引入学科校正机制至关重要,如领域权重引用影响力指数(FWCI)等标准化方法,其通过将论文引用表现置于其特定学科领域的基准中进行比较,显著提升了跨学科评价的效度与可比性。

(2)信度维度强调指标测量结果的稳定性、一致性与可复现性

然而,科研评价指标的信度在实践中面临着多重严峻挑战。

① “数据库依赖性”。不同文献数据库(如Scopus与Web of Science)在期刊覆盖范围、数据收录标准上的显著差异,直接导致基于不同数据库计算同一学者的相关科学计量指标可能出现很大偏差。这意味着评价结果高度依赖于所选用的数据源,其客观性和可比性受到严重质疑。

② “算法波动性”是新兴计量指标面临的特有风险。由底层平台技术规则变动引发的剧烈波动使得指标值缺乏必要的稳定性,难以进行可靠的纵向跟踪和比较。

③ “时间衰减效应”揭示了引文积累的非即时性对早期评估信度的干扰。部分具有深远影响力的“睡美人”论文可能在发表后沉寂5—10年甚至更久才迎来引用高峰。假如仅依据发表初期的引文数据进行评估,必然严重低估其真实价值和影响力,导致评估结果失真。

(3)公平性维度致力于识别并消除评价指标中潜藏的系统性偏见,确保评价过程与结果的公正性,避免因非学术因素(如地域、性别、语言)导致特定群体处于结构性劣势

① 地域偏见是显著的不公来源之一。例如,在Scopus这样的主流数据库中,非洲大陆的期刊占比仅约0.1%。这种显著的收录不平衡,直接压制了发展中国家研究成果在全球学术舞台上的可见度和影响力,使其在基于此类数据库的评价体系中先天不足。

② 性别偏见同样不容忽视。Larivière等的实证分析揭示,即使女性学者在科研产出数量上与男性学者相当,其获得的被引量平均也要低于男性学者。这种评价结果的系统性差异,极可能阻碍女性学者在学术职业发展中的晋升机会与资源获取,加剧学术界的性别不平等。

③ 语言壁垒构成另一重障碍。非英语科研成果在传播广度、引用潜力及其在主流评价指标中的劣势都会导致其学术贡献被低估。

元评估通过对效度、信度与公平性三大维度的系统性审视,为评估指标的科学性、适用性和伦理性提供了坚实的分析框架。只有深刻理解并有效应对指标在概念测量准确性(效度)、结果稳定性(信度)以及无偏见性(公平性)方面存在的固有挑战,才能推动科研评价实践不断走向完善与公正,最终服务于更健康、更包容的学术生态构建。

2.2 国际宣言的奠基与新兴指标的挑战

21世纪以来,科研评价体系逐渐从依赖传统文献计量指标转向更为全面和负责任的多维评估模式。在这一转型过程中,2013年发布的《旧金山科研评估宣言》(San Francisco Declaration on Research Assessment,以下简称“DORA”)和2015年发布的《莱顿宣言》(Leiden Manifesto for Research Metrics)具有里程碑式的意义,共同奠定了当代科研元评估的理论基础与实践原则。DORA宣言明确提出应消除对期刊影响因子的过度依赖,建议不得将期刊影响因子作为衡量单篇论文质量或科研人员贡献的替代指标,强调必须根据研究内容本身的价值进行评价。截至2025年10月中旬,已有168个国家和地区的2.6万多研究人员或机构签署了DORA宣言。《莱顿宣言》则进一步系统化地提出了科研评价中应遵循的公平性与透明度原则,并着重指出应保护学科差异和科研活动的多样性,避免“一刀切”的评价方式损害某些领域的科研生态;倡导指标使用的开放性,要求公开所有评价指标的算法、数据来源及其局限性,以增强评估过程的可审查性和公信力。2025年6月,北京大学、武汉大学、南京大学等一批青年科学计量学者也在国际科学计量学与信息计量学会议(International Conference on Scientometrics and Informetrics)上发布了《走向负责任的科学计量学:研究评估的规范数据实践》(Toward Responsible Scientometrics: Normative Data Practices for Research Evaluation)的倡议,传播中国声音。

随着科研交流形态的日益多元化和数字化,一系列新兴计量指标被提出并应用于实践,其中以替代计量学(Altmetrics)和专利引用指标最为典型。替代计量学尝试通过追踪学术成果在社交媒体、新闻媒体、政策文档等非传统渠道的传播情况来反映其社会影响力。然而,这类指标在效度上面临严峻挑战。Bornmann的综述表明,论文在网络中的引用与其后续的学术引用率之间仅存在中等程度的相关,说明公众关注度与内在学术价值之间存在显著脱节,社会影响力并不能等同于科学价值。类似地,专利引用长期以来被视为衡量科技成果转化与应用价值的重要指标,但企业在专利文件中引用学术文献的动机非常复杂,既可能代表对该技术的采纳与进一步发展,也可能是出于“专利规避”的策略考虑,即通过引用现有文献来限制他人的专利主张范围或规避侵权风险。因此,仅凭专利引用次数难以有效区分正面的技术采纳与防御性的法律策略,其作为评价指标的效度存疑。

为应对上述挑战,欧盟在推动负责任评价机制方面进行了重要探索,其“创新雷达”(Innovation Radar)计划提倡采用“证据融合”的评价范式。该范式不一味依赖单一数据源或指标类型,而是将替代计量指标、专利指标与传统同行评议、学术引用分析相结合,形成多来源、多维度且相互验证的评价证据链。该做法标志着国际科研评价理念的根本转变:从最初寻求简单、可替代的量化指标,逐步发展为以多维验证为核心、以支持决策为目标的系统化元评估框架。

三、基于元评估的负责任指标生态系统构建路径

当前正值国家深化科技体制改革的关键时期,其核心目标在于优化科研组织模式、重塑资源配置逻辑与提升创新体系整体效能。在此宏观背景下,科技评价体系作为指挥棒,“破五唯”已取得阶段性成效,但破除旧有标准后,如何构建一套科学、负责任且与中国科研新体制相适应的评价新范式,已成为关乎改革成败的核心挑战。元评估作为对评价活动本身的再评估,聚焦效度(有效性)、信度(可靠性)与公平性三大核心维度,为构建具有中国特色的负责任指标体系提供了理论根基与方法论指引。本节基于元评估框架,从指标设计、场景适配与制度协同3个方面提出生态系统构建路径,推动科技评价从“计量管理”向“价值治理”转型。

3.1 提升指标效度的本土化设计

国际主流科学计量指标大多形成于西方学术语境,难以充分响应中国科技创新中的国家战略需求与产业现实问题。效度提升的核心在于通过本土化设计,使指标真实捕捉中国科研活动的多元价值。

学科差异是制约评价效度的关键因素。直接移植国际通用标准,可能导致战略亟需领域或中国特色学科被系统性低估。近年来,我国在科技评价体系中加强了对本土卓越期刊的认可,一些反映国家重大战略需求的研究成果被纳入高水平成果评价范围,体现了立足国情的效度提升努力。

在指标设计上,应突破单一引文分析的局限,构建融合学术价值、社会影响与技术创新等多维度的复合型评价指标,推动指标设计的深度本土化。

① 建立学科差异校正模型,不能直接套用国际标准;应自主构建符合中国学科生态、科研范式与国家战略需求的基准参考体系。例如,在评价研究成果时,不仅要关注其国际引用情况,还应考量其在国内学术共同体中的影响力,特别是在国家重大工程、关键核心技术攻关和社会民生改善中的实际贡献。这种多维度的评价框架能够更加全面地反映科研工作的真实价值。

② 引入“创新韧性”指标,以克服短期评价的弊端。这包括设立长周期(如10—15年)成果追溯机制、评估核心技术的市场转化率与国产化替代率,以及对承担“卡脖子”等临界领域攻关任务的项目给予特殊的支持度权重,从而系统性地引导科研活动服务于国家长期创新战略和安全需求。科技创新具有长期性和不确定性,短期评价容易扭曲科研行为,削弱系统创新韧性。为此,需建立长周期评价机制,承认科研价值实现的滞后性。这方面可以借鉴国际上的有益做法,建立成果价值随时间变化的动态评估模型,对经过长期实践检验产生重大影响的成果给予应有的认可。

③ 针对技术转化的特点,建立反映技术成熟度、市场应用前景和产业链安全等多维度的评价指标体系。通过设置国产化率、技术自主可控度等特色指标,有效引导科研工作服务于国家创新体系建设。

3.2 解构评价场景与强化适配性

科研活动的多样性决定了评价体系的复杂性。指标效度的提升最终需落地于具体的评价实践,这就要求对评价场景进行精细化解构,彻底摒弃“一刀切”模式。例如,对基础研究,应坚持同行评议的主导地位,并辅以引文历时分析等量化工具,识别“睡美人”式原创成果;而对面向国家重大需求的技术攻关类研究,则应果断弃用论文导向,转而采用专利链整合度(衡量技术布局的系统性与前瞻性)、国产化替代率、技术就绪度等高度产业关联的指标进行评估,真正反映其解决实际问题的能力。

基础研究具有高度原创性和不确定性,其价值往往需要较长时间才能显现。对此类研究的评价应在坚持同行评议的基础上,创新性地引入基于大数据和人工智能的辅助评价方法。通过追踪研究成果的长期引用轨迹和学术影响,识别那些初期关注度不高但后期产生重大影响的原创性工作。同时,可以探索建立基于概念传播和分析的创新性评价方法,通过监测新概念、新方法在学术共同体中的传播速度和影响范围,更早地发现具有突破潜力的研究方向。这种“同行评议+”的混合模式既保持了学术共同体判断的核心地位,又利用了现代技术手段扩展评价的视野和维度。

面向国家重大需求的技术攻关类研究,其评价应彻底摆脱论文导向,建立直接反映产业竞争力和国家安全保障能力的指标体系。这类评价需要重点关注技术在解决关键瓶颈问题中的实际效果、自主可控程度以及产业链带动作用。通过建立技术就绪度与市场就绪度协同评价机制,确保科技成果不仅能“做出来”,更能“用起来”“产出来”。评价主体也应更加多元化,吸收产业专家、最终用户和投资机构等参与评价过程,使评价结果更加贴近实际需求。

对于成果转化类活动,评价焦点应从论文专利数量转向对创新链的实际整合效能。建立科技成果市场转化评价机制,重点评估技术转移、企业孵化和产业带动等方面的实际成效。通过建立学术价值与市场价值等效承认的制度安排,激励科研人员面向经济主战场开展创新活动。这种评价导向有助于打通科技成果转化的“最后一公里”,促进创新链产业链深度融合。

3.3 制度与技术协同赋能

负责任指标生态系统的落地,必须依靠强有力的政策杠杆撬动现有利益格局,打破制度惰性。

① 应将指标本身的元评估纳入科研机构的绩效考核体系,引导机构不仅关注产出,更关注评价体系的健康度。这可参考英国REF评估框架中关于环境评估(environment template)的理念,对机构支持负责任研究文化的举措进行评议。

② 需出台明确的“负面清单”制度,禁止将单一指标(如期刊影响因子、H指数、论文数)直接用于人才晋升、薪酬核定或项目评审的关键决策环节,从源头上遏制“唯指标”的冲动。

评审专家体系的优化是提升评价信度的关键环节。通过建立专家动态评价机制,从领域覆盖度、评价一致性和前沿把握能力等维度对评审专家进行持续评估和优化。利用现代信息技术手段,建立评审质量监测和反馈机制,及时发现并纠正可能存在的系统性偏差。同时,应加强评审专家培训,不断提升其专业水准和职业道德水平。

在公平性保障方面,需要建立完善的利益冲突防范机制。通过区块链等新兴技术构建透明可信的评审关系记录系统,实现利益相关关系的自动识别与预警。建立健全评审回避制度和公示制度,强化全过程监督,确保评价程序的公正性和评价结果的公信力。

针对区域创新资源不平衡问题,应建立有利于协同创新的跨区域评价机制。通过设立设备共享激励、成果互认和人才柔性评价等制度安排,促进创新要素跨区域流动和优化配置。这些措施有助于缩小区域间创新鸿沟,形成全国一盘棋的创新格局。

独立专业的第三方评估是保障评价信度的重要环节。应推动建立科技评价伦理监督机构,强化对评价指标、程序和结果的监督与评估。同时,积极引入市场和社会评价力量,形成多元主体参与的立体化评价体系。通过建立评价结果追溯和责任追究机制,确保评价工作严肃性和权威性。

数字治理基座建设是现代化科技评价体系的技术支撑。技术支撑是构建可信、公正评价体系的基石。当前亟待开发国家级的“科研画像”系统,打破数据孤岛,整合Web of Science、中国知网、专利数据库及产业经济数据,为科研人员、机构和成果构建多维度的全景视图,为融合多维证据的评价提供数据基础。为确保评价过程的公正性与成果的真实性,可探索区块链技术的应用,实现从项目立项、研究过程到成果产出和转化的全链条追溯,防止数据造假和指标操纵,让每一份贡献都能被清晰、可信地记录和评估。积极应用人工智能、大数据等先进技术,开发智能辅助评价工具,提升评价工作的效率和精准度。通过数字化手段,实现评价过程的全程留痕和可追溯,为评价质量提升提供技术保障。

四、结论与展望

本文系统剖析了科学计量指标在科研评价应用中引发的系统性风险与深层矛盾,论证了引入元评估框架以打破“指标-行为”互构循环、驱动科技评价体系改革的理论必然性与实践紧迫性。研究构建了以效度、信度与公平性为核心维度的元评估理论框架,深入辨析了指标在概念测量、结果稳定性及无偏见性方面面临的固有挑战,并综述了以DORA和《莱顿宣言》为代表的国际负责任评价原则与前沿探索。在此基础上,本文立足中国“破五唯”后的制度场景,提出了构建负责任指标生态系统的系统路径,主张通过指标设计的本土化调适、评价场景的精细化解构,以及制度技术的协同化赋能,推动科技评价从简单的“计量管理”迈向更高阶的“价值治理”,最终服务于国家科技创新能力的系统性提升。

展望未来,在国家科技体制改革持续深化的征程中,本文提出的元评估框架与负责任指标体系构建路径,亟待在理论与实践两个层面进行探索与验证。理论上,需进一步探索融合多维证据(如学术引用、社会影响力、技术转化价值)的复合型指标建模方法与权重分配机制,以更精准地捕捉科研活动的多元价值。实践上,后续研究可聚焦两大方向:

① 开发支撑负责任评价的数字化治理基座与智能辅助工具,实现全流程的可信、透明与可审计;

② 开展大规模的实证研究与政策试点,在具体机构、学科或区域中验证并优化不同场景下的评价方案,从而形成可复制、可推广的中国模式与标准,为全球科研评价体系的健康发展贡献中国智慧。

作者简介

鲍锦涛 北京大学科学研究部成果办公室主任、副研究员。主要研究领域:科技政策与科技管理。

步 一 北京大学信息管理系助理教授、研究员。主要研究领域:科学学、科技政策与科技管理。

文章来源

鲍锦涛, 步一. 科学计量指标的元评估与负责任使用:理论框架与科技创新赋能路径. 中国科学院院刊, 2025, 40(10): 1813-1820.

DOI: 10.3724/j.issn.1000-3045.20250829002.

本刊发表的所有文章,除另有说明外,文责自负,不代表本刊观点。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

阿牛投顾服务费能退吗?收费荐股... 阿牛投顾服务费能退吗?收费荐股陷阱大曝光!股民一定要擦亮眼睛!山东阿牛智投资本管理有限公司的服务费,...
厦门沈洁琳、蓝春兰旅游线路投资... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着旅游业强势...
中乾旅文化发展(北京)有限公司... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"在快节奏的社会...
厦门幻映星河文化传媒厦门女性加... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"旅游行业的蓬勃...
国健国康医药(广东)有限公司买... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着人无股权不富的...
中译云(四川)文化旅游发展文旅... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"旅游行业的蓬勃...
股掌柜是正规的荐股平台吗误导性... 股掌柜证券不可信,推荐的股票不靠谱,交的服务费是可以退的,虚假宣传推荐垃圾票亏损严重,维权已退款,退...
梦幻新疆旅游专线投资手续合法合... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"旅游行业长期以...
深圳市琦白久商业管理有限公司有... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着人无股权不富的...
深圳市琦白久商业管理有限公司即... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。随着人无股权不富的...