Google Scholar被玩坏:10篇“水文”刷出600+引用,H-index还能信吗?

Page content

Google Scholar被玩坏:10篇“水文”刷出600+引用,H-index还能信吗? by PaperWeekly


现在的 Google Scholar,漏洞大得像个筛子。


大家每天都在用 Google Scholar 查文献,但可能没几个人意识到,这个我们用来背书学术影响力的工具,其实非常容易被攻破。


这两天有人挖出来一个大瓜:一位在国内某顶尖高校做研究的外籍博后,利用规则漏洞,在 2024 年让自己的引用数据实现了指数级暴涨


巧的是,来自纽约大学的研究团队在 Nature 旗下的 Scientific Reports 恰好发了一篇论文,专门研究怎么攻击 Google Scholar 的算法


这两件事凑一块看,还挺扎心的在 GenAI 和预印本泛滥的今天,只要你想刷,Google Scholar 的防御机制基本就是摆设。



两天灌水 10 篇,引用暴涨 10 倍


先看这个刚被封号的“神操作”。


涉事主角是某国内顶尖高校的一位外籍博后。2022 年他的引用只有 47 次,2023 年也不过 100 出头。


但在 2024 年,他的引用曲线突然走出了一个垂直拉升的行情,一口气飙到了 629 次



 涉事博后 2024 年的引用量出现反常的垂直增长

这并不是因为他憋了个大招发了 Nature/Science,而是因为他把 TechRxivIEEE 旗下预印本平台)玩明白了。


他在短短两天内,密集上传了 10 篇文档。这些文档被扒出来全是水文,缺乏连贯性,纯属凑字数。



 当事人在 TechRxiv 的上传记录:两天内密集发布 10 篇文档。

操作的核心在于参考文献,他在这些文档里疯狂自引

  • 有 5 篇文档,参考文献里塞了 37 篇自引,整个列表全是自己的名字;

  • 其他文档的自引率也高达 2/3。


这完全就是赤裸裸的刷分。虽然吃相难看,但 Google Scholar 的爬虫真的信了。


即便他的 Google Scholar 号被封了,但这个系统漏洞也彻底藏不住了。只要钻了预印本平台缺乏审核的空子,刷分在技术上完全是零门槛的。





Google Scholar:学术界的“傻白甜”

大家可能会觉得奇怪,这种低端操作 Google 算法识别不出来吗?


事实上,Google Scholar 主打的是覆盖率(recall)而非准确率(precision)。特别是对于预印本(Preprint),它几乎是照单全收。


只要 TechRxiv、ResearchGate 或者 Authorea 上有文档,爬虫就会去解析里面的引用关系。它通常不验证引用的论文是否真的存在,也不管这篇文档是不是经过了同行评审。


这对于搜索工具来说是特性,但对于评价指标来说就是致命 Bug。


NYU 的作者们在论文里提到了一项针对全球 Top 10 大学教职员工的调查。


结果很扎心:超过 60% 的人在招人或评职称时会看引用数据。而这其中,Google Scholar 是绝对的首选数据源,使用率吊打 Scopus 和 Web of Science。


 调查数据显示,在全球 Top 10 高校,Google Scholar 是招聘评估中使用率最高的工具,远超 Scopus。

也就是说,如果那位博后稍微收敛点,别刷得那么明显,这漂亮的 H-index 很可能就是他拿到下一个 offer 的入场券。


但如果我们将视角切换到审核机制更严格的 Scopus,这些异常账号的虚假数据瞬间就会被打回原形。



 照妖镜效应:异常账号(红色)在 Google Scholar 上数据惊人,但一到 Scopus 引用量瞬间缩水 96%(几近归零);相比之下,正常账号(蓝色)在两个平台间的数据则相对稳定。


全自动生成 H-index 19

更精彩的来了。上面那位还得自己手动上传文档,效率太低。NYU 的研究人员直接上了脚本,演示了什么叫 LLM 时代的学术造假


他们做了一个全流程自动化的钓鱼实验


虚构身份凭空捏造了一个不存在的作者,隶属于一个虚构的大学。


批量生成用 ChatGPT 生成了 20 篇主题为“Fake News(假新闻)”的论文。这些文章从标题到正文完全由 AI 生成,没有任何科学贡献,唯一的逻辑就是互相引用


上传收录把这些内容上传到 Authorea 等预印本平台


结果?Google Scholar 没有任何怀疑,全盘接收。


这个虚构人物瞬间拥有了 380 次引用,H-index 达到 19。在假新闻这个细分领域,甚至成了排名第 36 位的专家。


最绝的是,即便后来这些文章在预印本平台上被删了,Google Scholar 上的引用数据依然存在


这意味着,只要操作得当,甚至可以做到查无对证。你只看得到暴涨的数字,却根本找不到是谁引用了他。



300 美元买通正规期刊

如果你觉得预印本不够正规,想要进正规期刊?没问题,氪金就行。


论文作者暗访发现,市面上早就有成熟的引用工厂Citation Mills)。只要 300 美元,就能买到 50 个引用


与预印本刷分不同,这些买来的引用渗透力更强。作者买的这 50 个引用,最终出现在了 5 篇发表于正规期刊的论文中,其中 4 篇甚至被 Scopus 索引


做一下图网络分析就能看出来,这背后有明显的“引用卡特尔”(Citation Cartel)。多篇论文互相输送引用,不仅服务一个客户,而是批量化地为多个“金主”刷分,形成了明显的聚类特征。


这说明,某些高被引论文的背后,可能只是一笔简单的交易。


 引用网络拓扑图。高密度的聚类揭示了潜藏在正规期刊背后的“引用卡特尔”,这是批量化交易留下的痕迹。


写在最后

当一个虚构人物能靠 ChatGPT 轻松刷出 H-index 19,当几百美元就能撬动正规期刊的引用数据时,我们必须重新审视 H-index 的含金量。


Google Scholar 的便利性毋庸置疑,但它对预印本和 AI 生成内容的无差别收录,也让作弊门槛降到了历史最低。


对于还在迷信高引用的招聘委员会来说,是时候醒醒了。




如果筛选简历依然只迷信 Google Scholar 的数字,而不去回归论文质量本身,那么未来进入学术殿堂的,可能不是科学家,而是懂规则、会钻空子的“提示词工程师”。


参考文献

 [1] Retraction Watch: How to juice your Google Scholar h-index, preprint by preprint. https://retractionwatch.com/2025/12/08/how-to-juice-your-google-scholar-h-index-preprint-by-preprint/
[2] Ibrahim, H., Liu, F., Zaki, Y. & Rahwan, T. Citation manipulation through citation mills and pre-print servers. Sci Rep (2025).

🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·



原文链接