Google Scholar被玩坏：10篇“水文”刷出600+引用，H-index还能信吗？

2025-12-11

Duty

Bloger

Page content

Google Scholar被玩坏：10篇“水文”刷出600+引用，H-index还能信吗？ by PaperWeekly

现在的 Google Scholar，漏洞大得像个筛子。

大家每天都在用 Google Scholar 查文献，但可能没几个人意识到，这个我们用来背书学术影响力的工具，其实非常容易被攻破。

这两天有人挖出来一个大瓜：一位在国内某顶尖高校做研究的外籍博后，利用规则漏洞，在 2024 年让自己的引用数据实现了指数级暴涨。

巧的是，来自纽约大学的研究团队在 Nature 旗下的 Scientific Reports 恰好发了一篇论文，专门研究怎么攻击 Google Scholar 的算法。

这两件事凑一块看，还挺扎心的。在 GenAI 和预印本泛滥的今天，只要你想刷，Google Scholar 的防御机制基本就是摆设。

两天灌水 10 篇，引用暴涨 10 倍

先看这个刚被封号的“神操作”。

涉事主角是某国内顶尖高校的一位外籍博后。2022 年他的引用只有 47 次，2023 年也不过 100 出头。

但在 2024 年，他的引用曲线突然走出了一个垂直拉升的行情，一口气飙到了 629 次。

〓涉事博后 2024 年的引用量出现反常的垂直增长

这并不是因为他憋了个大招发了 Nature/Science，而是因为他把 TechRxiv（IEEE 旗下预印本平台）玩明白了。

他在短短两天内，密集上传了 10 篇文档。这些文档被扒出来全是水文，缺乏连贯性，纯属凑字数。

〓当事人在 TechRxiv 的上传记录：两天内密集发布 10 篇文档。

操作的核心在于参考文献，他在这些文档里疯狂自引：

有 5 篇文档，参考文献里塞了 37 篇自引，整个列表全是自己的名字；
其他文档的自引率也高达 2/3。

这完全就是赤裸裸的刷分。虽然吃相难看，但 Google Scholar 的爬虫真的信了。

即便他的 Google Scholar 号被封了，但这个系统漏洞也彻底藏不住了。只要钻了预印本平台缺乏审核的空子，刷分在技术上完全是零门槛的。

Google Scholar：学术界的“傻白甜”

大家可能会觉得奇怪，这种低端操作 Google 算法识别不出来吗？

事实上，Google Scholar 主打的是覆盖率（recall）而非准确率（precision）。特别是对于预印本（Preprint），它几乎是照单全收。

只要 TechRxiv、ResearchGate 或者 Authorea 上有文档，爬虫就会去解析里面的引用关系。它通常不验证引用的论文是否真的存在，也不管这篇文档是不是经过了同行评审。

这对于搜索工具来说是特性，但对于评价指标来说就是致命 Bug。

NYU 的作者们在论文里提到了一项针对全球 Top 10 大学教职员工的调查。

结果很扎心：超过 60% 的人在招人或评职称时会看引用数据。而这其中，Google Scholar 是绝对的首选数据源，使用率吊打 Scopus 和 Web of Science。

〓调查数据显示，在全球 Top 10 高校，Google Scholar 是招聘评估中使用率最高的工具，远超 Scopus。

也就是说，如果那位博后稍微收敛点，别刷得那么明显，这漂亮的 H-index 很可能就是他拿到下一个 offer 的入场券。

但如果我们将视角切换到审核机制更严格的 Scopus，这些异常账号的虚假数据瞬间就会被打回原形。

〓照妖镜效应：异常账号（红色）在 Google Scholar 上数据惊人，但一到 Scopus 引用量瞬间缩水 96%（几近归零）；相比之下，正常账号（蓝色）在两个平台间的数据则相对稳定。

全自动生成 H-index 19

更精彩的来了。上面那位还得自己手动上传文档，效率太低。NYU 的研究人员直接上了脚本，演示了什么叫 LLM 时代的学术造假。

他们做了一个全流程自动化的钓鱼实验：

虚构身份：凭空捏造了一个不存在的作者，隶属于一个虚构的大学。

批量生成：用 ChatGPT 生成了 20 篇主题为“Fake News（假新闻）”的论文。这些文章从标题到正文完全由 AI 生成，没有任何科学贡献，唯一的逻辑就是互相引用。

上传收录：把这些内容上传到 Authorea 等预印本平台。

结果？Google Scholar 没有任何怀疑，全盘接收。

这个虚构人物瞬间拥有了 380 次引用，H-index 达到 19。在假新闻这个细分领域，甚至成了排名第 36 位的专家。

最绝的是，即便后来这些文章在预印本平台上被删了，Google Scholar 上的引用数据依然存在。

这意味着，只要操作得当，甚至可以做到查无对证。你只看得到暴涨的数字，却根本找不到是谁引用了他。

300 美元买通正规期刊

如果你觉得预印本不够正规，想要进正规期刊？没问题，氪金就行。

论文作者暗访发现，市面上早就有成熟的引用工厂（Citation Mills）。只要 300 美元，就能买到 50 个引用。

与预印本刷分不同，这些买来的引用渗透力更强。作者买的这 50 个引用，最终出现在了 5 篇发表于正规期刊的论文中，其中 4 篇甚至被 Scopus 索引。

做一下图网络分析就能看出来，这背后有明显的“引用卡特尔”（Citation Cartel）。多篇论文互相输送引用，不仅服务一个客户，而是批量化地为多个“金主”刷分，形成了明显的聚类特征。

这说明，某些高被引论文的背后，可能只是一笔简单的交易。

〓引用网络拓扑图。高密度的聚类揭示了潜藏在正规期刊背后的“引用卡特尔”，这是批量化交易留下的痕迹。

写在最后

当一个虚构人物能靠 ChatGPT 轻松刷出 H-index 19，当几百美元就能撬动正规期刊的引用数据时，我们必须重新审视 H-index 的含金量。

Google Scholar 的便利性毋庸置疑，但它对预印本和 AI 生成内容的无差别收录，也让作弊门槛降到了历史最低。

对于还在迷信高引用的招聘委员会来说，是时候醒醒了。

如果筛选简历依然只迷信 Google Scholar 的数字，而不去回归论文质量本身，那么未来进入学术殿堂的，可能不是科学家，而是懂规则、会钻空子的“提示词工程师”。

参考文献

[1] Retraction Watch: How to juice your Google Scholar h-index, preprint by preprint. https://retractionwatch.com/2025/12/08/how-to-juice-your-google-scholar-h-index-preprint-by-preprint/

[2] Ibrahim, H., Liu, F., Zaki, Y. & Rahwan, T. Citation manipulation through citation mills and pre-print servers. Sci Rep (2025).

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

原文链接