Google Scholar被玩坏:10篇“水文”刷出600+引用,H-index还能信吗?
Google Scholar被玩坏:10篇“水文”刷出600+引用,H-index还能信吗? by PaperWeekly
现在的 Google Scholar,漏洞大得像个筛子。
现在的 Google Scholar,漏洞大得像个筛子。
大家每天都在用 Google Scholar 查文献,但可能没几个人意识到,这个我们用来背书学术影响力的工具,其实非常容易被攻破。
这两天有人挖出来一个大瓜:一位在国内某顶尖高校做研究的外籍博后,利用规则漏洞,在 2024 年让自己的引用数据实现了指数级暴涨。
巧的是,来自纽约大学的研究团队在 Nature 旗下的 Scientific Reports 恰好发了一篇论文,专门研究怎么攻击 Google Scholar 的算法。
这两件事凑一块看,还挺扎心的。在 GenAI 和预印本泛滥的今天,只要你想刷,Google Scholar 的防御机制基本就是摆设。
两天灌水 10 篇,引用暴涨 10 倍
先看这个刚被封号的“神操作”。
涉事主角是某国内顶尖高校的一位外籍博后。2022 年他的引用只有 47 次,2023 年也不过 100 出头。
但在 2024 年,他的引用曲线突然走出了一个垂直拉升的行情,一口气飙到了 629 次。
这并不是因为他憋了个大招发了 Nature/Science,而是因为他把 TechRxiv(IEEE 旗下预印本平台)玩明白了。
他在短短两天内,密集上传了 10 篇文档。这些文档被扒出来全是水文,缺乏连贯性,纯属凑字数。
操作的核心在于参考文献,他在这些文档里疯狂自引:
有 5 篇文档,参考文献里塞了 37 篇自引,整个列表全是自己的名字;
其他文档的自引率也高达 2/3。
这完全就是赤裸裸的刷分。虽然吃相难看,但 Google Scholar 的爬虫真的信了。
即便他的 Google Scholar 号被封了,但这个系统漏洞也彻底藏不住了。只要钻了预印本平台缺乏审核的空子,刷分在技术上完全是零门槛的。
Google Scholar:学术界的“傻白甜”
大家可能会觉得奇怪,这种低端操作 Google 算法识别不出来吗?
事实上,Google Scholar 主打的是覆盖率(recall)而非准确率(precision)。特别是对于预印本(Preprint),它几乎是照单全收。
只要 TechRxiv、ResearchGate 或者 Authorea 上有文档,爬虫就会去解析里面的引用关系。它通常不验证引用的论文是否真的存在,也不管这篇文档是不是经过了同行评审。
这对于搜索工具来说是特性,但对于评价指标来说就是致命 Bug。
NYU 的作者们在论文里提到了一项针对全球 Top 10 大学教职员工的调查。
结果很扎心:超过 60% 的人在招人或评职称时会看引用数据。而这其中,Google Scholar 是绝对的首选数据源,使用率吊打 Scopus 和 Web of Science。
也就是说,如果那位博后稍微收敛点,别刷得那么明显,这漂亮的 H-index 很可能就是他拿到下一个 offer 的入场券。
但如果我们将视角切换到审核机制更严格的 Scopus,这些异常账号的虚假数据瞬间就会被打回原形。
全自动生成 H-index 19
更精彩的来了。上面那位还得自己手动上传文档,效率太低。NYU 的研究人员直接上了脚本,演示了什么叫 LLM 时代的学术造假。
他们做了一个全流程自动化的钓鱼实验:
虚构身份:凭空捏造了一个不存在的作者,隶属于一个虚构的大学。
批量生成:用 ChatGPT 生成了 20 篇主题为“Fake News(假新闻)”的论文。这些文章从标题到正文完全由 AI 生成,没有任何科学贡献,唯一的逻辑就是互相引用。
上传收录:把这些内容上传到 Authorea 等预印本平台。
结果?Google Scholar 没有任何怀疑,全盘接收。
这个虚构人物瞬间拥有了 380 次引用,H-index 达到 19。在假新闻这个细分领域,甚至成了排名第 36 位的专家。
最绝的是,即便后来这些文章在预印本平台上被删了,Google Scholar 上的引用数据依然存在。
这意味着,只要操作得当,甚至可以做到查无对证。你只看得到暴涨的数字,却根本找不到是谁引用了他。
300 美元买通正规期刊
如果你觉得预印本不够正规,想要进正规期刊?没问题,氪金就行。
论文作者暗访发现,市面上早就有成熟的引用工厂(Citation Mills)。只要 300 美元,就能买到 50 个引用。
与预印本刷分不同,这些买来的引用渗透力更强。作者买的这 50 个引用,最终出现在了 5 篇发表于正规期刊的论文中,其中 4 篇甚至被 Scopus 索引。
做一下图网络分析就能看出来,这背后有明显的“引用卡特尔”(Citation Cartel)。多篇论文互相输送引用,不仅服务一个客户,而是批量化地为多个“金主”刷分,形成了明显的聚类特征。
这说明,某些高被引论文的背后,可能只是一笔简单的交易。
写在最后
当一个虚构人物能靠 ChatGPT 轻松刷出 H-index 19,当几百美元就能撬动正规期刊的引用数据时,我们必须重新审视 H-index 的含金量。
Google Scholar 的便利性毋庸置疑,但它对预印本和 AI 生成内容的无差别收录,也让作弊门槛降到了历史最低。
对于还在迷信高引用的招聘委员会来说,是时候醒醒了。
如果筛选简历依然只迷信 Google Scholar 的数字,而不去回归论文质量本身,那么未来进入学术殿堂的,可能不是科学家,而是懂规则、会钻空子的“提示词工程师”。
参考文献
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
原文链接