新闻资讯
谷歌被指剽窃RaBitQ核心方法:随机旋转+向量量化
旋转之后,向量每个坐标的分布变得可预测,就可以用更高效的方式做量化。他们这次发表的TurboQuant,核心也是随机旋转+向量量化,这不就是RaBitQ在2024年5月就公开发表的核心架构吗?PQ」(基于网格的乘积量化),完全跳过了RaBitQ中同样核心的随机旋转步骤。
一篇论文,引发了千亿市值的变动,谷歌存储股跌停,其背后是华人博士后的惨痛教训。2024年5月,中国学者高健扬团队,开源了随机旋转加向量量化的核心架构,出乎预料的是,一年之后,谷歌运用它,彻底改写了对AI格局的叙述。
谷歌论文的核心方法高度雷同
2025年谷歌所发表的论文里,多次着重强调随机旋转乃是自身方法的关键步骤。然而,在进行技术描述时,他们仅仅将其归类成基于网格的乘积量化,把高健扬团队同样核心的随机旋转步骤完全给跳过了。这样的做法致使读者误以为这属于谷歌原创的技术突破。
于审稿进程当中,有一位审稿者径直问了一个直白的问题,随机旋转是不是你们所撰写论文的首创。谷歌作者在所给出的回复里清清楚楚地承认,随机旋转的运用在此之前已然存在探索,并且引用了涵盖高健扬工作在内的多项研究。然而在论文的正文部分,他们对于此事却完全没有提及。
审稿人建议被谷歌完全忽视
给出10分满分的审稿人WFrV,明确指出了,这个问题,他建议谷歌作者,在论文终稿里,承认高健扬团队工作的地位,强调随机旋转及其变体,都使用了相同的技术路径,这位审稿人强烈要求,加入相关实验和引用。
在谷歌的终稿呈现之后,不但未参与讨论,并且将正文中针对高健扬方法仅有的那不完全的描述移至附录处。在2026年3月的时候,高健扬团队正式致函全体作者,提出要予以纠正。第一作者Amir回应称,随机旋转以及JL变换已然属于该领域已有的标准技术,根本无法引用每一个运用到它们的方法。
理论最优性被错误否定
谷歌论文里写下了一句可为高健扬团队理论保证是次优的,极有可能源于分析太过粗糙,从而令人愤怒的话。然而,真实情形却是,高健扬团队扩展版的论文已然严格证实其误差界匹配了理论计算机顶级会议FOCS 2017所给出的渐近最优界。
正是缘故在于证明了最优性这一情况,高健扬才得以被邀请到FOCS去做报告。在2025年5月这个时间段,高健扬团队与谷歌论文二作Majid展开了多轮详细的技术讨论,还逐条去解释为何理论保证是最优的。Majid在邮件里明确宣称已把讨论内容告知了全体共同作者,然而实际上他们什么事情都未曾去做有了句号。
性能对比测试存在严重不公
谷歌论文宣称,自身的量化速度,相较于高健扬的方法,快了好些数量级。但此计算方法,毫无公平性可言。在2025年5月的邮件里,他们供认,测试之际,用的是自行翻译的版本,并非高健扬团队官方开源的、高度优化的C++实现。
更过分的是,谷歌将多并行多线程运算予以禁用,仅在单核的中央处理器之上运行特有的自检程序。然而,用于对比的高健扬所采用的方法却是在英伟达公司生产的A100图形处理器之上运行。这简直如同比赛开端就把对手的鞋带紧紧捆绑成一团,而后才开始发起赛跑,最终却据此断定自身奔跑速度更为快捷。在2025年1月所发送的邮件消息之中已然表明,其自身成功达成了高健扬所编写的C++程序代码的运行操作,他分明确切知晓官方所达成的运算速度究竟有多快。
漏洞百出的论文引发公开质疑
3月26日,有一位名为Jonas Kübler的研究者,在公共平台之上发布了公开评论,针对谷歌论文的实验方法,提出了多个具体的质疑,这些质疑涵盖了包括数据对比的公正性等诸多方面,还同时涉及到实验设置的科学性等多个领域,回顾整体完整的时间线能够发现,谷歌论文的作者根本并非是粗心大意或者疏忽遗漏。
你提供的内容似乎存在一些逻辑不太流畅的地方,且表述比较模糊。以下是尽量按照要求生硬改写:每一步都获得别人进行的提醒,无一例外每一步都被给以选择性的忽略了 ,高健扬所属团队历经两年展开研究并且换来了两篇顶会论文 ,代码全部毫无保留地进行开源。然而在这种情况下谷歌一篇博客却收获了数千万的曝光量 ,直接致使存储股遭遇跌停。要是没有人进而予以纠正 ,历史将会被改写成一种是次优的且很慢的老方法以及形成一个从零开始实现全面超越的新突破。
在Hacker News这个平台上,2021年那篇名为DRIVE的论文的作者露面了,他们运用的是随机旋转加偏差校正框架,此前曾被邀请去做内部报告,并且同样未被谷歌引用。这明显不是个别人的经历。
若是错误的学术叙事一旦得以广泛传播开来,那么纠正它所需的成本便会越来越高。在数千万的曝光情况面前,这个声音是很小的,然而必须得有人发出这个声音。你觉得学术圈应当怎样去建立相应的机制用以防止这种剽窃行为呢,要让真正做出贡献的研究者获取到应有的认可,欢迎在评论区分享你给出的看法,点赞从而让更多的人能够看到这个真相。


