新闻资讯

Python字符编码检测库chardet 7.0版本引发开源协议争议

更新时间:2026-03-13 09:46

重写代码与开源协议边界的激烈争议。是一种规避版权侵权的开发策略,指开发人员在完全没有接触过原版受版权保护代码(在“干净的房间”里)的情况下,仅根据功能需求说明书重新编写代码,确保新代码不是原代码的“衍生作品”。下达需求,在一个清空的仓库中从零开始生成了这些非衍生代码。

你可晓得?有个开源项目借助AI于5天之内重写代码,性能提升幅度最高达到48倍,然而就是因许可证的更换激起了开源界的一场“震动”。当AI生成代码邂逅传统版权法时,开发者们猛然发觉,自己所熟知的游戏规则或许要被完全改写。

性能飙升48倍的代价

上周,项目维护者Dan扔出了一枚重磅炸弹,他利用AI编程工具Cursor,仅用5天时间就彻底重写了字符编码检测库,推出了7.0版本,新版本性能最高提升48倍,这个数字让整个社区都震惊了。

但是,真正引发争议的并非性能的提升,而是Dan趁此机会把项目许可证从原本严格的LGPL改成了较为宽松的MIT协议之举。这一举动意味着,那些原本必须开源的代码,如今能够被商业公司直接拿去进行闭源使用。众多依赖这个项目的开发者,开始担忧自身权益会受到损害。

原作者愤怒抗议

2006年,创建该项目的Mark,坐不住了,他在GitHub上公开抗议,觉得Dan的行为构成了非法重新授权。对于Mark而言,Dan长期接触原始代码,即便用了AI重写,新版本也摆脱不了“衍生作品”的身份。

Mark着重表明,将AI代码生成器予以引入,并不会给予维护者额外的权利。他点明这样的举措,根本就不符合“净室逆向工程”的标准。因为Dan是在完全知晓原代码的状况下开展重写工作的。他坚定地要求项目去恢复原先所具有的LGPL协议。

AI净室重写新概念

Python字符编码检测库chardet 7.0版本引发开源协议争议

Dan面对指控时,拿出数据为自身辩护,他坦承熟悉旧代码,不过强调AI生成的新代码在结构方面已全然独立,他引用JPlag代码相似度检测工具的数据,7.0版本和旧版的相似度最高仅为1.29%。

Dan作出解释,表明他采取的做法是,先去编写详尽的设计文档,接着向AI下达功能方面的需求,在一个被清空的代码仓库之中,从零点起步去生成代码。他觉得这种“AI净室”模式,全然契合净室开发的核心观念,仅仅是把“人”替换成了“AI”。

法律盲区现实困境

然而,这种被称作“AI净室”的模式,正面临着复杂的、现实的考验。其中,最大的问题在于,AI大模型所使用的训练数据,极有可能已摄取了相关项目早期阶段的开源代码。即便新的代码结构与之前完全不同,那么,AI所具备的这种“先验知识”,是否会致使产出物沦为衍生品呢?

再有一个难题在于,Dan在整个过程当中,深度地参与到了AI生成代码的审查以及迭代工作里。他持续不断地去调整需求,还修改输出内容,而这般人类开发者的重度干预,同样有可能性对新项目独立性的法律判定产生影响。当下,法院还并未针对这类案件给出明确的裁决。

开源社区连锁反应

于整个开源社区而言,这场风波正引发着连锁反应,自由软件基金会执行董事Zoë明确表示过,在源码被吸收进去的情况下,AI大模型根本就不能称之为“干净”,她觉得使用这般AI去进行重写,从本质上来说依旧是在原代码的基础之上做着修改。

开源布道师Bruce致以了更为严苛的警示,他觉得整个软件开发的经济学根基已然被完全颠覆,其产生的影响堪比印刷术的问世,开发者们着手重新思索开源协议的含义,以及在AI时代怎样去守护自身的劳动成果。

未来走向何方

当下这场争议尚未有最终论断,Mark所提恢复LGPL协议的呼声获挺,不少老牌开发者予以支持,然而Dan的做法吸引了更多商业用户目光,项目仓库的issue区已然吵得不可开交。

有律师表明,这起事例或许会促使立法机关再度审视版权法于AI时代的适用性,不论最终结果怎样,它已然给开源领域敲响了警钟,即当AI开始大规模投身代码创作时,我们所熟知的规则或许都得重新界定。

你认为借助AI重新编写的代码究竟能不能算作侵权呢,要是AI依据学习开源代码进而去生成新代码,那么这些新生成的代码到底该遵循何种协议呢,欢迎于评论区分享你个人的观点,点赞并转发从而让更多的人能够参与到讨论当中来!