Python字符编码检测库chardet 7.0版本引发开源协议争议

重写代码与开源协议边界的激烈争议。是一种规避版权侵权的开发策略，指开发人员在完全没有接触过原版受版权保护代码（在“干净的房间”里）的情况下，仅根据功能需求说明书重新编写代码，确保新代码不是原代码的“衍生作品”。下达需求，在一个清空的仓库中从零开始生成了这些非衍生代码。

你可晓得？有个开源项目借助AI于5天之内重写代码，性能提升幅度最高达到48倍，然而就是因许可证的更换激起了开源界的一场“震动”。当AI生成代码邂逅传统版权法时，开发者们猛然发觉，自己所熟知的游戏规则或许要被完全改写。

上周，项目维护者Dan扔出了一枚重磅炸弹，他利用AI编程工具Cursor，仅用5天时间就彻底重写了字符编码检测库，推出了7.0版本，新版本性能最高提升48倍，这个数字让整个社区都震惊了。

但是，真正引发争议的并非性能的提升，而是Dan趁此机会把项目许可证从原本严格的LGPL改成了较为宽松的MIT协议之举。这一举动意味着，那些原本必须开源的代码，如今能够被商业公司直接拿去进行闭源使用。众多依赖这个项目的开发者，开始担忧自身权益会受到损害。

2006年，创建该项目的Mark，坐不住了，他在GitHub上公开抗议，觉得Dan的行为构成了非法重新授权。对于Mark而言，Dan长期接触原始代码，即便用了AI重写，新版本也摆脱不了“衍生作品”的身份。

Mark着重表明，将AI代码生成器予以引入，并不会给予维护者额外的权利。他点明这样的举措，根本就不符合“净室逆向工程”的标准。因为Dan是在完全知晓原代码的状况下开展重写工作的。他坚定地要求项目去恢复原先所具有的LGPL协议。

Python字符编码检测库chardet 7.0版本引发开源协议争议

Dan面对指控时，拿出数据为自身辩护，他坦承熟悉旧代码，不过强调AI生成的新代码在结构方面已全然独立，他引用JPlag代码相似度检测工具的数据，7.0版本和旧版的相似度最高仅为1.29%。

Dan作出解释，表明他采取的做法是，先去编写详尽的设计文档，接着向AI下达功能方面的需求，在一个被清空的代码仓库之中，从零点起步去生成代码。他觉得这种“AI净室”模式，全然契合净室开发的核心观念，仅仅是把“人”替换成了“AI”。

然而，这种被称作“AI净室”的模式，正面临着复杂的、现实的考验。其中，最大的问题在于，AI大模型所使用的训练数据，极有可能已摄取了相关项目早期阶段的开源代码。即便新的代码结构与之前完全不同，那么，AI所具备的这种“先验知识”，是否会致使产出物沦为衍生品呢？

再有一个难题在于，Dan在整个过程当中，深度地参与到了AI生成代码的审查以及迭代工作里。他持续不断地去调整需求，还修改输出内容，而这般人类开发者的重度干预，同样有可能性对新项目独立性的法律判定产生影响。当下，法院还并未针对这类案件给出明确的裁决。

于整个开源社区而言，这场风波正引发着连锁反应，自由软件基金会执行董事Zoë明确表示过，在源码被吸收进去的情况下，AI大模型根本就不能称之为“干净”，她觉得使用这般AI去进行重写，从本质上来说依旧是在原代码的基础之上做着修改。

开源布道师Bruce致以了更为严苛的警示，他觉得整个软件开发的经济学根基已然被完全颠覆，其产生的影响堪比印刷术的问世，开发者们着手重新思索开源协议的含义，以及在AI时代怎样去守护自身的劳动成果。

当下这场争议尚未有最终论断，Mark所提恢复LGPL协议的呼声获挺，不少老牌开发者予以支持，然而Dan的做法吸引了更多商业用户目光，项目仓库的issue区已然吵得不可开交。

有律师表明，这起事例或许会促使立法机关再度审视版权法于AI时代的适用性，不论最终结果怎样，它已然给开源领域敲响了警钟，即当AI开始大规模投身代码创作时，我们所熟知的规则或许都得重新界定。

你认为借助AI重新编写的代码究竟能不能算作侵权呢，要是AI依据学习开源代码进而去生成新代码，那么这些新生成的代码到底该遵循何种协议呢，欢迎于评论区分享你个人的观点，点赞并转发从而让更多的人能够参与到讨论当中来！