论文写完了要查重。每个人都知道这件事。学生写论文要查重。老师发表文章也要查重。查重系统很常见。中国知网很有名。维普和万方也用的人多。国外的系统也有。这些系统的工作方式一样。它们把提交的文本放进数据库。数据库里有好多文章。期刊论文放在里面。学位论文放在里面。会议文章也放在里面。系统开始对比。它找一样的字。它找一样的句子。它找一样的段落。最后出一个数字。这个数字叫重复率。重复率太高不行。学校会有规定。期刊会有要求。超过了就不能通过。
查重以后的事情很多人关心。论文通过了查重。学生松了一口气。老师也感到满意。文章被期刊接收了。作者很高兴。接下来的事情发生了。这篇文章被很多人看到。可能是在数据库里。可能是在杂志上。别的学生开始写论文。他们需要参考资料。他们找到了这篇文章。觉得里面的观点很好。觉得里面的数据有用。他们把这些内容拿过来。有的直接抄原句。有的自己改几个字。有的理解了意思重新写。但核心思想还是那个。然后他们提交论文去查重。因为原文已经在数据库里。他们的论文就可能标红。重复率就可能变高。这是一个矛盾。
第一个人写了原创内容。他付出了劳动。他查重通过了。他的文章进入了数据库。成为公开的知识。第二个人需要学习。他引用第一个人的思想。这是学术的正常过程。知识就是这样传递的。但查重系统不认得思想。它只认得文字。文字一样就是重复。思想一样但文字不同就不算重复。这导致了一个现象。大家开始躲避查重。注意力放在改词语上。而不是创造新知识。这是一种浪费。
多人引用同一篇内容很普遍。一篇重要的文章发表出来。它提出了新方法。它解释了新现象。它总结了新规律。后来的人必然要提到它。科研是在前人基础上做的。不引用前人的工作不行。引用多了文字就重复。这是一个技术问题。现在的查重系统不够聪明。它不能区分合理引用和抄袭。合理引用是学术规范。抄袭是学术不端。两者混在一起处理。查重报告一片红色。作者需要花大量时间修改。把本来正确的引用换一种说法。有时候意思就不那么准确了。这对学术发展没有好处。
被多人引用的内容往往是基础。好比盖房子需要地基。地基是最重要的。但大家都用地基。不能因为别人用了水泥和砖头。你就不用水泥和砖头。学术研究的地基是那些经典理论。是那些开创性论文。每个进入这个领域的人都要读。都要在论文里提到。如果查重系统把这些都算重复。那每个人的论文开头都会标红。这显然不合理。现在有些系统设置了排除。比如引用的句子加上引号。比如列出参考文献。但也不是完全有用。系统可能还是标为重复。作者还是要手工处理。
还有一个现实问题。数据库里的文章越来越多。查重系统的比对范围越来越大。十年前写论文。重复的可能只有几篇。现在写论文。重复的可能有几百篇。因为你想到的观点。别人也可能想到。你用的表达方式。别人也可能用过。这不是抄袭。这只是巧合。语言表达的方式有限。描述一个实验过程。words就那么些。顺序也差不多。查重系统会判为重复。作者感到无奈。他确实是自己写的。没有看别人的文章。但系统不相信。他必须修改。把“通过实验得到数据”改成“数据经由实验获得”。意思完全一样。只是词语换了位置。这种修改没有意义。纯粹是为了降低数字。
多人引用还造成了资源集中。有名的文章被引更多。新的文章更难出头。大家愿意引用已经权威的内容。这样自己的论文看起来更有依据。查重系统加剧了这个现象。因为引用权威文章更安全。大家不敢用太新的、没名气的文章。怕查重不过关。也怕观点不被认可。学术创新可能因此变慢。年轻人有新的想法。但他们的文章没人引用。因为不为人知。查重系统里也没有。别人引用不了。形成了循环。打破循环需要时间。
查重工具的初衷是好的。防止抄袭。保护原创。维护学术公平。但工具的使用产生了副作用。学生和研究者花了太多时间在技术层面。他们琢磨怎么降重。他们学习各种改写技巧。他们关注数字胜过关注内容。论文的质量不一定提高。有时反而下降。把一句通顺的话改得别扭。就为了躲开查重。这背离了学术的本意。学术本意是追求真理。是分享知识。现在好像变成了一场游戏。游戏规则就是那个重复率数字。
我们希望有一种更好的方式。能够识别真正的抄袭。那种大段照搬。那种窃取观点。同时放过合理的引用。放过不可避免的重复。技术应该服务于人。而不是人为技术所困。也许未来的查重系统会更智能。它能理解语义。它能分辨意图。但在那天到来之前。我们只能面对现状。写作者要更加小心。既尊重他人的劳动。也保护自己的原创。合理引用。规范标注。用自己的语言阐述观点。即使查重系统不完美。我们也要坚持做正确的事。学术共同体需要信任。需要诚实。这些品质比任何数字都重要。
查重只是一个工具。它不能判断论文的价值。它不能衡量思想的深度。它只是一个提醒。提醒我们注意知识产权。最终评价论文的是人。是同行。是时间。被多人引用的内容。说明它有价值。说明它影响了别人。这是对作者最大的肯定。无论查重报告是什么颜色。真正的学术贡献不会被埋没。好的思想会流传下去。超越工具的限制。成为人类知识宝库的一部分。我们写作。我们研究。我们引用。我们被引用。这是一个循环。这是学术的生命。