论文查重工具是现在写论文必须用的东西。学校对重复率有规定,重复率太高论文就通不过,学生要花很多时间在查重上。查重工具的原理是把论文切成一段一段的话,和数据库里的东西做对比。数据库里有以前的学生写的论文,有网上能搜到的文章,有各种书和杂志。对比之后算出重复的比例,就是重复率。
但查重工具不是万能的。查重工具很多时候查不出问题。有些重复的内容查重报告里没有标出来。这个问题很多人都遇到过。
一个原因是数据库不够大。查重工具靠数据库工作,数据库里没有的东西它就查不出来。比如一篇论文参考了一本很老的书,这本书没有电子版,没有放进数据库里,那么即使论文里大段抄了这本书,查重工具也发现不了。又比如参考了一篇外文的文章,这篇文章没有被收录,查重工具也查不到。数据库总是有限的,世界上每天产生的新文章新书太多,不可能全部收进去。
还有一个原因是查重的算法。算法一般看连续的几个字一样不一样。如果一段话改了几个词,换了语序,调整了句子结构,算法就可能认不出来。学生会用一些方法绕开查重,比如把“因为所以”改成“由于因此”,把“重要的原因”改成“关键的因素”。这些改动让话的意思差不多,但字面上不一样了,查重工具就把它当成了新内容。这其实也是一种重复,是意思的重复,但工具查不出来。
查重工具只看字面,不看意思。这是它最大的弱点。它不知道这段话在讲什么,它只认识字和词的排列。两个人独立写同一件事,用的词和句子可能很像,查重工具会标为重复。一个人抄了别人的想法,但用自己的话重新说一遍,查重工具可能就放过了。真正的抄袭是偷别人的想法,不是光抄句子。查重工具对付不了这种高级的抄袭。
学生之间互相抄,查重工具也可能发现不了。比如同一届的学生,你把我的论文改一改当成你的,数据库里还没有这些新论文,查重的时候就查不到。或者从一些小的网站、论坛里抄内容,这些内容没有被数据库收录,查重工具也无能为力。
翻译外文文章然后放进自己的论文里,查重工具很难查。把英文的文章用翻译软件变成中文,句子结构全变了,用词也变了,查重工具比对中文数据库,基本找不到匹配的。这实际上也是抄袭,但技术上看不出来。
查重工具喜欢查那些直接复制粘贴的内容。对于认真抄袭、精心改写的内容,它的效果就变差了。有些人专门做这个生意,帮别人把抄袭的文章“洗”一遍,让查重率降下去。他们就是利用了查重工具的弱点。
数据库的更新速度也是一个问题。新的论文、网上的新内容,要过一段时间才会被收进数据库。在这段时间里,如果有人抄了这些新内容,查重工具就查不出来。工具总是慢一步。
不同的查重工具,结果不一样。这个工具查出来重复率低,那个工具可能就高。因为它们用的数据库不同,算法也有差别。学生为了保险,会用好几个工具查,选一个最低的报告交给学校。这其实是在钻空子。
学校依赖查重工具,觉得重复率合格了论文就没问题。这给了学生错误的想法。学生只关心怎么把重复率降下来,不关心是不是真的自己写的。他们想尽办法躲开查重,而不是好好做研究。这违背了写论文的本来目的。
查重工具是一个辅助的工具,它不能判断论文的质量。一篇论文重复率很低,可能是自己写的,也可能是精心抄袭的。一篇论文重复率高,可能是因为引用了很多前人的研究,并且规范地标明了出处。只看数字会出错。
现在的人工智能写文章,也给查重带来新麻烦。用人工智能生成的文字,数据库里根本没有,查重工具肯定查不出来。但那些文字也不是学生自己的思考。这个问题以后会更严重。
查重工具的设计思想是抓“文字重复”,但学术不端不仅是文字重复。偷别人的想法、数据、实验方法,这些更重要。查重工具对这些无能为力。
老师看论文的时候,不能只看查重报告。老师要仔细读内容,看学生的思路是不是清楚,论证是不是扎实,有没有自己的见解。这些是查重工具做不到的。老师的花费的时间要多得多。
学生应该明白,写论文是为了学会研究问题,是为了贡献一点新的知识。应付查重是走歪路。就算查重没查出来,抄袭也是错的。心里要知道对错。
查重工具还会继续用下去。它简单,给一个数字,学校管理起来方便。但我们要知道它的局限。不能以为查重过了就万事大吉。真正的学术诚信,是在没有人监督的时候,也能自己约束自己。
技术的发展也许能让查重工具变聪明。以后也许有工具能看懂意思,能发现想法的抄袭。但那一天还没到。现在,我们还是得承认,很多重复没查出来。这是事实。
写论文的人,要用自己的脑子,要用自己的手。别人的东西可以参考,但要说明白哪里是别人的,哪里是自己的。这是基本的要求。查重工具只是一个提醒,不是一个裁判。