论文查重的想法不是一个人突然提出的。这是一个慢慢发展的过程。早期学术界没有查重工具。学者们写论文主要靠自觉。他们阅读很多书,记笔记,然后用自己的话写出来。大家信任学者的品德。但问题还是存在。总有人偷懒,直接抄别人的成果。这种情况越来越多,学术界就开始担心了。
一开始发现问题的是老师和编辑。他们读得论文多了,有时会觉得一些段落很眼熟。好像在哪里读过。他们会怀疑学生或者投稿人是不是抄袭了。但老师不可能读过世界上所有的书和文章。他们没办法证明。这就需要一个办法来找出抄袭的内容。
电脑的出现改变了这个局面。二十世纪下半叶,电脑开始普及。人们把文字输入电脑,文字就变成了数字和代码。研究者发现,可以用电脑程序来比较两段文字。如果两段文字很相似,电脑可以算出来。最早的这类程序不是为了查学术论文。它是为了别的事情。比如,有人用它来检查新闻稿有没有重复。
大学是最需要这种工具的地方。大学里有成千上万的学生。每年要写无数篇论文。老师批改论文很辛苦。他们没时间一一检查学生是否抄袭。尤其是互联网出现后,学生更容易找到资料。复制粘贴变得非常简单。抄袭变得太容易了。大学的管理者很着急。他们必须维护学位的价值。如果毕业生都是抄来的,学校的名声就坏了。
于是,一些大学和公司开始合作。他们想开发一个软件。这个软件能自动检查论文。原理不复杂。软件把一篇论文和数据库里的文章对比。数据库里有以前的学生论文,有期刊文章,有网络上的资料。软件找出一模一样或者差不多的句子。它会给这些句子标上颜色。最后生成一个报告。报告里有一个百分比。这个百分比就是重复率。老师一看报告就知道论文有没有问题。
最早的商用论文查重系统大概在二十世纪九十年代出现。具体是谁第一个提出来的很难说。这不是一个发明,更像是一种服务。是很多人共同努力的结果。有计算机科学家,他们写算法。有语言学家,他们帮助电脑理解文字。有教育工作者,他们提出需求。还有商人,他们把产品推向市场。
这个系统一开始很简单。数据库很小,只能检查很少的资料。算法也不够聪明。它可能把一些常用的短语也算成抄袭。比如“众所周知”这种话。大家都这么写,但软件会标红。这带来很多麻烦。学生觉得不公平。老师也要花时间判断。
后来系统越来越聪明。数据库变得非常大。它包括了全球主要的学术期刊、书籍和网站。算法也进步了。它能区分什么是合理的引用,什么是抄袭。它还能识别paraphrase,就是改了几个词但意思没变的句子。系统给出的报告也更详细。它能告诉你是哪篇文章重复了,重复了多少。它甚至能给出原文的链接。
现在,论文查重已经成为学术界的标准程序。全世界的高校都在用。中国的高校也广泛使用。学生在提交毕业论文前,自己会先查一遍。他们希望把重复率降到学校规定的标准以下。这变成了一件必须做的事情。
查重系统的出现有好的影响。它确实减少了明目张胆的抄袭。学生知道会被检查,就不敢整段整段地抄。他们必须自己思考,自己组织语言。这对培养学术能力有帮助。它也保护了原创作者的权利。别人的研究成果不能被随意拿走。
但查重系统也带来新的问题。有些人太关注那个百分比数字了。他们想尽办法把重复率降下来,而不是思考怎么把研究做好。他们用一些技巧,比如把一句话的顺序调换,把词语换成同义词。这样论文看起来是新的,但思想还是别人的。这没有达到学术训练的目的。查重系统检查不出这种思想的抄袭。它只能检查文字的重复。
还有些争议是关于数据库的。查重公司收集了海量的学生论文。这些论文成了它们数据库的一部分。但它们收集的时候有没有得到完全授权呢?学生和作者的权益有没有被充分保护呢?这是一个需要讨论的问题。
论文查重工具还会继续发展。未来的人工智能可能会更厉害。它也许能理解论文的含义,而不只是匹配文字。它能判断论文的核心观点是不是抄袭的。这技术现在还做不到。
回过头看,论文查重是谁提出来的?它不是某一个人的功劳。它是学术共同体面对抄袭问题,借助技术进步,逐步形成的一种解决方案。它源于一种共同的需求,那就是保持学术的诚实。学术研究建立在信任基础上。我们相信前人写的成果是真的。我们也相信后来者会诚实地使用这些成果。一旦这种信任被破坏,整个学术大厦就会动摇。论文查重工具是一个守护者。它提醒每个人要遵守规则。它的出现是必然的。只要抄袭存在,这样的工具就会存在并被需要。