论文查重是一个很重要的事情。学生们写论文的时候都会遇到。老师要求论文必须是原创的。不能抄别人的东西。抄东西就是学术不端。学术不端很严重。学校会有处罚。处罚可能是警告。也可能是记过。严重的会拿不到学位。所以查重是必须做的工作。
国内和国外都有查重。国内的情况很特别。中国学生人数非常多。每年毕业的大学生有几百万。每个人都要写论文。论文的数量太大。管理起来很困难。以前没有电脑的时候,老师只能靠眼睛看。老师读过很多书。老师能看出一些抄袭。但这样很累。而且容易漏掉。后来有了电脑和网络。查重就变得方便了。
国内最常用的查重系统是知网。知网很厉害。它收录了非常多的文章。有学术期刊。有毕业论文。有会议论文。知网的系统会把这些文章都放在一起。形成一个很大的数据库。学生把论文上传到知网。系统会把论文和数据库里的文章对比。看看有多少字是一样的。一样的字太多,重复率就高。重复率高就说明抄得多。学校会规定一个重复率标准。比如不能超过百分之十。超过就要修改。改到合格为止。
除了知网,国内还有别的系统。比如万方。比如维普。这些系统也用得不少。每个学校的选择不一样。有的学校用知网。有的学校用万方。学生要按学校的要求来。这些系统的基本原理差不多。都是比对文字。看重复的比例。
国外的查重也很常见。国外对学术诚信非常重视。国外大学很早就开始查重。国外有名的系统是Turnitin。Turnitin在全球很多国家使用。很多外国大学都用它。学生交作业前就用它查。老师也会用它来检查学生作业。Turnitin的数据库很大。它有很多英文资料。有期刊。有书籍。有学生交过的作业。它甚至能查到网络上的资源。比如网页内容。
还有一个系统叫iThenticate。这个更多是给研究人员用。学者投稿前用它查。看看自己的文章和以前的研究重复多少。避免投稿后被发现问题。
国内外查重的做法有相同的地方。都是防止抄袭。都是鼓励原创。都是用电脑软件自动比对。但也有一些不同的地方。
国内查重很看重一个数字。就是重复率。学生和老师都盯着这个百分比。必须低于某个数才行。这导致一些现象。学生为了降低重复率,想各种办法。他们不一定抄了别人的观点。他们可能只是用了同样的表达。中文表达方式有限。一些专业术语必须那样写。一些定义必须那样说。这也会被算成重复。于是学生就改写法。比如把句子顺序调换。比如把主动句改成被动句。比如加一些没用的字。或者把一些词换成同义词。这样做,论文的意思没变,但重复率下降了。这有时叫“降重”。降重成了写论文的一个特殊环节。花很多时间在文字上折腾。而不是思考内容。
国外也看重复率。但国外更看重具体的内容。老师会看查重报告。报告里会标出哪些句子和别人的一样。会指出可能的来源。老师会仔细看这些部分。判断学生是不是真的抄袭。有的重复是合理的。比如引用了别人的话。引用了就必须标注出处。只要规范引用,就没有问题。有的重复是共同的背景知识。比如某个公式。某个定理。这也不算抄袭。国外更注重学生是否诚实。是否正确地使用了别人的成果。
国内查重还有一个特点。就是数据库主要针对中文。知网里的中文资料最全。但对英文和外文资料覆盖不够。如果学生抄了外国文章,翻译成中文,知网有时查不出来。这算是一个漏洞。现在有的系统也在加强这方面的功能。
国外系统对跨语言抄袭也在加强检查。比如Turnitin,它能识别不同语言之间的相似。
查重技术本身在不断发展。最早的查重只是简单的文字匹配。现在变得更智能。能理解语义。比如两句话意思一样,但文字不一样,老系统查不出,新系统可能就能识别。这需要人工智能的技术。人工智能可以帮助判断文章的真正原创性。
查重是一把双刃剑。好的一面是,它阻止了偷懒和欺骗。让学生自己动脑筋。保护了学术的公平。不好的一面是,它可能太机械。让学生过于关注重复率这个数字。忽视了论文真正的价值是提出新想法。解决新问题。
学生应该正确看待查重。查重是一个工具。是一个辅助。写论文的根本还是要自己研究。自己思考。自己动笔。引用别人的东西一定要说明。这是对别人的尊重。也是对自己负责。一开始就不要想着去抄。自己写,查重的时候就不会害怕。
老师们也在思考如何更好地使用查重。不能只看一个百分比数字。要结合报告具体分析。要教育学生什么是正确的学术规范。从根本上去杜绝抄袭的想法。
国内外的高校都在交流。互相学习查重的经验。中国的大学也在学习国外更全面的学术诚信教育。不只是在最后用软件查一下。而是从一开始就告诉学生规矩。教学生怎么写论文。怎么引用。怎么创新。
查重软件公司也在改进产品。让软件更聪明。更公平。既能抓住抄袭,又不会冤枉正常的学术写作。
论文查重这件事,会一直存在。只要有人写论文,就需要检查原创性。技术会变,方法会变,但核心不会变。就是要有真的学问。要有诚实的态度。这是全世界学术界都认同的道理。学生写论文不容易。但这个过程就是学习。是成长。认真对待论文,认真对待查重,是对自己学习的总结和负责。