论文查重是一个重要环节。学校对论文有要求。学生必须通过查重才能毕业。查重就是检查论文的原创性。看论文里的话是不是自己的。看是不是抄了别人的东西。查重系统现在很多。中国知网是最有名的一个。万方和维普也很常用。这些系统都有自己的语料库。
语料库是什么。语料库就是一大堆文字材料的仓库。这个仓库里装了很多很多文章。有以前学生写的毕业论文。有老师发表的期刊文章。有各种报纸和书里的内容。只要是写成文字的东西都可能放进去。语料库特别大。好比一个大图书馆。图书馆的书是整本整本的。语料库里的文章是拆成一句一句的。系统查重的时候。它会拿你的论文去和语料库比。一句话一句话地比。看有没有一样的。看有没有差不多一样的。
这个比对的过程很快。电脑一秒钟能看很多很多字。它会找出那些相似的地方。然后算出一个比例。这个比例叫重复率。重复率太高就不好。说明你的论文原创内容少。可能抄了别人的东西。学校会规定一个标准。比如重复率不能超过百分之十。超过了就要修改。改到自己能通过为止。
语料库是怎么来的呢。是查重系统公司收集起来的。他们收集了很多年的资料。和很多学校合作。学校把学生的毕业论文给他们。他们和期刊杂志合作。杂志把发表的文章给他们。他们还会从网上抓取信息。网上能看到的新闻、论坛帖子、网页内容都可能被收集。语料库不是一成不变的。它在不断变大。每年都有新的文章加进去。所以今年的语料库比去年大。明年又会比今年大。
语料库的覆盖范围很广。它不只是学术文章。也包括其他文字。比如你写论文时引用了一段法律条文。这段条文可能在语料库里。你描述了一个历史事件。关于这个事件的公开介绍可能在语料库里。你用了教科书里的一个定义。这个定义也可能在语料库里。这就会带来一个问题。有些话是你自己写的。但和别人写的一样。或者很像。系统也会标出来。因为它只看文字是不是一样。它不知道这句话是不是只能这么说。
学生写论文的时候很关心语料库。他们想知道怎么通过查重。一个办法是尽量自己写。用自己的话把意思说出来。不要直接复制别人的句子。即使要引用别人的观点。也要换一种说法。或者打上引号。明确告诉系统这是引用。另一个办法是提前查重。有些网站提供查重服务。虽然不是学校用的那个系统。但原理差不多。可以自己先查一遍。看看哪些地方重复了。然后进行修改。改完再查。直到重复率降下来。
语料库也有区别。不同的查重系统语料库不一样。知网的语料库最全。因为它收集的学位论文最多。很多高校都用它。维普的语料库可能期刊文章更多。万方也有自己的特色。所以同一篇论文用不同的系统查。结果可能不同。重复率数字会不一样。标红的地方也不完全一样。但大体上是接近的。学校用哪个系统。学生就应该重点关注哪个系统。
语料库的存在让抄袭变得困难。以前没有查重的时候。有人整篇抄别人的文章。老师可能发现不了。现在不行了。把文章放进系统一查。抄了多少一目了然。这保护了原创的人。他们的劳动成果不会被别人轻易拿走。这也督促学生自己动脑筋。自己动手写文章。这是一个好的作用。
但语料库也带来一些困扰。有些学生为了降低重复率。想各种奇怪的办法。他们把一句话里的词换成近义词。他们调整句子的顺序。他们加一些没用的字。他们甚至把文字翻译成外文再翻译回来。这样改出来的句子很别扭。读起来不通顺。但重复率可能降下去了。这其实偏离了写论文的本意。论文是要表达你的想法。语料库是工具。工具不应该反过来控制人。
老师也看查重报告。但他们不只是看那个数字。他们更关心论文的内容。他们看你的观点是不是清楚。看你的论证是不是有力。看你的研究是不是扎实。重复率只是一个参考。有些必要的引用重复了是允许的。关键是不能大段大段地抄。不能把别人的成果当成自己的。
语料库技术还在发展。现在的系统不仅能查文字一样。还能查意思一样。也就是你换一种说法。系统也可能识别出来。因为它会分析句子的结构。分析词语之间的关系。未来语料库会更智能。查重也会更准确。这对学生提出了更高的要求。必须真正理解自己写的东西。必须真正有自己的思考。
写论文是学习的重要过程。查重是这个过程里的一道关。语料库是查重的基石。了解语料库是什么。了解它怎么工作。对学生有帮助。学生可以更合理地对待查重。既认真对待。又不被它束缚。把精力放在最重要的地方。那就是做出真正有内容的研究。写出真正属于自己的论文。