论文查重相似度的计算是一个重要的工作。每个写论文的人都关心这个问题。学校对论文的重复率有明确的要求。重复率太高论文就不能通过。我们必须了解查重是怎么计算的。
查重系统里有大量的文章。这些文章来自书籍、期刊、以前的毕业论文、网站等等。你的论文会被放进系统里。系统将你的文章和数据库里的文章进行比对。系统会找出那些相同或相似的地方。这个过程是自动完成的。计算机按照设定好的程序运行。
系统如何判断文字是相似的呢?计算机不是像人一样去理解意思。计算机处理的是文字的表面形式。系统会把文章分解成小的单位。最小的单位可以是单个字。更常用的单位是词语或短语。系统会将连续的文字切割成一段段的短句。这些短句被称为“指纹”或“片段”。比如一个句子有十个字。系统可能把它切成几个三到四个字的片段。然后系统为每一个片段计算一个特殊的数字。这个数字就像人的指纹。它是独一无二的。计算这个数字的方法是一种算法。常见的算法有“哈希算法”。这个算法可以把一段文字变成一串固定的代码。不同的文字算出不同的代码。相同或极其相似的文字算出的代码相同或非常接近。
系统把你论文里每一个片段的指纹都算出来。系统再把数据库里海量文章的指纹也算好存储起来。比对的时候,系统将你论文的指纹和数据库里的指纹进行匹配。如果两个指纹一样,就说明这段文字完全一样。如果两个指纹高度接近,就说明这段文字非常相似。系统会记录下所有匹配上的地方。
匹配上的文字占你文章总字数的比例就是相似度。相似度也叫重复率。比如你的论文有一万字。系统找出来有一千字和数据库里的文章匹配。那么你的论文相似度就是百分之十。这个数字是查重报告里最重要的数字。
系统比对时考虑很多细节。比如系统会忽略一些无关紧要的差异。标点符号的不同通常会被忽略。“今天天气很好”和“今天天气很好。”可能被视为相同。系统也可能忽略一些常见的虚词。“的”、“了”、“在”这些词有时不计入比对。但这不是绝对的。不同的查重系统规则不同。
系统还要处理格式问题。你的论文是PDF格式还是Word格式。系统需要先提取出纯文字。图片里的文字过去无法识别。现在一些先进的系统可以识别图片中的文字了。表格里的文字也会被提取出来进行比对。
引用别人的文章是一个特殊问题。写论文需要引用前人的成果。直接复制别人的话就是引用。合理的引用是允许的。但必须加上引号,并注明出处。查重系统能识别规范的引用吗?有些系统有“排除引用”的选项。如果你格式正确,系统可能会把这部分文字从相似度计算中剔除。但很多学生引用格式不规范。系统就无法识别。不规范的引用会被当成抄袭计算进重复率。这是很多人重复率高的一个原因。
翻译外文资料也算重复吗?如果你把一篇英文文章翻译成中文。这段中文是你自己写的。但它的意思和英文原文完全一样。查重系统目前主要比对文字是否相同。中文字和英文字完全不同。所以系统可能查不出来。但这在学术规范上可能被视为一种抄袭。这叫“剽窃观点”。现在的查重技术还在发展。有些系统开始关注语义层面的相似。未来可能翻译过来的内容也能被检测到。
自己写过的内容再使用算重复吗?如果你以前发表过小论文。现在把它写进毕业论文里。这算自我抄袭。很多查重系统会将你以前发表的文章也收录进数据库。那么你新论文里使用旧论文的内容就会被查出来。这也会增加重复率。你需要征得相关方面的同意并进行说明。
查重系统有不同的品牌。中国高校常用的是知网查重系统。还有万方、维普等系统。每个系统的数据库不一样。知网的数据库非常全面。它包含了大量的学术论文和期刊。它的比对算法也比较严格。不同的系统算出的重复率可能不同。学校用哪个系统,你就应该用哪个系统来检查。用其他系统检查的结果只能作为参考。
降低重复率是学生的普遍需求。理解计算原理有助于降低重复率。不要直接复制别人的文章。这是最根本的方法。阅读资料后,用自己的话把意思写出来。这就是“改写”或“复述”。改变句子的结构。把主动句改成被动句。把长句拆成短句。或者把短句合并成长句。替换词语。用同义词替换原文中的词。但要注意专业术语不能随便替换。核心概念的名称必须统一。调整段落中句子的顺序。但要注意逻辑连贯。这些方法可以让文字变得不同。系统比对时就不容易匹配上。
但要注意,不能为了降低重复率而把文章改得面目全非。论文的首要要求是表达清晰准确。不能牺牲可读性和准确性。不能曲解原意。也不能把一篇通顺的文章改得语句不通。
有些学生使用一些投机取巧的方法。比如在文字中间插入空格。把“相似度”写成“相似度”。或者把中文标点换成英文标点。这些方法在过去可能有用。现在的查重系统都很智能。系统会过滤掉空格和标点差异。这些方法基本无效。还有学生把重复的内容做成图片插入文中。系统无法识别图片文字。但现在系统能识别简单图片里的文字了。这种方法风险越来越大。而且图片太多会影响论文质量。老师一眼就能看出来。这是非常不可取的行为。
查重系统是防止学术不端的工具。它的根本目的是维护学术诚信。鼓励学生自己思考,自己写作。尊重他人的劳动成果。正确引用别人的工作。计算相似度是一个技术手段。它帮助我们发现论文中可能存在的问题。但它不是最终裁决。最终判断论文合格与否的是老师和专家。查重报告只是一个参考。如果重复率稍高,但都是合理引用,老师可以判断通过。如果重复率不高,但核心观点是抄来的,这也不行。
我们要正确看待查重相似度的计算。它是一把尺子。这把尺子量的是文字表面的重复。它无法衡量思想的深度。也无法判断研究的价值。写好论文的关键还是扎实的研究。是独立的思考。是清晰的表达。查重只是一个必须通过的环节。了解它的计算原理。可以帮助我们更好地准备论文。避免无意的失误。顺利通过检测。