论文查重检查的是一段文字还是一句话。
这是一个常见的问题。许多学生都有这个疑惑。他们写论文的时候会思考这个问题。查重系统到底如何工作。系统比较的是句子还是段落。理解这一点很重要。这关系到如何正确引用资料。这也关系到如何避免抄袭。
首先需要明白查重的基本原理。查重系统有一个巨大的数据库。数据库里有很多论文和书籍。还有互联网上的各种文章。系统把提交的论文放进数据库比较。系统寻找相似的部分。系统不是简单地看一句话。系统也不是简单地看一段话。系统会进行复杂的计算。
系统会把论文分成很多小部分。这些小部分可以是连续的几个词。通常系统会设置一个“窗口长度”。比如连续五个词一样。系统就可能标记为相似。有时是连续八个词或十个词。这取决于系统的设置。所以系统既看句子也看段落。但更准确的说法是看“字符串匹配”。
一句话如果和数据库里的完全一样。这句话当然会被标红。这很容易理解。但实际情况往往更复杂。比如你改写了别人的一段话。你改变了几个词语。你调整了句子顺序。系统还能检测出来吗。这取决于改写的程度。如果只是换几个同义词。核心结构没有变。连续的词序仍然相似。系统很可能还是会发现。系统不是理解语义。系统只是在计算数字化的相似度。
所以不能孤立地看一句话。也不能孤立地看一段话。查重是看文本中连续出现的相同或相似的词串。一段话里如果有很多这样的词串。整段话的相似度就会很高。这段话就可能被判定为抄袭。即使这段话里的每一句话你都稍微改过。如果改得不够彻底。相似度依然存在。
举个例子。原文有这样一段话。“全球气候变化导致海平面上升。这对沿海城市构成严重威胁。许多城市开始修建防洪设施。”。如果你改成。“由于全球气候变暖,海平面正在升高。沿海城市面临巨大风险。因此不少城市都在建设防波堤。”。查重系统可能会发现。第一句有“全球气候”、“海平面”连续出现。第二句有“沿海城市”连续出现。虽然你加了词换了词。但核心词串相似。系统仍然会标记。
这就说明查重不是以“句号”为单位的。系统不会等到一句结束才比较。系统是不断地滑动比较。像一把尺子在文本上移动。这把尺子有一定长度。尺子覆盖到的词串和数据库对比。发现匹配就记录。
那么段落重不重要呢。段落结构也很重要。如果你整段话的思路和别人的一样。句子顺序也一样。即使每句话都改写。查重率可能依然很高。因为词序和结构相似。系统会从整体上计算段落相似性。有的系统会给出“段落相似度”百分比。
反过来看。如果你只抄袭了一句很特别的话。这句话很有辨识度。数据库里恰好有这句话。这句话就会被标出来。如果你抄袭的是一句很普通的话。比如“这是一个重要的研究课题。”。这句话很多人用。数据库里出现无数次。这句话也可能会被标出来。但这句普通的话对整体重复率影响不大。除非你大量使用这种通用语句。
所以论文查重既是看一句也是看一段。更准确地说。查重系统关注的是文本中任何长度的“连续相似片段”。这些片段可能在一个句子内。也可能跨越几个句子。还可能覆盖整个段落。
明白这个道理对写作有帮助。你不能只想着改写每一句话。你要整体上理解别人的观点。然后用你自己的话重新说出来。你需要改变原来的句子结构。你需要调整段落内容的顺序。你需要加入自己的分析和例证。这样才算真正的原创。
直接复制粘贴句子肯定不行。简单地调整句子顺序也不够。仅仅替换几个同义词也不安全。最好的办法是阅读大量资料。理解核心思想。然后合上书本。用自己的语言表达出来。这样写出来的东西最不容易重复。
查重系统的设计就是为了鼓励原创。它提醒我们尊重别人的劳动。它告诉我们知识可以借鉴但表达必须独立。写作论文是一个创造的过程。查重是一个技术工具。它帮助我们检查自己的工作。确保我们符合学术规范。
因此当你面对查重报告时。看到标红的文字。不要只想着删除那一句话。或者改写那一个段落。你要看看标红的部分是如何分布的。如果它们分散在各处。可能是你引用不当。如果它们集中连成一片。那可能是你大段借鉴了别人的结构。你需要从整体上修改你的文章。
总之论文查重既不是单纯检查一句话。也不是单纯检查一个段落。它是检查文本中所有可能重复的片段。这些片段可长可短。它们共同决定了论文的总重复率。理解这一点你就能更好地进行写作和修改。你会知道如何合理地引用文献。你会知道如何有效地表达自己的观点。这是学术训练的一部分。也是每个学生必须掌握的技能。