提交论文。系统接收文件。格式转换开始。PDF转为TXT。WORD转为TXT。这是第一步。
文本预处理。系统分割章节。识别标题与段落。删除页眉与页脚。删除目录与参考文献。只保留正文主体。分词程序启动。长句子拆成短词。中文按词语切分。英文按单词切分。去除常见虚词。“的”、“了”、“和”、“在”被过滤。大小写统一。标点符号删除。文本变成词序列。
建立比对数据库。系统选择对比范围。可能是本校往届库。可能是知名期刊库。可能是网络公开库。可能是专门学科库。所有对比文献同样预处理。生成海量数据索引。等待查询。
关键词匹配。系统抽取特征词。从论文词序列里找。出现频率高的词。专业领域特有的词。这些词成为“指纹”。系统在数据库里搜索。找相同的“指纹”。发现疑似段落。
句子相似度计算。系统逐句对比。疑似段落被调出。计算句子结构相似度。计算词语重叠率。公式很复杂。但原理简单。相同的词越多。相似度分数越高。一个阈值被设定。比如百分之七十。超过阈值就是重复。
段落匹配分析。句子组合成段落。系统看段落整体。连续重复的字数很重要。一百字连续相同。二百字连续相同。情况更严重。系统标记这些段落。用红色标出。用黄色标出。不同颜色代表不同重复程度。
参考文献处理。系统单独检查参考文献。格式正确的引用可能排除。但格式错误就算抄袭。过度引用也危险。引用一段话可以。引用一整页不行。系统会计算引用比例。
生成检测报告。所有结果汇总。报告包含多个部分。总文字复制比。这是关键数字。百分之五。百分之十。百分之三十。每个章节的重复率。重复来源清单。原文对照。重复部分高亮显示。来源文章标题。来源文章作者。来源文章出版信息。
用户查看报告。用户下载报告。红色部分必须修改。黄色部分建议修改。绿色部分安全。用户开始修改。替换同义词。调整句子顺序。合并拆分句子。增加个人观点。复述他人观点。核心意思不变。表达方式变化。图表也可能重复。系统检测图表数据。重绘图表可以避免。
再次查重。修改后论文提交。流程再来一次。文本预处理。数据库比对。相似度计算。生成新报告。重复率下降。达到要求标准。可能是百分之十以下。可能是百分之五以下。不同学校要求不同。
特殊情况处理。公式很难修改。法律条文不能改。古典文献原文不能改。系统有时能识别。有时不能识别。需要人工判断。注明出处很重要。
查重只是工具。它找文字相似。不判断思想原创。重复率低不等于论文好。重复率高一定有风险。学术规范要遵守。自己的话写自己的思想。这是最终目的。
上一篇:西北师范大学论文查重通过和西北师范大学论文查重注意事项
下一篇:没有了