基本上所有SCI杂志收到稿件后,第一个环节就是“格式审查”,而格式审查中最重要的一项就是重复率的检查。而国外论文检测工具主要采用Turnitin检测系统(w.turniti.cn),检测系统是否科学主要看对比数据库和查重算法,也就是所谓的查重规则和检测标准。下面我们详细介绍Turnitin查重规则及检测标准:
一、Turnitin查重规则:
Turnitin检测相似度的原理不同于所谓的中文字数的重复检测原理,Turnitin查重的是句子在语法上的逻辑,这与单词是否重复是没有关系的,只要你使用了不同的逻辑来表达相同的话就算你重复的单词再多也是不会被检测出来的。其实还是要强调一点Turnitin检测的是相似度不是抄袭度,所以我们还应该以一个平常心去面对。
二、Turnitin检测标准:
整个查重报告的相似率是由每一个单独匹配来源的重复率累加所得,例如一篇相似率为20%的论文可能由20个来源构成,即每一组文本有1%的重复。由CrossCheck数据库对SCI论文查重后给出的相似程度大致可分为三类:
第一类:相似率低于10% – Not Likely to Be an Issue (Disregard)这类文章检出的相似率一般是来源相对分散的匹配文本或常见短语,通常每一处匹配来源仅仅占据1%~3%的相似率,在期刊允许的合理范围内。这类查重结果对鉴定论文是否抄袭影响不大,几乎可以忽略。
第二类:相似率在10%~50%之间 – Possible Issue (Review Briefly)大部分的作者的查重报告结果可能处于该范围内,属于比较适中的百分比。相似率在此范围内可能存在一部分直接摘抄来的文字,此时判定文章是否抄袭取决于单个匹配来源的相似率。因为文章总重复率偏高,有可能仅仅是某个部分的重复比例异常大,此情况下应着重对重复度高的部分进行改写。
第三类:相似率高于50% – Probable Issue (Review Carefully)说明有一处或多处单独匹配来源存在着高度的重复,即大段语句与数据库中的某几篇文献一致,需要引起警惕。此时极大概率会被判作是抄袭。必须对语言进行重新评估和谨慎地改写。
除此之外,还有两种特殊情况需要注意:第一种情况:总体相似率高,但包含若干个低重复匹配来源。例如一篇论文的相似率超过了30%,也许会被认为有抄袭的嫌疑,但若仔细分析报告却发现每一处匹配来源的重复率均低于5%或更低,此时一般来说不会被指出抄袭,故作简单语言调整即可。第二种情况:总体相似率很低,但仅包含一至两处的高重复率匹配来源。例如一篇相似率12%(近似可忽略)的论文仅具有两处分别为11%和1%的相似来源。那么这篇文章同样需要格外注意,11%重复的部分可能包含了几处大段的摘抄,可能被判定为抄袭。
一般而言,大家普遍默认,SCI论文总重复率不超过20%,其中单个来源的重复率<4%。具体可参考《Turnitin查重率多少才能合格通过》。投稿SCI论文前,除非全文都是自己撰写,否则最好自己先Turnitin查重一遍,以避免不通过杂志的查重被编辑退回从而导致耽误时间等麻烦。