ithenticate论文查重原理是什么?_Turnitin查重官网

/ 查重新闻 / 作者： Turnitin

crosscheck（CrossCheck by iThenticate）这个查重软件，知道的人想必都清楚，专业的查重软件，各大杂志社都在使用，很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说，论文的总体相似率超过30%，编辑就会要求修改或者可能直接拒稿。后果还是很严重的。那ithenticate到底是如何进行判定的呢？ithenticate论文查重原理是什么？

　　根据对自己检测的相似性报告分析。初步推测下软件对文章的查重处理。一篇被ithenticate处理的文章，这个软件第一步应该做的是进行文本的格式化。说来也很合理。因为一篇文章中，除了单词以外，还有大量的符号（标点符号，数学符号及特殊符号等）。这些并不是crosscheck查重的对象，所以会把他们处理掉。这些符号会通通被替换为空格。这种文本处理方式也是很常见的，在python和matlab的数据处理中经常会使用。

　　处理后的文章就只剩下单词了。然后软件会对文章进行比对处理。根据软件设置的重复原则对文本进行标记。最终得出一份相似性报告。

　　这里的重点是软件判定重复的原则。了解了原则之后，我们就可以有针对性的进行修改。网上很多关于这些规则的说法，大部分是说连续六个单词即判定重复，或者根据语言风格相似即判定重复。这些说法不够准确，也没有依据。我们还是回到软件本身来回答这个问题。crosscheck它是一款软件，它不是人，不能判断文章的内容，只会把文章和系统内的进行比对，根据规则做出判断。那这样的规则到底有哪些？

　　其实，crosscheck查重的基本规则只有一条：不连续的六个单词中间连续不重复的单词小于四个（不包括四个）即判定这六个单词重复（注意：这里的规则是软件系统默认的规则，大部分期刊使用默认规则）。

　　所有的查重结果都是基于这条进行的。这句话比较绕口。具体怎么理解，我们来看下具体的实例。

　　先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个，即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词，0表示不重复的单词。那么这种情况就是：111111。

　　再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑，有时候几个单词距离的很远，也被判定重复了，很是苦恼。

　　1）中间只有一个不重复的。例如：1011111；1101111；1111011等。

　　实例：Computer science has been widely considered as…(斜体表示和已有文献重复）

　　这里面单纯插入一个widely单词，是不足以骗过系统的。

　　2）中间有两个重复的。例如：1100110011；110010011001；1100110011等。

　　实例1：Computer science has been widely percieved asan…

　　这里替换两个不重复单词widely percieved，但是Computer,science,has,been,as,an已经是六个不连续的重复了。

　　实例2：Computer science and technology has been widely percieved as an…

　　在Computer science后面加上两个不重复的单词and technology是不是就可以了呢？答案是否定的，Computer,science,has,been,as,an这六个词中间只有两个是不重复的，不能判定为整句不重复。

　　3）中间有三个不重复的。这个一眼乍看不觉得重复，但其实是重复了。例如：100010001111；100010001000100010001等。

　　100010001000100010001这种情况是不是很刺激。对！按照规则，这个也算重复。因为六个不连续重复的单词直接是三个重复的。

　　实例1：Computer science,resulting from America,has been widely percieved as an…

　　这种形式是11000110011模式，依旧是重复的。

　　实例2：Computer science,resulting from America,has been widely percieved as one of most promising….

　　好，我们把改成one of most。虽然这三个没有重复，但紧接着后面的promising和已有文献重复了，很不幸，整个句子还是重复了。重复形式为11000110010001。

　　上面分析的是单纯的单词，不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的，系统该如何处理他们？

　　1）单纯的数字。比如123，25，1998等这些整数，他们都是连续的，中间没有空格和特殊符号，系统不会进行处理，还会保持原来形式。算一个单词。

　　实例1：Computer science,developed from 1930,has been widely percieved as an..

　　这句话是11000110011的重复，这里的1930算一个单词。

　　对于小数要特别注意，因为小数点系统处理后会被空格代替，所以小数是会被看作两个单词的。如1.23，在系统里面会看作1和23两个单词。

　　实例2：Computer science,developed from 1,930,has been widely percieved as an..还是这句话，这里的1,930多加个了分隔符，就变成两个单词。所以句子中间就有四个连续不重复的单词，整个句子就是不重复的（即developed,from,1和930四个）。

　　2）连接符。不少单词或者专业词汇会用连接符号连起来，系统会自动把连接符号替换成空格。所以被看作两个单词。如：ever-increasing算作ever和increasing；CD-ROM算作CD和ROM。

　　3）科学单位。文章中难免会有g cm-3这个的有上标或者下标的单位。软件系统其实不会识别上下标。直接按照正常大小处理，再替换特殊符号为空格，所以g cm-3算三个单词。

　　4）包括符号的专有名词缩写。比如化学中Ag包覆Au再包覆一层C。作者可能会缩写成Ag Au/C。这个经过系统处理后，其实是三个单词的Ag，Au和C。所以有时候会发现系统把这类词分开匹配查重。

　　实例：The synthesized Ag Au/Cnanoparticles exhibited good activities.

　　可能会遇到这种重复，这里Ag Au/C算作三个单词，所以是101011101重复类型。

　　5）跨段落重复。有时候系统的重复可能不在于特定的一段，还会跨段落，因为在软件眼里，整个文章就是一连串单词被空格分割，不存在段落之分。

　　实例：

　　4.Experimental and methods

　　4.1.Synthesis of…

　　这个是典型的文章中方法部分。这里猜猜系统判定重复的元素是几个？嗯，8个。去掉点号，就是4,Experimental,and,methods,4,1,Synthesis,of这8个单词。

　　6）总结起来，系统处理的特殊符号包括：标点符号；数学符号；特殊符号等一切非数字的符号。

　　以上就是crosscheck查重的基本规则。基本囊括了大家遇到的情况。了解了这些规则，修改起来就方便了。再举几个例子。

　　Computer science,resulting from America,has been widely percieved as one of most promising….

　　这句话是11000110010001重复，最简单的修改就是把不重复的单词提高到4个不连续。比如修改成110000110010001就不会被系统判断重复了。

　　修改为：Computer science,which results from America,has been widely percieved as one of most promising….

　　这种是没有问题的。

　　单复数改变。从系统原理可知，单复数是不同的单词，故可以达到避免重复的目的。

　　The Au nanoparticleexhibited good catalytical activities and…

　　这里是10110111重复，刚好六个，那我们把nanoparticle变为复数nanoparticles变成五个了，不算重复。不过要注意的是修改之后，自己再想想会不会还和别人有重合，毕竟crosscheck系统的对比样本实在是太丰富了。

　　同义词替换。这一招依旧是非常有效的方法。但是不能单纯的使用，一定要结合整个句子来。

　　句子单词颠倒。不错的办法。还是那句话，注意句子的整体结构。

Template查重入口：https://cc.turniti.cn/ithenticate