中国知网“学位论文学术不端行为检测系统”_论文检测吧_贴吧 知网学术

中国知网从2006年开始正式立项研发学术不端文献检测系统。在三年的工作中,历经算法研究、原型系统开发、大规模数据测试、性能测试、系统集成测试等多个阶段的艰苦工作,目前已经达到大规模实用化的成熟程度。

(二)研发目标与要求

定义

“学位论文学术不端行为检测系统”(简称“TMLC”)主要为检测研究生培养过程中,研究生学术论文发表及学位论文中出现的不端行为提供辅助工具。

研发目标

研究生培养阶段是学术不端行为的第一次诱发期与躁动期。在这一时期,一方面要对其加强科研诚信教育,同时采取技术措施对非诚信行为进行监督,将不良的学术风气扼杀在摇篮之中,不仅对于提高研究生培养质量,而且对于整过学术环境的净化都会起到根本性的作用。如果不能从研究生培养环节遏制学术不端行为,大批带有不端治学态度的研究生毕业后,不断涌入各级研究机构,不端行为就将形成“长江之水,滔滔不绝”,就不能从根本上扭转不端行为不断恶化的事态。

TMLC系统要能够达到实用化要求,还必须要满足以下条件:

1、比对库及资源范围广

TMLC系统的检测范围要能够基本完整覆盖中文科技学术文献。TMLC系统比对库的完整性是其能够实用化的基本保障。完整性不仅表现在仅仅收录学位论文的全面,并且还要尽可能涉及学术文献其他领域,比如科技期刊、会议、报纸、、专利、标准等文献资源,并且还要求有较长时间阶段的回溯。否则,无法对检测结果做出正确有效的判断与决策。

2、检测识别精准快捷

TMLC系统要有较高的不端文献识别能力。对于各种不端文献类型均有较好的分辨能力。检测能力与水平是TMLC实用的关键。存在不端问题的文献一定要能够检测出来,同时不能误检出大量没有问题的文献。即要有较高的检测正确率与较低的误检率。

3、实现全文比对

TMLC必须能够支持全文比对。几乎所有国外有关检测系统只进行题录摘要层次的检测,但科技成果最终的体现表现在文献的文字阐述当中,如果实现全文比对,则能更加精准判断学术不端现象,才能达到大规模实用的要求。

4、支持线上实时检测

TMLC系统要能够进行在线实时检测。即系统要有较好的技术性能。鉴于检测需要进行大量的运算,国际上已有检测系统一般对实时检测大都支持的不好,尤其在文章较长时更是如此。TMLC系统要能够同时支持待检超长文献检测与超长文献进入比对数据库。

(三)学术不端文献分类

学术不端行为的划分是一个政策性极强的工作,同时也涉及许多法律问题。迄今位置,国内外还没有一个被广泛接受的标准。

我国学术不端行为的表现形式(此处列出中国科协科技工作者道德与权益工作委员会提出的我国学术不端行为的七种表现形式,以供参考)

*抄袭剽窃他人成果。

*伪造篡改实验数据。

*随意侵占他人科研成果。

*重复发表论文。

*学术论文质量降低和育人的不负责任。

*学术评审和项目申报中突出个人利益。

*过分追求名利和助长浮躁之风。

学术文献不端行为具体表现形式

实际上,学术不端行为存在于学术活动的全过程。学术文献出版中的不端学术文献由于其公开性,被广泛传播,以及发表后可能会引展出的一系列问题,使其与其他不端类型相比,更尤其严重。学术不端文献的特征分析是其计算机自动检测的基础。学术期刊论文发表中学术不端文献可以大致分为以下五种:

*抄袭

*一稿多投

*一个学术成果多篇发表

*不当署名

*伪造、篡改。

1. 抄袭

《辞海》关于抄袭解释:“窃取别人的文章以为己作”。关于剽窃的解释为:“抄袭,窃取他人的文字以为己作”。可见,抄袭与剽窃为同义语。通常认为学术抄袭就是:使用他人作品的内容而“不注明来源”,即不承认该内容来源于他人的作品,而把他人作品的内容据为已有。可以看出,抄袭是一种复制行为,然而复制不都构成抄袭。如合法的转载不能认为是抄袭。

2010-5-9 13:00 回复

论文Q243279026 0位粉丝

2楼

是否注明来源就不构成抄袭呢?世界各国著作权法中都规定了合理引用的权利。如为评论而引用有版权的作品视为合理引用。我国著作权法规定:“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”视为合理使用。王毅在《论抄袭的认定》[4]一文中指出“合理性”的三个重要特征:“新作必须区别于原作”;“新作必须独立于原作”;“原作的引用必须适宜于新作”。

有的文献大段大段的复制别人的内容,虽注明了出处,是否不构成抄袭?然而目前未有关于引用数量的一致意见。据国外专家介绍,对于期刊论文,认为有超过10%的内容相同,即构成抄袭。还有专家要求更严,甚至不能有完全相同的句子。根据我国的实际情况以及中文的特点,我们认为以期刊论文为例,如有30%以上的文字复制可以认定为抄袭。

为便于识别抄袭,我们从抄袭的形式上可以将其进一步分类。如可以分为文字抄袭与非文字抄袭。文字抄袭,就是拷贝粘贴别人作品的文字内容。非文字抄袭又可分为思想性抄袭与数据图表抄袭。抄袭别人的论点、概念、原理、方案等都属于思想性抄袭。根据抄袭来源可以分为只抄袭一篇文章的单源抄袭与从多篇文章中拼凑的多源抄袭。根据抄袭段落的特点可以分为抄袭同一段落的单段抄袭与抄袭多个段落的多段抄袭。
中国知网“学位论文学术不端行为检测系统”_论文检测吧_贴吧 知网学术

抄袭有一个很有趣的现象,就是被抄袭源有时也是抄来的,因此有时需要追根溯源,才能查到抄袭源头。有时会发现正常引用的文献却是抄袭来的。 还有一种情况是自我抄袭。在学术文献中,存在大量学者在自己的文章中大量复制自己其他文章中的内容。自我抄袭应引起足够的重视。

2. 一稿多投

同一作者将同一篇论文投给两家或两家以上学术刊物同时发表或先后发表称为一稿多投。一稿多投浪费了有限的出版资源、编辑与审稿专家的宝贵时间,违反了学术传统,侵害了期刊社的专有出版权。同时也损害了期刊的声誉与读者的利益。

由于作者与编辑部之间的沟通问题,导致完全相同的文章,几乎相同时间在不同的媒体上重复发表是一种客观的一稿多投。客观的一稿多投虽然其主观恶意较少,但不容忽视。

作者由于追求发表量而故意一稿多投是一种主观的一稿多投行为。其特点为:内容大部分相同,只有局部不同,如行文次序调整,或文章名称略有不同,在不同媒体上重复发表。

判断一稿多投的基础是能够确定作者是相同或是不同的。只有相同的作者才有一稿多投问题,否则就是抄袭。

3. 一个学术成果多篇发表

一个学术成果多篇发表是指将一篇论文拆成几篇发表、一次性成果多次反复使用、同一成果被拆分成多篇文章发表、同一实验被分成多种角度阐发。其主要特点是作者相同,多篇文章主题完全相同,内容大部分重复,只有少部分不同。 一个学术成果多篇发表是作者过度追求发文量的必然结果。其结果是既降低了学术质量,也损害了读者的利益。

4. 不当署名

在他人作品上署名。包括故意署名与被动署名两种情况。前者是署名者未参加有关研究工作却为了某种目的故意在别人作品上署名,或侵占他人成果,使应该署名者不能署名或署名靠后,或提高署名者的成果数量。后者是指原作者为了提高作品的评价或发表机会擅自在作品上署上知名作者的姓名。

不当署名情况相当严重,然而目前却缺少很好的技术手段精确检测。目前TMLC系统对前三种情况均可以较好的处理,但对于不当署名还只能提供一些线索供参考。

不当署名的存在有其复杂的社会因素。如导师在学生的成果上署名,领导在下属的成果上署名,集体成果的署名等,有时就连专家也难以判定。

5. 伪造、篡改

伪造就是不以实际观察和试验中取得的真实数据为依据,伪造虚假的观察与实验结果。包括伪造研究数据,研究结果。比如虚构发表作品、专利、成果。为了提高文章发表机会甚至有人伪造论文获得国家重点基金资助。

2010-5-9 13:00 回复

论文Q243279026 0位粉丝

3楼

篡改指科研人员在取得试验数据后,按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始数据等形式。

伪造与篡改目前还难以用计算机来自动检测。

学位论文学术不端行为具体表现形式

学位论文本身主要的问题在抄袭、伪造与篡改,没有一稿多投、一个学术成果多篇发表、不当署名等问题。但通常,作为学位论文工作的一部分,许多学生还被要求发表若干期刊文章,才能获得学位。因此,一个全面的学位论文的检测工作还必须包括有关的期刊文献的检测。

(四)TMLC系统主要建设任务

TMLC系统建设是一个系统工程,涉及检测方法设计、比对数据库建设、规范数据库建设、大规模数据测试、系统性能测试等多个环节。

检测系统框架建设

系统主要包括比对数据库、事实数据库库、复制检测器、事实分析器四个部分。一篇待检测文章提交到系统后,首先由复制检测器分析,并将分析结果与比对数据库中的已有文档进行文字比对,对于文字复制比例大的可疑文章,再利用事实分析器进行作者、机构、基金、参考文献等事实的核查分析。最后由专家对机器检测的情况进行审核并给出最终检测报告。

比对数据库建设

比对数据库是TMLC系统的基础与核心。一个完善的比对数据库有如下要求:

首先,元数据必须全面完整。文献数据收录的文献要尽可能的全,著录信息完整,如准确的作者、机构、出版时间等。

其次,比对数据库必须是全文数据(文本数字化),否则无法做到全文抄袭比对检测。

第三,更新必须及时。如果新文献更新滞后时间过长,就无法保证检测结果的正确性。

规范文档事实数据库建设

无论是抄袭、一稿多投,还是不当署名、一个成果多次发表都需要严格界定作者的身份,因此,学者规范事实数据库就成为不端文献检测系统的不可或缺的重要资源。它用于确认作者唯一性,甄别自抄、抄袭等。

由于存在机构改名、更名、合并等多种复杂的机构变更情况,因此必须要有机构规范数据库用于确认成果归属,确认作者。同样,出版物规范数据库可以很好的处理期刊更名、改名、合并等情况,确认引用关系。通过引文数据的规范,进而可以用于区分引用性复制与抄袭。

规范文档事实数据库可以广泛应用于评奖、评价、鉴定、项目验收、项目申报、论文发表等各个方面的相关审核工作。

中国知网的工作基础

中国知网经过多年的努力工作,完成了中国学术文献网络出版总库建设。建成《中国学术期刊网络出版总库》(从1915-今,7000种期刊),《中国优秀博硕士学位论文数据库》,《中国重要会议论文数据库》,《中国重要报纸数据库》,《中国专利数据库》,《中国标准数据库》,《中国科技成果数据库》,《中国工具书数据库》等。超过5000万数据。

同时,已初步建成事实规范数据库。完成中国科研机构名称规范数据库(70万),作者名称规范数据库(300多万),期刊信息规范数据库(9000)。

(五)TMLC系统主要检测指标

学位论文一般文献篇幅较大,字数多,硕士论文一般为4~5万字,博士论文则多达十几万字。为了便于快速准确的分析待检文献与比对文献的复制关系。系统设计了多个检测指标,这些指标从多个角度反映文字复制的特征,供专家审核参考。

总检测指标

总重合字数(CCA)

总文字复制比(TTR)

总文字数(TCA)

疑似章节数(QCA)

总章节数(TCA)

首部重合文字数(HCCA)

尾部重合文字数(ECCA)

子检测指标

对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:

2010-5-9 13:00 回复

论文Q243279026 0位粉丝

4楼

文字复制比(TR)

重合字数(CNW)

最大段长(LPL)

平均段长(APL)

段落数(PN)

段文字比(PR)

首部复制比(HR)

尾部复制比(ER)

引用复制比(RR)

上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。下面对各项指标分别进行说明。

系统检测比对数据

目前系统支持在《中国学术网络出版总库》与用户自建数据库检测。《中国学术网络出版总库》包括:

《中国学术期刊网络出版总库》

《中国博士论文网络出版总库》

《中国优秀硕士论文网络出版总库》

《中国报纸全文数据库》

《中国专利全文数据库》(知网版)

《中国科技成果数据库》(知网版)

《中国年鉴网络出版总库》

《中国工具书数据库》

《中国标准数据库》(知网版)

学位论文不端行为检测范围

通常,研究生除去完成学位论文外,还要完成发表一定数量的期刊论文或会议论文,才能得到学位授予。一般研究生会独立发表或与导师一起发表期刊论文,这些论文有些是学位论文工作的一部分。

因此,对一个学位论文工作进行检测,可能涉及到几个方面并且不端行为的检测是一项政策性非常强的工作,必须采取技术检测加专家审核的办法。

*学位论文的检测。

学位论文检测是最核心的检测工作。由于学位论文篇幅较长,通常在5-10万字之间,为便于工作,我们将一篇学位论文按章节分开比对。给出每一章节的检测结果,再给出总体指标。

由于学位论文体例的要求,论文含有大量的综述性内容。这些内容的抄袭认定,必须慎重。尤其是要和参考文献核对。一般认为,凡在文章注明出处的,在一定数量之内的文字可以视为合理引用。最后要以专家审核的结果为准。

由于学位论文中的部分工作通常会在期刊上发表,一定注意要排除其本人的期刊论文。

*培养期间发表的期刊论文的检测

许多学位培养单位要求研究生发表一定数量的期刊文章,这些文章应视为学位工作的一部分。显然,应对这些文章进行检测。

*学习开始前的论文工作的检测

现在,部分研究生培养单位,在招生简章中要求参加考试的研究生有一定的论文发表,或是报考博士的原来已经取得过硕士学位。因此,还应对之前发表的期刊论文、硕士论文进行一定的检测。这部分工作可以对入学的研究生起到一个筛选的最用。

结语

TMLC系统经过大规模数据测试后,针对中文学位论文中的不端文献已经具有较好的检测能力,达到了大规模实用的成熟程度。鉴于我国学术不端文献的实际情况,还需继续开发能够检测英文学术不端文献以及从英文翻译为中文的不端文献,同时比对数据库应同时扩展到英文数据库与互联网文献,事实数据库也应同步扩展,并建立中英文对照的规范数据库。因此,进一步的研发工作还很多,希望TMLC系统能够在实际应用中不断得到完善。

有问题可以跟帖咨询,我会回复的!

  

爱华网本文地址 » http://www.aihuau.com/a/25101011/86135.html

更多阅读

如何用中国知网免费下载论文 如何免费下载知网论文

如何用中国知网免费下载论文——简介中国知网是优秀的论文、期刊文献网站,其收集了几乎各个学科的资料,是专家学者、教师学生以及专业人士参考写作的必备网站。然后很多需要参考论文的毕业生会发现中国知网的论文下载是收费的,或是跑的

中国警察网战略合作联盟 中国警察网官网11238

中国警察网战略合作联盟中国警察网是中国最权威的警务资讯综合门户网站,以公安报道、涉警业务的权威、准确、及时为特色,逐步形成了服务公安民警和社会各界人士的新模式,走出了一条报道、传播的新路。作为全国公安系统的大型门户网站,

天津师范大学研究生学位论文提交说明 天津大学二学位

通常情况下,毕业生在通过毕业答辩之后,需要向图书馆提交学位论文。1.电子版论文提交:(1)系统登陆方式:①http://115.24.177.22/thesis/index.aspx②天津师范大学图书馆主页→读者服务→学位论文提交(2)系统开放时间:周一至周日全天,仅限

声明:《中国知网“学位论文学术不端行为检测系统”_论文检测吧_贴吧 知网学术》为网友共长歌分享!如侵犯到您的合法权益请联系我们删除