Откривање на плагијати

From Wikipedia, the free encyclopedia

Remove ads

Откривање на плагијати е процес на наоѓање на случаи на плагијат во рамките на некој труд или документ. Широката употреба на компјутери и доаѓањето на интернетот многу ја олеснуваат можноста на плагијаризам на работата на другите. Повеќето случаи на плагијат се наоѓаат во академиите, каде што документите се обично есеи или извештаи. Сепак, плагијати може да се најдат во речиси секое поле, вклучувајќи ги и научните трудови, уметничките дизајни и изворниот код.

Откривање на плагијат може да биде рачно или со помош на компјутер. Рачното откривање бара значителни напори и одлична меморија и е непрактично во случаи кога мора да се споредат премногу документи или оригиналните документи не се достапни за споредба. Со помош на компјутерското откривање се овозможува огромни збирки на документи да се споредат со едни со други, за што поуспешно и многу поверојатно откривање на плагијати.

Remove ads

Откривање на плагијати со помош на компјутер

Детекција на плагијат со помош на компјутер е пребарување на информации и е поддржана од страна на специјализирани системи кои се нарекуваат системи за откривање на плагијати.

Откривање на плагијати на текст-документи

Системи за откривање на текст-плагијати имплементираат еден од двата генерички пристапи за откривање, од кои едниот е надворешен, a другиот е суштински.[1] Надворешните системи споредуваат еден сомнителен документ со референтна колекција која е збир на документи за кои се претпоставува дека се оригинални.[2]

Врз основа на избран документен модел и претходно дефинирани критериуми за сличност, задачата на откривање плагијат е да се добијат сите документи кои содржат текст кој е сличен до одреден степен со текстот во сомнителниот документ.[3]

Суштинскиот пристап го анализира текстот што треба да се оценува без вршење на споредби со надворешни документи. Овој пристап има за цел да ги препознае промените во уникатниот стил на пишување на авторот како индикатор за потенцијален плагијат.[4]

Програмите за откривање плагијати не се способни за сигурно идентификување на плагијати без човечко расудување. Сличностите се откриваат со помош на претходни модели на документи и може да бидат лажно позитивни.[5] [6] [7] [8] .[9] За визуелно да се провери дали авторот на научен труд се обидува да го измами системот, вреди да се обрне внимание на употребата на различни типови и големини на фонтови, лажни врски, застарени факти, парафразирани фрагменти.[10]

Детектирачки методи

Сликата подолу претставува класификација на предложените методи за откривање на плагијат со помош на компјутер од техничка гледна точка. Техниките се одликуваат според типот на сличност на оценување на кои се однесуваат. Глобалните проценки за сличност користат одлики земени од поголеми делови од текстот или документот како целина за одредување на сличност, додека локалните методи се ограничени на текст сегменти како влез.

Thumb
Класификација на компјутерски методи за детекција на плагијаризам

Земање на отпечатоци моментално најмногу се применува кога ставува збор за пристап со помош на компјутер за детекција на плагијат. Постапката води до добивање на документи со избирање на множество на повеќе подзборови (n-грам) од нив. Множествата претставуваат отпечатоци од прсти и нивните елементи се нарекуваат детали.[11] .[12]

Сомнителниот документ се проверува дали е плагијат преку компјутерска обработка на отпечатоците и со помош на претходно пресметан индекс на отпечатоци за сите документи во референтната колекција. Деталите со оние на другите документи покажуваат заеднички текст сегменти и предложуваат можни плагијати.[12]

Општо земено, само подмножество на детали се споредува со цел да се забрза процесот и да се овозможи проверка кога станува збор за голема колекција на документи, како што е на пример интернетот.[11]

Проверка на документи за преклопување на текст претставува проблем на класично поврзување на зборови познат и во другите области на информатиката. Предложени се бројни пристапи за успешно справување со оваа задача, од кои некои се прилагодени за надворешни детектори за плагијаризам. Проверка на сомнителен документ со оваа опција бара пресметка и чување на ефикасно споредливи репрезентации за сите документи во референтната колекција, со која се споредуваат парови на стрингови. Општо земено, моделите за наставниот документ, како на пример наставни дрва или наставни вектори, се присопосбени за оваа задача во контекст на компјутерско отркивање на плагијаризам. Сепак, поврзувањето на подстрингови останува скап метод, што го прави не-прифатливо решение за проверка на колекции со голем број на документи.[13] [14] [15]

Анализа на куп на зборови претставува усвојување на пребарување на векторски простор, што е традиционален концепт на отркивање на плагијаризам, во доменот на компјутерско отркивање. Документите се претставени како еден или повеќе вектори, на пример, за различни делови на документот, кои се користат за интелгиентни пресметки за сличност на парови. Овие може да биде врз основа на традиционалната мерка за косинус сличност или други софистицирани функции за сличност.[16] [17] [18]

Откривање на плагијати засновано на цитати со помош на компјутерски пристап е метод дизајниран за употреба кај академските документи, бидејќи не се потпира на самиот текст, туку на цитатите и референтните информации. Ги идентификува сличните модели во цитат секвенците на две академски работи. Ваквите модели претставуваат поднизи кои исклучиво содржат цитати од двата документи кои се споредуваат.[19] [20] .[21]

Стилометрија опфаќа статистички методи за квантифицирање на авторски уникатен стил на пишување и се користи главно за авторство.[22] [23] Со создавање и споредување со стилометриски модели за различни сегменти од текстот, може да се откријат пасуси кои се стилски различни од другите, па оттука и потенцијално да се детектира плагијат.

Системи за откривање на плагијати кај текст-документи

Генералниот дизајн на системи за откривање на академски плагијат насочен за текст документи вклучува голем број на фактори:

Повеќе информации Фактор, Опис и алтернативи ...

Повеќето големи системи за откривање на плагијати користат големи, внатрешни бази на податоци (во прилог на други ресурси) кои се прошируваат со секој дополнителен документ поднесен за анализа. Сепак, ова се смета од страна на некои како евентуална повреда на авторските права на студентите.

Следниве системи се веб-засновани, со исклучок на ситемот CopyTracker, со затворен код. Следнава листа е неисцрпна:

Слободни
Chimpsky
CitePlag
CopyTracker
eTBLAST
Plagium
SeeSources
The Plagiarism Checker
Plagiarism Detect
Комерцијални
Attributor
Copyscape
Ithenticate, Turnitin
Plagiarismdetect
PlagScan
Veriguid

Откривање на перформанси

Компаративна евалуација на системи за откривање на плагијати укажува на тоа дека нивните перформанси зависат од видот на плагијатите [2][24][25][26][27][28] што треба да се откријат (види слика). Освен анализа на цитати, сите откривачки пристапи се потпираат на текстуална сличност. Затоа е симптоматично дека откривање на точноста се намалува кога се опфатени повеќе случаи на плагијати.

Thumb
Детекција со компјутерски пристап засновано на типот на плагијаризмот

Буквалните копии, таканаречени copy & paste плагијат, или скромно маскирани случаи на плагијат може да се откријат со висока точност со помош на сегашните надворешни пристапи ако изворот е достапен на софтверот. Особено процедурите за поврзување на зборови може да постигнат добри перформанси, бидејќи тие најчесто користат модели на документи без загуба, како на пример наставни дрва. Анализата на системи кои користат отпечатоци или куп од зборови во откривањето на копии зависи од загуба на информации направени од страна на документниот модел кој го користи. Со примена на селекциски стратегии тие се подобро оспособени за откривање на умерена форми на маскирани плагијати во споредба со процедури за појавување на поднизи.

Внатрешнo откривање на плагијат со користење на стилометрија може да ги надмине границите на текстуални сличности до одреден степен во споредба на јазичната сличност. Со оглед на тоа дека стилските разлики помеѓу плагијатите и оригиналните сегменти се значајни и може да се идентификуваат со сигурност, стилометријата може да помогне во идентификување на маскирани и парафразирани плагијати. Стилометричките споредби веројатно ќе пропаднат во случаите каде што сегментите се силно парафразирани до таа точка кога повеќе наликуваат на личен стил на пишување. Резултатите од меѓународните натпревари за откривање на плагијати одржани во 2009, 2010 и 2011 година,[2][27][28] as well as experiments performed by Stein,[29] укажуваат на тоа дека стиломтеричката анализа работи со сигурност добро само за документи со должина од неколку илјади или десетици илјади зборови.

Зголемување на бројот на истражувања се врши на методи и системи способни за откривање на преведени плагијати. Во моментов, детекција на јазичен плагијат не се гледа како зрела технологија и соодветните системи не се во можност да постигнат задоволувачки резултати за откривање во пракса.

Откривањето на плагијат засновано на цитати е способно за идентификување на посилни парафрази и преводи со повисоки стапки на успех во споредба со другите откривачки пристапи, благодарение на фактот дека е независен од текстуалните одлики. Но, анализата зависи од достапноста на цитат информации се ограничува на академски текстови. Останува инфериорен во однос на текст-заснованите пристапи во откривање на плагијат кај пократки пасуси, кои се типични во случаи на копија.

Откривање на плагијати на изворен код

Плагијатите кај компјутерските кодови се исто така честа појава и потребни се различни алатки од оние кои се користат во текстуални документи. Притоа, значајни истражувања се посветуваат на академски плагијати на изворен код.

Посебен аспект на плагијати на изворен код е дека не постои збирно место на есеи, како што може да се најде кај традиционалните плагијати. Бидејќи во повеќето програмски задачи се очекува студентите да пишуваат програми со многу специфични барања, многу е тешко да се најдат постоечки програми кои ги исполнат барањата. Бидејќи интегрирање на надворешен код е често потешко од пишување од нула, студентите избираат повеќето плагијати да ги направат од своите врсници.

Според Рој и Корди, алгоритмите за откривање на сличност на изворен код можат да се класифицираат врз основа на

  • Стрингови - бара точни текстуални поврзувања на сегменти. Брз метод, но може да биде помешан со преименувањето идентификатори.
  • Токени - како со стрингови, но со користење на лексер за да се претвори програма во симболи во прв план. Ова отфрла празни коментари и идентификаторски имиња, правејќи го системот робустен на едноставни текст замени. Повеќето академски системи за откривање користат различни алгоритми за мерење на сличноста помеѓу знаковните секвенци.
  • Расчленувачки дрва - да се изградат и да се споредат расчленувачки дрва. Ова овозможува да бидат откриени сличности на поголемо ниво.
  • График со повици - го доловува вистинскиот тек на контрола во програмата, и овозможува да бидат сместени еквиваленции на многу повисоко ниво.
  • Метрика - метрика открива "резултати" на код сегментите според одредени критериуми, на пример, "бројот на јамки и услови", или "бројот на различни променливи што се користат". Метриките се едноставни да се пресметаат и може да се споредат брзо, но, исто така, може да доведат до лажно позитивни резултати.
  • Хибридни пристапи - на пример, расчленувачки дрва и наставни дрва можат да се комбинираат за откривање на способноста на расчленувачки дрва со брзина дозволена од наставните дрва, еден вид на податочна структура со поврзување на стригнови.

Претходната класификација е развиена за рефакторирање код, а не за детекција на академски плагијат (важна цел на рефакторирањето е да се избегне удвоен код, познат во литературата како клониран код). Горенаведените пристапи се ефикасни за различни нивоа на сличност; ниско ниво сличност се однесува на идентичен текст, додека високо ниво на сличност може да се однесува на слични спецификации. Во академска средина, кога сите ученици се очекува да ги искодираат истите спецификации, се очекува функционално еквивалентен код (со високо ниво на сличност), а само ниско ниво сличност се смета како доказ на мамење.

Системи за откривање на плагијати на изворен код

Програмите MOSS и JPlag може да се користaт бесплатно, но и двете бараат регистрација и софтверот останува комерцијален. Персоналните системи се нормални десктоп апликации, како и повеќето од нив се и бесплатни и објавени како софтвер со отворен код.

Remove ads

Наводи

Надворешни врски

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads