Откривање на плагијати

Детекција на плагијат со помош на компјутер е пребарување на информации и е поддржана од страна на специјализирани системи кои се нарекуваат системи за откривање на плагијати.

Откривање на плагијати на текст-документи

Системи за откривање на текст-плагијати имплементираат еден од двата генерички пристапи за откривање, од кои едниот е надворешен, a другиот е суштински.^[1] Надворешните системи споредуваат еден сомнителен документ со референтна колекција која е збир на документи за кои се претпоставува дека се оригинални.^[2]

Врз основа на избран документен модел и претходно дефинирани критериуми за сличност, задачата на откривање плагијат е да се добијат сите документи кои содржат текст кој е сличен до одреден степен со текстот во сомнителниот документ.^[3]

Суштинскиот пристап го анализира текстот што треба да се оценува без вршење на споредби со надворешни документи. Овој пристап има за цел да ги препознае промените во уникатниот стил на пишување на авторот како индикатор за потенцијален плагијат.^[4]

Програмите за откривање плагијати не се способни за сигурно идентификување на плагијати без човечко расудување. Сличностите се откриваат со помош на претходни модели на документи и може да бидат лажно позитивни.^[5] ^[6] ^[7] ^[8] .^[9] За визуелно да се провери дали авторот на научен труд се обидува да го измами системот, вреди да се обрне внимание на употребата на различни типови и големини на фонтови, лажни врски, застарени факти, парафразирани фрагменти.^[10]

Детектирачки методи

Сликата подолу претставува класификација на предложените методи за откривање на плагијат со помош на компјутер од техничка гледна точка. Техниките се одликуваат според типот на сличност на оценување на кои се однесуваат. Глобалните проценки за сличност користат одлики земени од поголеми делови од текстот или документот како целина за одредување на сличност, додека локалните методи се ограничени на текст сегменти како влез.

Земање на отпечатоци моментално најмногу се применува кога ставува збор за пристап со помош на компјутер за детекција на плагијат. Постапката води до добивање на документи со избирање на множество на повеќе подзборови (n-грам) од нив. Множествата претставуваат отпечатоци од прсти и нивните елементи се нарекуваат детали.^[11] .^[12]

Сомнителниот документ се проверува дали е плагијат преку компјутерска обработка на отпечатоците и со помош на претходно пресметан индекс на отпечатоци за сите документи во референтната колекција. Деталите со оние на другите документи покажуваат заеднички текст сегменти и предложуваат можни плагијати.^[12]

Општо земено, само подмножество на детали се споредува со цел да се забрза процесот и да се овозможи проверка кога станува збор за голема колекција на документи, како што е на пример интернетот.^[11]

Проверка на документи за преклопување на текст претставува проблем на класично поврзување на зборови познат и во другите области на информатиката. Предложени се бројни пристапи за успешно справување со оваа задача, од кои некои се прилагодени за надворешни детектори за плагијаризам. Проверка на сомнителен документ со оваа опција бара пресметка и чување на ефикасно споредливи репрезентации за сите документи во референтната колекција, со која се споредуваат парови на стрингови. Општо земено, моделите за наставниот документ, како на пример наставни дрва или наставни вектори, се присопосбени за оваа задача во контекст на компјутерско отркивање на плагијаризам. Сепак, поврзувањето на подстрингови останува скап метод, што го прави не-прифатливо решение за проверка на колекции со голем број на документи.^[13] ^[14] ^[15]

Анализа на куп на зборови претставува усвојување на пребарување на векторски простор, што е традиционален концепт на отркивање на плагијаризам, во доменот на компјутерско отркивање. Документите се претставени како еден или повеќе вектори, на пример, за различни делови на документот, кои се користат за интелгиентни пресметки за сличност на парови. Овие може да биде врз основа на традиционалната мерка за косинус сличност или други софистицирани функции за сличност.^[16] ^[17] ^[18]

Откривање на плагијати засновано на цитати со помош на компјутерски пристап е метод дизајниран за употреба кај академските документи, бидејќи не се потпира на самиот текст, туку на цитатите и референтните информации. Ги идентификува сличните модели во цитат секвенците на две академски работи. Ваквите модели претставуваат поднизи кои исклучиво содржат цитати од двата документи кои се споредуваат.^[19] ^[20] .^[21]

Стилометрија опфаќа статистички методи за квантифицирање на авторски уникатен стил на пишување и се користи главно за авторство.^[22] ^[23] Со создавање и споредување со стилометриски модели за различни сегменти од текстот, може да се откријат пасуси кои се стилски различни од другите, па оттука и потенцијално да се детектира плагијат.

Системи за откривање на плагијати кај текст-документи

Генералниот дизајн на системи за откривање на академски плагијат насочен за текст документи вклучува голем број на фактори:

Повеќе информации Фактор, Опис и алтернативи ...

Фактор	Опис и алтернативи
Опсег на пребарување	Во јавен интернет, со користење на пребарувачи / институционални бази на податоци / локален систем, специфицирани бази на податоци.
Анализа на време	Потребно време меѓу времето кое се доставува документот и времето кога резултатите се достапни.
Капацитетот за документи / Серија за обработка	Број на документи кои системот може да ги обработи за единица време.
Проверка на интензитет	Колку често и за кои видови на фрагменти од документот (ставови, реченици, зборовни секвенци со фиксна должина) системот пребарува надворешни ресурси, како што пребарувачите.
Споредба на тип на алгоритам	Алгоритми кои го дефинираат начинот на кој системот споредува едни со други документи.
Прецизност	Број на документи кои правилно се означени како плагијат во споредба со вкупниот број на означени документи, како и вкупниот број на документи кои се всушност плагијати. Висока точност значи дека само неколку лажно позитивни документи биле пронајдени.

Повеќето големи системи за откривање на плагијати користат големи, внатрешни бази на податоци (во прилог на други ресурси) кои се прошируваат со секој дополнителен документ поднесен за анализа. Сепак, ова се смета од страна на некои како евентуална повреда на авторските права на студентите.

Следниве системи се веб-засновани, со исклучок на ситемот CopyTracker, со затворен код. Следнава листа е неисцрпна:

Слободни

Chimpsky

CitePlag

CopyTracker

eTBLAST

Plagium

SeeSources

The Plagiarism Checker

Plagiarism Detect

Комерцијални

Attributor

Copyscape

Ithenticate, Turnitin

Plagiarismdetect

PlagScan

Veriguid

Откривање на перформанси

Компаративна евалуација на системи за откривање на плагијати укажува на тоа дека нивните перформанси зависат од видот на плагијатите ^[2]^[24]^[25]^[26]^[27]^[28] што треба да се откријат (види слика). Освен анализа на цитати, сите откривачки пристапи се потпираат на текстуална сличност. Затоа е симптоматично дека откривање на точноста се намалува кога се опфатени повеќе случаи на плагијати.

Буквалните копии, таканаречени copy & paste плагијат, или скромно маскирани случаи на плагијат може да се откријат со висока точност со помош на сегашните надворешни пристапи ако изворот е достапен на софтверот. Особено процедурите за поврзување на зборови може да постигнат добри перформанси, бидејќи тие најчесто користат модели на документи без загуба, како на пример наставни дрва. Анализата на системи кои користат отпечатоци или куп од зборови во откривањето на копии зависи од загуба на информации направени од страна на документниот модел кој го користи. Со примена на селекциски стратегии тие се подобро оспособени за откривање на умерена форми на маскирани плагијати во споредба со процедури за појавување на поднизи.

Внатрешнo откривање на плагијат со користење на стилометрија може да ги надмине границите на текстуални сличности до одреден степен во споредба на јазичната сличност. Со оглед на тоа дека стилските разлики помеѓу плагијатите и оригиналните сегменти се значајни и може да се идентификуваат со сигурност, стилометријата може да помогне во идентификување на маскирани и парафразирани плагијати. Стилометричките споредби веројатно ќе пропаднат во случаите каде што сегментите се силно парафразирани до таа точка кога повеќе наликуваат на личен стил на пишување. Резултатите од меѓународните натпревари за откривање на плагијати одржани во 2009, 2010 и 2011 година,^[2]^[27]^[28] as well as experiments performed by Stein,^[29] укажуваат на тоа дека стиломтеричката анализа работи со сигурност добро само за документи со должина од неколку илјади или десетици илјади зборови.

Зголемување на бројот на истражувања се врши на методи и системи способни за откривање на преведени плагијати. Во моментов, детекција на јазичен плагијат не се гледа како зрела технологија и соодветните системи не се во можност да постигнат задоволувачки резултати за откривање во пракса.

Откривањето на плагијат засновано на цитати е способно за идентификување на посилни парафрази и преводи со повисоки стапки на успех во споредба со другите откривачки пристапи, благодарение на фактот дека е независен од текстуалните одлики. Но, анализата зависи од достапноста на цитат информации се ограничува на академски текстови. Останува инфериорен во однос на текст-заснованите пристапи во откривање на плагијат кај пократки пасуси, кои се типични во случаи на копија.

Откривање на плагијати на изворен код

Плагијатите кај компјутерските кодови се исто така честа појава и потребни се различни алатки од оние кои се користат во текстуални документи. Притоа, значајни истражувања се посветуваат на академски плагијати на изворен код.

Посебен аспект на плагијати на изворен код е дека не постои збирно место на есеи, како што може да се најде кај традиционалните плагијати. Бидејќи во повеќето програмски задачи се очекува студентите да пишуваат програми со многу специфични барања, многу е тешко да се најдат постоечки програми кои ги исполнат барањата. Бидејќи интегрирање на надворешен код е често потешко од пишување од нула, студентите избираат повеќето плагијати да ги направат од своите врсници.

Според Рој и Корди, алгоритмите за откривање на сличност на изворен код можат да се класифицираат врз основа на

Стрингови - бара точни текстуални поврзувања на сегменти. Брз метод, но може да биде помешан со преименувањето идентификатори.
Токени - како со стрингови, но со користење на лексер за да се претвори програма во симболи во прв план. Ова отфрла празни коментари и идентификаторски имиња, правејќи го системот робустен на едноставни текст замени. Повеќето академски системи за откривање користат различни алгоритми за мерење на сличноста помеѓу знаковните секвенци.
Расчленувачки дрва - да се изградат и да се споредат расчленувачки дрва. Ова овозможува да бидат откриени сличности на поголемо ниво.
График со повици - го доловува вистинскиот тек на контрола во програмата, и овозможува да бидат сместени еквиваленции на многу повисоко ниво.
Метрика - метрика открива "резултати" на код сегментите според одредени критериуми, на пример, "бројот на јамки и услови", или "бројот на различни променливи што се користат". Метриките се едноставни да се пресметаат и може да се споредат брзо, но, исто така, може да доведат до лажно позитивни резултати.
Хибридни пристапи - на пример, расчленувачки дрва и наставни дрва можат да се комбинираат за откривање на способноста на расчленувачки дрва со брзина дозволена од наставните дрва, еден вид на податочна структура со поврзување на стригнови.

Претходната класификација е развиена за рефакторирање код, а не за детекција на академски плагијат (важна цел на рефакторирањето е да се избегне удвоен код, познат во литературата како клониран код). Горенаведените пристапи се ефикасни за различни нивоа на сличност; ниско ниво сличност се однесува на идентичен текст, додека високо ниво на сличност може да се однесува на слични спецификации. Во академска средина, кога сите ученици се очекува да ги искодираат истите спецификации, се очекува функционално еквивалентен код (со високо ниво на сличност), а само ниско ниво сличност се смета како доказ на мамење.

Системи за откривање на плагијати на изворен код

Програмите MOSS и JPlag може да се користaт бесплатно, но и двете бараат регистрација и софтверот останува комерцијален. Персоналните системи се нормални десктоп апликации, како и повеќето од нив се и бесплатни и објавени како софтвер со отворен код.

Откривање на плагијати

Откривање на плагијати со помош на компјутер

Откривање на плагијати на текст-документи

Детектирачки методи

Системи за откривање на плагијати кај текст-документи

Откривање на перформанси

Откривање на плагијати на изворен код

Системи за откривање на плагијати на изворен код

Наводи

Надворешни врски

Wikiwand - on