Дублювання коду

Дублювання коду — термін відомий із програмування, під яким розуміється, що деякі ділянки початкового коду можуть зустрічатися більш, ніж один раз, як всередині однієї, так і в всередині декількох програм. Дублювання є ознакою так званого «поганого коду» або «коду з запахом» (англ. Code smell),^[1] тому що саме через дублювання збільшується довжина коду. Послідовності дублікатів іноді називають клонами.

Remove ads

Причини за яких дві частини коду можуть вважатися дублікатами

Посимвольний збіг;
Посимвольний збіг, з ігноруванням пробільних символів і коментарів;
Збіг за лексемами;
Частковий збіг за лексемами;
Функціональний збіг;

Звідки з'являються дублікати коду

Причини виникнення дублікатів коду:

Програмування копіюванням-вставленням, при якому ділянки коду копіюються через те, що «це працює». У більшості випадків така операція вимагає невеликих змін перенесеного коду, наприклад перейменування змінних або додавання/видалення окремих ділянок.
Бажана функціональність дуже схожа на вже наявну в іншій частині програми, і програміст створює код дуже близький до того, який вже існує.^[2]
Плагіат, коли код просто копіюється без дотримання прав або будь-яких умов.

Remove ads

Проблеми до яких призводять дублікати коду

Узагальнити

Перспектива

Дублювання коду є ознакою низького стилю програмування. Гарний стиль програмування звичайно заснований на повторному використанні коду. Може здаватися, що використання дублікатів дозволить дещо прискорити процес створення програми, так як програмісту не потрібно буде думати над тим, як код використовується і як він може використовуватися надалі. Однак проблема полягає в тому, що написання коду це лише невелика частина життєвого циклу продукту, і подальший супровід коду з дублікатами буде занадто ускладненим.^[3] Ось кілька проблем до яких призводить дублювання коду:

Велика кількість коду ускладнює його розуміння: дублювання коду часто призводить до створення довгих, повторюваних послідовностей коду які відрізняються лише кількома рядками або символами.
Приховане значення: важко вловити різницю в повторюваних ділянках коду, і тому стає важче розуміти для чого саме призначена та чи інша частина коду. Найчастіше, єдина різниця полягає в параметрах. У цій ситуації найкраще використовувати процедури і функції.
Аномалії оновлення: дублювання коду суперечить основному принципу теорії баз даних: «Уникайте надмірності». Невиконання цього принципу призводить до аномалій оновлення, які сильно збільшують витрати на обслуговування коду. У цьому випадку одну і ту ж зміну потрібно ввести в усі дублікати. І в кращому випадку, час витрачений на внесення змін і тестування коду збільшується пропорційно кількості дублікатів. А в гіршому — деякі місця в коді можуть бути пропущені, і виправлення всіх помилок може зайняти місяці або навіть роки. Намагайтеся використовувати бібліотеки коду у такій ситуації.
Розмір файлу: без застосування будь-якого стиснення, файл початкового коду займатиме більше місця на твердому диску.

Пошук дублікату коду

Існує певна кількість алгоритмів які дозволяють відшукати дублікати коду. Наприклад:

Алгоритм Бейкера.^[4]
Алгоритм Рабіна — Карпа.
Використання абстрактних синтаксичних дерев.^[5]
Візуальне визначення дублікатів.^[6]
Зчитування матриці клонування.^[7]^[8]

Приклади дублікатів коду

Наступна частина коду обчислює середнє значення масиву цілих чисел:

extern int array1[];
extern int array2[];

int sum1 = 0;
int sum2 = 0;
int average1 = 0;
int average2 = 0;

for (int i = 0; i < 4; i++) {
    sum1 += array1[i];
}

average1 = sum1/4;

for (int i = 0; i < 4; i++) {
    sum2 += array2[i];
}

average2 = sum2/4;

У цьому прикладі два цикли можуть бути винесені в окрему функцію:

int calcAverage (int* Array_of_4)
{
    int sum = 0;
    for (int i = 0; i < 4; i++) {
        sum += Array_of_4[i];
    }

    return sum/4;
}

Використання цієї функції звільнить код від дублікатів:

extern int array1[];
extern int array2[];

int average1 = calcAverage(array1);
int average2 = calcAverage(array2);

Remove ads

Інструменти для пошуку дублікатів коду

Узагальнити

Перспектива

Інструменти аналізу дублювання коду включають в себе:

Atomiq — комерційний продукт^[9]
Black Duck Software — комерційний продукт (середовище аналізу коду)
CCFinder (C / C++, Java, COBOL, Fortran, і т. д. / некомфортний для компіляції в НЕ-windows операційних системах)^[10]
Checkstyle^[en] (Java)
CloneAnalyzer (C / C++ та Java / тільки як плагін для Eclipse)^[11]
Clone Digger (Python та Java)^[12]
Clone Doctor — комерційний продукт (Ada, C, C++, C#, Java, COBOL, Fortran, Python, VB.net, VB6, PHP4 / 5, PLSQL, SQL2011 , XML, та багато інших мов)^[13]
детектор Copy / Paste^[en] від PMD^[en] (Java, JSP, C, C++, Fortran, PHP)
ConQAT [Архівовано 30 вересня 2013 у Wayback Machine.]^[14]^[15] (Open Source, підтримує: ABAP, ADA, Cobol, C / C++, C#, Java, PL / I, PL / SQL, Python, Text, Transact SQL, Visual Basic, XML)

JCCD [Архівовано 21 березня 2018 у Wayback Machine.] — Гнучке API для знаходження дублікатів коду для Java (Open Source: підтримує Java, але може бути адаптований для інших мов за допомогою ANTLR)

JPlag (Java, C#, C, C++, структурний і звичайний текст)

Pattern Miner (CP Miner) [Архівовано 15 липня 2011 у Wayback Machine.] — комерційний продукт^[16]

Simian (software) [Архівовано 8 листопада 2020 у Wayback Machine.]

Google CodePro Analytix [Архівовано 25 лютого 2012 у Wayback Machine.] — (Java / Eclipse plugin only)

Remove ads

Див. також

Абстрактний принцип^[en]
«Запахи коду»
Don't repeat yourself
Список інструментів для статичного аналізу коду^[en]
Правило трьох

Джерела

Loading content...

Посилання

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads