Визуелна уметност вештачке интелигенције

Визуелна уметност вештачке интелигенције, или уметност ВИ, јесте визуелно уметничко дело генерисано (или побољшано) употребом програма вештачке интелигенције (ВИ).

Аутоматизована уметност стварана је још од античких времена. Поље вештачке интелигенције основано је 1950-их, а уметници су почели да стварају уметност помоћу вештачке интелигенције убрзо након оснивања дисциплине. Кроз своју историју, ВИ је покренула многа филозофска питања у вези са људским умом, вештачким бићима, као и о томе шта се може сматрати уметношћу у сарадњи човека и ВИ. Од 20. века, људи користе ВИ за стварање уметности, од којих су нека дела излагана у музејима и освајала награде.^[1]

Током експанзије вештачке интелигенције 2020-их, модели претварања текста у слику као што су Midjourney, DALL-E, Stable Diffusion и FLUX.1 постали су широко доступни јавности, омогућавајући корисницима да брзо генеришу слике са мало труда.^[2]^[3] Коментари о уметности ВИ 2020-их често су се фокусирали на питања у вези са ауторским правима, преварама, клеветама и утицајем на традиционалне уметнике, укључујући и технолошку незапосленост.

Remove ads

Историја

Рана историја

Мајардеов аутомат црта слику

Аутоматизована уметност датира барем од аутомата из хеленистичке грчке цивилизације, када се за проналазаче попут Дедала и Херона из Александрије наводило да су дизајнирали машине способне да пишу текст, генеришу звукове и свирају музику.^[4]^[5] Креативни аутомати цветали су кроз историју, попут Мајардеовог аутомата, створеног око 1800. године, који је могао да направи више цртежа и песама.^[6]

Такође у 19. веку, Ејда Лавлејс је писала да би се „рачунарске операције」 потенцијално могле користити за генерисање музике и песама.^[7]^[8] Године 1950, рад Алана Тјуринга „Computing Machinery and Intelligence」 фокусирао се на то да ли машине могу уверљиво имитирати људско понашање.^[9] Убрзо након тога, академска дисциплина вештачке интелигенције основана је на истраживачкој радионици на Дартмутском колеџу 1956. године.^[10]

Од свог оснивања, истраживачи ВИ истраживали су филозофска питања о природи људског ума и последицама стварања вештачких бића са интелигенцијом налик људској; ова питања су претходно истраживана кроз мит, фикцију и филозофију још од антике.^[11]

Уметничка историја

Од оснивања ВИ 1950-их, уметници су користили вештачку интелигенцију за стварање уметничких дела. Ова дела су се понекад називала алгоритамска уметност,^[12] компјутерска уметност, дигитална уметност или уметност нових медија.^[13]

Један од првих значајних уметничких система ВИ је AARON, који је развио Харолд Коен почевши од касних 1960-их на Универзитету Калифорније у Сан Дијегу.^[14] AARON користи симболички приступ заснован на правилима за генерисање техничких слика у ери GOFAI програмирања, а Коен га је развио са циљем да кодира чин цртања.^[15] AARON је изложен 1972. у Музеју уметности округа Лос Анђелес.^[16] Од 1973. до 1975. године, Коен је усавршавао AARON током боравка у Лабораторији за вештачку интелигенцију на Универзитету Станфорд.^[17] Године 2024, Витни музеј америчке уметности изложио је уметност ВИ из целокупне Коенове каријере, укључујући рекреиране верзије његових раних роботских машина за цртање.^[17]

Карл Симс је излагао уметност створену помоћу вештачког живота још од 1980-их. Магистрирао је компјутерску графику на MIT Media Lab 1987. и био је уметник у резиденцији од 1990. до 1996. у компанији за производњу суперкомпјутера и вештачку интелигенцију Thinking Machines Corporation.^[18]^[19]^[20] И 1991. и 1992. године, Симс је освојио награду Златна Ника на Prix Ars Electronica за своје видео-радове који користе вештачку еволуцију.^[21]^[22]^[23] Године 1997, Симс је креирао интерактивну инсталацију вештачке еволуције Galápagos за NTT InterCommunication Center у Токију.^[24] Симс је добио награду Еми 2019. за изузетно достигнуће у развоју инжењерства.^[25]

Године 1999, Скот Дрејвс и тим од неколико инжењера креирали су и објавили Electric Sheep као слободни скринсејвер.^[26] Electric Sheep је волонтерски рачунарски пројекат за анимирање и еволуцију фракталних пламенова, који се дистрибуирају на умрежене рачунаре који их приказују као скринсејвер. Скринсејвер је користио ВИ за стварање бесконачне анимације учећи од своје публике. Године 2001, Дрејвс је освојио награду Fundacion Telefónica Life 4.0 за Electric Sheep.^[27]^{[непоуздан извор?]}

Године 2014, Стефани Динкинс је почела да ради на пројекту Conversations with Bina48.^[28] За ову серију, Динкинс је снимала своје разговоре са BINA48, друштвеним роботом који личи на средовечну црнкињу.^[29]^[30] Године 2019, Динкинс је освојила награду Creative Capital за стварање еволуирајуће вештачке интелигенције засноване на „интересовањима и култури(ама) обојених људи」.^[31]

Године 2015, Сугвен Чунг је започела Mimicry (Drawing Operations Unit: Generation 1), текућу сарадњу између уметнице и роботске руке.^[32] Године 2019, Чунг је освојила Lumen Prize за своје наступе са роботском руком која користи ВИ да би покушала да црта на начин сличан њој.^[33]

Године 2018, на аукцији уметности вештачке интелигенције у кући Кристис у Њујорку, дело Edmond de Belamy продато је за 432.500 $, што је било скоро 45 пута више од процењене вредности од 7.000 $–10.000. Дело је креирао Obvious, колектив из Париза.^[34]^[35]^[36]

Године 2024, објављен је јапански филм generAIdoscope. Филм су режирали Хиротака Адачи, Такеши Соне и Хироки Јамагучи. Сав видео, аудио и музика у филму створени су помоћу вештачке интелигенције.^[37]

Године 2025, објављена је јапанска аниме телевизијска серија Twins Hinahima. Аниме је произведен и анимиран уз помоћ ВИ током процеса сечења и конверзије фотографија у аниме илустрације, које су касније дорадили уметници. Већина преосталих делова, попут ликова и логотипа, ручно је цртана помоћу различитих софтвера.^[38]^[39]

Техничка историја

Дубоко учење, које карактерише вишеслојна структура која покушава да опонаша људски мозак, први пут се појавило 2010-их, што је изазвало значајну промену у свету уметности ВИ.^[40] У ери дубоког учења, за генеративну уметност углавном постоје следећи типови архитектура: ауторегресивни модели, дифузиони модели, ГСМ-ови (GANs) и нормализујући токови.

Године 2014, Ијан Гудфелоу и колеге са Универзитета у Монтреалу развили су генеративну супарничку мрежу (ГСМ), тип дубоке неуронске мреже способне да науче да опонашају статистичку дистрибуцију улазних података, као што су слике. ГСМ користи „генератор」 за стварање нових слика и „дискриминатор」 да одлучи које од створених слика се сматрају успешним.^[41] За разлику од претходне алгоритамске уметности која је пратила ручно кодирана правила, генеративне супарничке мреже могле су да науче специфичну естетику анализом скупа података са примерима слика.^[12]

Године 2015, тим из Гугла објавио је DeepDream, програм који користи конволуциону неуронску мрежу за проналажење и побољшање образаца на сликама путем алгоритамске пареидолије.^[42]^[43]^[44] Процес ствара намерно преобрађене слике са изгледом налик сну, који подсећа на психоделично искуство.^[45] Касније, 2017. године, условни ГСМ је научио да генерише 1000 класа слика из ImageNet, велике визуелне базе података дизајниране за истраживање софтвера за препознавање објеката.^[46]^[47] Условљавањем ГСМ-а и случајним шумом и одређеном ознаком класе, овај приступ је побољшао квалитет синтезе слика за моделе условљене класом.^[48]

Ауторегресивни модели су коришћени за генерисање слика, као што је PixelRNN (2016), који ауторегресивно генерише пиксел по пиксел помоћу рекурентне неуронске мреже.^[49] Одмах након што је архитектура трансформера предложена у раду Attention Is All You Need (2018), коришћена је за ауторегресивно генерисање слика, али без условљавања текстом.^[50]

Веб-сајт Artbreeder, покренут 2018. године, користи моделе StyleGAN и BigGAN^[51]^[52] како би омогућио корисницима да генеришу и мењају слике попут лица, пејзажа и слика.^[53]

Током 2020-их, модели претварања текста у слику, који генеришу слике на основу промптова, постали су широко распрострањени, означавајући још једну промену у стварању уметничких дела генерисаних вештачком интелигенцијом.^[2]

Пример слике направљене помоћу VQGAN-CLIP (NightCafe Studio, март 2023)

Пример слике направљене помоћу Flux 1.1 Pro у Raw режиму (новембар 2024); овај режим је дизајниран за генерисање фотореалистичних слика

Године 2021, користећи утицајне велике језичке генеративне претходно обучене трансформер моделе који се користе у GPT-2 и GPT-3, OpenAI је објавио серију слика креираних помоћу модела ВИ за претварање текста у слику DALL-E 1.^[54] То је ауторегресивни генеративни модел са суштински истом архитектуром као GPT-3. Упоредо с тим, касније 2021. године, EleutherAI је објавио опен-сорс VQGAN-CLIP^[55] заснован на OpenAI-јевом моделу CLIP.^[56] Дифузиони модели, генеративни модели који се користе за стварање синтетичких података на основу постојећих података,^[57] први пут су предложени 2015. године,^[58] али су постали бољи од ГСМ-ова тек почетком 2021.^[59] Латентни дифузиони модел је објављен у децембру 2021. и постао је основа за каснији Stable Diffusion (август 2022).^[60]

Године 2022, објављен је Midjourney,^[61] након чега су у мају 2022. најављени Google Brain-ови Imagen и Parti, Мајкрософтов NUWA-Infinity,^[62]^[2] и софтвер са доступним кодом Stable Diffusion, објављен у августу 2022.^[63]^[64]^[65] DALL-E 2, наследник DALL-E, био је у бета-тестирању и објављен (са даљим наследником DALL-E 3 објављеним 2023). Stability AI има веб-интерфејс за Stable Diffusion под називом DreamStudio,^[66] додатке за Krita, Photoshop, Blender и GIMP,^[67] и веб-базирани кориснички интерфејс отвореног кода Automatic1111.^[68]^[69]^[70] Главни претходно обучени модел Stable Diffusion-а дели се на Hugging Face Hub.^[71]

Ideogram је објављен у августу 2023. године; овај модел је познат по својој способности да генерише читљив текст.^[72]^[73]

Године 2024, објављен је Flux. Овај модел може да генерише реалистичне слике и интегрисан је у Grok, чет-бот који се користи на X-у (раније Твитер), и Le Chat, чет-бот компаније Mistral AI.^[3]^[74]^[75]^[76] Flux је развила компанија Black Forest Labs, коју су основали истраживачи који стоје иза Stable Diffusion-а.^[77] Grok је касније прешао на сопствени модел за претварање текста у слику, Aurora, у децембру исте године.^[78] Неколико компанија, заједно са својим производима, такође је развило ВИ модел интегрисан са услугом за уређивање слика. Адоби је објавио и интегрисао ВИ модел Firefly у Premiere Pro, Photoshop и Illustrator.^[79]^[80] Мајкрософт је такође јавно најавио функције генератора слика помоћу ВИ за Microsoft Paint.^[81] Поред тога, неки примери модела претварања текста у видео из средине 2020-их су Gen-2 компаније Runway, Гуглов VideoPoet и OpenAI-јев Sora, који је објављен у децембру 2024.^[82]^[83]

Године 2025, објављено је неколико модела. GPT Image 1 компаније OpenAI, лансиран у марту 2025, увео је нове могућности приказивања текста и мултимодалне способности, омогућавајући генерисање слика из различитих улаза попут скица и текста.^[84] Midjourney v7 је дебитовао у априлу 2025, пружајући побољшану обраду текстуалних промптова.^[85] У мају 2025. Flux.1 Kontext компаније Black Forest Labs појавио се као ефикасан модел за генерисање слика високе верности,^[86] док је Гуглов Imagen 4 објављен са побољшаним фотореализмом.^[87]

Remove ads

Алати и процеси

Приступи

Постоје многи приступи које уметници користе за развој визуелне уметности ВИ. Када се користи претварање текста у слику, ВИ генерише слике на основу текстуалних описа, користећи моделе као што су дифузиони или архитектуре засноване на трансформерима. Корисници уносе промптове, а ВИ производи одговарајуће визуелне приказе.^[88]^[89] Када се користи претварање слике у слику, ВИ трансформише улазну слику у нови стил или облик на основу промпта или референтног стила, као што је претварање скице у фотореалистичну слику или примена уметничког стила.^[90]^[91] Када се користи претварање слике у видео, ВИ генерише кратке видео-клипове или анимације из једне слике или низа слика, често додајући покрет или прелазе. То може укључивати анимирање статичних портрета или стварање динамичних сцена.^[92]^[93] Када се користи претварање текста у видео, ВИ креира видео-записе директно из текстуалних промптова, производећи анимације, реалистичне сцене или апстрактне визуелне приказе. Ово је проширење претварања текста у слику, али се фокусира на временске секвенце.^[94]

Слике

Уметницима су на располагању многи алати при раду са дифузионим моделима. Они могу дефинисати и позитивне и негативне промптове, али такође имају избор да користе (или изоставе) ВАЕ, ЛоРА, хипермреже, ИП-адаптере и текстуалне инверзије. Уметници могу подешавати параметре као што су скала вођења (која балансира креативност и тачност), seed (за контролу случајности) и упскејлере (за побољшање резолуције слике), између осталог. Додатни утицај се може извршити током пре-инференције манипулацијом шума, док се традиционалне технике пост-обраде често користе након инференције. Корисници такође могу тренирати сопствене моделе.

Поред тога, развијене су процедуралне технике генерисања слика „засноване на правилима」, које користе математичке обрасце, алгоритме који симулирају потезе четкицом и друге сликарске ефекте, као и моделе дубоког учења попут генеративних супарничких мрежа (ГСМ) и трансформера. Неколико компанија је објавило апликације и веб-сајтове који омогућавају корисницима да се фокусирају искључиво на позитивне промптове, заобилазећи потребу за ручном конфигурацијом осталих параметара. Постоје и програми способни да трансформишу фотографије у стилизоване слике које опонашају естетику познатих сликарских стилова.^[95]^[96] Постоји много опција, од једноставних мобилних апликација за потрошаче до Јупитер бележница и веб-интерфејса који захтевају моћне ГПУ-ове за ефикасно покретање.^[97] Додатне функционалности укључују „текстуалну инверзију」, која се односи на омогућавање употребе концепата које је корисник доставио (попут објекта или стила) научених из неколико слика. Нова уметност се затим може генерисати из повезаних речи (текста који је додељен наученом, често апстрактном концепту)^[98]^[99] и проширења модела или фино подешавање (као што је DreamBooth).

Утицај и примене

ВИ има потенцијал за друштвену трансформацију, што може укључивати омогућавање ширења некомерцијалних нишних жанрова (као што су деривати сајберпанка попут соларпанка) од стране аматера, нове забаве, брзог прототипирања,^[100] повећања доступности стварања уметности,^[100] и уметничког резултата по уложеном напору, трошковима или времену^[100]—нпр. генерисањем нацрта, дефиниција нацрта и компоненти слике (inpainting). Генерисане слике се понекад користе као скице,^[101] јефтини експерименти,^[102] инспирација или илустрације идеја у фази доказа концепта. Додатне функционалности или побољшања могу се односити и на ручно уређивање након генерисања (тј. дорађивање), као што је накнадно подешавање помоћу уређивача слика.^[102]

Промптно инжењерство и дељење

Промптови за неке моделе претварања текста у слику такође могу укључивати слике, кључне речи и подесиве параметре, као што је уметнички стил, који се често користи кроз кључне фразе попут „у стилу [име уметника]」 у промпту^[103] и/или одабир широког естетског/уметничког стила.^[104]^[101] Постоје платформе за дељење, трговину, претрагу, форковање/прераду или сарадњу на промптовима за генерисање специфичних слика из генератора слика.^[105]^[106]^[107]^[108] Промптови се често деле заједно са сликама на веб-сајтовима за дељење слика као што су Редит и веб-сајтови посвећени уметности ВИ. Промпт није комплетан унос потребан за генерисање слике; додатни уноси који одређују генерисану слику укључују излазну резолуцију, random seed и параметре случајног узорковања.^[109]

Сродна терминологија

Синтетички медији, који укључују уметност ВИ, описани су 2022. године као главни технолошки тренд који ће утицати на пословање у наредним годинама.^[100] Истраживачи са Harvard Kennedy School изразили су забринутост да синтетички медији служе као вектор за политичке дезинформације убрзо након што су проучавали ширење уметности ВИ на платформи X.^[110] Синтографија је предложени термин за праксу генерисања слика сличних фотографијама помоћу ВИ.^[111]

Remove ads

Утицај

Пристрасност

Велика забринутост у вези са сликама и уметношћу генерисаним вештачком интелигенцијом је пристрасност узорковања унутар података за обуку модела, што доводи до дискриминаторног излаза из модела уметности ВИ. Године 2023, истраживачи са Универзитета у Вашингтону пронашли су доказе о расној пристрасности унутар модела Stable Diffusion, при чему слике „особе」 најчешће одговарају сликама мушкараца из Европе или Северне Америке.^[112]

Ауторска права

Правни стручњаци, уметници и медијске корпорације разматрају правне и етичке импликације уметности вештачке интелигенције још од 20. века. Неки уметници користе уметност ВИ да критикују и истражују етику коришћења прикупљених података за производњу нових уметничких дела.^[113]

Године 1985, професорка права интелектуалне својине Памела Самјуелсон тврдила је да би амерички закон о ауторским правима требало да додели права на алгоритамски генерисана уметничка дела кориснику рачунарског програма.^[114] Чланак из Florida Law Review из 2019. године представио је три перспективе о овом питању. У првој, сама вештачка интелигенција би постала власник ауторских права; да би се то постигло, члан 101 америчког Закона о ауторским правима морао би бити измењен тако да дефинише „аутора」 као рачунар. У другој, следећи Самјуелсонин аргумент, корисник, програмер или компанија за вештачку интелигенцију били би власници ауторских права. Ово би било проширење доктрине „дело створено у радном односу」, према којој се власништво над ауторским правима преноси на „послодавца」. У трећој ситуацији, додела ауторских права се никада не би десила, и таква дела би била у јавном власништву, пошто додела ауторских права захтева чин ауторства.^[115]

У мају 2023, на друштвеним мрежама као што су Редит и Твитер, пажњу је привукла слика папе Фрање у белој пуферастој јакни, генерисана помоћу Midjourney-а.^[116]^[117] Поред тога, слика напада на Пентагон, генерисана вештачком интелигенцијом, постала је вирална као део лажне вести на Твитеру.^[118]^[119]

У данима пре подизања оптужнице против Доналда Трампа у марту 2023. у оквиру скандала са Сторми Данијелс, неколико слика генерисаних вештачком интелигенцијом које наводно приказују Трампово хапшење постале су виралне на интернету.^[120]^[121] Дана 20. марта, британски новинар Елиот Хигинс генерисао је различите слике Доналда Трампа како га хапсе или затварају користећи Midjourney v5 и објавио их на Твитеру; две слике Трампа како се бори против полицајаца постале су виралне под погрешним утиском да су аутентичне, сакупивши више од 5 милиона прегледа за три дана.^[122]^[123] Према Хигинсовим речима, слике нису имале за циљ да обману, али му је због тога забрањено коришћење услуга Midjourney-а. Од априла 2024. године, твит је имао више од 6,8 милиона прегледа.

У фебруару 2024, рад Cellular functions of spermatogonial stem cells in relation to JAK/STAT signaling pathway објављен је са сликама генерисаним вештачком интелигенцијом. Касније је повучен из часописа Frontiers in Cell and Developmental Biology јер рад „не испуњава стандарде」.^[124]

Две рачунарске методе, close reading (пажљиво читање) и distant viewing (гледање из даљине), типични су приступи који се користе за анализу дигитализоване уметности.^[125] Пажљиво читање се фокусира на специфичне визуелне аспекте једног дела. Неки задаци које машине обављају у методама пажљивог читања укључују рачунарску аутентификацију уметника и анализу потеза четкицом или својстава текстуре. Насупрот томе, кроз методе гледања из даљине, сличност унутар целе колекције за одређену карактеристику може се статистички визуелизовати. Уобичајени задаци везани за ову методу укључују аутоматску класификацију, детекцију објеката, мултимодалне задатке, откривање знања у историји уметности и рачунарску естетику. Синтетичке слике се такође могу користити за обуку ВИ алгоритама за аутентификацију уметничких дела и за откривање фалсификата.^[126]

Истраживачи су такође увели моделе који предвиђају емоционалне реакције на уметност. Један такав модел је ArtEmis, велики скуп података упарен са моделима машинског учења. ArtEmis укључује емоционалне анотације од преко 6.500 учесника, заједно са текстуалним објашњењима. Анализом визуелних улаза и пратећих текстуалних описа из овог скупа података, ArtEmis омогућава генерисање нијансираних емоционалних предвиђања.^[127]^[128]

Remove ads

Други облици уметности ВИ

Способност софтвера за уметност заснованог на ВИ да опонаша или фалсификује уметнички стил такође изазива забринутост због злонамерне употребе или похлепе. Радови уметности генерисане вештачком интелигенцијом, као што је Théâtre D'opéra Spatial, илустрација претворена из текста у слику која је освојила главну награду на такмичењу дигиталне уметности у августу 2022. на Државном сајму у Колораду, почели су да преплављују уметничка такмичења и друге форуме за подношење радова намењене малим уметницима. Кратки филм компаније Нетфликс, The Dog and the Boy, објављен у јануару 2023, наишао је на негативне реакције на интернету због коришћења уметности вештачке интелигенције за креирање позадинских сцена.

Како софтвер за генерисање слика помоћу ВИ, као што су Stable Diffusion и DALL-E, наставља да напредује, тако расту и потенцијални проблеми и забринутости које ови системи представљају за креативност и уметност. Године 2022, уметници који раде у различитим медијима изразили су забринутост због утицаја који би генеративна вештачка интелигенција могла имати на њихову способност да зарађују, посебно ако слике засноване на ВИ почну да замењују уметнике који раде у индустрији илустрације и дизајна. У августу 2022, дигитални уметник Р. Џ. Палмер изјавио је: „Лако могу да замислим сценарио где би један уметник или уметнички директор, користећи ВИ, могао да заузме место 5 до 10 почетника... Видео сам много самосталних аутора и сличних који говоре како ће бити сјајно што неће морати да унајмљују уметника.」 Студија случаја из 2022. године показала је да су слике произведене помоћу технологије попут DALL-E изазвале забринутост код неких традиционалних уметника због губитка посла, док други то користе у своју корист и виде као алат.

У јануару 2023, три уметнице — Сара Андерсен, Кели Макернан и Карла Ортиз — поднеле су тужбу за кршење ауторских права против компанија Stability AI, Midjourney и DeviantArt, тврдећи да је законски обавезно добити сагласност уметника пре тренирања неуронских мрежа на њиховим делима и да су ове компаније повредиле права милиона уметника тиме што су то учиниле на пет милијарди слика прикупљених са веба.

Уметност генерисана вештачком интелигенцијом се понекад сматра способном да замени традиционалне стоковне слике. Године 2023, Shutterstock је најавио бета тест ВИ алата који може регенерисати делимичан садржај других слика са Shutterstock-а. Getty Images и Nvidia су се удружили у покретању Generative AI by iStock, модела тренираног на библиотеци Getty-ја и фото-библиотеци iStock-а, користећи Nvidia-ин модел Picasso.

ВИ се такође користила у уметности изван визуелних уметности. Генеративна ВИ се користила за стварање музике, као и у продукцији видео-игара изван слика, посебно за дизајн нивоа (нпр. за прилагођене мапе) и стварање новог садржаја (нпр. задатака или дијалога) или интерактивних прича у видео-играма.

Remove ads

Референце

Loading content...

Литература

Loading content...

Спољашње везе

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads