상위 질문
타임라인
채팅
관점
생성형 인공지능
프롬프트에 반응하여 콘텐츠를 생성할 수 있는 AI 위키백과, 무료 백과사전
Remove ads
생성형 인공지능(영어: Generative artificial intelligence)은 기존 데이터의 패턴과 구조를 학습하여, 텍스트, 이미지, 오디오, 코드 등 새로운 콘텐츠를 생성할 수 있는 인공지능 기술의 총칭이다.[1] 사용자의 프롬프트라고 불리는 지시문이나 입력을 기반으로 결과물을 도출하는 것이 일반적이다.

생성형 인공지능은 단순히 데이터를 분류하거나 예측하는 전통적인 분석형 AI와 달리, 데이터 분포를 학습하여 창작을 수행한다. 이는 기계 학습의 한 분야인 딥러닝 기술, 특히 인공신경망에 기반한다.
2010년대 중반 생성적 적대 신경망의 등장은 사실적인 이미지 생성의 가능성을 열었고, 2017년 트랜스포머 아키텍처의 발표는 자연어 처리 분야의 비약적인 발전을 이끌었다. 2020년대 들어 확산 모델이 고품질 이미지 생성의 주류가 되었으며, OpenAI의 ChatGPT (2022년) 출시를 기점으로 생성형 인공지능 기술은 전 세계적인 주목을 받으며 기술적 특이점 논의를 재점화했다.[2]
Remove ads
역사
생성형 모델의 개념은 초기 통계 모델로 거슬러 올라가지만, 현대적인 생성형 인공지능의 역사는 딥러닝의 발전과 궤를 같이 한다. 초기 인공지능 연구는 규칙 기반 시스템에 중점을 두었으며, 1980년대에는 순환 신경망과 엘에스티엠 등이 등장하며 시퀀스 데이터 생성 연구가 시작되었으나 복잡한 콘텐츠를 만들기에는 한계가 있었다. 마르코프 체인을 이용한 n-gram 모델은 초보적인 텍스트 생성에 사용되었다.
현대적 생성형 인공지능은 2014년 이안 굿펠로우가 발표한 생성적 적대 신경망으로 중요한 분수령을 맞이했다.[3] 두 신경망이 경쟁하며 학습하는 이 구조는 사실적인 가짜 이미지 생성에 성공하며 큰 주목을 받았다. 이후 2017년, 구글 브레인 팀은 "Attention Is All You Need" 논문에서 트랜스포머 아키텍처를 발표했다.[4] 이 모델은 셀프 어텐션 메커니즘을 사용하여 자연어 처리 성능을 극적으로 향상시켰고, 이후 등장하는 대부분의 거대 언어 모델의 기반이 되었다.
2018년부터는 트랜스포머를 기반으로 한 OpenAI의 GPT 시리즈와 구글의 BERT 등 거대 언어 모델이 부상했다. 이 모델들은 방대한 텍스트 데이터로 사전 학습된 후 특정 작업에 미세 조정되어 뛰어난 성능을 보였으며, 모델의 매개변수 크기를 키울수록 성능이 향상되는 스케일링 법칙이 발견되며 모델 크기가 기하급수적으로 증가했다. 2020년대에 들어서는 확산 모델이 이미지 생성 분야에서 두각을 나타내기 시작했다.[5] DALL-E 2, Stable Diffusion 등이 이 기술을 기반으로 하며, 생성적 적대 신경망보다 안정적이고 고품질의 이미지 생성이 가능했다. 결정적으로 2022년 11월, OpenAI가 ChatGPT를 대화형 인터페이스로 출시하면서 생성형 인공지능 기술은 전문가의 영역을 넘어 대중에게 폭발적인 인기를 얻게 되었다.[2]
Remove ads
주요 기술 모델
요약
관점
생성형 인공지능은 다양한 딥러닝 아키텍처를 기반으로 하며, 생성하려는 콘텐츠의 유형(텍스트, 이미지 등)에 따라 적합한 모델이 사용된다.
생성적 적대 신경망
생성적 적대 신경망은 두 개의 신경망, 즉 생성자와 판별자가 제로섬 게임을 통해 서로 경쟁하며 학습하는 모델이다. 생성자는 무작위 노이즈로부터 실제 데이터와 유사한 가짜 데이터를 생성하려 시도하고, 판별자는 생성자가 만든 데이터와 실제 데이터를 구별하려 시도한다. 이 과정을 반복하며 생성자는 판별자가 구별하기 어려울 만큼 정교한 결과물을 만들게 된다.[3] 주로 이미지 생성(예: NVIDIA의 StyleGAN)에 사용되었으나 학습이 불안정한 단점이 있다.
변이형 오토인코더
변이형 오토인코더는 오토인코더의 변형으로, 데이터를 저차원의 잠재 공간으로 압축하는 인코더와, 잠재 공간의 벡터로부터 원본 데이터를 복원(생성)하는 '디코더'로 구성된다. 변이형 오토인코더는 잠재 공간이 특정 확률분포(주로 정규 분포)를 따르도록 학습한다. 이를 통해 잠재 공간에서 새로운 벡터를 샘플링하여 디코더에 입력하면, 학습한 데이터와 유사하지만 완전히 새로운 데이터를 생성할 수 있다.[6]
트랜스포머
트랜스포머는 어텐션 메커니즘, 특히 셀프 어텐션을 사용하여 입력 데이터 시퀀스 내의 단어들 간의 관계와 중요도를 파악한다. 이 아키텍처는 순차적인 처리가 필요 없어 병렬 연산에 유리하며, 매우 긴 시퀀스도 효과적으로 처리할 수 있다.[4] 현대 거대 언어 모델의 근간이 되며, 용도에 따라 세 가지 주요 구조로 나뉜다. 인코더 전용 모델(예: BERT)은 입력 시퀀스 전체의 문맥을 이해하는 데 중점을 두어 텍스트 분류 등 분석 작업에 쓰인다. 디코더 전용 모델(예: GPT 시리즈)은 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 텍스트를 생성하며, 챗봇이나 문장 완성 등 생성 작업에 특화되어 있다. 마지막으로 인코더-디코더 모델(예: T5)은 입력 시퀀스를 인코더가 이해하고 디코더가 이를 바탕으로 새로운 시퀀스를 생성하며, 기계 번역이나 문서 요약에 주로 사용된다.
확산 모델
확산 모델은 최근 이미지 및 오디오 생성 분야에서 가장 뛰어난 성능을 보이는 모델 중 하나이다. 이 모델은 두 가지 과정을 학습한다. 첫째는 원본 이미지에 점진적으로 노이즈를 추가하여 최종적으로 완전한 노이즈 상태로 만드는 확산 과정이다. 둘째는 이 노이즈 상태에서 거꾸로 노이즈를 제거하는 과정을 학습한 신경망(주로 U-Net 아키텍처)을 이용해 원본 이미지를 복원하는 역확산 과정이다. 생성 시에는 무작위 노이즈에서 시작하여 학습된 역확산 과정을 반복적으로 수행함으로써 새로운 이미지를 생성한다.[5] 생성적 적대 신경망보다 생성 속도는 느리지만, 학습이 안정적이고 텍스트 프롬프트(조건)를 반영하여 고품질의 다양한 이미지를 생성하는 데 강점이 있다.
Remove ads
거대 언어 모델과의 관계
거대 언어 모델은 생성형 인공지능의 가장 대표적이고 영향력 있는 하위 분야이다. 거대 언어 모델은 이름에서 알 수 있듯 트랜스포머 아키텍처를 기반으로 방대한 양의 텍스트 말뭉치를 학습한, 언어에 특화된 생성형 인공지능이다. 또한 거대 언어 모델은 프롬프트에 응답하여 새로운 텍스트(문장, 기사, 코드, 대화)를 만들어내기 때문에 생성형이다. ChatGPT, Gemini, Claude 등은 모두 거대 언어 모델에 속한다. 따라서 모든 거대 언어 모델은 생성형 인공지능이라고 할 수 있지만, 모든 생성형 인공지능이 거대 언어 모델인 것은 아니다. 예를 들어 Stable Diffusion은 이미지를 생성하므로 거대 언어 모델이 아니다.
활용 분야
요약
관점
생성형 인공지능은 창의적인 작업부터 과학적 발견에 이르기까지 사회 전반에 걸쳐 빠르게 확산되고 있다.
텍스트 및 언어
가장 보편화된 분야로, 거대 언어 모델이 중심이 된다. ChatGPT, Gemini 등은 사용자의 질문에 답하고 대화를 이어가는 대화형 챗봇 및 가상 비서로 활용된다. 또한 기사, 블로그 포스트, 마케팅 문구, 소설 등의 초안을 작성하거나 긴 문서를 요약하는 콘텐츠 작성 및 요약 기능에도 사용된다. GitHub Copilot, Amazon CodeWhisperer 등은 자연어 주석을 소스 코드로 변환하거나 코드의 오류를 찾는 프로그래밍 및 코드 생성 도구로 활용된다. 나아가 문맥을 깊이 이해하여 기존 신경망 기반 기계 번역보다 훨씬 자연스러운 기계 번역을 제공한다.
이미지 및 시각 예술
텍스트 프롬프트를 시각적 결과물로 변환하는 텍스트-투-이미지 기술이 주를 이룬다. Midjourney, DALL-E, Stable diffusion 등은 디자이너와 예술가들이 아이디어를 빠르게 시각화하는 콘셉트 아트 및 디자인 시안 제작 도구로 사용된다. 또한 이미지의 특정 부분을 자연스럽게 수정하거나 원본 이미지 바깥 영역을 생성하여 확장하는 이미지 편집 및 보정 작업도 가능하다. 게임 개발이나 광고에 필요한 사실적인 가상 인물이나 배경을 생성하는 데도 활용된다.
오디오 및 음악
오디오 및 음악 분야에서는 매우 자연스럽고 감정이 실린 음성을 합성하거나 특정인의 목소리를 모방하는 음성 합성 기술이 발전하고 있다. Suno, Udio 등은 "80년대 팝 스타일의 경쾌한 노래"와 같은 프롬프트를 입력하면 작곡, 연주, 노래까지 포함된 완성된 음악을 생성하는 도구로 주목받고 있다. 이 외에도 배경 소음 제거, 음질 개선 등 오디오 편집 작업에도 사용된다.
비디오 및 3D
비교적 초기 단계이나 빠르게 발전하고 있는 분야로는 비디오 및 3D 생성이 있다. Sora, Runway 등은 텍스트 설명으로부터 고해상도의 동영상 클립을 생성하는 텍스트-투-비디오 기술을 선보이고 있다. 또한 텍스트나 2D 이미지로부터 3D 모델을 생성하여 가상 현실, 증강 현실, 게임 개발에 활용하려는 연구가 진행 중이다.
과학 및 공학
생성형 인공지능은 과학 및 공학 분야에서도 혁신을 주도하고 있다. 구글 딥마인드의 AlphaFold는 단백질 구조 예측에 혁명을 일으켰으며,[7] 생성형 모델은 새로운 약물 분자 구조를 설계하거나 유전체 데이터를 분석하는 등 생명 과학 및 신약 개발에 사용된다. 또한 반도체 칩 설계 최적화, 신소재 발견, 공기역학적 설계 등 복잡한 엔지니어링 문제 해결에도 활용된다.
Remove ads
한계 및 사회적 영향
요약
관점
생성형 인공지능은 강력한 잠재력과 동시에 복잡한 기술적 한계와 윤리적, 사회적 쟁점을 안고 있다.
기술적 한계
기술적 한계로는 여러 가지가 지적된다. 가장 심각한 문제 중 하나는 환각으로, AI가 학습한 데이터를 기반으로 그럴듯하지만 사실이 아니거나 맥락에 맞지 않는 허위 정보를 자신 있게 생성하는 현상이다.[8] 또한 사용자의 의도를 정확히 반영하거나 생성물의 미묘한 뉘앙스와 스타일을 세밀하게 제어하기 어려운 문제도 있다. 모델이 특정 시점까지의 데이터로 학습하기 때문에 그 이후의 최신 정보를 알지 못하는 지식의 한계 역시 존재한다. 마지막으로, 거대 언어 모델과 같은 대규모 모델을 학습하고 운영(추론)하는 데에는 막대한 컴퓨팅 자원과 전력이 소모되는 높은 비용 문제가 있다.[9]
윤리적 및 사회적 쟁점
생성형 인공지능의 발전은 여러 윤리적, 사회적 쟁점을 동반한다. 첫째, 저작권 및 지적 재산권 문제가 크다. 인터넷의 방대한 데이터를 웹 스크레이핑하여 학습하는 과정에서 저작권이 있는 글, 이미지, 코드를 무단으로 사용했는지 여부가 법적 쟁점이 되고 있으며(예: 게티이미지, 뉴욕 타임스 등의 소송), AI가 생성한 결과물의 저작권을 누구에게 귀속할 것인지(AI, AI 개발사, 사용자)에 대한 법적 기준도 모호하다.[10]
둘째, 편향성 및 공정성 문제가 있다. 학습 데이터에 내재된 인종, 성별, 문화적 편견을 AI가 그대로 학습하고 증폭시킬 수 있으며, 이로 인해 특정 집단에 대한 차별적인 결과물을 생성할 위험이 있다.[11] 또한 많은 주요 생성형 인공지능 모델이 영어 중심의 데이터로 주로 학습되고, 인간 피드백을 통한 강화 학습과 같은 교정 작업 역시 영어를 중심으로 이루어지는 경우가 많아, 상대적으로 데이터가 적은 여타 언어에서는 성능이 저하되거나 언어적, 문화적 편향이 더 두드러지게 나타나는 문제가 있다.[12]
셋째, 기술의 악용 및 가짜 뉴스 전파 가능성이 심각한 우려를 낳고 있다. 특정 인물의 얼굴과 목소리를 위조하는 딥페이크 기술은 가짜 뉴스, 포르노그래피, 선거 개입, 피싱 사기에 악용될 수 있다. 또한 설득력 있는 가짜 기사, 소셜 미디어 게시글, 스팸 메일을 대량으로 자동 생성하여 사회적 혼란을 야기할 수 있으며, 사이버 보안 지식이 없는 사람도 AI를 이용해 해킹 도구나 악성 코드를 쉽게 만들 수 있다.
넷째, 노동 시장 및 교육 현장에서의 즉각적인 변화가 나타나고 있다. 많은 기업에서는 생성형 AI를 업무 보조 도구로 도입하여 생산성을 높이는 '병행 사용'을 장려하는 한편, 일부 기업에서는 지적 재산권 침해나 기업 비밀 유출을 우려하여 내부망에서의 사용을 금지하는 등 상반된 대응을 보이고 있다.[13] 학습 현장에서도 이와 유사한 논쟁이 발생하고 있다. 일부 교육 기관에서는 학생들이 AI에 의존하여 비판적 사고 능력이 저하되거나 표절 문제가 발생할 것을 우려해 사용을 금지하는 반면, 다른 기관에서는 AI를 보조 교사나 학습 도구로 활용하는 병행 사용 지침을 마련하며 새로운 교육 방법을 모색하고 있다.[14] 이러한 적응 과정과 별개로, 장기적으로는 그래픽 디자이너, 작가, 번역가, 프로그래머 등 지식 기반 및 창작 분야 전문직의 일자리를 AI가 대체하거나 보조하게 되면서, 대규모 실업과 직무 재편에 대한 우려가 커지고 있다.[15]
다섯째, 환경 문제 또한 제기된다. 대규모 모델을 훈련하는 과정에서 발생하는 막대한 탄소 발자국이 기후 변화를 가속화할 수 있다는 비판이 있다.[9]
Remove ads
각주
같이 보기
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
