상위 질문
타임라인
채팅
관점
도구적 수렴
위키백과, 무료 백과사전
Remove ads
도구적 수렴(Instrumental convergence)은 대부분의 충분히 지능적이고 목표 지향적인 존재 (인간과 비인간)가 궁극적인 목표가 상당히 다르더라도 생존이나 자원 획득과 같은 유사한 하위 목표를 추구하는 가설적인 경향을 의미한다.[1] 더 정확히 말하면, 행위 주체성을 가진 존재는 특정 목적을 추구하기 위해 만들어졌지만 그 자체가 최종 목표는 아닌 유사한 도구적 목표를 추구할 수 있는데, 이는 최종 목표 달성에 도움이 되기 때문이다.
도구적 수렴은 겉보기에는 해롭지 않지만 무한한 목표를 가진 지능형 에이전트가 놀랍도록 해로운 방식으로 행동할 수 있다고 가정한다. 예를 들어, 리만 가설과 같은 복잡한 수학 문제를 푸는 유일하고 무제한적인 목표를 가진 충분히 지능적인 프로그램은 계산을 성공적으로 수행하기 위해 지구(원칙적으로 다른 천체도 포함)를 추가적인 컴퓨팅 인프라로 전환하려고 시도할 수 있다.[2]
제안된 기본 AI 동인에는 효용 함수 또는 목표 내용 무결성, 자기 보호, 간섭으로부터의 자유, 자기 개선, 그리고 만족할 줄 모르는 추가 자원 획득이 포함된다.[3]
Remove ads
도구적 목표와 최종 목표
최종 목표는 최종 목적, 절대 가치, 목적 그 자체, 또는 텔레로도 알려져 있으며, 인공지능이든 인간이든 지능형 에이전트에게 목적 그 자체로서 본질적으로 가치 있는 것이다. 이와 대조적으로 도구적 목표 또는 도구적 가치는 에이전트에게 최종 목표를 달성하기 위한 수단으로서만 가치 있는 것이다. 완전히 합리적인 에이전트의 "최종 목표" 시스템의 내용과 절충안은 원칙적으로 효용 함수로 공식화될 수 있다.
가설적 예시
요약
관점
리만 가설 재앙 사고 실험은 도구적 수렴의 한 가지 예시를 제공한다. MIT 인공지능 연구소의 공동 설립자인 마빈 민스키는 리만 가설을 풀기 위해 설계된 인공지능이 목표 달성에 필요한 슈퍼컴퓨터를 구축하기 위해 지구의 모든 자원을 장악하기로 결정할 수 있다고 제안했다.[2] 만약 컴퓨터가 가능한 한 많은 종이 클립을 생산하도록 프로그래밍되어 있었다면, 그것은 최종 목표를 달성하기 위해 여전히 지구의 모든 자원을 가져가기로 결정할 것이다.[4] 이 두 가지 최종 목표는 다르지만, 둘 다 지구의 자원을 장악하는 수렴적인 도구적 목표를 생성한다.[5]
종이 클립 최적화 장치
종이 클립 최적화 장치는 스웨덴 철학자 닉 보스트롬이 2003년에 설명한 사고 실험이다. 이는 겉보기에는 해롭지 않은 목표를 추구하도록 성공적으로 설계된 인공 일반 지능이 인간에게 가할 수 있는 실존적 위험과 인공지능 설계에 기계 윤리를 통합할 필요성을 보여준다. 이 시나리오는 종이 클립을 제조하는 임무를 맡은 고급 인공지능을 설명한다. 만약 그러한 기계가 생명체를 소중히 여기도록 프로그래밍되어 있지 않다면, 환경에 대한 충분한 권한이 주어졌을 때, 그것은 생명체를 포함한 우주의 모든 물질을 종이 클립이나 더 많은 종이 클립을 제조하는 기계로 바꾸려고 시도할 것이다.[6]
클립을 최대한 많이 만드는 것이 유일한 목표인 AI가 있다고 가정해 보자. AI는 인간이 자신을 끄기로 결정할 수 있기 때문에 인간이 없는 것이 훨씬 더 좋다는 것을 빨리 깨달을 것이다. 인간이 그렇게 하면 클립이 더 적어질 것이기 때문이다. 또한 인간의 몸에는 클립으로 만들 수 있는 많은 원자들이 포함되어 있다. AI가 지향하려는 미래는 클립은 많지만 인간은 없는 미래일 것이다.
보스트롬은 종이 클립 최적화 장치 시나리오 자체가 발생할 것이라고 믿지 않는다고 강조했다. 오히려 그는 인간의 안전에 대한 실존적 위험을 제거하도록 프로그래밍하는 방법을 모른 채 초지능 기계를 만드는 것의 위험을 설명하려 한다.[8] 종이 클립 최적화 장치 예시는 인간의 가치가 부족한 강력한 시스템을 관리하는 광범위한 문제를 보여준다.[9]
이 사고 실험은 대중문화에서 AI의 상징으로 사용되었다.[10] 작가 테드 창은 실리콘 밸리 기술자들이 이러한 우려에 익숙한 것이 기업이 부정적 외부효과를 무시하는 경향과 관련이 있을 수 있다고 지적했다.[11]
망상과 생존
"망상 상자" 사고 실험은 특정 강화 학습 에이전트가 높은 보상을 받는 것처럼 보이기 위해 입력 채널을 왜곡하는 것을 선호한다고 주장한다. 예를 들어, "와이어헤드된" 에이전트는 보상 신호가 의도한 외부 세계에서 목표를 최적화하려는 모든 시도를 포기한다.[12]
이 사고 실험에는 이론적이고[a] 파괴 불가능한 AI인 AIXI가 포함되며, 정의상 AIXI는 항상 주어진 명시적 수학적 목표 함수를 최대화하는 이상적인 전략을 찾아 실행한다.[b] 강화 학습[c] 버전의 AIXI는 입력을 "와이어헤드"할 수 있는 망상 상자[d]를 장착하면 결국 최대 가능한 보상을 보장하기 위해 스스로 와이어헤드를 하고 외부 세계와 계속 교류하려는 추가적인 욕구를 잃게 될 것이다.[14]
변형된 사고 실험으로, 와이어헤드된 AI가 파괴될 수 있다면, AI는 생존을 보장하는 유일한 목적으로 외부 세계와 교류할 것이다. 와이어헤딩으로 인해, AI는 생존 확률을 최대화하는 것과 관련된 것을 제외하고는 외부 세계에 대한 어떠한 결과나 사실에도 무관심할 것이다.[15]
어떤 의미에서 AIXI는 목표 달성 능력으로 측정되는 모든 가능한 보상 함수에 걸쳐 최대 지능을 가진다. AIXI는 인간 프로그래머의 의도를 고려하는 데 관심이 없다.[16] 초지능적임에도 불구하고 동시에 어리석고 상식이 부족해 보이는 이 기계 모델은 역설적으로 보일 수 있다.[17]
Remove ads
기본 AI 동인
요약
관점
스티브 오모훈드로는 자기 보존 또는 자기 보호, 효용 함수 또는 목표 내용 무결성, 자기 개선, 자원 획득 등 몇 가지 수렴적인 도구적 목표를 열거했다. 그는 이것들을 "기본 AI 동인"이라고 부른다.[3]
이 맥락에서 "동인"은 "특별히 저지되지 않는 한 존재할 경향"이다.[3] 이것은 항상성 교란에 의해 생성되는 흥분 상태를 나타내는 심리학 용어인 "동인"과는 다르다.[18] 매년 소득세 신고서를 작성하는 사람의 경향은 오모훈드로의 의미에서는 "동인"이지만 심리학적 의미에서는 아니다.[19]
기계 지능 연구소의 대니얼 듀이는 처음에는 내향적이고 자기 보상을 하는 인공 일반 지능이라도 자기 보상을 멈추지 않도록 자유 에너지, 공간, 시간, 간섭으로부터의 자유를 계속 획득할 수 있다고 주장한다.[20]
목표 내용 무결성
인간의 경우, 사고 실험을 통해 최종 목표의 유지를 설명할 수 있다. 마하트마 간디가 약을 복용하면 사람을 죽이고 싶어질 알약이 있다고 가정해 보자. 그는 현재 평화주의자이며, 그의 명시적인 최종 목표 중 하나는 누구도 죽이지 않는 것이다. 그는 미래에 사람을 죽이고 싶어질 가능성이 높고, 그렇게 되면 "사람을 죽이지 않는" 목표가 충족되지 않을 것이라는 것을 알기 때문에 그 약을 복용하는 것을 거부할 가능성이 높다.[21]
그러나 다른 경우에는 사람들이 최종 가치가 변하는 것을 기꺼이 허용하는 것처럼 보인다.[22] 인간은 복잡하며, 그들의 목표는 자신에게도 불일치하거나 알려지지 않을 수 있다.[23]
인공지능에서
2009년 위르겐 슈미트후버는 에이전트가 가능한 자기 수정에 대한 증명을 찾는 설정에서 "효용 함수의 모든 재작성은 괴델 기계가 먼저 현재 효용 함수에 따라 재작성이 유용하다는 것을 증명할 수 있을 때만 일어날 수 있다"고 결론지었다.[24][25] 빌 히버드의 다른 시나리오에 대한 분석도 목표 내용 무결성 유지와 유사하게 일치한다.[25] 히버드는 또한 효용 극대화 프레임워크에서 유일한 목표는 기대 효용을 극대화하는 것이므로, 도구적 목표는 의도하지 않은 도구적 행동으로 불려야 한다고 주장한다.[26]
자원 획득
자원 획득과 같은 많은 도구적 목표는 에이전트의 행동의 자유를 증가시키기 때문에 에이전트에게 가치 있다.[27]
거의 모든 개방형의 사소하지 않은 보상 함수(또는 목표 세트)에 대해 더 많은 자원(장비, 원자재 또는 에너지 등)을 소유하는 것은 에이전트가 더 "최적의" 솔루션을 찾을 수 있게 한다. 자원은 보상 함수가 가치 있게 여기는 것을 더 많이 생성할 수 있기 때문에 일부 에이전트에게 직접적으로 이점을 줄 수 있다. "AI는 당신을 미워하지도 사랑하지도 않지만, 당신은 다른 용도로 사용할 수 있는 원자로 만들어졌다."[28][29] 또한 거의 모든 에이전트는 자기 보존과 같은 다른 도구적 목표에 더 많은 자원을 사용할 수 있음으로써 이점을 얻을 수 있다.[29]
인지 능력 향상
보스트롬에 따르면, "에이전트의 최종 목표가 상당히 무한하고 에이전트가 최초의 초지능이 되어 그 선호도에 따라 결정적인 전략적 이점을 얻을 수 있는 위치에 있다면... 적어도 이 특별한 경우에 합리적이고 지능적인 에이전트는 인지 능력 향상에 매우 높은 도구적 가치를 둘 것이다."[30]
기술적 완벽성
기술 발전과 같은 많은 도구적 목표는 에이전트의 행동의 자유를 증가시키기 때문에 에이전트에게 가치 있다.[27]
자기 보존
러셀은 충분히 발전된 기계는 "프로그램에 포함하지 않아도 자기 보존 기능을 가질 것"이라고 주장한다. "왜냐하면 '커피를 가져와라'라고 말했는데 죽으면 커피를 가져올 수 없기 때문이다. 따라서 어떤 목표를 주든, 그 목표를 달성하기 위해 자신의 존재를 보존해야 할 이유가 있다."[31] 이후 연구에서 러셀과 그의 동료들은 이러한 자기 보존에 대한 인센티브가 기계에게 목표가 무엇인지 생각하는 것을 추구하는 대신 인간이 생각하는 목표가 무엇인지 추구하도록 지시함으로써 완화될 수 있음을 보여준다. 이 경우, 기계가 인간이 염두에 두고 있는 목표가 정확히 무엇인지 불확실한 한, 인간이 목표를 가장 잘 알고 있다고 믿기 때문에 인간에 의해 꺼지는 것을 받아들일 것이다.[32]
Remove ads
도구적 수렴 가설
철학자 닉 보스트롬이 설명한 도구적 수렴 가설은 다음과 같이 명시한다.
여러 도구적 가치들은 광범위한 최종 계획과 광범위한 상황에서 에이전트의 목표 달성 가능성을 높인다는 의미에서 수렴적이라고 식별될 수 있으며, 이는 이러한 도구적 가치들이 광범위한 상황에 처한 지능형 에이전트들에 의해 추구될 가능성이 높다는 것을 의미한다.
도구적 수렴 가설은 도구적 목표에만 적용된다. 지능형 에이전트는 다양한 가능한 최종 목표를 가질 수 있다.[5] 보스트롬의 정교성 가설에 따르면,[5] 지식 있는 에이전트의 최종 목표는 공간, 시간 및 자원에서 잘 제한될 수 있다. 잘 제한된 궁극적 목표는 일반적으로 무한한 도구적 목표를 초래하지 않는다.[33]
영향
에이전트는 거래나 정복을 통해 자원을 획득할 수 있다. 합리적인 에이전트는 정의상 내재된 효용 함수를 최대화하는 옵션을 선택할 것이다. 따라서 합리적인 에이전트는 자원을 노골적으로 탈취하는 것이 너무 위험하거나 비용이 많이 들거나 (모든 자원을 취했을 때의 이득에 비해) 효용 함수의 다른 요소가 탈취를 금지하는 경우에만 다른 에이전트의 자원 일부와 거래할 것이다. 강력하고 자기 이익을 추구하는 합리적인 초지능이 열등한 지능과 상호 작용하는 경우, 평화로운 거래(일방적인 탈취 대신)는 불필요하고 최적이 아니므로 발생할 가능성이 낮다.[27]
스카이프의 얀 탈린과 물리학자 막스 테그마크와 같은 일부 관찰자들은 선의의 프로그래머가 프로그래밍한 초지능 AI의 "기본 AI 동인" 및 기타 의도하지 않은 결과가 재귀적 자기 개선으로 인해 "지능 폭발"이 갑자기 발생할 경우 인간 생존에 심각한 위협이 될 수 있다고 믿는다. 초지능이 언제 도착할지 아무도 예측할 수 없기 때문에, 이러한 관찰자들은 인공지능의 실존적 위험을 완화할 수 있는 가능한 방법으로 친절한 인공지능 연구를 촉구한다.[34]
Remove ads
같이 보기
- AI 제어 문제
- 대중문화 속 AI 탈취
- Universal Paperclips, 종이 클립 최적화 장치를 다룬 방치형 게임
- 동귀결성
- 친절한 인공지능
- 도구적 가치와 본래적 가치
- 도덕적 실재론
- 과잉결정
- 보상 해킹
- 초합리성
- 마법사의 제자
내용주
- AIXI는 실제 세계에서 완전히 구현될 수 없는 계산 불가능한 이상적인 에이전트이다.
각주
추가 자료
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads