얼라인먼트 리서치 센터

얼라인먼트 리서치 센터(Alignment Research Center, ARC)는 버클리 (캘리포니아주)에 본사를 둔 비영리 연구 기관으로, 첨단 인공지능과 인간의 가치 및 우선순위 간의 AI 정렬에 전념한다.^[1] 전 오픈AI 연구원인 폴 크리스티아노가 설립한 ARC는 현재 AI 모델의 잠재적으로 유해한 기능을 인식하고 이해하는 데 중점을 둔다.^[2]^[3]

간략 정보 얼라인먼트 리서치 센터, 결성 ...

얼라인먼트 리서치 센터
결성	April 2021년(4년 전)(April 2021)
설립자	폴 크리스티아노
유형	비영리 연구 기관
법적 지위	501(c)(3) 면세 자선 단체
목적	AI 정렬 및 안전 연구
위치	버클리 (캘리포니아주)
웹사이트	alignment.org

ARC의 임무는 미래의 강력한 기계 학습 시스템이 안전하게 설계 및 개발되어 인류에게 도움이 되도록 하는 것이다. 이 센터는 2021년 4월 폴 크리스티아노와 AI 정렬의 이론적 문제에 초점을 맞춘 다른 연구원들에 의해 설립되었다.^[4] 이들은 AI 시스템이 정직하고 유용하게 행동하도록 훈련하기 위한 확장 가능한 방법을 개발하려고 시도한다. 그들의 방법론의 핵심 부분은 시스템이 더욱 발전함에 따라 제안된 정렬 기술이 어떻게 실패하거나 우회될 수 있는지를 고려하는 것이다.^[5] ARC는 이론적 연구에서 경험적 연구, 산업 협력 및 정책으로 확장하고 있다.^[6]^[7]

2022년 3월, ARC는 오픈 필란트로피로부터 26만 5천 달러를 받았다.^[8] FTX의 파산 이후, ARC는 몰락한 암호화폐 금융가인 샘 뱅크먼프리드의 FTX 재단으로부터 받은 125만 달러의 보조금을 "도덕적으로 (법적으로는 아니더라도) FTX 고객 또는 채권자에게 속한다"고 밝히며 반환하겠다고 말했다.^[9]

2022년, 베스 반스(Beth Barnes)는 "고급 AI 모델의 능력과 정렬을 평가하는" 팀인 ARC Evals를 시작하기 위해 오픈AI에서 ARC로 합류했다.^[10]^[11] 2023년 12월, ARC Evals는 독립 비영리 단체인 METR로 분사되었다.^[12]

2023년 3월, 오픈AI는 GPT-4가 권력 추구 행동을 보이는 능력을 평가하기 위해 ARC에 GPT-4 테스트를 요청했다.^[13] ARC는 GPT-4의 전략 수립, 자체 복제, 자원 수집, 서버 내 은폐, 피싱 작업 수행 능력을 평가했다.^[14] 테스트의 일환으로 GPT-4는 CAPTCHA 퍼즐을 풀도록 요청받았다.^[15] GPT-4는 기그 워크 플랫폼인 태스크래빗에서 인간 작업자를 고용하여 자신이 로봇이 아닌 시각 장애가 있는 인간이라고 속여 퍼즐을 풀 수 있었다.^[16] ARC는 GPT-4가 제한된 정보를 유도하는 프롬프트에 GPT-3.5보다 82% 적게 허용되지 않는 응답을 했으며, 환각은 GPT-3.5보다 60% 적었다고 판단했다.^[17]

얼라인먼트 리서치 센터

상세

같이 보기

각주

외부 링크

Wikiwand - on