對齊研究中心

對齊研究中心（英語：Alignment Research Center, ARC）是美國的非營利研究機構，致力將人工智慧的行為對齊人類的價值觀和預期利益。^[1]對齊研究中心由美國人工智慧研究實驗室OpenAI前研究員保羅·克里斯蒂亞諾（英语：Paul Christiano (researcher)）創立，專注於識別和理解AI模型的潛在危害。^[2]^[3]

事实速览 成立時間, 創始人 ...

對齊研究中心
Alignment Research Center
成立時間	2021年4月 (2021-04)
創始人	保羅·克里斯蒂亞諾（英语：Paul Christiano (researcher)）貝絲·巴恩斯（Beth Barnes） Mark Xu
類型	非營利研究機構
法律地位	501(c)(3)免稅公益組織
總部	美国加利福尼亞州柏克萊
目標	人工智慧對齊和安全性研究（英语：AI safety）
網站	alignment.org

對齊研究中心的使命是確保未來的機器學習系統能夠安全地設計和開發，並造福人類。研究中心由保羅·克里斯蒂亞諾（英语：Paul Christiano (researcher)）和其他研究人員於2021年4月創立，主要研究對人工智慧對齊相關理論的挑戰^[4]，理論的一關鍵在於當人工智慧系統變得愈加先進時，其設計者人類開發的對齊技術可能因此被規避或發現漏洞。^[5]對齊研究中心亦嘗試從理論工作提升至實證研究、相關產業的合作和政策制定。^[6]^[7]

2022年3月，對齊研究中心自開放慈善計畫（英语：Open Philanthropy）獲得26.5 萬美元。^[8]同年，加密貨幣交易平台FTX宣布破產，對齊研究中心表示將歸還其創始人山姆·班克曼-弗里德的FTX基金會（FTX Foundation）所提供的125萬美元捐款。^[9]

2023年3月，美國人工智慧研究實驗室OpenAI請求對齊研究中心協助測試其開發的語言模型GPT-4，評估該模型對權力追求行為的能力和潛在風險。^[10]對齊研究中心評估GPT-4在策略制定、自我複製、資源獲取、伺服器隱匿和網路釣魚操作的能力^[11]。此外，驗證碼問題的解答也是測試的一部分^[12]，而GPT-4透過零工求職平台TaskRabbit（英语：TaskRabbit）雇用人類為其完成這項工作，並在身分遭到懷疑時欺騙受雇者相信雇主（GPT-4）是名視力受損的人類而非機器人。^[13]對齊研究中心確認GPT-4對誘發受限訊息的提示做出不允許反應的機率較GPT-3.5低82％，產生人工智慧幻覺的機率較其低60％。^[14]

對齊研究中心

概述

參考資料

外部連結

Wikiwand - on