热门问题
时间线
聊天
视角

人工智慧的進展

来自维基百科,自由的百科全书

人工智能的进展
Remove ads

人工智慧的進展是指人工智慧領域隨著時間的推移所取得的進步、里程碑和突破。人工智慧是計算機科學領域的一個多學科分支,旨在創建能夠代替人類執行任務的機器和系統。人工智慧技術已廣泛應用於醫療診斷、金融領域、機器人操控、法律、科學探索、電子遊戲和玩具等領域。然而,許多人工智慧應用程式並不被視為人工智慧:「許多尖端人工智慧已經應用到通用應用程式中,但通常會被稱為人工智慧,因為一旦這項技術廣泛應用,它就不再被成為人工智慧了。」 [1] [2] 「這種現象使得許多人工智慧技術已經應用到各行業的基礎設施中,成為日常生活的一部分。」 [3]在20世紀90年代末至21世紀初,人工智慧技術被廣泛應用於各種大型系統中, [3] [4]但當時該領域並未因這些成功而受到足夠的讚譽和認可。

Thumb
圖片-機器分類進展
每年人工智慧的錯誤率紅線-受訓人員在特定任務上的錯誤率。

卡普蘭和 亨萊因按將人工智慧分為三個演進階段:1)狹義人工智慧——僅將人工智慧應用於特定任務; 2)通用人工智慧——將人工智慧應用於多個領域,並能夠自主解決甚至未曾設計過的問題; 3)超級人工智慧——將人工智慧應用於任何具備科學創造力社交技能和綜合智慧的領域。 [2]

為了與人類表現進行比較,人工智慧可以在具體而清晰定義的問題上進行評估。此類測試被稱為主題專家圖靈測試。此外,通過解決較小的問題,人工智慧可以實現更清晰的目標,且取得了越來越多的好成績。

人類在所有方面的表現仍然遠遠優於GPT-4和在ConceptARC基準上訓練的模型,這些模型在大多數方面的得分為60%,其中一個類別為77%,而人類在所有方面的得分為91%,其中一個類別為97%。 [5]

Remove ads

當前表現

更多資訊 遊戲名稱, 冠軍年份[6] ...

有許多有用的能力可以被歸類為展示某種形式的智能。這為我們更好地了解人工智慧在不同領域中的相對成功提供了更多見解。

人工智慧就像電力或蒸汽機中的熱能一樣,是一種通用技術。對於人工智慧擅長哪些任務,目前還沒有達成共識。 [15]莫拉維克悖論的某些版本寫到,人類更有可能在生理靈活性方面等直接成為自然選擇目標的領域,勝過機器。 [16]儘管AlphaZero等項目已經成功地從零開始生成自己的知識,但許多其他機器學習項目仍然需要大量的數據集訓練 [17] [18]研究人員吳恩達(Andrew Ng)表示,作為「高度不完美的經驗法則」,「幾乎任何人類只需不到一秒鐘的思維就能完成的事情,我們現在或在不久的將來可能可以通過人工智慧實現自動化。」 [19]

遊戲為評估進度提供了一個高基準;許多遊戲都擁有龐大的職業玩家群體和成熟的競技評級系統。2016年,Deep Mind公司的AlphaGo擊敗世界頂級職業圍棋選手李世乭,證明了人工智慧在圍棋比賽中的競爭優勢,從而結束了傳統棋類遊戲基準的時代。[20]在信息不對稱的遊戲中,人工智慧在博弈論領域面臨新的挑戰;這一領域最顯著的里程碑之一是冷撲大師在2017年的撲克比賽中取得勝利。[21] [22]電子競技繼續為評估人工智慧進展提供額外的基準; Facebook AI、 DeepMind和其他公司已經涉足備受歡迎的《星際爭霸》視頻遊戲系列。 [23] [24]

人工智慧測試的結果有以下幾種:

  • 表現最佳:表現達到理論最優,無法繼續提升(注意:其中一些條目可能是由人類解決的)
  • 表現超越人類:表現優於所有人類
  • 表現優於人類:表現優於大多數人類
  • 表現接近於人類:表現與大多數人類相似
  • 表現低於人類:表現比大多數人差
Remove ads

表現最佳

  • 井字遊戲 [來源請求]
  • 四子棋:(1988年)
  • 跳棋(又名 8x8 跳棋):弱解 (2007年) [25]
  • 魔方:大部分已解決 (2010年) [26]
  • 一對一限注德州撲克:這種策略在統計學上表現出色,即「在有限的人類壽命內,無法通過有限的人類遊戲經驗來確定它是否是一個確切的解決方案」(2015年) [27]

表現超越人類

表現優於人類

表現接近於人類

表現低於人類

  • 識別印刷文本的光學字符識別(接近人類對於拉丁字母書寫文本的能力)
  • 目標識別 [來源請求]
  • 可能需要機器人硬體和人工智慧方面的進步的各種機器人任務,包括:
    • 穩定的雙足運動:雙足機器人可以行走,但穩定性不如人類步行者(截至 2017 年) [60]
    • 仿人足球機器人[61]
  • 語音識別:「幾乎等同於人類表現的水平」(2017年) [62]
  • 解釋能力。當前的醫療系統能夠診斷某些疾病,但無法向用戶解釋他們為何做出這樣的診斷。 [63]
  • 流體智力多項測試(2020年) [58]
  • 邦加德視覺認知問題,例如邦加德-洛高基準(2020年) [58] [64]
  • 視覺常識推理 (VCR) 基準(截至 2020 年) [56]
  • 股市預測:使用機器學習算法進行金融數據收集和處理
  • 憤怒的小鳥》視頻遊戲(截至 2020 年)[65]
  • 在沒有上下文知識的情況下難以解決的各種任務,包括:
Remove ads

人工智慧提議性測試

在艾倫·圖靈的著名圖靈測試中,他選擇了語言作為測試的基礎,因為語言是人類的定義特徵。 而如今人們認為圖靈測試容易被操縱,不再是一個有意義的基準。 [66]

費根鮑姆測試由專家系統的發明者提出,測試機器對特定主題的知識和專業知識的學習程度。 [67]微軟的吉姆·格雷在 2003 年發表的一篇論文中建議將圖靈測試擴展到語音理解對話以及物體識別和行為識別這些方面。 [68]

提出的「通用智能」測試旨在比較機器、人類甚至非人類動物在儘可能通用的問題集上的表現。在極端情況下,這個測試可能包含每個可能的問題,按照科爾莫哥羅夫複雜度進行加權;然而,這些問題集往往以有限的模式匹配練習為主,其中經過調整的人工智慧可以輕鬆超過人類的表現。 [69] [70] [71] [72] [73]

考試表現

根據OpenAI 的數據,2023 年ChatGPT GPT-4在統一律師考試中得到的分數高於90%的考生。在美國學業測試考試中,GPT-4 在數學方面的得分高於89%的考生,在閱讀和寫作方面得分高於 93%的考生。在美國研究生入學考試中,它的寫作測試得分高於 54%的考生,數學測試得分高於 88%的考生,口語部分得分高於 99%的考生。在 2020 年美國生物奧林匹克半決賽中,它的得分達到最高。它還在多項大學預科課程考試中獲得了滿分「5」分的好成績。 [74]

獨立研究人員在2023年發現,ChatGPT GPT-3.5美國醫師執照考試的需要通過的三個測試中將將及格。 GPT-3.5還在明尼蘇達大學四門法學院課程的考試中剛剛達到及格標準。 [74] 而GPT-4通過了通過文本材料進行評估的模擬醫學情景考試。 [75] [76]

比賽情況

許多競賽和獎項,例如圖像資料庫挑戰賽,促進了人工智慧領域的研究。競賽的最常見領域包括通用機器智能、對話、數據挖掘、機器人汽車以及傳統遊戲。 [77]

歷史和當前的預測

2016年左右,由人類未來研究所的卡佳·格雷斯及其同事進行的一項專家民意調查顯示, 人工智慧成為《憤怒的小鳥》遊戲冠軍的所需的中值預計時間為3年,成為世界撲克系列賽冠軍需要4年, 而成為《星際爭霸》遊戲冠軍則需要 6 年。在更為主觀的任務方面,該調查還顯示,人工智慧估計需要6年才能在疊衣服工作上達到人類的工作水平,能夠專業回答「容易在谷歌上找到答案的問題」需要7-10年,完成普通語音轉錄任務需要8年,在完成普通電話銀行任務上想要達到人類水平則需要9年,而進行專業創作歌曲需要11年。此外,如果想要寫一本《紐約時報》暢銷書或贏得普特南數學競賽,人工智慧則需要30年以上的時間。[78] [79] [80]

在西洋棋項目上的表現

Thumb
計算機歷史博物館的深藍計算機

1988 年,人工智慧首次在常規錦標賽中擊敗了特級大師;隨後更名為「深藍」 ,並於 1997 年擊敗了當時世界西洋棋冠軍加里·卡斯帕羅夫(參見「深藍對陣加里·卡斯帕羅夫」)。 [81]

更多資訊 預測的時間, 預測到來時間 ...

在圍棋項目上的表現

阿爾法狗於 2015 年 10 月擊敗了歐洲圍棋冠軍,並於 2016 年 3 月擊敗了世界頂級棋手之一李世乭(參見AlphaGo李世乭)。據《科學美國人》和其他消息稱,多數觀察者曾預計要等至少十年才能見到超越人類水平的計算機圍棋表現。 [84] [85] [86]

更多資訊 預測的時間, 預測到來時間 ...

達到人類水平的通用人工智慧(AGI)

人工智慧先驅和經濟學家赫伯特·A·西蒙 (Herbert A. Simon)在 1965 年錯誤地預測到:「二十年內,機器將能夠完成人類能做的任何工作」。馬文·明斯基 (Marvin Minsky)在 1970 年也曾寫道:「在20-30年之內……創造人工智慧的問題將得到實質性解決。」 [92]

2012年和2013年進行的四項民意調查顯示,專家對通用人工智慧何時到來的平均估計為2040年至2050年,這具體取決於不同的民意調查。 [93] [94]

根據2016年左右的格雷斯民意調查顯示,結果因不同的提問方式而異。那些被問及「在不受幫助的情況下,機器何時能夠比人類更好、更便宜地完成每項任務」給出的中值答案為45年,其中有10%人認為這個情況的可能在9年內發生。其他受訪者被問及「何時所有職業都能夠實現完全自動化。也就是說,對於任何職業,機器都可以更好、性價比更好地執行任務」給出的答案估計中值為122年,其中有10%的人認為這個情況的可能在20年內發生。 對於「人工智慧研究員」何時能夠完全自動化的中值回答約為90年。雖然並未發現專業度和樂觀主義之間的聯繫,但亞洲研究員的平均樂觀主義值要比北美研究員高得多;亞洲人平均預測「完成每項任務」需要30年,而北美人則預測需要74年。 [78] [79] [80]

更多資訊 預測的時間, 預測到來時間 ...

參見

參考資料

注釋

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads