操作性條件反射(英語:operant conditioning)是一種由刺激引起的行為改變的過程與方法,又稱為工具性條件反射(instrumental conditioning)或工具學習。操作性條件反射與經典條件反射(classic conditioning)有所不同,操作性條件反射的行為是個體「主動」改變環境的行為,當行為得到獎勵或懲罰時出現刺激,反過來控制這種行為;而經典條件反射則是使個體被動接受刺激並產生反應的作用。
20世紀對動物學習的研究由這兩種學習的分析主導[1],它們仍然是行為分析的核心。
桑代克的效果律
操作性條件反射的第一位研究者是愛德華·桑代克(1874-1949),桑代克觀察他的貓試圖逃出他所設計的迷箱(puzzle box)的行為[2]。第一次貓花了很長時間才從箱子裏逃出。有了經驗之後,無效的行為出現頻率逐漸減少,而成功的行為出現頻率則逐漸增加,此外貓成功逃出迷箱所用的時間也越來越少。在桑代克的效果律中解釋,成功的行為產生滿足的結果,而這種結果經由經驗被「印入」(stamped in),使得成功行為的出現增加。失敗的行為則產生厭惡結果,因而被剔除(stamped out),造成失敗行為的出現頻率減少。簡單的說,某些結果能夠增強行為,而某些結果能夠減弱行為。透過繪製逃脫與試驗的曲線,他也畫出了知名動物學習曲線[3]。
透過卓有成效的研究,桑代克總結了「試誤說」的三大定律:
- 效果律[4]:392:試誤學習的過程中,如果其他條件相等,在學習情境作特定的反應之後能夠獲得滿意的結果時,則其聯結就會增強;而得到煩惱的結果時,其聯結就會削弱。
- 練習律:在試誤學習的過程中,任何刺激與反應的聯結,一旦練習運用,其聯結的力量就逐漸增大;如果不運用,則聯結的力量會逐漸減小。
- 準備律:在試誤學習的過程中,當刺激與反應之間的聯結,事前有一種準備狀態時,實現則感到滿意,否則感到煩惱;反之,當此聯結不準備實現時,實現則感到煩惱。
應該說明的是,雖然「嘗試一錯誤」學習模式是從動物實驗中抽象概括出來的,但它對於人類學習來說,仍有很大的借鑑意義。
斯金納
伯爾赫斯·弗雷德里克·斯金納(1904-1990)被稱為操作性條件反射之父,他的作品在相關主題中被頻繁引用。他1938年的著作《有機體的行為:一種實驗分析》(The Behavior of Organisms: An Experimental Analysis)[5],開啟了他對操作性條件反射及其在人類和動物行為中應用的終身研究。斯金納跟隨恩斯特·馬赫的觀點,拒絕了桑代克提到的不可觀察的心理狀態,如滿足,並在可觀察行為及其同樣可觀察的後果的基礎上進行分析。[6]
斯金納認為,經典條件反射過於簡單化,無法用來描述像人類行為一樣複雜的東西。他認為,操作性條件反射能更好地描述人類行為,因為它檢驗了有意的行為的原因和影響。
為了實施他的實證研究法,斯金納發明了操作性條件反射室(operant conditioning chamber),或「斯金納箱」,將鴿子和大鼠等受試者在隔離在內,並令其接受精密控制的刺激。與桑代克的謎箱不同,這種設計允許受試者做出一兩個簡單、可重複的反應,這種反應的比率成為斯金納的主要行為測量。[7]另一項發明,累積記錄器,能產生圖形記錄,從中可以估計出其反應比率。這些記錄是斯金納和他的同事用來探討各種增強程序反應比率的主要數據。[8]增強時間表可以定義為「根據某些明確規則向生物體提供增強的任何程序」。[9]反過來,時間表的影響成為了斯金納發展他對操作性條件反射的基本發現。 他還利用了許多不太正式的人類和動物行為觀察。[10]
斯金納的許多著作都致力於將操作性條件反射應用於人類行為。[11]1948年,他出版了《桃源二村》,這是一個圍繞他的條件反射原則組織的一個和平、快樂、高效生產的社區的想像。[12]1957年, 斯金納出版了《言語行為》[13],將操作性條件反射的原則擴展到語言,這種人類行為的形式在以前一直是由語言學家等人以完全不同的方式分析的。斯金納定義了新的功能關係,如「mands」和「tacts」來捕捉語言的一些實質,但他沒有引入任何新的原則,而是將言語行為視為和其他行為一樣的,由其結果控制的行為,其中結果包括聽眾的反應。
概念與方法
斯金納(1904-1990)以桑代克的理論作為基礎,建立了關於增強、懲罰與消弱的詳細的操作性條件反射理論,並發明了operant conditioning chamber,一個實驗箱來高度控制目標動物的學習行為。增強(reinforcement)和懲罰(punishment)兩種刺激是操作性條件反射的核心思想,另外消弱(extinction)指的是沒有產生作用的刺激。增強、懲罰或是消弱不但能夠使用在實驗室中,也能夠用來形容包括人類以外其他動物的自然環境。
斯金納所建構的操作性條件反射理論,與諾貝爾獎得主康拉德·勞倫茲所提出的固定行為型態(fixed action patterns,FAPs)或本能行為有所對比。這些斯金納所說的行為,存在外在的操作性條件反射變數,在進行行為的廣泛深入分析時是需要仔細思考的。
在狗的訓練中,利用覓食的慾望來對工作犬和偵查犬等進行訓練。這種來自於狩獵本能的固定行為型態的刺激,是產生非常困難但一致的行為的鑰匙刺激,且在大多數的例子裏,並不包括操作、古典或其他條件反射[來源請求]。在固定行為型態的演化塑造過程中,這些型態在長久的時間由於生存機制而維持穩定,也就是操作性條件反射。
根據操作性條件反射的規律,任何一個在一段時間內一致回饋的行為,將會在間歇性的對反應增強,並導致更穩定的反應速率,且對消弱有較大的抵抗力的行為更快的被消除。因此,以一隻偵查犬來說,任何對尋找指令作出的正確的行為,必須總是被以玩具或球的回饋來對反應作初始的獲取。之後則是衰減的過程,增強會被"減小",也就是並非每次的反應都被增強,使狗進入間歇性增強的行程,使牠對沒有增強的情況有更強的抵抗力。
然而,有些訓練者現在只利用狩獵慾望來訓練寵物狗,並發現效果狗對訓練的反應比只根據斯金納的操作性條件反射更好[來源請求]。顯示本能在遊戲時的支配[14]。
消弱發生時,在不間斷的執行動作之後,會導致欲消除行為確實的減少,但在短期內對象可能會產生消弱突然爆發(extinction burst),這種情形經常發生在消弱剛開始的時候。消弱突然爆發會使行為的出現頻率在短時間內暫時性的增加,之後欲消除的行為會開始減少。
舉例而言,某實驗中利用食物增強一隻鴿子敲啄按鈕的行為,每當牠敲啄按鈕,將會出現一些能吃的種子作為增強物,因此鴿子飢餓時,便會敲琢按鈕以獲得食物。然而當某一次敲啄按鈕之後食物不再出現,這隻鴿子將會再試着敲啄一次按鈕,若是食物仍未出現,牠將會一次、一次又一次的敲啄...。當這種瘋狂的行為依然無效的時候,鴿子就會減少敲啄的頻率。這種消弱突然爆發(extinction burst)行為擁有演化上的優勢,因為在自然界中,動物的行為並非絕對的附帶增強刺激,一次失敗之後,牠們有可能在多試一次之後確實得到增強。因此這些動物比起其他輕易放棄的動物更有生存優勢。
消弱-誘導變異(Extinction-induced variability)扮演類似的角色。當消弱開始,改變的並非只有行為的頻率增加,行為的改變也會反映在反應形(response topography、反應的型式)上。對象會一步一步的稍微改變他們的表現,這些改變可以包括特殊的動作、力道的大小、和行為作用時間的小小改變等等。成功的行為變化將會被保留,失敗的行為變化則會漸漸減少。在常態分佈中,水平線方向表示某行為可能的變異,垂直線方向表示某狀態下的行為出現頻率。當一個行為出現在分佈圖的中央(出現頻率最高)時,表示在此動物的經驗中,這種行為變異最能有效的產生增強刺激。
迴避學習
迴避訓練屬於一種負向增強的安排。對象經由所厭惡的刺激而終結或阻止某些反應。
Solomon和 Wynne使用Shuttle Box來實驗[15]。Shuttle Box是[16][17]一個實驗箱子分成兩個房間,其中一間地面會通電,目標要學會離開 (shuttling) 原本房間來避免電擊
這個理論來自於對辨別迴避學習的解釋,並假設有兩種過程發生。辨別迴避學習 (discriminated avoidance learning) - 新的刺激(如光線或聲音)出現之後,發生某個令人厭惡的刺激如驚嚇或電擊,兩者類似經典條件反射中的條件反射刺激(CS)和非條件反射刺激(US)。當動物表現操作反應時,各個帶有CS的US被移除。在第一次試驗(稱作逃脫試驗)中,動物會經常經驗到CS和US,表現出操作行為以終結令人厭惡的US。同時動物將學習到在CS發生的時候表現某些行為能夠使US的出現被阻止。例如Miller一個黑白雙房間實驗箱中,老鼠學懂要按制及推輪子來開啟白房間的門來逃脫至黑房間[18],這種學習被稱為辨別迴避學習。
- 恐懼的經典條件反射(classical conditioning of fear) - 在第一個訓練的試驗中,生物個體經歷了條件反射刺激(CS)和厭惡的非條件反射刺激(US)。理論假設經典條件反射透過CS與US的同時出現參與這個試驗,因為對於US自然而然的厭惡,使得CS能夠引起條件反射情緒反應(conditioned emotional reaction、CER),也就是恐懼。在經典條件反射中,CS附帶厭惡的US出現使得生物個體進行的行為被中斷。
- 產生操作反應並得到減少恐懼的增強(reinforcement of the operant response by fear-reduction) - 由於第一個過程,CS代表了厭惡的US,透過引起恐懼使本身變成一個厭惡的刺激,生物個體產生操作反應以減少這種不愉快的情緒。生物個體學習到在CS出現時進行某個反應能夠終結CS帶來的厭惡的內部反應。一個重要的觀點在於"迴避"並無法完全的描述生物個體的行為,他們不是"避開"厭惡的US;而是逃離由CS所造成的厭惡的內在狀態。
一個有關訓練動物的操作性條件反射訓練觀點是使用塑型(shaping),增強近似成功的行為,就像連鎖一樣。
- 自由-操作迴避學習 (free-operant avoidance learning)- 在這種實驗類型裏,沒有不連續的刺激被當成厭惡刺激的發生訊號使用。也就是說,厭惡刺激(如驚嚇)的表現與明確的警告刺激分開。
- safety signal hypothesis,目標不只逃避驚嚇,而是去追求安全訊號。安全訊號亦可壓抑驚嚇,從而增強新的行為,如逃走。
- Species-Specific Defense Reactions (SSDRs),指動物天生的逃脫反應。
- 認知理論,來解釋預期如何影響逃脫反應[19]。
兩種重要的時間間隔決定迴避學習的速率,
- 驚嚇-驚嚇-間隔(S-S-interval),這是成功表現驚嚇的經過時間(除非操作反應表現)
- 反應-驚嚇-間隔(R-S-interval),這是操作反應在沒有驚嚇被傳遞前的的時間長度。也就是動物在沒有驚嚇的狀態下表現操作反應的時間。
因為持續不能離開該環境,而目標降低學習其他方法的能力。影響因素有[20]:
- 動機原因,不想再學新的方法逃脫
- 想法原因,即使學其他方法也不一定能逃脫而不如不學
- 情感原因,該環境實在太痛苦
- 控制原因,目標能否有方法去終止該痛苦刺激物
- 預測原因,目標能否有方法得知痛苦刺激物來的事機
避免習得性無助,可以透過:
神經科學與操作性條件反射的關係
羅斯提·理查生(Rusty Richardson)和馬龍·德倫(Mahlon deLong)首先找出關於條件反射刺激反應的神經元[23][24]。他們發現將乙酰膽鹼釋放到大腦皮質的基底核神經元,能夠在條件反射刺激或是條件反射刺激消失的回饋之後被短暫活化。這些神經元在正向和負向增強時被活化,並且在一些皮質區域產生突觸可塑性[25]。
證據並顯示多巴胺(dopamine)也同時被活化。多巴胺通道只有正向回饋,非造成厭惡的增強,且在額葉皮質區域有較高的濃度。有所不同的膽鹼(cholinergic)投射(projections)則在後葉,如視覺皮質區,也有作用濃度。
延伸閱讀
- 斯金納(1938). 生物個體的行為:實驗分析. Acton, MA: Copley.
- 斯金納(1953). 科學和人類行為紐約. Macmillan.
- 斯金納(1957). Verbal行為Englewood Cliffs, NJ: Prentice Hall.
- 桑代克(1901).動物智力:動物聯結過程實驗研究,Psychological Review Monograph Supplement, 2, 1-109.
- Keller and Marian Breland (1961), "生物個體的不當行為" 美國心理學家.
參見
參考文獻
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.