EP04｜怎麼學習才能記得久：談四種「間歇性強化」如何幫助學習

謝伯讓

追蹤 109

作品 4

台大心理系副教授、腦與意識實驗室主持人。在《國語日報》與《泛科學》寫專欄。FB：謝伯讓的腦科學世界。科普著作：《都是大腦搞的鬼》《大腦簡史》

info

資訊

在《大腦好好玩第四季》前幾集的節目中，我們介紹到心理學家史金納的操作制約學習理論，也介紹過操作制約學習在生活中的實際應用案例。

在這集節目裡，主持人謝伯讓將要帶領聽眾探索史金納所關心的另外一個重要問題，就是在操作制約學習的過程中，我們所提供的不同回饋方式，會對學習產生怎樣的影響？

本集重點：

02:29 間歇性強化的四種類型

07:47 四種間歇性強化的生活實例

11:20 古典制約與操作制約的綜合比較

謝伯讓的腦科學世界：https://www.facebook.com/pojanghsieh

【本集節目是由鏡好聽製作播出的《大腦好好玩第四季》】

每隔週四上線全新一集

開啟小鈴鐺、按下追蹤，持續關注最新節目

製作人：余韋達

後製：劉寶苓

圖片：Shutterstock

鏡好聽全新改版上線！想聽愛聽就在鏡好聽，訂閱《鏡好聽》並下載 APP 收聽，只給你最好的聲音。

| 立即訂閱《鏡好聽》：https://www.mirrorvoice.com.tw/mirrorvoice-plus

| 免費下載《鏡好聽》APP：https://mirrormediafb.pros.is/LY67K

| 追蹤《鏡好聽》Facebook：https://facebook.com/mirrorvoice2019

| 追蹤《鏡好聽》Instagram：https://instagram.com/mirror_voice

| 合作、節目建議歡迎來信：voiceservice@mirrormedia.mg

節目內容全文：

前幾集的節目中，我們介紹了史金納的操作制約學習理論，也介紹過操作制約學習在生活中的例子，舉凡動物訓練、小孩管教、還有學生在學校的學習等等，都可以看到操作制約學習的實際應用案例。

那接下來，我們就要來看看史金納關心的另外一個重要問題，就是在操作制約學習的過程中，我們所提供的不同回饋方式，會對學習產生怎樣的影響？

首先，我們先用正向強化來當例子。我們要問的問題就是，當個體做出一個行為之後，他所得到的獎賞「次數」和「頻率」，會不會對學習產生不同的影響？更精確一點的問，就是這些獎賞的「次數」和「頻繁程度」到底要是多少，才能讓學習最有效率？

關於這個問題，史金納在實驗之後發現，有兩大類的強化方式，分別會對學習有不同的效果。這兩大類的強化方式，分別叫做「連續性強化」、以及「間歇性強化」。

「連續性強化」，英文是（continuous reinforcement），就是我們在每一次出現某個行為之後，都一定會給獎勵。史金納在實驗後發現，那這種連續性強化，基本上可以讓受試者很快就學會，但是學會之後，受試者也比較容易淡忘。

相較之下，間歇性強化（partial/intermittent reinforcement），就是在每一次出現某個行為之後，有時候給獎勵、有時候則不給獎勵。那這種間歇性強化，學習速度就會比較慢，但是學會之後，則可以記得比較久。

那接下來，我們就來看一些更明確一點的例子。首先，我們先看一下間歇性強化到底是怎麼一個間歇法。

間歇性強化，其實可以再細分成四種。第一種，就是「每隔一段固定的時間間隔」就給獎勵，我們就稱為固定間隔法。第二種，就是「不固定時間間隔」給與獎勵，我們稱之為不固定間隔法。第三種，是「每出現固定的幾次行為」就給予獎勵，我們就稱為固定比例法。第四種，則是「不固定幾次行為」就給予獎勵，我們就稱為不固定比例法。

好，那結果發現，這幾種不同的獎勵方式，都各自有不同的學習效果。比方說，當我們訓練老鼠去按壓按鍵獲取食物的時候，如果使用固定間隔法，也就是固定時間間隔一到，就會掉下食物，那這種固定間隔獎勵法的結果，就是老鼠平常不太會想要去按壓按鍵，只有等到獎勵差不多該要出現時，老鼠才會去按壓按鍵。那原因也很簡單，因為老鼠知道平常不管怎麼按，也不會掉食物，所以等時間差不多快到了再去按就好了。

而這種「固定間隔」獎勵法，如果套用在人類身上，就有點像是去山上摘水果，你只要等水果在特定時間成熟了再上山去摘就好了，水果還沒成熟之前，上山也沒有用，所以平常就不用去，等固定時間間隔到了再去即可。

再來，我們看看「不固定間隔法」。在訓練老鼠按壓按鍵的時候，如果獎勵是在不固定時間間隔出現，那由於老鼠不知道獎勵何時會來，所以只好持續的去按壓按鍵，但也由於這其中有一個不確定性，也就是老鼠不確定按了按鍵會不會有獎勵，所以整體來說，老鼠的動機會比較低一點，然後老鼠在學習過程中的總按壓次數也因此比較低。

那套用在人類身上，就有點像是因為你不知道樂透會不會中、也不知道何時會中，所以就只好經常去買，以免錯過。但又因為不是很確定會不會中，所以偶而你也可能會懶得買而停個一兩次。

再來是第三種，「固定比例法」。如果是採用「固定比例法」，老鼠的表現會如何呢？實驗發現，如果老鼠是在固定按幾次之後就會獲得獎勵的話，那老鼠就會瘋狂的一直按壓按鍵，因為老鼠會知道，只要按到一定的次數，就一定會有獎勵。在「固定比例法」的獎勵方式下，老鼠動機會很強、會一直按，然後通常在按到獎勵出現後，只會稍微休息一下，接著就繼續按下去。

那套用在人類身上，「固定比例法」就有點像是按件計酬的工作，例如接單的外送員，只要我還有體力還有能力，那我就一直做一直賺下去。賺累了休息一下，然後就繼續坐下去。

最後是第四種，「不固定比例法」。如果是使用「不固定比例法」，老鼠又會如何表現呢？實驗發現，如果老鼠不知道按壓幾次後才會掉出食物，那老鼠的按壓動機也會很強，因為他不知道按幾次之後會有獎勵，說不定再按一下就會有獎勵，所以它就會一直按。

那套用在人類身上，「不固定比例法」就有點像是吃角子老虎的機器，因為你知道應該是遲早會中，只是不知道哪一次會中，所以就會一直玩，然後期待下一次就會中獎。

總結來說，我們可以統整出兩個重點。第一個重點是，原則上來說，當採用比例法的時候，也就是依照行為次數來進行獎勵時，不管是固定比例、或不固定比例，受試者的動機都會很高，因為他們知道有付出就有報酬。所以會一直重複行為來獲得獎勵。

那相較之下，如果採用間隔法，那受試者的整體動機就會稍微低一點。

第二個重點就是，如果使用「固定」比例、或「固定」間隔法，那受試者在得到獎勵之後都會稍作休息。但是相較之下，如果採用「不固定」的比例、或「不固定」的間隔法，那受試者幾乎都不會休息，這其中的原因就在於，在「不固定」比例或「不固定」時間的獎勵下，由於受試者無法預測獎勵何時會來，所以通常不會休息。而且呢，當獎勵不再出現的時候，他們也比較不容易出現消退現象，這主要就是因為其中有一個不確定性存在，才使得他們會持續保有期望然後不斷的行動。

好，最後我們再來用不同的生活實例來總結一下這四種操作制約的強化學習。

固定間隔法，就是每隔一段固定時間給獎勵，這種方法可以讓個體產生適中的反應，然後個體在拿到獎勵之後，會出現長時間的休息，接著等到下一個獎勵時間快到時，才會再有動作。實際應用的例子，就比如像是醫院中有的時候會給病人一個按鈕來索取嗎啡止痛。這種按鈕的設計就是病人想要嗎啡的時候就按壓按鈕，但是按壓按鈕並不會馬上獲得嗎啡，而是只有每固定一段時間才會獲得嗎啡。在這種案例中，我們通常會看到病人痛的時候會一直按按鈕，但是等到獲得嗎啡後，他就暫時不會再按，即使仍然會痛，也會暫停一段時間不去按按鈕，因為他知道在間隔的時間中，按了也不會得到嗎啡，所以就等時間間隔快到了再按就好了。這就是所謂的固定間隔法。

再來，不固定間隔法，就是你不知道獎勵何時會出現，所以只好常常去檢查確認。這種方法可以讓個體產生適中且持續的反應。比方說，檢查臉書的動態牆大概就是這樣的行為。因為每次開臉書看動態牆，你無法確定會不會看到什麼有趣或重要的訊息，所以只好常常開、一直開、有事沒事就開，以免遺漏任何資訊。

再來是固定比例法，就是只要你的行為次數達到固定的數量，就會獲得獎勵，這種方式可以產生很高的動機，讓個體一直做出動作。然後獲得獎勵後，而且個體通常只會稍作休息，接著就會繼續再做出動作。實際的例子，就像是工廠中，按件計酬的工作一樣，例如每完成個包裝，就可以獲得獎勵。這種情況下，工人就會拚命做，達標獎勵後，暫時休息一下，然後就繼續。

最後是不固定比例法，就是不確定做幾次之後才會有獎勵。這種獎勵法會產生高動機。實際例子，就是賭博，因為你不知道何時會中獎，所以就一直有預期，然後會一直去持續的玩下去。

值得一提的是，上述這幾種獎勵法，在電玩領域中，可以說是被運用的最透徹的。比方說，每日登入獎勵，就是固定間隔法，因為只要固定時間每天登入，就會有獎勵。那不定期的活動，就是不固定間隔法，因為你不知道何時會出現不定活動，所以只好常常上去檢查，看看有沒有活動出現。還有，每日首勝，就是固定比例法，因為只要每完成一場，就會有一次獎勵。那最後，抽獎彩蛋，就是不固定比例法，因為抽獎彩蛋基本上就是一種賭博，讓你不知道哪一次會中，所以只好一直去嘗試。

・古典制約和操作制約的總結比較

好，現在我們已經介紹完了古典制約和操作制約，那我們就來做一個比較和總結。

首先，古典制約涉及的行為，一般來說是反應行為（respondent behavior），例如像是恐懼或是飢餓這一類的反射行為或是自動化的行為。而操作制約涉及的則是操作行為（operant behavior），例如像是一般會根據環境來做出反應的一些選擇行為。

在古典制約中，我們會把外界的中性刺激，和原本就存在的一些反應行為，這樣就有助於我們將來可以直接透過中性刺激來進行預測，讓我們可以提前做出反應。

那在操作制約學習裡面，我們則是會根據行為的結果來改變我們的行為，當結果是好的，我們就會強化該行為，當結果不好，我們則會弱化該行為。

所以總結來說，古典制約，就是某個中性刺激會不斷重複的出現在某個反應行為「之前」，在學習成功後，中性刺激就可以誘發該行為。而操作制約，則是在某個操作行為「之後」會出現獎勵或懲罰，最後就對該行為造成強化或弱化。

以上就是關於「古典制約學習」和「操作制約學習」的介紹。這兩種學習方式，是美國行為主義的核心。在50年代的美國，行為主義和制約學習可以說是當時的主流思想。當時像是史金納這些行為主義心理學家，他們都認為制約學習就是學習的一切。那也由於這樣的信念，史金納最後在從哈佛大學退休之後，也仍然不斷地在推動行為主義、並且試圖把行為主義的影響力往政治領域和社會領域去擴散。

比方說他寫過了一本著名的小說叫做（Walden Two）（中文譯名是《桃園二村》）。在書中，他就描述了一個透過制約學習而形成的一種反烏托邦社會，在書中，他探討了不少相關的哲學和倫理問題，比方說，究竟誰可以擁有這種操控社會和社群行為的權力，還有這種權力究竟該如何規範和限制等等。大家如果對這類議題有興趣的話，可以參考史金納的這本小說。

album

收錄於

看全部