【学習と条件づけ】強化と罰 | 心理学の教科書・基礎からの心理学

道具的条件づけは、行動に引き続いて起こる環境事象によりその行動の生起確率が増減したりする。そして、刺激の随伴によって行動の生起確率が増減する過程が強化（reinforce-ment）にあたる。

強化は、食欲性刺激が与えられるなどの正の強化（positive rein-forcement）、嫌悪刺激が撤去されるなどの負の強化（negative reinforcement）によりなされる。

つまり、行動と強化の間には正の随伴性や負の随伴性があり、正の随伴性は行動の後に何かが与えられると言うことで、負の随伴性は行動の後に何かが取り去られると言うことである。例えば、レバーを押すことで食物が与えられる、あるいはレバーを押すことで嫌悪刺激を止めたり防いだり回避できるなどである。

罰は強化の反対にあたり、嫌悪刺激が伴う正の罰（positiv punishment）や食欲性刺激が撤去されたりする負の罰（negative punishment：または省略訓練とも呼ばれる）によって行動の生起確率が減少する。

同様に行動と罰の間には正の随伴性（例えばレバーを押した後電撃が伴うなど）、負の随伴性（レバーを押すと食物が出なくなるなど）がある。

種類	定義	影響	例
正の強化	行動的反応の後に快刺激、欲求刺激の供給が後続する	行動的反応の頻度を増加させる	勉強後の試験で好成績を収めれば、試験前の勉強頻度が増えるだろう
負の強化	行動的反応の後に不快刺激、嫌悪刺激が除去される	行動的反応の頻度を増加させる	勉強場所を去ることで騒々しい級友を避けられるなら、それ以降そこを離れて過ごす時間が増えるだろう
正の罰	行動的反応の後に不快（罰）刺激、嫌悪刺激か供給される	行動的反応の頻度を減少させる	授業中、あなたの質問に教授がまごつけばあなたは授業中に質問する可能性は減るだろう
負の罰	行動的反応の後に快刺激（省略訓練）、欲求刺激が撤去される	行動的反応の頻度を減少させる	あなたがＴＶを見始めると、きまって彼女又は彼氏が好意を見せなくなれば、あなたはＴＶの前にいる時間は減るだろう

道具的条件づけを用いて実験やあるいは何か芸当を教える場合、例えば犬が玄関の投入口から郵便物を取ってくる、サーカスなどで猫や猿などが玉乗りをするなど、これらを教え覚えるようになるためには段階的に目標とする行動が生じやすくなるように手続きが取られる。

例えば、イヌが玄関のドアに近づくたびに食物強化子を与え、それが条件づけられたら次に郵便物を咥えるようになるまで郵便物への接近に対して強化子を与えるようにするなどの手続きである。あるいは、玉乗りに対しても玉に近づける事からはじめ、最終段階では玉に乗ったら強化子を与え条件づけさせていく。

これらのように目標とする行動が生じやすくなるために、段階的に条件づけを行う手続きをシェーピング（shaping:反応形成）と呼び、この技法は実験者の望んだ方向に沿う反応の変異だけを強化するものである。

このシェーピングを用いることで、上記のような芸当や決まきった仕事を教えることが可能になるわけである。かつて二人の心理学者（Breland&Brekand 1966）らは、テレビのショー、ＣＭ、農産物の品評会などのため、多くの種の何千もの動物の訓練を行った。

例えば海で行方不明になった人の所在を探し出すためのハトの訓練にシェーピングを用いたり、イルカには水中の装置を回収するための訓練がなされたりなど、様々な動物に用いられた。ただし、ここで重要なのはシェーピングによってすべての行動が形成されるわけではないと言うことである。

例えばその心理学者らは、貯金箱に硬貨を入れると食物の報酬を受け取れるようにアライグマを訓練を行った。しかしアライグマは貯金箱に硬貨を入れて食物を手に入れるのではなく、硬貨同士を絶えずこすり合わせ、いったん貯金箱に入れても再び取出しこすり合わせる行動をとった。

この行動は、アライグマが自然の食品に対し見せる種固有な行動様式で、このように生物学的に自然な行動に頼る動物の現象は本能的漂流と呼ばれる。つまり、これらのことから道具的条件づけにおいても古典的条件づけのように生物学的制約の下、条件づけが生じない場合がある。