心理学のお勉強

学習心理学

オペラント条件付け


前回取り上げた「パブロフの犬」のようなレスポンデント条件付けは、簡単に言ってしまえば、ある刺激を手がかりとして、他の刺激の予期をする学習でした。

これに対して、今回説明する「オペラント条件付け operant conditioning」は、「これはいい!」という有益な刺激にはより積極的に、「これはやばいぞ!」という有害な刺激には、それを避けるような行動を得る学習です。

「オペラント条件付け」というカタカナ名前が少し内容をわかりにくくしているところがありますが、話としてはそんなに難しくないので、一気にここで触れてしまいましょう。

オペラント条件付けの一番最初のほうの考えに、ソーンダイクが出した「試行錯誤学習 try-and-error learning」というものがあります。この学習は、ある行動をして、好ましい結果が得られたのなら、その行動は強められ(快の法則)、その逆、好ましくない結果になったのなら、その行動は弱められる(不快の法則)というものです。そして、この一連の法則を「効果の法則 law of effect」と呼びました。

さて、オペラント条件付けです。オペラントは「働きかける」という意味を持つ「オペレート operate」という単語から作られた名詞で、つまり、「働きかけるもの」という意味。さっきの話しで言えば、「ある行動」というそのものが、結果を得るための道具、つまり、オペラント。そこで、スキナー先生はこう考えた。

動物が自発的に環境に働きかけた(operateした)結果、行動が変化する。このことを「オペラント条件付け」と呼ぼう。

オペラント条件付けのことを「道具的条件付け」と呼ぶのは、オペラントが「結果を得るための道具」なんだという、そこに着目した訳だからですね。

日常場面に置き換えて考えてみましょう。例えば、会社に勤めている人は、えてして、決まった時間にお昼を食べに出かけます。それは言ってみれば、ある機会をきっかけに行動が起きるので、この行動のことを「離散行動 discrete-operant」と呼びます。

これに対して、フリーで仕事をしている人のお昼の時間はまちまちです。下手すれば、食べないことだって、不思議はありません。いつ行動してもよい、このような行動は「自由行動 free-operant」といいます。

オペラント条件付けの要点は3つにまとめられます。一番最初で説明をした文章を読んでいただければわかると思いますが、まずは、刺激がその第1点。もうひとつは、それに対する反応。そして、それによって導かれた、結果の3つです。この3つはひっくるめて「三項随伴性 three-term contingency」といわれます。

1つ目の「刺激」によって、次の反応が左右されます。つまり、刺激によって反応が分けられます。ということで、この刺激のことを「弁別刺激 discriminative stimulus」と呼びます。そして、この弁別刺激によって、オペラント反応がコントロールされることを、「刺激性制御 stimulus control」と呼びます。当たり前ですが、レスポンデント条件付けと同じように、似たような刺激に反応する「般化」とか、それを区別する「弁別」(信号の赤、青、黄の区別なんかがそれですね)はオペラント条件付けにもありますので、押さえておきましょう。

3つ目の「結果」は、それが次の行動を起こしやすくさせるか否かという性質を持ちます。ということで、この性質のことを「強化 reinforcement」、この結果のことを「強化子 reinforcer」と言います。でもって、強化には、行動をどんどん起こしやすくさせる性質を持つ「正の強化 positive reinforcement」と、その反対の性質を持つ「負の強化 negative reinforcement」という2種類があって、それぞれ、強化子が存在します。

一般的な行動を見てみると、オペラント反応はいつも単独で起きるというものではありません。前回紹介したレスポンデント反応が組み合わさって起こることも少なくない。例えば、ガスレンジの上のやかんを取る、という行動はオペラント反応です。でも、やかんに触ったらあまりに熱くって、飛び上がったという行動は、レスポンデント反応。こういう風に、オペラント反応とレスポンデント反応は組み合わさることもあることを押さえておいてください。

ここからはこのオペラント反応の学習方法について考えてみましょう。ちなみに、この学習方法は別名、「反応形成」とも呼びます。教科書なんかで「反応形成」と書いてあったら、あ、そういうことなんだな、と思ってください。

代表例は「逐次接近法 successive approximation method」です。successiveは「連続して」、approximationは「近づく」という意味ですから、内容はそこから想像できますね。

逐次接近法を分解すると、「スモールステップの原理」というのと、「即時強化の原理」というのの2つが見えてきます。前者は、目標を決めて、そこまでをいくつかの段階に分けてやっていくということ、そして後者は、1つクリアしたらすぐに「エサ」をあげるということ。

よって、逐次接近法を簡単に言い換えれば「だんだんに、段階的に慣れさせる」ということになります。心理学でよくある動物を使った実験で言えば、「レバーに顔を向けた→エサ→レバーに近づいた→エサ→レバーに触れた→エサ→レバーを押した→エサ」という具合。

この「エサ」は、次の行動を起こしやすくさせる「強化子」なわけですが、この強化をちょっと考えてみます。

まず、動物にとってのエサそのもののように、もともとオペラント反応を強化する力を持つ出来事のことを「1次強化子 primary reinforcer」といいます。

しかし、何もかもが1次強化子なわけではありません。例えば、テストでいい点を取った時、それと同時に、先生からたっぷり褒められることがめっちゃくちゃ効く、ということがあります。

これは、褒めるということが、1次強化子として反応を強化する力はないけれども、1次強化子と一緒に対提示することで意味を持つ、「2次強化子 secondary reinforcer」であるといえます。ってことは、この2次強化子には、3次強化子があり、それには4次強化子が……という構造が作りえることが見えてきますが、この2次強化子以降については、レスポンデント条件付けによると考えられています。そして、このような強化子のことを全体として、「条件性強化子 conditioned reinfocer」といいます。

特殊な強化子もあります。例えば、現金。あれはただの紙だったり、円板だったりするものが、「食べる」とか、「買う」とか、「乗る」とか、本当に様々な行動と結びついています。つまり、この時点で現金は強化子であるといえるのですが、しかし、それは直接1次強化子である(お金がある=食べる、には必ずしもならないでしょ)とはいえませんし、だからといって、条件性強化子でもありません。なぜなら、様々な強化子(例えば、お腹が減った、傘買わなくちゃ、バス乗らなくちゃ)と結びついて、行動(例えば、お金を払って食べる、コンビニで傘買う、お金払って乗る)を引き起こすという性質があるからです。ということで、このような性質を持つ強化子のことを、「般性強化子 generally reinfocer」といいます。

般性強化子そのものには何の力もありません。お金も、そのままではただの「もの」です。それが、使うときになると、強力な力を出す。様々な強化子として働くことが出来るわけです。般性強化子はこのような性質のものであることにちょっと注意しましょう。

でもって、オペラント条件付けでは、「強化スケジュール schedule of reinforcement」というのも重要なウエイトを持ちます。

一番わかりやすいのは、反応のたびに強化子を与える「連続強化 continous reinforcement」と、時々強化子を与える「部分強化 partial reinforcement」です。オペラント反応を形成するときには、連続強化が効果的で、それを維持しようとするときは、部分強化が効果的であると考えられています。

さて、その部分強化、強化子をいつ与えるかによって、いくつかの種類に分けられます。

一つ目は、決まったタイミングでそれを与える「固定比率スケジュール schedule of fixed ratio」というの。例えば、山と積まれている仕事半分片付けたら、終わりにしよう、なんてのがこれかもしれない。

これに対して、いつ強化子を与えるかはまったく決まってない「変動比率スケジュール schedule of variable ratio」というのがあります。これは宝くじにいつ当たるか、ってのですね。

これら二つは「比率」の違いでしたが、「間隔」の違いによるものもあります。一つ目は「固定間隔スケジュール schedule of fixed interval」お給料が決まった日に振り込まれる、なんてのはこれですね。これに対して、「変動間隔スケジュール schedule of variable interval」というのは、好きな人からいつメールが来るかなあ、と待っている状況がそれに近いかもしれない。来ることはわかっているけれど、いつ来るか、その間隔は読めないわけです。

ということで、オペラント条件付けについて、長々と考えてまいりましたが、これでおしまいです。ほら、そんなに難しくなかったでしょ? つまり、自分から何かする、それがオペラントってことです。最後に、行動を消す「消去 extinction」ってのがあることを述べて、終わりにします。では!