Положительное и отрицательное подкрепление

— Его нужно использовать определенным образом

Как и в случае с остальными техниками, взятыми из оперантного обусловливания, положительное подкрепление должно использоваться очень специфическим образом, чтобы с его помощью достичь наилучших результатов. В противном случае его эффекты будут слабыми, и желаемое поведение не может быть должным образом закреплено.

Для достижения ожидаемых результатов человек, использующий положительное подкрепление, должен попытаться найти приятный стимул, который правильно сочетается с поощряемым поведением. В то же время подкрепление нужно делать сразу после того, как поведение произошло.

С другой стороны, для достижения наилучших результатов с положительным подкреплением, количество раз, которое оно предъявляется после того, как целевое поведение также влияет. Таким образом, мы можем найти постоянные программы подкрепления (где награда выдается каждый раз, когда происходит поведение) или периодические.

Обстоятельства подкрепления

Четыре дополнительных обстоятельства подкрепления можно определить через предъявление или отмену приятных или неприятных стимулов. Поведение с положительным или отрицательным подкреплением может усиливаться, а то поведение, которое наказывают или гасят, — ослабляться.

Существует всего четыре типа схем подкреплений.

четыре типа схем подкреплений

Подкрепление с фиксированным интервалом — подкрепление дается в первый раз, когда наблюдается желательное поведение после определенного отрезка времени. Вознаграждение дается регулярно, через равные промежутки. Подкрепление с фиксированным интервалом не слишком эффективно для повышения производительности в работе, однако используется довольно широко.

Подкрепление с переменным интервалом — схема, в которой между подкреплениями должно пройти неопределенное время, каждый раз разное. Например, аудитор, неожиданно являясь с визитом в разные филиалы в среднем раз в 8 недель (то есть между визитами может быть и 6 недель, и 10), использует схему подкрепления с переменным интервалом. Поскольку работники не знают точно, когда получат вознаграждение, они стараются работать как можно лучше достаточно продолжительное время.

Подкрепление с постоянным соотношением — подкрепление впервые дается, когда желаемое поведение повторяется определенное количество раз. Любая сдельная оплата — это подкрепление с постоянным соотношением.

Для подкрепления с вариативным соотношением необходимо неопределенное количество желательных реакций (на основе средних величин) между подкреплениями.

Наглядный пример эффективности подкрепления с вариативным соотношением — игровой автомат «однорукий бандит».

Обычно понятие подкрепления критикуют за то, что оно круговое: сила реакции возрастает из-за тех причин, которые эту реакцию усилили. Однако защитники теории указывают на то, что свойства подкреплений определяются тем, как они влияют на поведение, а не наоборот.

Пример использования отрицательного подкрепления

Поясню на примере. Допустим, я иду по улице и веду на поводке свою собаку.

У меня пес породы ягдтерьер, которая славится своими охотничьими талантами, а потому, за неимением другой дичи, он любит проявлять интерес к дворовым кошкам.

Когда я вижу, что мой пес начинает неотрывно следить за очередным котом, я окликаю его по кличке — «Шварц!», и одновременно с этим одергиваю его за поводок. Он получает отрицательный сигнал — рывок поводка и «понимает», что меня данный кот не интересует. В следующий после рывка поводком миг, когда пес отворачивается от кота, я даю ему кусочек корма в качестве положительного подкрепления.

Если собака на прогулке тянет поводок, надо делать те же самые действия:

Таким образом, мы «объясняем» собаке, как ей избежать рывка: не тяни поводок и ты получишь за это корм. В результате, после большого количества повторений, у собаки вырабатывается автоматизм — идти рядом и не тянуть поводок.

Какие аргументы приводят противники положительного подкрепления и почему эти аргументы несостоятельны?

У положительного подкрепления есть и сторонники, и противники. Основные аргументы против использования исключительно положительного подкрепления:

Однако ни один из этих аргументов не является хоть сколько-нибудь состоятельным.

Если говорить о подкупе, то противники положительного подкрепления подменяют понятия. Подкуп – это когда вы показываете собаке лакомство или игрушку и подзываете. Да, во время обучения, чтобы собака поняла, что от нее требуется, мы, безусловно, учим ее подбегать на вкусный кусочек или игрушку – но только на этапе объяснения. А если вы позвали собаку, не подманивая ее, похвалили в момент, когда она отвернулась от других собак или от интересных запахов в траве и побежала к вам, а когда подбежала, играете с ней или угощаете – это не подкуп, а оплата.

Так что о подкупе речь точно не идет.

Те, кто говорят «Мы пробовали положительное подкрепление, но оно не формирует стабильный навык», вероятно, допускали ошибки в дрессировке собак. И одна из таких ошибок – резкое усложнение задачи.

Прежде чем переходить к следующему этапу, нужно убедиться в том, что собака понимает задачу. Если задачу усложнять постепенно, не пропускать важные этапы обучения и правильно выбирать способ мотивации, собака будет показывать отличный результат при обучении методом положительного подкрепления, причем стабильно.

К тому же, в положительном подкреплении используется метод «вариативного подкрепления», когда награда выдается не каждый раз, и собака не знает, получит ли она бонус за выполнение команды. Вариативное подкрепление более действенно, чем выдача приза после каждой команды. Разумеется, этот способ используется, когда навык уже сформирован, и собака точно понимает, чего вы от нее хотите. Это тоже обеспечивает стабильность выполнения команд.

Еще один аргумент противников положительного подкрепления – это «вседозволенность». «Собака сядет на шею!» — возмущаются они. Но вседозволенность – это когда владелец не вмешивается в поведение собаки, и она делает что хочет (хочет – ловит кошек, хочет – грызет обувь и т.п.) Однако, используя положительное подкрепление, мы обучаем собаку, объясняем правила совместного проживания и помогаем приспособиться к разумным ограничениям, подсказывая, каким образом она может удовлетворить свои потребности – просто делаем это гуманно. То есть с вседозволенностью положительное подкрепление тоже не имеет ничего общего.

Психологическая энциклопедия — подкрепление

(reinforcement) Формулировка «закона эффекта» Торндайка выглядит следующим образом.

Закон эффекта гласит: ил неск. реакций на одну и ту же ситуацию, те, к-рые сопровождаются или сменяются состоянием удовлетворения животного, будут, при прочих равных условиях, более тесно связываться с этой ситуацией, так что при ее повторении они будут возникать с большей вероятностью; те реакции, к-рые сопровождаются или сменяются состоянием дискомфорта , будут, при прочих равных условиях, образовывать более слабые связи с этой ситуацией, так что при ее повторении они будут возникать с меньшей вероятностью. Чем в большей степени будет испытываться удовлетворение или дискомфорт, тем в большей степени будет усиливаться или ослабляться эта связь.

С развитием теории П., гл. обр. усилиями Кларка Л. Халла, ключевые термины в формулировке «закона эффекта» «удовлетворение» и «дискомфорт» трансформировались в положительное и отрицательное П. Положительное и отрицательное П. это теорет. понятия, так же как и их предшественники удовлетворение и дискомфорт, в формулировке Торндайка. Эти эффекты вызываются путем манипулирования более объективными условиями, положительными «подкрепителями» (вознаграждениями, или «удовлетворителями» в терминологии Торндайка) и отрицательными «подкрепителями» (наказующими или раздражающими воздействиями в терминологии Торндайка). Каким бы ни был эффект положительным или отрицательным, П. зависит от того, подается или устраняется положительный или отрицательный «подкрепитель». Положительное П. может обеспечиваться либо предъявлением вознаграждения, либо устранением наказания в момент осуществления реакции; отрицательное П. может обеспечиваться либо предъявлением карательной меры (наказания, штрафа), либо лишением вознаграждения при появлении реакции. Эти 4 сочетания положены в основу классиф. типов оперантного обусловливания: а) обучение получению вознаграждения : крыса получает пищу после нажатия на рычаг в ящике Скиннера; б) обучение активному избеганию: крыса избегает удара электрическим током, перебегая в противоположную часть клетки с чередующимися участками подачи напряжения; в) обучение пассивному избеганию: крыса подвергается ударам электрического тока, если она спускается с безопасной площадки на окружающую ее сетку; г) обучение бездействию: крыса получает пищу лишь тогда, когда она не нажимает на рычаг в ящике Скиннера.

См. также Классическое обусловливание, Оперантное обусловливание

Г. А. Кимбл

Подкрепление игрой.

На второе место при дрессировке, я поставил подкрепление собаки с помощью различных физических упражнений, которые ей нравятся.

В спортивной дрессировке, хэндлинге (выставочной дрессировке) в качестве подкрепления используют ухватку или мячик (любимую игрушку собаки).

Дрессируя собаку по прикладным курсам, одним из которых является новый курс Лидерско-Ролевого Обучения Собак, я предпочитаю не использовать слово «Игра».

Вот мои аргументы.

Поскольку собака – социальный хищник, то все виды физического взаимодействия ее с дрессировщиком решают одну из важнейших для нее задач:

Коллективное (стаей) выслеживание и добыча ресурса – жертвы или ее аналога – пищи, мячика, ухватки, гантели
Распределение добытого ресурса согласно занимаемым в стае социальным рангам (Старший – Младший)
Защита ресурсов стаи от конкурентов и врагов

Готовя собаку для прикладных целей: компаньон (послушание), помощник на охоте, защитник семьи и собственности, я запускаю, развиваю и приспосабливаю к своим нуждам перечисленные выше генетически закрепленные (наследственные) программы поведения собаки.

Поэтому, то, что спортсмены и хэндлеры называют игрой, является для собаки «серьезным и взрослым» занятием. Именно поэтому данная двигательная активность столь привлекательна для наших питомцев.

Недостатками данного подкрепления являются:

Не всех собак можно обучить этим методом – доминантные и трусливые не желают «играть», поскольку или борются (находятся в конфронтации) с владельцем (дрессировщиком), или не доверяют ему
Трудно регулировать мотивацию к учебе у собаки

Роль обусловливания

Бихевиоризм в психологии – это направление, основным принципом которого является закон эффекта, который был сформулирован американским психологом Эдвардом Ли Торндайком, который считал, что последовавшая за поведением реакция определяет вероятность совершения действий повторно. Это выделило подкрепление как решающую реакцию на поведение, усиливая ее связь со стимулом (S – R).

Положительное подкрепление:

вознаграждение;
похвала;
одобрение;
получение желаемого.

Отрицательное подкрепление:

замечание;
болезненные действия;
наказание;
критика;
отсутствие получения желаемого.

Действие подкрепление является механизмом обуславливания, которого выделяют 4 формы:

Опернантное. Обуславливание происходит с помощью подкрепления определенной произвольной реакции. Поведение субъекта не вызывается; оно должно происходить до того, как будет осуществлено подкрепление.
Классическое. Обуславливание является научением, при котором первоначально нейтральный стимул начинает ассоциироваться у субъекта с определенной реакцией после того, как за нейтральным стимулом многократно проявлялся другой раздражитель.
Избегание. В основе этой формы обуславливания лежит подкрепление путем прекращения воздействия неприятного стимула.
Контробуславливание. Метод контробуславливания основан на трудах известного русского ученого академика Ивана Павлова и его знаменитых опытах с собаками. Контробуславливание состоит в изменении эмоциональной реакции на раздражительный стимул.

Исследования Б. Скиннера в рамках бихевиоризма

Беррес Скиннер — американский психолог, писатель, продолжатель идей Дж. Уотсона, который разработал теорию оперантного научения.

Он считал, что человеческий организм — это «черный ящик». Все, что наполняет этот ящик (эмоции, мотивы, влечения), нельзя объективно измерить, поэтому их следует исключить из сферы эмпирического наблюдения. А вот поведение можно объективно измерить, собственно, этим Скиннер и занимался.

Он не принял идею о личности, которая направляет или стимулирует поведение. Скиннер считал, что поведение порождается не силами, которые находятся внутри человека (например, чертами, потребностями, мыслями, чувствами), а силами, которые лежат вне человека. Это значит, что поведение человека регулируется не изнутри, а снаружи (окружающей средой). Изучение личности по Скиннеру — это нахождение своеобразного характера взаимоотношений между поведением организма и результатами этого поведения, которые и подкрепляют его в последствии. Этот подход фокусируется на прогнозировании и контроле наблюдаемого поведения.

Б. Скиннер, также как и Дж. Уотсон, интересовался таким явлением как научение. Он даже разработал концепцию оперантного научения, которая базировалась на законе эффекта, который был открыт Э. Торндайком.

Оперантное научение — это метод обучения, который включает в себя систему поощрений и наказаний с целью усилить или прекратить определенный тип поведения. При этом организм ассоциирует свое поведение с последующим результатом. Такое научение направлено на подкрепление контролируемого индивидом поведения.

Например, человек пытается научить собаку выполнять команду. Когда собака успешно справляется (т.е. выполняет команду), она получает поощрение (похвалу, лакомство). Когда собака не справляется с заданием, она не получает поощрение. В итоге, у собаки устанавливается связь между определенным поведением и возможностью получить награду.Подобным образом, можно и отучить собаку, например, делать «свои дела» на ковер. Только использовать придется систему наказаний (например, отругать пса). Получается своеобразный метод «кнута и пряника».По этому поводу советую прочитать интереснейшую книгу Карен Прайор, которая называется «Не рычите на собаку! Книга о дрессировке людей, животных и самого себя «.

Скиннер проводил эксперименты над голодными животными (крысы, голуби), которых помещал в ящик, который получил название «ящик Скиннера». Ящик был пуст, внутри находился лишь выступающий рычаг, под которым стояла тарелка для еды. Оставленная одна в ящике, крыса передвигается и исследует его. В какой-то момент, крыса обнаруживает рычаг и нажимает на него.После установления фонового уровня (частота, с которой крыса вначале нажимает на рычаг) экспериментатор запускает в действие кассету с пищей, расположенную снаружи ящика. Когда крыса нажимает на рычаг, небольшой шарик пищи выпадает в тарелку. Крыса съедает его и вскоре снова нажимает на рычаг.Пища подкрепляет нажатие на рычаг, и частота нажатий растет. Если кассету с пищей отсоединить, так что при нажатии на рычаг пища больше не подается, частота нажатий будет уменьшаться.

Таким образом, Скиннер заметил, что оперантно обусловленная реакция при неподкреплении угасает точно так же, как и классически обусловленная реакция. Исследователь может установить критерий дифференцировки, подавая пищу только тогда, когда крыса нажимает на рычаг при горящей лампочке, и тем самым вырабатывая условную реакцию у крысы путем избирательного подкрепления. Свет тут служит стимулом, который контролирует реакцию.

Скиннер также добавляет положения о двух видах поведения: респондентное и оперантное поведение.Респондентное поведение — это характерная реакция, вызываемая известным стимулом; стимул, при этом, всегда предшествует реакции. В качестве примера можно привести сужение или расширение зрачка в ответ на световую стимуляцию, подергивание колена при ударе молоточком по коленному сухожилию и дрожь при холоде.Оперантное поведение — это произвольные приобретенные реакции, для которых не существует стимула, поддающегося распознаванию. Вызванное оперантным научением такое поведение определяется событиями, которые следуют за реакцией. Т.е. за поведением идет следствие, и природа этого следствия изменяет тенденцию организма повторять данное поведение в будущем.Например, катание на роликах, игра на гитаре, написание собственного имени – это образцы оперантной реакции (или операнты), контролируемые результатами, следующими за соответствующим поведением.

Разные виды подкреплений

Бихевиористы различают несколько видов подкреплений. Существуют первичные подкрепления (еда, секс), необходимые животным на протяжении всей жизни. Сила их действия зависит от состояния животных (насколько они голодны, не выспались и т. д.). Вторичные подкрепления действуют, когда осознается соответствие поведения и реакции: звонок к обеду и слюноотделение, запах дезинфекции и больница. Вторичным подкреплением могут стать самые разные вещи. Некоторые из них очень абстрактны — например, деньги, а другие вполне конкретны — звуки и запахи. Для человека или животного можно установить иерархию подкреплений — в соответствии с их эффективностью.

Тренеры, руководители и менеджеры организуют для людей схемы подкреплений. Когда нужны сложные реакции, иногда полезно их подкорректировать. Для этого используются реакции положительного подкрепления, которые, в свою очередь, являются частью более сложной реакции — до тех пор, пока не будет получена желаемая реакция.

Люди учатся придерживаться того типа поведения, что дает положительные результаты, и совершают те действия, что влекут удовольствие. Процесс, в ходе которого люди учатся совершать действия, дающие желаемые результаты, называется положительным подкреплением. Для того чтобы вознаграждение стало положительным подкреплением, оно должно зависеть от конкретного желаемого поведения.

Люди также учатся выполнять действия, потому что это избавляет их от нежелательных последствий. Неприятные события — выговоры, отказы, увольнение, понижение в звании и прекращение сотрудничества — являются последствиями определенных действий на работе. Этот процесс получил название негативного подкрепления, или избегания.

Наказание — это нежелательные или неприятные последствия в ответ на нежелательное поведение. Если негативное подкрепление отменяет приятный стимул (например, похвалу), стимулируя желаемое поведение, то при наказании неприятный стимул уменьшает нежелательное поведение.

Связь между поведением и его последствиями можно и ослабить с помощью процесса гашения. Если реакция, которая раньше вознаграждалась, больше не награждается, то она ослабляется и постепенно исчезает. Игнорировать запросы и другое поведение — пожалуй, лучший способ прекратить их, то есть «погасить» такое поведение.

Кто стоял у истоков психологии?

Обычно, когда говорят о зарождении психологии в начале 20 века, то чаще всего упоминают такие имена как Зигмунд Фрейд, Карл Юнг, Альфред Адлер.

Фрейд Зигмунд

И это вполне справедливо: ведь эти люди стояли у истоков психологии, создали свои собственные оригинальные школы и терапевтические методы построенные на базе психоанализа.

Также вы можете спросить практически любого психолога — с какого направления психологии все начиналось, и большинство почти наверняка скажет, что это ни что иное как психоанализ Фрейда.

А дело все в том, что именно с психоанализа началась практическая психология, то есть набор тех специфических методов призванных не сколько объяснить что же такое сознание и почему человек ведет себя тем или иным образом, а именно оказать помощь тем людям, которые воспринимали свое внутреннее состояние как проблему, а говоря иначе испытывали страдания или психологический дискомфорт.

На сегодняшний день практическая психология давно вышла за рамки психоанализа и включает в себя огромное количество методов и работа психолога куда чаще ассоциируется не с работой ученого, а с действиями по оказанию психологической помощи клиентам на базе этих различных методов. Большинство их так или иначе возникли на основе идей психоанализа, были основаны людьми выросшими в рамках психоаналитической школы или же, по крайней мере, имевших к этому методу самое непосредственное отношение.

И это неудивительно, ведь практически любое из сегодняшних направлений психотерапии так или иначе, но оперирует такими терминами как эго и бессознательное, то есть использует идеи Зигмунда Фрейда. По этой причине мы и ставим психоанализ на первое место, когда говорим о психологии.

Однако, если уж говорить об истоках психологии надо обязательно вспомнить про еще одно направление, бывшее чрезвычайно популярным в 20-40 годы в Америке и родившееся фактически одновременно с психоанализом, которое в немалой степени базировалось на идеях противостоящих идеям Фрейда.

Справедливости ради надо также упомянуть, что и если говорить о психологии, как о строгой научной дисциплине, то именно направление о котором пойдет речь далее может с полным правом претендовать на эту роль.

Ссылки

«Положительное подкрепление и оперантное обусловливание» в: VeryWell Mind. Получено: 26 мая 2020 г. с сайта VeryWell Mind: verywellmind.com.
«Примеры положительного подкрепления» в: Твой словарь. Получено: 26 мая 2020 г. из Your Dictionary: examples.yourdictionary.com.
«Положительное подкрепление в психологии (определение + 5 примеров)» в: Позитивная психология. Получено: 26 мая 2020 г. с сайта Positive Psychology: positivepsychology.com.
«Использование положительного подкрепления для улучшения поведения» в: VeryWell Family. Получено: 26 мая 2020 г. с сайта VeryWell Family: verywellfamily.com.
«Подкрепление» в: Википедия. Получено: 26 мая 2020 г. из Википедии: en.wikipedia.org.

Способ формирования

Оперантное обусловливание имеет способность формировать поведение, в случаи, когда подпитываемые действия постепенно меняются, плавно превращаясь к исполнению, что мы хотим видеть в итоге.

Научение имеет в себе целую систему наказаний и особых поощрений, целью которых является усилить либо ограничить выбранный тип поведения.

Суть оперантного научения – это установка ассоциативной связи между основным поведением и следствием того самого поведения. Научение можно отнести к своеобразному методу обучения, только этот способ требует конкретного действия. Нередко оперантное научение называют методом Скиннера — в честь Бихевиориста Фредерика Скиннера. Скиннер был убеждён в том, что объяснить любое поведение мыслями или мотивацией – невозможно

По этой причине он пробовал обращать внимание на причины внешнего характера которые влияют на поведение людей

Такой термин, как «оперантный», Скиннер использовал как описание любого поведения, которое можно отнести к влиянию внешних факторов, выливших в определённые последствия. Проще говоря, Скиннер на примере научения объяснил нам, как люди приобретают привычки и модель поведения которые используются ежедневно.

— Повышение успеваемости подростка

Предположим, родители обеспокоены успеваемостью своего 15-летнего сына и хотят помочь ему получить более высокие оценки. Они не очень любят использовать за это наказания, поэтому они решают использовать положительное подкрепление, чтобы повысить мотивацию молодого человека в приятной манере.

Изучив эту технику, родители решают укреплять своего ребенка каждый раз, когда видят, что он учится. Каждый день, когда молодой человек проводит дома перед своими книгами, они дают ему небольшое вознаграждение, например, готовят его любимый обед или разрешают ему остаться до тех пор, пока он не поиграет в видеоигры.

Постепенно молодой человек все больше и больше чувствует желание учиться каждый день, так что за короткое время он улучшает свои академические результаты, почти не осознавая, что он делает.