7 причин дрессировать на положительном подкреплении

Что используется в качестве награды в положительном подкреплении?

Для дрессировки собак лучшая награда — это еда. Потому что все собаки любят есть, и это эффективно, потому что вы можете быстро ее дать.

Игра также иногда используется в качестве подкрепления в дрессировке. Например, игра в перетягивание или апортировка игрушек. Возможно, вы даже видели, как некоторых рабочих собак или собак-спортсменов в аджилити поощряют игрой в перетягивание.

Однако, на практике еда лучше всего подходит для большинства повседневных тренировочных ситуаций. Вы можете ее быстро достать (подумайте, сколько времени требуется для игры в перетягивание, по сравнению с тем, как быстро лакомство исчезнет в пасти собаки). Это означает, что вы можете делать несколько повторов за короткий промежуток времени. Кроме того, иногда игра может мешать учебному процессу.

Ласка и похвала также иногда предлагаются в качестве награды. Но вы должны думать об этом с точки зрения собаки — и да, ученые тоже подумали об этом. Одно исследование показало, что собаки могут быть не заинтересованы в похвале. Она всегда должна что-то значить для собаки. Например, если «молодец!» всегда сопровождается лакомством, тогда они узнают, что это предвещает удовольствие; но в противном случае, это может быть бессмысленно.

Большинство собак любят ласку, но те же ученые обнаружили, что собаки предпочитают еду ласкам при дрессировке. И если вам интересно, есть и другие исследования, которые сравнивали еду с ласками в качестве награды в дрессировке собак. Они также обнаружили, что еда приводит к лучшим результатам.

Проблема эффективности также актуальна: еда быстрее.

Таким образом, еда является лучшей наградой в качестве положительного подкрепления.

Нейтральный ответ

Нейтральные операторы — это все последствия действия, которые не увеличивают и не уменьшают вероятность того, что оно произойдет снова в будущем. Это наименее распространенный из всех типов ответов: в общем, очень немногие операнты являются полностью нейтральными.

Примером нейтрального операнта может быть следующее. Если ученик выходит, чтобы представить работу перед всем классом, и не получает теплого ответа (аплодисменты, поздравления …), но также и плохого ответа, вполне вероятно, что он не будет чувствовать себя более или менее предрасположенным, чем раньше, к представлению работы. Я работаю публично.

Программы подкрепления Скиннера

Как обсуждалось в начале статьи, помимо теоретизирования о поведении человека, Скиннер стремился воплотить эти теории в жизнь , Для этого он разработал серию конкретных программ армирования, наиболее выдающимися из которых являются программы непрерывного и прерывистого усиления (интервальное усиление и усиление по причине).

1. Непрерывное усиление

В непрерывном усилении человек постоянно вознагражден за действие или поведение , Основным преимуществом является то, что партнерство формируется быстро и эффективно; однако, как только подкрепление устранено, поведение также быстро исчезает.

2. Прерывистое усиление

В этих случаях в определенных случаях усиливается только поведение человека , Эта программа в свою очередь подразделяется на две категории: интервальное усиление (фиксированное или переменное) или коэффициентное усиление (фиксированное или переменное)

При усилении интервала поведение усиливается после ранее установленного периода времени (фиксированный) или случайного периода времени (переменный). В то время как в подкрепление разума человек должен выполнить определенное количество поведений, прежде чем оно будет усилено. Как и при усилении интервала, это количество ответов может быть предварительно согласовано (фиксировано) или не согласовано (случайно).

Пример использования отрицательного подкрепления

Поясню на примере. Допустим, я иду по улице и веду на поводке свою собаку.

У меня пес породы ягдтерьер, которая славится своими охотничьими талантами, а потому, за неимением другой дичи, он любит проявлять интерес к дворовым кошкам.

Когда я вижу, что мой пес начинает неотрывно следить за очередным котом, я окликаю его по кличке — «Шварц!», и одновременно с этим одергиваю его за поводок. Он получает отрицательный сигнал — рывок поводка и «понимает», что меня данный кот не интересует. В следующий после рывка поводком миг, когда пес отворачивается от кота, я даю ему кусочек корма в качестве положительного подкрепления.

Если собака на прогулке тянет поводок, надо делать те же самые действия:

Как только поводок натянулся, одергиваем собаку и окликаем ее по кличке;
В момент, когда собака прекращает тянуть поводок, мы произносим команду «Рядом» и тут же даем ей положительное подкрепление в виде корма.

Таким образом, мы «объясняем» собаке, как ей избежать рывка: не тяни поводок и ты получишь за это корм. В результате, после большого количества повторений, у собаки вырабатывается автоматизм — идти рядом и не тянуть поводок.

Должен ли я всегда использовать положительное подкрепление?

Это частый вопрос, и на него легко ответить другим вопросом: хотите ли вы, чтобы ваша собака продолжала это поведение? Если ответ «да», то вам следует продолжать вознаграждать его.

Теперь вы можете вознаграждать не каждый раз. Использование прерывистого графика подкрепления (когда поведение иногда вознаграждается, а иногда нет) может помочь повысить устойчивость поведения к угасанию (именно тогда поведение может прекратиться). Это полезно, потому что в реальной жизни может возникнуть ситуация, когда вы забудете взять с собой лакомство.

Но это очень распространенная ошибка, когда человек полностью прекращает поощрять поведение. Конечным результатом является то, что собака перестает выполнять команду, и люди говорят: «Я пробовал, и это не сработало». На самом деле, это называется угасание: т.е. вы отучили собаку делать что-то, потому что перестали поощрять это поведение.

Другая очень распространенная ошибка заключается в том, что вы недостаточно поощряете поведение.

Помните, что собак любят работать за еду, и вам все равно следует кормить собаку. Тренировка с получением лакомства — хороший способ тренировать мозг вашей собаки и обеспечить обогащение среды. Вместо того, чтобы прекращать поощрять, лучше продолжайте думать о новых вещах, которым вы можете обучить свою собаку.

Психологическая энциклопедия — подкрепление

(reinforcement) Формулировка «закона эффекта» Торндайка выглядит следующим образом.

Закон эффекта гласит: ил неск. реакций на одну и ту же ситуацию, те, к-рые сопровождаются или сменяются состоянием удовлетворения животного, будут, при прочих равных условиях, более тесно связываться с этой ситуацией, так что при ее повторении они будут возникать с большей вероятностью; те реакции, к-рые сопровождаются или сменяются состоянием дискомфорта , будут, при прочих равных условиях, образовывать более слабые связи с этой ситуацией, так что при ее повторении они будут возникать с меньшей вероятностью. Чем в большей степени будет испытываться удовлетворение или дискомфорт, тем в большей степени будет усиливаться или ослабляться эта связь.

С развитием теории П., гл. обр. усилиями Кларка Л. Халла, ключевые термины в формулировке «закона эффекта» «удовлетворение» и «дискомфорт» трансформировались в положительное и отрицательное П. Положительное и отрицательное П. это теорет. понятия, так же как и их предшественники удовлетворение и дискомфорт, в формулировке Торндайка. Эти эффекты вызываются путем манипулирования более объективными условиями, положительными «подкрепителями» (вознаграждениями, или «удовлетворителями» в терминологии Торндайка) и отрицательными «подкрепителями» (наказующими или раздражающими воздействиями в терминологии Торндайка). Каким бы ни был эффект положительным или отрицательным, П. зависит от того, подается или устраняется положительный или отрицательный «подкрепитель». Положительное П. может обеспечиваться либо предъявлением вознаграждения, либо устранением наказания в момент осуществления реакции; отрицательное П. может обеспечиваться либо предъявлением карательной меры (наказания, штрафа), либо лишением вознаграждения при появлении реакции. Эти 4 сочетания положены в основу классиф. типов оперантного обусловливания: а) обучение получению вознаграждения : крыса получает пищу после нажатия на рычаг в ящике Скиннера; б) обучение активному избеганию: крыса избегает удара электрическим током, перебегая в противоположную часть клетки с чередующимися участками подачи напряжения; в) обучение пассивному избеганию: крыса подвергается ударам электрического тока, если она спускается с безопасной площадки на окружающую ее сетку; г) обучение бездействию: крыса получает пищу лишь тогда, когда она не нажимает на рычаг в ящике Скиннера.

См. также Классическое обусловливание, Оперантное обусловливание

Г. А. Кимбл

Эффективность

Отрицательное усиление может быть эффективным инструментом при правильном использовании. Однако отрицательное подкрепление может не всегда получать ожидаемые результаты. Этот тип поведения обуславливает простоту поведения. В результате он может работать в обоих направлениях, усиливая либо благоприятное, либо неблагоприятное поведение.

Примеры негативного подкрепления для неблагоприятного поведения

Ребенок кричит, когда им предлагают макароны и сыр на еду. Когда они кричат, их родители немедленно берут еду. Каждый раз, когда предлагаются макароны и сыр, истерики ребенка растут, а родители сдаются.

До поведения: макароны и сыр на детской тарелке
Поведение: детские крики
Поведение: родители берут пищу
Будущее поведение: Ребенок будет кричать всякий раз, когда предлагается макароны и сыр.

Ребенок не любит носить определенную рубашку, которую их мать купила для них. В прошлом ребенок заметил, что их мать не делает их носить поврежденную одежду, поэтому ребенок разрезает рубашку ножницами. Когда мать обнаруживает это, она снимает рубашку.

До поведения: Ужасная рубашка
Поведение: ребенок повреждает одежду
Поведение: Мать снимает рубашку
Будущее поведение: Ребенок может повредить одежду, которую они не хотят носить

В классе

Отрицательное подкрепление

Мы уже видели, что «подкрепление» означает, что вероятность поведения в будущем увеличивается, а «отрицательное» означает, что что-то устраняется в ответ на действие организма.

То есть отрицательное подкрепление будет оперантом, в котором устраняется что-то неприятное для животного, что увеличивает вероятность того, что поведение повторится снова.

Примером, в котором ясно, как работает этот тип армирования, является поведение царапин. Когда чешется какая-то часть тела, возникает неприятное ощущение, от которого мы хотим избавиться; когда мы чешемся, этот дискомфорт исчезает, поэтому поведение усиливается, и более вероятно, что мы повторим это снова в будущем.

Величина подкрепления

Начинающие тренеры, использующие пищевое подкрепление при работе с животными, часто не знают, какова должна быть величина каждого подкрепления. Ответ таков: чем меньше, тем лучше. Чем меньше подкрепление, тем быстрее животное съест его. Это не только экономит время, но и позволяет дать большее количество подкреплений за один сеанс, прежде чем животное насытиться. В 1979 г. Национальный зоопарк в Вашингтоне, штат Колумбия, пригласил меня в качестве консультанта для обучения группы работников зоопарка технике положительного подкрепления. Одна из смотрительниц в моей группе жаловалась, что обучение панды продвигается у нее очень медленно. Мне показалось это странным, потому что интуитивно я чувствовала, что панды — эти большие, прожорливые, активные животные -должны легко поддаваться обучению с пищевым подкреплением. Я понаблюдала за ее занятиями и обнаружила, что, когда смотрительнице удавалось добиться какого-либо движения, она давала панде целую морковку. Панда долго смаковала каждую морковку, поэтому в течение пятнадцати минут отведенного ей драгоценного времени она зарабатывала только три подкрепления (а кроме того, морковь ей надоедала). Один ломтик моркови на подкрепление был бы лучше.

Вообще, подкрепление величиной в один глоток животного вполне достаточно для поддержания его заинтересованности — одно-два зернышка для цыпленка, кубик мяса в 6 мм для кошки, половина яблока для слона. Особо любимой пищи можно давать и еще меньше — например чайную ложку зерна для лошади.

Служители Национального зоопарка обучали белых медведей многим полезным вещам, таким, как переход по команде в другую клетку, используя изюминки.

Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы. Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня.

(Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.) Размер подкрепления зависит также от сложности задачи. В океанариуме «Жизнь моря» мы сочли необходимым давать каждому по большой макрели за их олимпийские 6—7-метровые вертикальные прыжки. Они просто отказывались делать это за обычное вознаграждение в виде двух маленьких корюшек. У людей почти всегда более трудная работа вознаграждается лучше. А если этого нет, то как мы ненавидим тяжелую работу, если нам приходится ее делать.

Наказание наградой

Действительно ли дети лучше учатся в школе, если это подкрепляется знаками отличия, наградами или даже деньгами? Повышается ли производительность труда благодаря системе поощрительных вознаграждений? Как лучше поощрять эффективность: похвалой или зарплатой?

Отдельные исследования показали, что если некоторых студентов награждают за решение задач, то они становятся более медлительными, чем те, которым не дают вознаграждения. Замечено, что у людей творческих профессий, работающих за деньги, пропадает вдохновение. А те, кому платят за правильные поступки — отказ от курения или пристегивание ремнями безопасности, — в итоге реже меняют поведение, чем те, кому не платят.

Вопреки основному принципу подкрепления, Альфи Кон утверждает, что чем больше человека подкреплением стимулируют к определенному поведению (повышению производительности, успеваемости, творческой плодовитости), тем в большей степени он теряет интерес к самой деятельности. То есть внешняя мотивация (вознаграждение) снижает внутреннюю мотивацию (удовольствие от деятельности).

Альфи Кон

Кон утверждает, что системы поощрения могут быть дешевыми (например, доска почета) и легкими в управлении, могут создавать впечатление непосредственного эффекта, но в долгосрочном периоде они несостоятельны по ряду причин.

Существуют разногласия относительно того, насколько академическая литература, которой становится все больше, подтверждает суть позиции Кона. Дебаты еще ведутся, но они уже заставили людей серьезно задуматься об употреблении схем подкрепления в школах и на работе и о возможном злоупотреблении ими.

Поделиться ссылкой

Что такое положительное подкрепление?

Положительное подкрепление — это очень эффективный способ дрессировки собак (и других животных).

Положительное подкрепление означает добавление чего-то сразу после того, как происходит поведение, что увеличивает частоту возникновения этого поведения.

Технически, этот термин состоит из двух частей. Подкрепление означает, что поведение продолжается или увеличивается его частота. (Если поведение угасает и не повторяется — это не подкрепление).

И положительное означает, что что-то добавлено.

Например, вы просите собаку сесть, собака садится, и вы даете ей лакомство (что-то добавлено). И в следующий раз, когда вы попросите, собака сядет с большей вероятностью (частота проявления поведения возрастает).

Поведенческая и непрофессиональная психологическая терминология

Упомянутые разговорные описания используются только для разъяснения и обязательно упрощают ситуацию. Они не заменяют правильных определений (см. Выше) и не могут использоваться как синонимы с ними.

«Награда» (разговорная) не всегда приводит к повышению уровня поведения. Так что не всякая награда (задуманная как таковая) является усилителем. Кроме того, человек награждается , только одно поведение можно усилить . То же самое относится к наказанию (разговорной речи): не каждое наказание, которое задумано как таковое, снижает уровень поведения. Кроме того, (разговорный) поощрение и наказание всегда являются активными действиями одного человека по отношению к другому: мать награждает ребенка плиткой шоколада, учитель наказывает ученика задержанием . Армирование также происходит в природе без вмешательства человека. Поворот ключа зажигания водителем положительно подкрепляется запуском двигателя: никто не должен сидеть рядом с водителем и хвалить его или тому подобное. То, что это случай положительного подкрепления, можно увидеть, когда обычный усилитель «запускается двигатель» не материализуется: водитель больше не будет показывать поведение «поверните ключ зажигания», поведение гаснет (не без обычной вспышки гашения. которые показали заранее (то есть водитель пытается снова на некоторое время , прежде чем отказаться от попытки запустить машину).

Подкрепление в коммуникации

Во время общения точно так же можно обучить собеседника каким-то полезным навыкам: говорит медленнее, сидеть более ровно, улыбаться, расслабиться или прекратить смотреть в телефон во время занятия. Правила здесь всё те же, просто всё происходит намного быстрее. Например, вы хотите, чтобы ваш собеседник говорил спокойнее — как только он начинает говорить спокойнее, вы улыбаетесь и киваете головой, начинает напрягаться — чуть хмуритесь и киваете головой отрицательно. Постепенно он во время разговора с вами начинает говорит всё более и более спокойно.

Я так ради эксперимента обучил продавцов на рынке, на котором я регулярно закупаюсь, улыбаться уже при виде меня.

Если же вы хотите, чтобы человек что-то не делал, то всё равно вам нужно использовать и позитивное, и негативное подкрепление. Например, ваш собеседник или участник тренинга регулярно отвлекается и смотрит в сторону. Просто каждый раз, когда он отвлекается вы хмуритесь и понижаете голос, а когда он смотрит на вас – улыбаетесь и голос слегка повышаете. Через некоторое время он станет отвлекаться всё меньше, а смотреть на вас всё больше.

Здесь очень важна точность и чёткость обратной связи.

Вам нужно слегка улыбаться и согласно кивать головой каждый раз и именно в том момент, как собеседник начинает говорить спокойнее. И начинать слегка хмуриться и отрицательно кивать головой каждый раз и именно в тот момент, когда он начинает говорить более напряжённо.

В таком варианте через три-пять минут разговора вы уже заметите вполне чёткие изменения.