Относится к сборнику статей теори МВАП https://t.me/thinking_cycles
Слово “дифференциатор” здесь взято от корня, связанного с понятием "разница" или "отличие". Дифференциация состояния — это способность организма различать изменения в своем внутреннем состоянии. Например, организм "замечает", что после употребления определенной пищи возникло чувство тошноты, и "дифференцирует" это состояние как результат конкретного действия (поедание этой пищи).
Этот механизм адаптации и обучения через опыт является фундаментальным для выживания и эволюции живых существ. Благодаря ему мы можем быстро адаптироваться к окружающей среде, избегая опасных ситуаций и стремясь к тем, которые приносят пользу.
Это настолько необходимый, эффективный и универсальный механизм, что значения разницы состояний используются как на безусловно-рефлекторном уровне, так и на уровне психики для всех оценок последствий эгоцентрической направленности (т.е. относительно изменения собственного состояния: fornit.ru/70254), кроме того, что сравнивается с поставленными целями на основе произвольно выбранной значимости (например, целями, связанными с самопожертвованием).
Уже понятно, что это очень непростой и ответственный механизм, который может оптимизироваться на протяжении всей эволюции вида.
После осознанного совершения какого-либо целевого действия, возникает период ожидания последствий и любое изменение состояния организма трактуется как последствия совершенного действия. Эффект от действия запоминается для решения, избегать ли такое действие или оно полезно. Это достаточно древний механизм, который срабатывает при отравлении едой, получение негатива или позитива от действий. Эволюцией оптимизирован период ожидания последствий – время, в течение которого организм ожидает гомеостатический эффект.
Организм постоянно находится в процессе анализа изменений своего состояния. После совершения действия (например, употребление пищи, физическая активность, взаимодействие с окружающей средой) любое изменение воспринимается как потенциальное следствие этого действия.
· Если изменение положительное (например, чувство сытости), организм "запоминает", что это действие полезно.
· Если изменение отрицательное (например, боль или тошнота), организм "запоминает", что это действие вредно.
Эта способность различать и классифицировать последствия действий делает механизм мощным инструментом для адаптации.
Эволюция оптимизировала временной интервал, в течение которого организм связывает действие с его последствиями. Это позволяет эффективно "дифференцировать" причину и следствие.
Если человек заболел через несколько часов после еды, организм может связать болезнь с этой пищей. Однако если прошло слишком много времени (например, сутки), связь может быть слабее.
Механизм также помогает дифференцировать отклонения от гомеостаза (стабильного состояния организма). Например:
· Повышение температуры тела может быть интерпретировано как результат инфекции или переохлаждения.
· Чувство голода может быть связано с длительным отсутствием пищи.
Таким образом, организм "дифференцирует" свое текущее состояние относительно нормального состояния и ищет причины этих изменений.
Механизм позволяет организму различать, какие действия или стимулы привели к изменениям в состоянии. Это особенно важно для обучения и адаптации.
Так, если человек чувствует головную боль после употребления алкоголя, он может "дифференцировать" это состояние как результат конкретного действия.
Организм не только замечает изменения, но и классифицирует их как положительные, отрицательные или нейтральные. Это помогает принимать решения о том, следует ли повторять действие или избегать его.
Удовольствие от сладкой пищи классифицируется как положительное, а боль от ожога — как отрицательное.
Ассоциативное обучение
Классические исследования проводились И. Павловым, известным своим экспериментом с собаками, где было показано формирование рефлексов (связь между стимулом и последствием, например, звук колокольчика → слюноотделение у собак). Хотя эти эксперименты относятся больше к внешним стимулам, идеи ассоциации стимулов и реакций имеют прямое отношение к вашему примеру: ожидание эффекта после выполнения действия основано на опыте прошлых событий.
Эксперименты с собаками показали, что организм может связывать стимулы (например, звук колокольчика) с последствиями (например, едой), формируя ассоциативное обучение. Этот механизм лежит в основе того, как организм "запоминает" последствия действий.
Законы Торндайка
Эдвардом Торндайком в контексте научения был предложен закон эффекта, согласно которому положительный эффект от реакции ведёт к запоминанию и закреплению, и в будущем организм будет стремиться к повторению этого рефлекса в такой же ситуации.
Закон эффекта - последний, четвертый, закон Торндайка вызвал множество споров, поскольку включал в себя фактор мотивации (фактор чисто психологической направленности). Закон эффекта говорил о том, что любое действие, вызывающее удовольствие в определенной ситуации, ассоциируется с ней и в дальнейшем повышает вероятность повторения данного действия в подобной ситуации, неудовольствие же (или дискомфорт) при действии, ассоциируемое с определенной ситуацией, приводит к снижению вероятности совершения этого акта в похожей ситуации. Это подразумевает, что в основе научения лежат также некоторые полярные состояния внутри организма. Еще один закон, предложенный Торндайком, касался врожденного комплекса движений. Если действия, совершенные в определенной ситуации, приводят к успешным результатам, то их можно назвать удовлетворяющими, в противном случае они будут нарушающими. Понятие успешного результата Торндайк дает на уровне нейронов. При успешном действии система нейронов, приведенная в готовность, на самом деле функционирует, а не бездействует.
Концепция оперантного обусловливания Скиннера
Одним из ключевых направлений в изучении влияния последствий действий на поведение является работа американского психолога Берреса Фредерика Скиннера в середине XX века (fornit.ru/70330). Его концепция оперантного обусловливания рассматривает, как поведение формируется и поддерживается через последствия. Согласно Скиннеру, если действие приводит к благоприятным последствиям (позитивное подкрепление), вероятность его повторения возрастает. Если же действие влечет негативные последствия (наказание), то вероятность его повторного выполнения снижается. Именно этот механизм лежит в основе многих форм обучения, включая адаптацию к новым условиям среды.
Теория перспектив Канемана и Тверски
Психологи Дэниел Канеман и Амос Тверски (fornit.ru/70331) внесли огромный вклад в изучение когнитивных искажений и предвосхищающих стратегий. Их работы, посвященные теории перспектив и эвристикам принятия решений, показали, как ожидания и предвосхищаемые последствия влияют на наше восприятие риска и принятие решений. Люди склонны переоценивать значимость возможных негативных результатов и недооценивать вероятность положительных исходов, что влияет на формирование ожиданий и интерпретацию последующих изменений в состоянии организма.
Когнитивная психология и эволюционная биология
Многие исследователи когнитивных наук и эволюции рассматривают подобные явления с точки зрения выживания вида. Человек и животные стремятся минимизировать негативные последствия и максимизировать положительные результаты своих действий. Таким образом, ожидание последствий закрепляется в процессе естественного отбора.
Современные исследования дофаминовой системы (Вольфрам Шульц и др.) показывают, что мозг предсказывает награду и корректирует поведение на основе ошибки предсказания (теория "дофаминового обучения").
Мартин Селигман изучал "выученную беспомощность" – когда организм перестаёт избегать негатива, если действия не приводят к изменению.
Джон Гарсиа показал, что некоторые ассоциации (например, вкус → тошнота) формируются быстрее других ("эффект Гарсиа" – эволюционная адаптация против отравлений).
Предиктивное кодирование (теория Карла Фристона) – мозг постоянно строит прогнозы о последствиях действий и корректирует модель мира.
Оптимальный интервал между действием и последствием
Эффект задержки подкрепления (
Эволюционно этот интервал оптимизирован для быстрых обратных связей (например, отравление → тошнота), но может давать сбои при долгосрочных последствиях (курение → рак через годы).
Это – тот случай, когда необходимость в определенном механизме была выявлена в ходе разработки системы индивидуальной адаптивности (fornit.ru/beast). Такой момент возник не при моделировании условных рефлексов, а при создании системы осознаваемых автоматизмов. Так что работы И.Павлова с рефлексами собак касались именно таких автоматизмов, а не условных рефлексов.
При реализации условных рефлексов на основе обобщения описаний классических условных рефлексов (fornit.ru/64936) стало ясно, что этот уровнеь адаптивности обладает очень простой функциональностью дополнения спектра уже существующих рефлексов новыми пусковыми стимулами. Если рефлекс (безусловный или условный) срабатывал на стимул ID=N, но в ходе повторений такого стимула начинал повторяться и стимул ID=M, то действие срабатывало и при M даже если N более не было активно. Конечно же, рефлекс был зависим от контекста текущих условий (если в одном случае данный стимул вызывает реакцию, то в других - нет). На этом адаптивная функциональность условного рефлекса заканчивается (кроме того, что на их основе формируются автоматизмы в ходе осознания).
Автоматизм связывается со значимостью последствий для данных условий в правилах, сохраняемых в эпизодической памяти. Это дает огромный конкурентный потенциал возможностей при выборе подходящего действия для новых условий в ситуации появления новизны.
Так что стал необходим механизм фиксации текущего значения гомеостатического состояния организма, обновляемый после выполнения осознанного действия. Сигнал для фиксации должен возникать после каждого выполнено осознанно действия (множество параллельных неосознаваемых действий не запускают Дифференциатор состояния, иначе бы возникла беспорядочная каша ответных данных).
Алгоритм механизмы Дифференциатора состояний трудно давался из-за существования множества контролируемых гомеостатом жизненных параметров и их различной значимости. Было несколько переделок и оптимизаций для того, чтобы данные стали достаточно адекватно коррелирующими с оценкой общего состояния. Интервал возможных значений разницы состояний был определен от -10 до +10, причем к границам он нарастал экспоненциально, оказываясь наиболее чувствительным в середине диапазона (значения диапазона значимостей вполне соответствует представлению о возможности улавливания изменений потенциала стабильностью порога срабатывания нейронов - примерно в 10 дискретов).
В модели Beast Дифференциатор обслуживает только уровень осознания стимулов и никак не используется в более древних рефлексах. Но можно представить, что преимущества выживания давало использование этого механизма для доосознаваемого реагирования. Это подтверждают факты такого использования до развития механизмов психики у человека до 3-5 лет.
В этот период дети активно изучают окружающую среду через пробу различных реакций и анализ их последствий. Если результат действия оказывается положительным (подкрепляется), то связь между стимулом и реакцией закрепляется и может стать автоматической. Вот примеры:
· Младенец плачет, когда голоден или испытывает дискомфорт. Родители подходят к нему, говорят ласковые слова и удовлетворяют его потребности. Со временем ребенок учится ассоциировать звук родительского голоса с комфортом и безопасностью. Даже если родители не сразу подкрепляют свое присутствие действием (например, задерживают кормление на несколько минут), младенец начинает успокаиваться уже от одного звука их голоса. Подкрепление (удовлетворение потребности) приходит с некоторой задержкой, но ассоциация между голосом и комфортом все равно формируется.
· Ребенок около года пытается показывать пальцем на предметы, которые хочет получить. Если взрослый реагирует на этот жест и дает ему желаемое, поведение закрепляется. Иногда взрослый может не сразу выполнить просьбу (например, сказать: "Подожди немного"), но ребенок продолжает использовать жесты, поскольку знает, что они в конечном итоге приведут к желаемому результату. Реакция взрослого может быть отсроченной, но это не мешает формированию связи между жестом и получением результата.
· Младенцы часто засыпают под укачивание, колыбельные или шум бытовых приборов (например, стиральной машины). Если эти условия регулярно предшествуют сну, они становятся сигналами для организма готовиться ко сну. Задержка подкрепления здесь заключается в том, что сам процесс засыпания занимает время. Однако ребенок учится ассоциировать эти стимулы с состоянием расслабления и сна. Между началом укачивания или воспроизведения колыбельной и фактическим засыпанием проходит время, но связь все равно формируется.
· Ребенок тянется к опасному предмету (например, розетке), и взрослый говорит: "Нельзя!" или отстраняет его. Со временем ребенок учится избегать таких действий. Если взрослый не всегда сразу реагирует на потенциально опасное поведение, но в конечном итоге все равно наказывает или отвлекает ребенка, связь между действием и последствиями закрепляется. Время между действием (прикосновение к розетке) и реакцией взрослого может варьироваться, но это не мешает формированию условного рефлекса избегания.
В раннем возрасте формирование рефлексов происходит через механизм проб и ошибок, где ключевую роль играет подкрепление. Даже если подкрепление задерживается, это не препятствует формированию ассоциаций между стимулом и реакцией, так как мозг ребенка активно ищет закономерности в окружающей среде.
Слово “подкрепление” из классических теорий означает изменение состояния ребенка после его действий, что вызывает смену базовых стилей реагирования (пищевое, половое, поисковое, оборонительное и т.п.) под влиянием или изменения гомеостатических жизненных параметров или под влиянием внешних стимулов (боли, приятных или неприятных воздействий). Смена стилей реагирования прерывает совершаемое действие. Это формирует условно-рефлекторную связь между новым стимулом (внутренней рецепции состояния или внешним стимулом) и новым состоянием (без)действия по выявленному закону формирования условных рефлексов: повторение нового стимула в сочетании с реакций на уже имеющуюся связь со старым стимулом. При этом задержка подкрепления не играет большой роли, если она не влияет на процесс укрепления связей с новым стимулом.
На уровне формирования предположительного ответного действия на стимул в новых условиях при осознании все становится значительно сложнее, с четом необходимость сохранения полученного правила жизненного опыта в эпизоде памяти. Это оставляет открытым вопрос о том, насколько древним является механизм Дифференциатора состояния организма, раз он не нужен для формирования реакций до уровня осознания. Хотя сам отклик общего состояния организма и нужен как базовая оценка состояний Плохо, Норма и Хорошо, которое является наиболее общим контекстов восприятия и реагирования. Так что, скорее всего, Дифференциатор состояния возник эволюционно очень рано, но в более простой форме интегратора текущего состояния.
В реализации Beast Дифференциатор выполнен как последовательная работа нескольких функций и вначале определяется интегрированное состояние по отдельным жизненным параметрам и их приоритетным значимостям. При этом выясняется, насколько изменилось состояние параметров для определения общего значения разницы.
Примерно по такой логике должна происходить детекция состояний и в природной (и любой другой реализации), понимание чего может помочь в исследованиях нейронной организации механизма у живых существ.
Nick Fornit
10 Apr 2025