Относится к сборнику статей телеграм-канала https://t.me/thinking_cycles
В теории МВАП реакции на стимул различаются на врожденные и приобретенные условные рефлексы, а так же автоматизмы, которые являются следующей ступенью эволюции относительно рефлексов. Толчком для появления возможности формировать новые реакции в течении жизни одной особи послужило появление механизма удержания образа стимула через его закольцовку через гиппокамп. В отличие от рефлексов автоматизмы могут модифицироваться, так как имеют механизм оценки эффекта выполнения своего действия. В проекте Beast она задается как -10…0…+10, что позволяет привязывать к стимулу более одного автоматизма.
Автоматизм имеет приоритет выполнения над рефлексом, что означает: если есть автоматизм на тот же стимул, что и рефлекс, то он тормозит рефлекс для данных условий. А если оценка успешности автоматизма станет отрицательной, он блокируется и рефлекс освобождается для выполнения.
Первоначально действием формирующегося автоматизма становится действие рвущегося на исполнение рефлекса либо отзеркаленное действие авторитета. Во втором случае способность распознать и повторить наблюдаемое действие зависит от уже имеющихся «примитивов действий». Например, если нет хватательного рефлекса, не получится научиться держать палку, его даже не получится выделить из воспринимаемого. Это значит, что первичные (базовые) автоматизмы могут образовываться только на основе рефлекторных действий, так же как способность распознавания зрительных образов зависит от развитости базы первичных примитивов типа точек, линий, дуг.
Авторитарное отзеркаливание в начальных стадиях развития является единственным способом «передать по наследству» родительские навыки адаптивности, приобретенные ими в течении жизни. На этой стадии обучение максимально эффективно, так как не встречает «сопротивления» (сомнения, осмысления, сопоставления с прежним опытом) со стороны ученика, но по той же причине и довольно примитивно, что позволяет усваивать только простейшие навыки. Сложные, требующие глубокой проработки, встраивания в существующую модель понимания ситуации, не усваиваются по причине отсутствия каких либо моделей понимания чего либо вообще. Потому, что нет эпизодической памяти, есть только семантическая, все навыки просто фиксируются в виде автоматизмов и затем корректируются.
Когда проходило тестирование Beast на 3 стадии, возникла идея: если в процессе обучающих диалогов создать достаточно большую базу автоматизмов, когда практически на любой стимул был свой автоматизм – не будет ли это аналогом эпизодической памяти? В самом деле, ведь активация автоматизмов на стимулы цепочки диалога по сути и есть история этого диалога, что мешает организовать таким же простым прогоном функции прогнозирования? В принципе, если какая-то возможность вытекает из текущей схемы реализации адаптивных механизмов, природа непременно попытается это использовать. Но тут очевидны проблемы:
1. Прогностический прогон по базе автоматизмов без ограничения по глубине приведет к образованию бесконечных циклов, которые тем более вероятны, чем больше база автоматизмов. То есть, используя ответное действие автоматизма как стимул для поиска следующего автоматизма, можно в итоге прийти к стимулу, который запустил такую цепочку прогноза и получить закольцовку. В итоге животное будет тупить тем больше, чем больше у него будет опыта. Что явно делает абсурдной такую адаптивность.
2. Даже если ограничить глубину прогноза, например, сделав ее фиксированной в несколько шагов, возникает другая проблема: все активные автоматизмы штатные, с максимально положительным эффектом среди всех, прицепленных к стимулу. Значит, все прогнозы будут положительные, что опять же делает бессмысленным такой прогноз, если он показывает только хорошие варианты, а прогнозирование в первую очередь имеет смысл в поиске негативных.
3. Если искать среди всех автоматизмов, в том числе и заблокированных с отрицательным эффектом, то опять проблема: чем больше база автоматизмов, тем больше развилок на каждом шаге прогноза, ведь на один стимул может быть множество вариантов когда то отзеркаленных от авторитета действий. Как учитывать их эффекты? Усреднять, искать min, max? Двигаясь таким путем, приходим к тем же проблемам, что и разработчики нейросетей: гигантские объемы данных, сложных вычисления и долгое обучение. Если природа и пыталась идти в этом направлении, то эволюция таких механизмов быстро схлопнулась по причине неоправданно высоких ресурсных затрат. Нейроны ведь живые клетки, их кормить надо, и убирать отходы жизнедеятельности. Да и нет у детенышей столько времени на обучение, а у родителей столько опыта, чтобы передавать в таких масштабах.
4. Но допустим все же пустились во все тяжкие и начали строить прогнозы по базе автоматизмов. И тут выясняется: скопления автоматизмов в узлах ветки стимула (когда на один стимул записано множество вариантов ответных действий) без указания временной метки приводит к тому, что все нити диалогов разорваны и перепутаны. Нет никакой возможности определить историческую последовательности диалогов. Остается только усреднять весь опыт, что быстро приводит к тупику развития адаптивности: вместо уточнения получаем все более грубые обобщения.
Если добавить временные метки… Стоп, а не слишком ли много становится если? Нужно добавить разрывы (fornit.ru/67675) цепочек диалога (фиксированная глубина явно останавливает развитие механизмов прогнозирования), чтобы не уходить в бесконечный прогноз, нужно учитывать все эффекты произведенного действия, нужны временные метки для получения исторической последовательности записанных автоматизмов. И так мы приходим к тому, что проще и эффективнее создать новую структуру, эпизодическую память, что следует логике эволюционного развития адаптивности: новые механизмы строятся на основе предыдущих.
Дополнительно:
https://telegra.ph/EHvolyuciya-adaptivnosti-avtomatizmy-08-16
Алексей
16 August 2024