В предыдущих главах нами была рассмотрена основная проблема, возникающая при синтезе адаптивных АСУ сложными системами (дефицит априорной информации), предложена концепция решения этой проблемы (использование апостериорной информации для синтеза модели сложного объекта управления непосредственно в процессе эксплуатации АСУ),типовая модель АСУ конкретизирована до уровня параметрической модели ААСУ СС, в которой предложено использовать в подсистемах идентификации состояния СОУ и выработки управляющего воздействия алгоритмы распознавания образов и принятия решений.
Путь дальнейшей конкретизации концепции состоит в поиске или разработке математической модели, которая обеспечивала бы поддержку тех функций, которые необходимы для программной реализации предложенных в параметрической модели алгоритмов функционирования ААСУ СС.
Для решения этого вопроса необходимо провести аналитический обзор методов распознавания образов и принятия решений.
При этом необходимо отметить, что авторы в данной работе не преследуют цель дать исчерпывающее описание всех существующих методов распознавания образов и принятия решений. Во–первых, этим вопросам посвящена обширная специальная литература (см. список литературы), во–вторых, это вряд ли возможно в рамках одной работы, и, в–третьих, в предлагаемой работе поставлены другие цели.
Последнее связано с тем, что целью настоящего анализа является не обзор методов распознавания образов и принятия решений самих по себе, а лишь определение степени их адекватности для применения в составе ААСУ СС. Поэтому перед самим аналитическим обзором будут сформулированы критерии оценки степени этой адекватности.
При построении АСУ существует фундаментальная и в принципе неустранимая проблема, вытекающая из противоречия между целью и средствами АСУ.Это проблема адекватности средств: АСУ создаются для управления состояниями реальных объектов, а манипулируют они лишь условными сигналами о состояниях реальных объектов и их математическими моделями.
Перед принятием решения о характере управляющего воздействия на объект его возможные результаты моделируются в АСУ на основе математической модели объекта управления. Поэтому эффективность АСУ непосредственно связана с адекватностью модели объекта управления и достоверностью информации о его реальных состояниях.
В этой связи для достижения целей исследования необходимо:
- рассмотреть роль и место математических моделей в общей системе классификации моделей различного типа;
- дать определение сложной системы и сложного объекта управления АСУ;
- сформулировать общие принципы построения математических моделей сложных систем;
- обосновать выбор абстрактной модели СОУ.
Под моделью понимается некий объект–заместитель, который в определенных условиях заменяет изучаемый объект–оригинал, воспроизводя наиболее существенные его свойства и обеспечивая большее удобство оперирования [273].
Первоначально в качестве моделей одних объектов применялись другие объекты. Затем были осознаны модельные свойства чертежей, рисунков и карт. Отдельный класс составляют физические аналоговые модели: электрические, пневматические и т.п. Следующий шаг заключался в признании того, что моделями одних реальных объектов могут служить не только другие реальные объекты, но и абстрактные идеальные построения, типичным примером которых служат математические и другие символические модели, в частности сам язык.
Математические модели в свою очередь подразделяются на статистические (матричные), операциональные (алгоритмические) и аналитические [282].
Кроме того, модель может быть специально построена таким образом, чтобы отражать только внешние, наблюдаемые феноменологические характеристики моделируемых явлений. Такие модели называются феноменологическими. Также разработчик может попытаться сконструировать содержательную модель явления, вскрывающую внутренние ненаблюдаемые механизмы явления, но таким образом, чтобы из этой содержательной модели следовали и внешне наблюдаемые характеристики. Если эти прогнозируемые на основании содержательной модели внешние характеристики соответствуют действительно наблюдаемым, то обычно считается, что и содержательная модель соответствует действительности, т.е. верна или истинна.
При этом считается, что "в действительности все устроено именно так, как это предполагается в содержательной модели". Это очень сильная и ответственная операция придания абстрактной модели онтологического статуса называется гипостазированием. В результате выполнения этой и чаще всего неоправданной операциилюди начинают считать, что мир устроен определенным образом, хотя в действительности так устроена лишь их модель этого мира.К вопросу об истинности содержательных моделей нужно относиться крайне осторожно, так как, по–видимому, можно создать неограниченное количество различных содержательных моделей, верно объясняющих одну и ту же феноменологическую картину (альтернативные модели).
К этому необходимо добавить, что построение содержательных моделей значительно более трудоемко, чем феноменологических.
Математические модели обладают различной степенью общности:
- наиболее общими являются статистические (матричные) модели, частным случаем которых являются информационные модели, которые позволяют отобразить и детерминистские, и статистические системы очень большой размерности;
- алгоритмические модели имеют более узкую область адекватности: они неудобны для отображения статистических зависимостей и лучше работают в детерминистской области;
- аналитические модели можно отнести к подмножеству алгоритмических, для которых разработан аналитический формализм (уравнения, формулы).
С возникновением математической лингвистики было осознано, что языковые модели также относятся к аналитическим моделям.В этом смысле любое словесное описание какого либо объекта является его моделью, а сам язык в целом является моделью той области реальности, которую можно каким–либо образом (с различными степенями адекватности) отобразить с его использованием[273].
В настоящее время осуществляются совершенно обоснованные попытки обобщить понятие модели на любые информационно связанные реальные и идеальные системы. Если есть любые две информационно взаимодействующие системы (неважно реальные или идеальные), то любая из этих систем может рассматриваться как модель другой в той степени, в какой она отражает ее.
Таким образом, модель некоторого объекта или явления есть и средство, и результат его познания.
Именно использование модели явления позволяет АСУ моделировать последствия различных вариантов целенаправленного управляющего воздействия на него, сравнивать эти возможные последствия с целевыми, желательными состояниями и выбирать воздействие, приводящее к результату, наиболее близкому к целевому.
Рассмотрим этапы построения, вопросы алгоритмизации и программной реализации моделей сложных систем, применимых в адаптивных АСУ сложными системами.
Существуют три основных проблемы, которые необходимо решить перед созданием математической модели сложной системы:
- прежде всего должна быть определенацельсоздания модели, так как модель отображает оригинал не во всей его полноте (это невозможно, так как модель конечна, а любой объект неисчерпаем), а лишь те аспекты оригинала, которые связаны с достижением поставленной цели; цель, безусловно, сама представляет собой модель того состояния объекта управления, для достижения которого применяется АСУ;
- должен быть выбран тип модели, исходя из двух взаимосвязанных требований: во–первых, модель должна адекватно отображать актуальное состояние оригинала, и, во–вторых, она должна обеспечивать формирование алгоритма преобразования объекта управления из актуального состояния в целевое;
- модель должна быть проста в реализации, т.е. требовать для своей реализации минимальных вычислительных и других видов ресурсов, так как в противном случае эта модель будет представлять лишь чисто абстрактный интерес.
Отметим, что в качестве варианта решения этих проблем, имеющего ряд достоинств, в данном исследовании предложена адаптивная информационная модель, обеспечивающая динамическую перестройку решающих правил в соответствии с содержанием обучающей информации и новой (дополнительной) или изменившейся целью.
Модель должна обеспечивать выявление наиболее существенного в объекте с точки зрения достижения цели управления.
Конечность модели неизбежно приводит к тому, что любая модель является упрощенной. Это считается приемлемым, так как все соглашаются с неизбежностью того, что модель соответствует оригиналу с некоторойпогрешностью. Необходимо лишь, чтобы эта погрешность была практически приемлемой. Необходимо подчеркнуть, что на практике упрощенность модели не является особым препятствием для ее эффективного применения.
Существует еще одна причина вынужденного упрощения модели: необходимость практической реализации модели и реального оперирования с ней. Очень сложные модели невозможно реализовать и практически использовать, поэтому они имеют скорее лишь чисто научную ценность. Опыт показывает, что сложные модели редко хорошо работают. Часто упрощенные модели дают огромный выигрыш в потребляемых вычислительных ресурсах по сравнению с оптимальными моделями, давая результаты, отличающиеся от оптимальных условно говоря в десятых знаках после запятой. Простые и эффективные модели часто вызывают своего рода эстетическое удовлетворение, т.е. они в определенном смысле "красивы".
Таким образом, при создании модели явления нужно стремиться не только к тому, чтобы она адекватно отражала все наиболее существенные стороны моделируемого явления (с точки зрения достижения цели управления), но и соответствовала требованиям "простоты" и "красоты".
При создании модели необходимо специально в явном виде сформулировать те предпосылки, которые должны быть истинными, чтобы модель была применимой, т.е. те условия и характеристики моделируемых явлений, соблюдение которых необходимо для обеспечения адекватности модели.
Например, в ряде случаев пользователи статистических пакетов применяют параметрические статистические процедуры, пригодные только в случае нормальности выборки, и при этом не только не проверяют, выполняется ли это условие, но и даже не задумываются о том, соблюдается ли оно в их конкретном случае. К выводам, полученным при подобных "методах" исследования, нужно относиться с большой осторожностью, так как достоверный результат при таком подходе сам является случайностью.
Подобные ситуации выдвинули перед разработчиками моделей специальную проблему: создание моделей, применимость которых сохраняется в очень широком диапазоне условий данных. В математической статистике этому подходу соответствуют непараметрические и робастные процедуры обработки данных, в теории управления – исследование устойчивости моделей и адаптивные модели.
Часто бывает сложным явно исследовать выборку на нормальность. В этом случае косвенным свидетельством в пользу ее нормальности может служить согласованность результатов ее анализа параметрическими и непараметрическими методами. Поэтому рекомендуется не ограничиваться каким–либо одним, пусть даже, по–видимому, адекватным задаче методом, а применять несколько различных методов и затем сопоставлять их результаты друг с другом. Это существенно увеличивает надежность выводов.
Наука накопила значительный опыт построения различного рода моделей. Заманчивой кажется идея обобщения этого опыта и построения алгоритма для проектирования моделей, по крайней мере моделей определенного класса. Однако более глубокий анализ показывает, что построение модели является сложным наукоемким и творческим итерационным процессом, в котором в процессе построения модели могут уточняться и даже изменяться цели ее создания и другие исходные данные.В любом случае обнаружить недостатки уже работающей модели гораздо проще, чем предусмотреть и обойти их заранее.На основании этого можно сделать вывод о том, что создание каждой модели высокого качества представляет собой событие в соответствующей области науки, а сам процесс создания новых моделей, полностью (до конца) в принципе не формализуем.
В этой связи особую значимость приобретает вопрос о разработке адаптивных моделей, т.е. моделей, способных легко перестраиваться и сохранять высокую степень адекватности как при изменении целевых и оценочных установок, так и самой моделируемой предметной области.
Опыт показывает, что модели, не обладающие высокой степенью адаптивности, как правило, имеют короткий жизненный цикл, так как быстро теряют адекватность (исключением из этого правила являются лишь естественнонаучные модели, описывающие фундаментальные свойства реальности).
Эти требования можно разделить на две основные группы:
– общие требования, связанные с качеством выполнения моделью своих функций и ее реализуемостью;
– специфические требования, вытекающие из их использования для синтеза и эксплуатации адаптивных АСУ сложными объектами.
Рассмотрим эти требования по порядку. Необходимо отметить, что в соответствии с концептуальной идеей решения основной проблемы, поставленной в данной работе (см. раздел 1.5), авторы ограничиваются рассмотрением методов распознавания образов и принятия решений с точки зрения их применимости для моделирования сложных объектов управления в адаптивных АСУ сложными системами.
Одно из основных общих требований к модели –"функциональность". Под функциональностью авторы понимают пригодность модели для достижения поставленной цели. В контексте данной работы модель функциональна, если она обеспечивает адекватную идентификацию текущего состояния моделируемого объекта и отражает динамику его развития.
Очевидно, что функциональность модели не является единственным критерием ее качества. Показателями качества модели являются также либо собственно вероятность ошибки классификации, либо связанные с ней некоторые функции потерь. При этом различают условную вероятность ошибочной классификации, ожидаемуюXE "ожидаемую" ошибку алгоритма классификации на выборке заданного объема, и асимптотическуюXE "асимптотическую" ожидаемую ошибку классификации. Функции потерь также разделяют на функцию средних потерь, функцию ожидаемыхXE "ожидаемых" потерь и эмпирическую функцию средних потерь.
Необходимо отметить, что само понятие"ошибка классификации"предполагает, что существует независимый от алгоритма распознавания способ, позволяющий достоверно определить, к какому классу относится каждый распознаваемый объект. Обычно (но не всегда) считается, что таким способом является экспертная оценка. На этой основе может быть сформулирован соответствующий критерий качества алгоритмов распознавания, который можно было бы назвать "степень соответствия экспертным оценкам", или более пространно: "очевидность и естественность результатов автоматизированной классификации для человека–специалиста". Дело в том, что, к сожалению, слишком часто результаты автоматизированной классификации плохо интерпретируются, т.е., проще говоря, малопонятны или совсем непонятны людям, несмотря на то, что при этом они являются правильными с точки зрения определенных формальных критериев.
Кроме того, алгоритмы распознавания имеют свои "области компетентности", т.е. эффективность их работы в большей или меньшей степени зависит от статистических характеристик входных данных (обучающей выборки), и от того, что априорно известно об этих статистических характеристиках. В данном исследовании предлагается соответствующий критерий качества распознающего алгоритма, который мог бы быть назван"универсальность".
Практически во всех случаях предъявляются более или менее жесткие требования и ко времени решения задачи. В ряде случаев быстродействие алгоритма играет очень существенную, если не решающую роль: например, в военных приложениях (конечно, при условии, что идентификация выполняется правильно). Во всяком случае с прагматической точки зрения можно считать, что если на реальных данных, которые необходимо обработать, алгоритм работает неприемлемо долго, то можно сделать вывод о том, что он просто практически не работает.
Конечно, время решения задачи (при всех прочих равных условиях) определяется не только вычислительной эффективностью алгоритма, но и мощностью вычислительной системы (компьютера). Поэтому использование современных быстродействующих компьютеров весьма желательно. И все же не следует смешивать эти две проблемы, так как при любом уровне развития вычислительной техники всегда существовали алгоритмы, которые работали практически, а также алгоритмы, которые работали лишь теоретически, т.е. гипотетически.
Следующим критерием качества модели является ее"логическая сложность". Часто алгоритмы с более высокой достоверностью распознавания являются и более сложными.
Например, такие развитые и качественные с точки зрения высокой достоверности распознавания методы, как комплексные методы: "алгоритмы вычисления оценок" (АВО) и "коллективы решающих правил" (КРП) [32, 118] имеют очень высокую сложность. Отсюда следует высокая сложность их программной реализации, а также низкое быстродействие, сложность интерпретации результатов их работы.
Косвенным критерием качества распознающего алгоритма является"наличие коммерческой программной реализации", а также популярность у пользователей соответствующей программной системы.
Естественно, упомянутыми выше критериями качества алгоритмов распознавания их перечень не ограничивается. Учитывая это, авторы предлагают ввести понятие"интегральный критерий качества алгоритма распознавания".В предварительном плане для количественной оценки интегрального критерия можно предложить метод сведения многокритериальной задачи к однокритериальной, однако более подробное рассмотрение этих вопросов выходит за рамки данной работы.
По–видимому,идеальным, с точки зрения предложенных выше критериев качества, можно считать универсальный, не ошибающийся, быстродействующий и простой алгоритм распознавания, дающий интуитивно–понятные специалистам результаты.
Применяются три основных экспериментальных метода оценки наиболее распространенного критерия качества распознающих алгоритмов, вероятности достоверного распознавания:
– выборка используется одновременно как обучающаяXE "обучающая" и контрольная;
– выборка разбивается на две части – обучающуюXE "обучающую" и контрольную;
– из всей выборки случайным образом извлекается один объект, а по оставшимся синтезируетсяXE "синтезируется" решающее правило и производится распознавание извлеченного объекта, эта процедура повторяется заданное число раз (например, до полного перебора).
Первый способ дает завышенную оценку качества распознаванияXE "распознавания" по сравнению с той же оценкой качества по независимым от обучения данным. Второй способ является самым простым и убедительным. Им широко пользуются, если экспериментальных данных достаточно. В то же время третий способ, называемый также методом скользящего экзамена, является наиболее предпочтительным, так как дает меньшую дисперсию оценки вероятности ошибки. Однако этот метод является и самым трудоемким, так как требует многократного построения правила распознавания.
Кроме общих требований к методу распознавания образов, существуют еще и специфические, которые вытекают из применения этого метода для синтеза и эксплуатации адаптивных АСУ сложными системами.
Метод должен обеспечивать:
- решение обратной задачи распознавания: т.е. по целевому состоянию СОУ он должен определять входные параметры, переводящие объект управления в это состояние;
- сравнение целевых и иных состояний сложного объекта управления по тем факторам, которые способствуют или препятствуют переводу СОУ в эти состояния (изучение вопросов устойчивости управления).
Таким образом, на основе вышеизложенного можно сформулировать следующие основные требования к моделям СОУ, ориентированные на применение в адаптивных АСУ CC.
Модель должна обеспечивать:
1. Идентификацию состояния СОУ по его выходным параметрам (при независимости времени идентификации от объема обучающей выборки).
2. Выработку эффективных управляющих воздействий на сложный объект управления.
3. Накопление информации об объекте управления и повышение степени адекватности модели, в том числе в случае изменения характера взаимосвязей между входными и выходными параметрами СОУ (адаптивность).
4. Определение ценности факторов для детерминации состояний СОУ и контролируемое снижение размерности модели при заданных граничных условиях, в том числе избыточности.
Кроме того, модель должна быть математически прозрачной (достаточно простой) и технологичной в программной реализации.
Не все методы распознавания образов в одинаковой степени соответствуют этим общим и специфическим требованиям, а некоторые и вообще не соответствуют. Рассмотрим эти вопросы более конкретно.
Основные задачи адаптивного распознавания образов
Распознавание представляет собой информационный процесс, реализуемый некоторым преобразователем информации (интеллектуальным информационным каналом, системой распознавания), имеющим вход и выход. На вход системы подается информация о том, какими признаками обладают предъявляемые объекты. На выходе системы отображается информация о том, к каким классам (обобщенным образам) отнесены распознаваемые объекты.
При создании и эксплуатации автоматизированной системы распознавания образов решается ряд задач. Рассмотрим кратко и упрощенно эти задачи. Отметим, что у различных авторов формулировки этих задач, да и сам набор не совпадают, так как он в определенной степени зависит от конкретной математической модели, на которой основана та или иная система распознавания. Кроме того, некоторые задачи в определенных моделях распознавания не имеют решения и, соответственно, не ставятся.
Задача формализации предметной области
По сути это задача является задачей кодирования. Составляется список обобщенных классов, к которым могут относиться конкретные реализации объектов, а также список признаков, которыми эти объекты в принципе могут обладать.
Задача формирования обучающей выборки
Обучающая выборка представляет собой базу данных, содержащую описания конкретных реализаций объектов на языке признаков, дополненную информацией о принадлежности этих объектов к определенным классам распознавания.
Задача обучения системы распознавания
Обучающая выборка используется для формирования обобщенных образов классов распознавания на основе обобщения информации о том, какими признаками обладают объекты обучающей выборки, относящиеся к этому классу и другим классам.
Задачаснижения размерности пространства признаков
После обучения системы распознавания (получения статистики распределения частот признаков по классам) становится возможным определить для каждого признака его ценность для решения задачи распознавания. После этого наименее ценные признаки могут быть удалены из системы признаков. Затем система распознавания должна быть обучена заново, так как в результате удаления некоторых признаков статистика распределения оставшихся признаков по классам изменяется. Этот процесс может повторяться, т.е. быть итерационным.
Распознаются объекты распознаваемой выборки, которая, в частности, может состоять и из одного объекта. Распознаваемая выборка формируется аналогично обучающей, но не содержит информации о принадлежности объектов к классам, так как именно это и определяется в процессе распознавания. Результатом распознавания каждого объекта является распределение или список всех классов распознавания в порядке убывания степени сходства распознаваемого объекта с ними.
Задача контроля качества распознавания
После распознавания может быть установлена его адекватность. Для объектов обучающей выборки это может быть сделано сразу, так как для них просто известно, к каким классам они относятся. Для других объектов эта информация может быть получена позже. В любом случае может быть определена фактическая средняя вероятность ошибки по всем классам распознавания, а также вероятность ошибки при отнесении распознаваемого объекта к определенному классу.
Результаты распознавания должны интерпретироваться с учетом имеющейся информации о качестве распознавания.
Если в результате выполнения процедуры контроля качества установлено, что оно неудовлетворительное, то описания неправильно распознанных объектов могут быть скопированы из распознаваемой выборки в обучающую, дополнены адекватной классификационной информацией и использованы для переформирования решающих правил, т.е. учтены. Более того, если эти объекты не относятся к уже имеющимся классам распознавания, что и могло быть причиной их неверного распознавания, то этот список может быть расширен. В результате система распознавания адаптируется и начинает адекватно классифицировать эти объекты.
Задача распознавания состоит в том, что для данного объекта по его известным признакам системой устанавливается его принадлежность к некоторому ранее неизвестному классу. В обратной задаче распознавания, наоборот, для данного класса распознавания системой устанавливается, какие признаки наиболее характерны для объектов данного класса, а какие нет (или какие объекты обучающей выборки относятся к данному классу).
Задачи кластерного и конструктивного анализа
Кластерами называются такие группы объектов, классов или признаков, что внутри каждого кластера они максимально сходны, а между разными кластерами – максимально различны.
Конструктом (в контексте, рассматриваемом в данном разделе) называется система противоположных кластеров. Таким образом, в определенном смысле конструкты есть результат кластерного анализа кластеров.
В кластерном анализе количественно измеряется степень сходства и различия объектов (классов, признаков), и эта информация используется для классификации. Результатом кластерного анализа является сама классификация объектов по кластерам. Эта классификация может быть представлена в форме семантических сетей.
В когнитивном анализе информация о сходстве и различии классов или признаков интересует исследователя сама по себе, а не для того, чтобы использовать ее для классификации, как в кластерном и конструктивном анализе.
Если для двух классов распознавания является характерным один и тот же признак, то это вносит вклад в сходство этих двух классов. Если же для одного из классов этот признак является нехарактерным, то это вносит вклад в различие.
Если два признака коррелируют друг с другом, то в определенном смысле их можно рассматривать как один признак, а если антикоррелируют, то как различные. С учетом этого обстоятельства наличие различных признаков у разных классов также вносит определенный вклад в их сходство и различие.
Результаты когнитивного анализа могут быть представлены в форме когнитивных диаграмм.
Методы распознавания образов и их характеристики
Принципы классификации методов распознавания образов
РаспознаваниемXE "Распознаванием" образов называются задачи построения и применения формальных операций над числовыми или символьнымиXE "символьными" отображениями объектов реального или идеального мира, результаты решения которых отражают отношения эквивалентности между этими объектами. Отношения эквивалентности выражают принадлежность оцениваемых объектов к каким–либо классам, рассматриваемым как самостоятельные семантические единицы.
При построении алгоритмов распознаванияXE "распознавания" классы эквивалентности могут задаваться исследователем, который пользуется собственными содержательными представлениями или использует внешнюю дополнительную информацию о сходстве и различии объектов в контексте решаемой задачи. Тогда говорят о "распознаванииXE "распознавании" с учителем" [118]. В противном случае, т.е. когда автоматизированная система решает задачу классификации без привлечения внешней обучающейXE "обучающей" информации, говорят об автоматической классификации или "распознавании без учителя". Большинство алгоритмов распознавания образов требует привлечения весьма значительных вычислительных мощностей, которые могут быть обеспечены только высокопроизводительной компьютерной техникой.
Различные авторы (XE "Барабаш" Ю.Л. Барабаш [32], В.И.XE "В.И." Васильев [86], А.Л. ГореликXE "Горелик" , XE "Скрипкин" В.А. Скрипкин XE "В.А." [104], Р. Дуда, XE "Харт" П. Харт [115], Л.ТXE "Л.Т". Кузин [169], XE "Перегудов" Ф.И. ПерегудовXE "Ф.И.", XE "Тарасенко" Ф.ПXE "Ф.П". Тарасенко [273], XE "Темников" Ф.ЕXE "Ф.Е". Темников [351], ДжXE "Дж". Ту, XE "Гонсалес" Р. Гонсалес [357], П. Уинстон [359], К. Фу [372], XE "Цыпкин" Я.З. Цыпкин [383] и др.) дают различную типологию методов распознаванияXE "распознавания" образов. Одни авторы различают параметрические, непараметрическиеXE "непараметрические" и эвристические методы, другие – выделяют группы методов, исходя из исторически сложившихся школ и направлений в данной области. Например, в работе [118], в которой дан академический обзор методов распознавания, используется следующая типология методов распознавания образов:
- методы, основанные на принципе разделения;
- статистические методы;
- методы, построенные на основе "потенциальных функций";
- методы вычисления оценок (голосования);
- методы, основанные на исчислении высказываний, в частности на аппарате алгебры логики.
В основе данной классификации лежит различие в формальных методах распознаванияXE "распознавания" образов и поэтому опущено рассмотрение эвристического подхода к распознаваниюXE "распознаванию", получившего полное и адекватное развитие в экспертных системах.Эвристический подходоснован на трудно формализуемых знаниях и интуиции исследователя. При этом исследователь сам определяет, какую информацию и каким образом система должна использовать для достижения требуемого эффекта распознаванияXE "распознавания".
Подобная типология методов распознаванияXE "распознавания" с той или иной степенью детализации встречается во многих работах по распознаваниюXE "распознаванию". В то же время известные типологии не учитывают одну очень существенную характеристику, которая отражает специфику способа представления знаний о предметной области с помощью какого–либо формального алгоритма распознавания образов.
Д.А.ПоспеловXE "Поспелов" (1990) выделяет два основных способа представления знаний [282]:
- интенсиональноеXE "Интенсиональное", в виде схемы связей между атрибутами (признаками).
- экстенсиональное,XE "Экстенсиональное" с помощью конкретных фактов (объекты, примеры).
ИнтенсиональноеXE "Интенсиональное" представление фиксируют закономерности и связи, которыми объясняется структура данных. Применительно к диагностическим задачам такая фиксация заключается в определении операций над атрибутами (признаками) объектов, приводящих к требуемому диагностическому результату. ИнтенсиональныеXE "Интенсиональные" представления реализуются посредством операций над значениями атрибутов и не предполагают произведения операций над конкретными информационными фактами (объектами).
В свою очередь, экстенсиональныеXE "экстенсиональные" представления знаний связаны с описанием и фиксацией конкретных объектов из предметной области и реализуются в операциях, элементами которых служат объекты как целостные системы.
Можно провести аналогию между интенсиональнымиXE "интенсиональными"и экстенсиональнымиXE "экстенсиональными"представлениями знаний и механизмами, лежащими в основе деятельностилевого и правого полушарий головного мозга человека. Если для правого полушария характерна целостная прототипнаяXE "прототипная"репрезентация окружающего мира, то левое полушарие оперирует закономерностями, отражающими связи атрибутов этого мира [282].
Описанные выше два фундаментальных способа представления знаний позволяют предложить следующую классификацию методов распознаванияXE "распознавания" образов:
– интенсиональныеXE "Интенсиональные" методыXE "распознавания", основанные наоперациях с признаками.
– экстенсиональныеXE "Экстенсиональные" методыXE "распознавания", основанные наоперациях с объектами.
Необходимо особо подчеркнуть, что существование именно этихдвух (и только двух)групп методов распознавания:XE "распознавания"оперирующих с признаками, и оперирующих с объектами, глубоко закономерно. С этой точки зрения ни один из этих методов, взятый отдельно от другого, не позволяет сформировать адекватное отражение предметной области. По мнению авторов,между этими методами существует отношение дополнительностиXE "дополнительности"в смысле Н.Бора[71], поэтому перспективные системы распознавания должны обеспечивать реализацию обоих этих методов, а не только какого–либо одного из них.
Таким образом, в основу классификации методов распознавания, предложенной Д. А. Поспеловым, положены фундаментальные закономерности, лежащие в основе человеческого способа познания вообще, что ставит ее в совершенно особое (привилегированное) положение по сравнению с другими классификациями, которые на этом фоне выглядят более легковесными и искусственными.
Отличительной особенностью интенсиональныхXE "интенсиональных" методов является то, что в качестве элементов операций при построении и применении алгоритмов распознаванияXE "распознавания" образов они используют различные характеристики признаков и их связей. Такими элементами могут быть отдельные значения или интервалы значений признаков, средние величины и дисперсии, матрицы связей признаков и т. п., над которыми производятся действия, выражаемые в аналитической или конструктивной форме. При этом объекты в данных методах не рассматриваются как целостные информационные единицы, а выступают в роли индикаторов для оценки взаимодействия и поведения своих атрибутов.
Группа интенсиональныхXE "интенсиональных" методов распознаванияXE "распознавания" образов обширна, и ее деление на подклассы носит в определенной мере условный характер.
Методы, основанные на оценках плотностей распределения
значений признаков
Эти методы распознаванияXE "распознавания" образов заимствованы из классической теории статистических решений, в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому–либо закону. Они базируются на байесовскойXE "байесовской" схеме принятия решений, апеллирующей к априорным вероятностям принадлежности объектов к тому или иному распознаваемому классу и условным плотностям распределения значений вектора признаков. Данные методы сводятся к определению отношения правдоподобия в различных областях многомерного пространства признаков.
Группа методов, основанных на оценке плотностей распределения значений признаков, имеет прямое отношение к методам дискриминантногоXE "дискриминантного" анализа. БайесовскийXE "Байесовский" подход к принятию решений и относится к наиболее разработанным в современной статистике так называемым параметрическим методам, для которых считается известным аналитическое выражение закона распределения (в данном случае нормальный закон) и требуется оценить лишь небольшое количество параметров (векторы средних значений и ковариационныеXE "ковариационные" матрицы).
Основными трудностями применения указанных методов считаются необходимость запоминания всей обучающейXE "обучающей" выборки для вычисления оценок локальных плотностей распределения вероятностей и высокая чувствительность к непредставительностиXE "непредставительности" обучающей выборки.
Методы, основанные на предположениях
о классе решающих функций
В данной группе методов считается известным общий вид решающей функции и задан функционалXE "функционал" ее качества. На основании этого функционалаXE "функционала" по обучающейXE "обучающей" последовательности находятXE "ищется" наилучшее приближение решающей функции [118]. Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномовXE "полиномов". Функционал качества решающего правила обычно связывают с ошибкой классификации.
Основным достоинством методов, основанных на предположениях о классе решающих функций, является ясность математической постановки задачи распознаванияXE "распознавания", как задачи поиска экстремумаXE "экстремума". Многообразие методов этой группы объясняется широким спектром используемых функционаловXE "функционалов" качества решающего правила и алгоритмов поиска экстремума. Обобщением рассматриваемых алгоритмов, к которым относятся, в частности, алгоритм Ньютона, алгоритмы перцептронногоXE "перцептронного" типа и др., является метод стохастическойXE "стохастической" аппроксимацииXE "аппроксимации".
Возможности градиентныхXE "градиентных" алгоритмов поиска экстремумаXE "экстремума", особенно в группе линейных решающих правил, достаточно хорошо изучены. СходимостьXE "Сходимость" этих алгоритмов доказана только для случая, когда распознаваемые классы объектов отображаются в пространстве признаков компактными геометрическими структурами.
Достаточно высокое качество решающего правила может быть достигнуто с помощью алгоритмов, не имеющих строгого математического доказательства сходимостиXE "сходимости" решения к глобальному экстремумуXE "экстремуму". К таким алгоритмам относится большая группа процедур эвристического программирования, представляющих направление эволюционного моделирования. Эволюционное моделирование является бионическимXE "бионическим" методом, заимствованным у природы. Оно основано на использовании известных механизмов эволюции с целью замены процесса содержательного моделирования сложного объекта феноменологическим моделированием его эволюции. Известным представителем эволюционного моделирования в распознаванииXE "распознавании" образов является метод группового учета аргументов (МГУАXE "МГУА") [118]. В основу МГУА положен принцип самоорганизацииXE "самоорганизации", и алгоритмы МГУА воспроизводят схему массовой селекции.
Однако достижению практических целей в данном случае не сопутствует извлечение новых знаний о природе распознаваемых объектов. Возможность извлечения этих знаний, в частности знаний о механизмах взаимодействия атрибутов (признаков), здесь принципиально ограничена заданной структурой такого взаимодействия, зафиксированной в выбранной форме решающих функций.
Логические методы распознаванияXE "распознавания" образов базируются на аппарате алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. В этих методах значения какого–либо признака рассматриваются как элементарные события [104].
В самом общем виде логические методы можно охарактеризовать как разновидность поиска по обучающейXE "обучающей" выборке логических закономерностей и формирование некоторой системы логических решающих правил (например, в виде конъюнкций элементарных событийXE "событий"), каждое из которых имеет собственныйвес. Группа логических методов разнообразна и включает методы различной сложности и глубины анализа. Для дихотомических (булевыхXE "булевых") признаков популярными являются так называемые древообразныеXE "древообразные" классификаторы, метод тупиковых тестовXE "тестов", алгоритм "Кора" и др.
Алгоритм "Кора", как и другие логические методы распознаванияXE "распознавания" образов, является достаточно трудоемким в вычислительном отношении, поскольку при отборе конъюнкций необходим полный перебор. Поэтому при применении логических методов предъявляются высокие требования к эффективной организации вычислительного процесса, и эти методы хорошо работают при сравнительно небольших размерностяхXE "размерностях" пространства признаков и только на мощных компьютерах.
Лингвистические (структурные) методы
Лингвистические методы распознаванияXE "распознавания" образов основаны на использовании специальных грамматик, порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов [372].
Для различных классов объектов выделяются непроизводныеXE "непроизводные" (атомарные) элементы (подобразыXE "подобразы", признаки) и возможные отношения между ними. Грамматикой называют правила построения объектов из этих непроизводныхXE "непроизводных" элементов.
Таким образом, каждый объект представляет собой совокупность непроизводных элементов, "соединенных" между собой теми или иными способами или, другими словами, "предложением" некоторого "языка". Хотелось бы особо подчеркнуть очень значительную мировоззренческую ценность этой мысли [236].
Путем синтаксического анализа (грамматического разбора) "предложения" определяется его синтаксическая "правильность" или, что эквивалентно, может ли некоторая фиксированная грамматика, описывающая класс, породить имеющееся описание объекта.
Однако задача восстановления (определения) грамматик по некоторому множеству высказываний (предложений – описаний объектов), порождающих данный язык, является трудно формализуемой.
В методах данной группы, в отличие от интенсиональногоXE "интенсионального" направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. По своей сути XE "психодиагностике"эти методы близки к клиническому подходу, который рассматривает людей не как проранжированнуюXE "проранжированную" по тому или иному показателю цепочку объектов, акак целостные системы, каждая из которых индивидуальна и имеет особенную диагностическую ценность[118].Такое бережное отношение к объектам исследования не позволяет исключать или утрачивать информацию о каждом отдельном объекте, что происходит при применении методов интенсионального направления,использующих объекты только для обнаружения и фиксации закономерностей поведения их атрибутов.
Основными операциями в распознаванииXE "распознавании" образов с помощью обсуждаемыхXE "обсуждаемых" методов являются операции определения сходства и различия объектов.Объекты в указанной группе методов играют роль диагностических прецедентов.При этом в зависимости от условий конкретной задачи роль отдельного прецедента может меняться в самых широких пределах: от главной и определяющей и до весьма косвенного участия в процессе распознаванияXE "распознавания". В свою очередь условия задачи могут требовать для успешного решения участия различного количества диагностических прецедентов: от одного в каждом распознаваемом классе до полного объема выборки, а также разных способов вычисления мер сходства и различия объектов. Этими требованиями объясняется дальнейшее разделение экстенсиональныхXE "экстенсиональных" методов на подклассы.
Это наиболее простой экстенсиональныйXE "экстенсиональный" метод распознаванияXE "распознавания". Он применяется, например, в том случае, когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками. В таком случае обычно в качестве точки – прототипа выбирается центр геометрической группировки класса (или ближайший к центру объект).
Для классификации неизвестного объекта находится ближайший к нему прототип, и объект относится к тому же классу, что и этот прототип.Очевидно, никаких обобщенных образов классов в данном методе не формируется.
В качестве меры близости могут применяться различные типы расстояний. Часто для дихотомических признаков используется расстояние ХэммингаXE "Хэмминга", которое в данном случае равно квадрату евклидова расстояния. При этом решающее правило классификации объектов эквивалентно линейной решающей функции.
Указанный факт следует особо отметить. Он наглядно демонстрирует связьXE "связь"прототипнойXE "прототипной"и признаковойXE "признаковой"репрезентации информации о структуре данных. Пользуясь приведенным представлением, можно, например, любую традиционную измерительнуюXE "психодиагностическую"шкалу, являющуюся линейной функцией от значений дихотомических признаков, рассматривать как гипотетический диагностический прототип. В свою очередь, если анализ пространственной структуры распознаваемых классов позволяет сделать вывод об их геометрической компактности, то каждый из этих классов достаточно заменить одним прототипом, который фактически эквивалентен линейной диагностической модели.
На практике, безусловно, ситуация часто бывает отличной от описанного идеализированного примера. Перед исследователем, намеревающимся применить метод распознаванияXE "распознавания", основанный на сравнении с прототипами диагностических классов, встают непростые проблемы.
Во-первых, это выбор меры близости (метрики), от которого может существенно измениться пространственная конфигурация распределения объектов. Во–вторых, самостоятельной проблемой является анализ многомерных структур экспериментальных данных.Обе эти проблемы особенно остро встают перед исследователем в условиях высокой размерностиXE "размерности"пространства признаков, характерной для реальныхXE "психодиагностических"задач.
Метод k–ближайших соседей для решения задач дискриминантногоXE "дискриминантного" анализа был впервые предложен еще в 1952 году [357]. Он заключается в следующем.
При классификации неизвестного объекта находится заданное число (k) геометрически ближайших к нему в пространстве признаков других объектов (ближайших соседей) с уже известной принадлежностью к распознаваемым классам. Решение об отнесении неизвестного объекта к тому или иному диагностическому классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов.
Первоначально метод k–ближайших соседей рассматривался как непараметрическийXE "непараметрический" метод оцениванияXE "оценивания" отношения правдоподобия. Для этого метода получены теоретические оценки его эффективности в сравнении с оптимальным байесовскимXE "байесовским" классификатором. Доказано, что асимптотическиеXE "асимптотические" вероятности ошибки для метода k–ближайших соседей превышают ошибки правила БайесаXE "Байеса"не более чем в два раза.
При использовании метода k–ближайших соседей для распознаванияXE "распознавания" образов исследователю приходится решать сложную проблему выбора метрики для определения близости диагностируемых объектов. Эта проблема в условиях высокой размерностиXE "размерности" пространства признаков чрезвычайно обостряется вследствие достаточной трудоемкости данного метода, которая становится значимой даже для высокопроизводительных компьютеров. Поэтому здесь так же, как и в методе сравнения с прототипом, необходимо решать творческую задачу анализа многомерной структуры экспериментальных данныхдля минимизацииXE "минимизации"числа объектов, представляющих диагностические классы.
Необходимость уменьшения числа объектов в обучающейXE "обучающей"выборке (диагностических прецедентов) является недостатком данного метода, так как уменьшает представительность обучающей выборки.
Алгоритмы вычисления оценок ("голосования")
Принцип действия алгоритмов вычисления оценок (АВОXE "АВО") состоит в вычислении приоритетов (оценок сходства), характеризующих "близость" распознаваемого и эталонных объектов по системе ансамблей признаков, представляющей собой систему подмножествXE "подмножеств" заданного множества признаков.
В отличие от всех ранее рассмотренных методов алгоритмы вычисления оценок принципиально по–новому оперируют описаниями объектов. Для этих алгоритмов объекты существуют одновременно в самых разных подпространствахXE "подпространствах" пространства признаков. Класс АВОXE "АВО" доводит идею использования признаков до логического концаXE "конца": поскольку не всегда известно, какие сочетания признаков наиболее информативны, то в АВО степень сходства объектов вычисляетсяXE "вычисляется" при сопоставлении всех возможных или определенных сочетаний признаков, входящих в описания объектов [118].
Используемые сочетания признаков (подпространстваXE "подпространства") авторы называют опорными множествами или множествами частичных описаний объектов. Вводится понятие обобщенной близости между распознаваемым объектом и объектами обучающейXE "обучающей" выборки (с известной классификацией), которые называют эталонными объектами. Эта близость представляется комбинацией близостейXE "близостей" распознаваемого объекта с эталонными объектами, вычисленных на множествах частичных описаний. Таким образом, АВОXE "АВО" является расширением метода k–ближайших соседей, в котором близость объектов рассматривается только в одном заданном пространстве признаков.
Еще одним расширением АВОXE "АВО" является то, что в данных алгоритмах задача определения сходства и различия объектов формулируетсяXE "формулируется" как параметрическая и выделен этап настройки АВО по обучающейXE "обучающей" выборке, на котором подбираются оптимальные значения введенных параметров. Критерием качества служит ошибка распознаванияXE "распознавания", а параметризуетсяXE "параметризуется" буквально все:
– правила вычисления близости объектов по отдельным признакам;
– правила вычисления близости объектов в подпространствахXE "подпространствах" признаков;
– степень важности того или иного эталонного объекта как диагностического прецедента;
– значимость вклада каждого опорного множества признаков в итоговую оценку сходства распознаваемого объекта с каким–либо диагностическим классом.
Параметры АВОXE "АВО" задаются в виде значений порогов и (или) как веса указанных составляющих.
Теоретические возможности АВОXE "АВО" по крайней мере не ниже возможностей любого другого алгоритма распознаванияXE "распознавания" образов, так как с помощью АВО могут быть реализованы все мыслимые операции с исследуемыми объектами.
Но, как это обычно бывает, расширение потенциальных возможностей наталкивается на большие трудности при их практическом воплощении, особенно на этапе построения (настройки) алгоритмов данного типа.
Отдельные трудности отмечались ранее при обсуждении метода k–ближайших соседей, который можно было интерпретировать как усеченный вариант АВО. Его тоже можно рассматривать в параметрическом виде и свести задачу к поиску взвешенной метрики выбранного типа. В то же время уже здесь для высокоразмерныхXE "высокоразмерных" задач возникают сложные теоретические вопросы и проблемы, связанные с организацией эффективного вычислительного процесса.
Для АВО, если попытаться использовать возможности данных алгоритмов в полном объеме, указанные трудности возрастают многократно.
Отмеченные проблемы объясняют то, что на практике применение АВОXE "АВО" для решения высокоразмерныхXE "высокоразмерных" задач сопровождается введением каких–либо эвристических ограничений и допущений. В частности, известен пример использования АВО в психодиагностикеXE "психодиагностике", в котором апробирована разновидность АВО, фактически эквивалентная методу k–ближайших соседей.
В завершение обзора методов распознаванияXE "распознавания" образов остановимся еще на одном подходе. Это так называемыеколлективы решающих правил (КРП)[32].
Так как различные алгоритмы распознаванияXE "распознавания" проявляют себя по–разному на одной и той же выборке объектов, то закономерно встает вопрос о синтетическом решающем правиле, адаптивноXE "адаптивно" использующем сильные стороны этих алгоритмов. В синтетическом решающем правиле применяется двухуровневаяXE "двухуровневая" схема распознавания. На первом уровне работают частные алгоритмы распознавания, результаты которых объединяются на втором уровне в блоке синтеза. Наиболее распространенные способы такого объединения основаны навыделении областей компетентности того или иного частного алгоритма.Простейший способ нахождения областей компетентности заключается в априорном разбиенииXE "разбиении" пространства признаков исходя из профессиональных соображений конкретной науки (например расслоение выборки по некоторому признаку). Тогда для каждой из выделенных областей строится собственный распознающий алгоритм. Другой способ базируется на применении формального анализа для определения локальных областей пространства признаков как окрестностей распознаваемых объектов, для которых доказана успешность работы какого–либо частного алгоритма распознавания.
Самый общий подход к построению блока синтеза рассматривает результирующиеXE "результирующие"показатели частных алгоритмов как исходные признаки для построения нового обобщенного решающего правила.В этом случае могут использоваться все перечисленные выше методы интенсиональногоXE "интенсионального" и экстенсиональногоXE "экстенсионального" направлений в распознаванииXE "распознавании" образов. Эффективными для решения задачи создания коллектива решающих правил являются логические алгоритмы типа "Кора" и алгоритмы вычисления оценок (АВОXE "АВО"), положенные в основу так называемого алгебраического подхода, обеспечивающего исследование и конструктивное описание алгоритмов распознаванияXE "распознавания", в рамки которого укладываются все существующие типы алгоритмов [118].
Сравнительный анализ методов распознавания образов
Сравним описанные выше методы распознаванияXE "распознавания" образов и оценим степень их адекватности сформулированным в разделе 3.3.3 требованиям к моделям СОУ для адаптивных АСУ сложными системами.
Для решения реальныхXE "психодиагностических" задач из группы методов интенсиональногоXE "интенсионального" направления практическую ценность представляют параметрические методы и методы, основанные на предложениях о виде решающих функций. Параметрические методы составляют основу традиционной методологии
конструирования показателей. Применение этих методов в реальных задачахXE "психодиагностике" связано с наложением сильных ограничений на структуру данных, которые приводят к линейным диагностическим моделям с очень приблизительными оценками их параметров. При использовании методов, основанных на предположениях о виде решающих функций, исследователь также вынужден обращаться к линейным моделям. Это обусловлено высокой размерностьюXE "размерностью" пространства признаков, характерной для реальных задач, которая при повышении степени полиноминальнойXE "полиноминальной" решающей функции дает огромный рост числа ее членов при проблематичном сопутствующем повышении качества распознавания. Таким образом, спроецировав область потенциального применения интенсиональныхXE "интенсиональных" методов распознавания на реальнуюXE "психодиагностическую" проблематику, получим картину, соответствующую хорошо отработанной традиционной методологии линейных диагностических моделей.
Свойства линейных диагностических моделей, в которых диагностический показатель представлен взвешенной суммой исходных признаков, хорошо изучены. Результаты этих моделей (при соответствующем нормировании) интерпретируютсяXE "интерпретируются" как расстояния от исследуемых объектов до некоторой гиперплоскостиXE "гиперплоскости" в пространстве признаков или, что эквивалентно, как проекции объектов на некоторую прямую линию в данном пространстве. Поэтому линейные модели адекватны только простым геометрическим конфигурациям областей пространства признаков, в которые отображаются объекты разных диагностических классов. При более сложных распределениях эти модели принципиально не могут отражать многие особенности структуры экспериментальных данных. В то же время такие особенности способны нести ценную диагностическую информацию.
Вместе с тем XE "психодиагностике"появление в какой–либо реальной задаче простых многомерных структур (в частности, многомерных нормальных распределений) следует скорее расценивать как исключение, чем как правило. Часто диагностические классы формируются на основе сложносоставных внешних критериев, что автоматически влечет за собой геометрическую неоднородность данных классов в пространстве признаков. Это особенно касается "жизненных", наиболее часто встречающихся на практике критериев. В таких условиях применение линейных моделей фиксирует только самые "грубые" закономерности экспериментальной информации.
Применение экстенсиональныхXE "экстенсиональных" методов не связано с каким–либо предположениями о структуре экспериментальной информации, кроме того, что внутри распознаваемых классов должны существовать одна или несколько групп чем–то похожих объектов, а объекты разных классов должны чем–то отличаться друг от друга. Очевидно, что при любой конечной размерностиXE "размерности" обучающейXE "обучающей" выборки (а другой она быть и не может) это требование выполняется всегда просто по той причине, что существуют случайные различия между объектами. В качестве мер сходства применяются различные меры близости (расстояния) объектов в пространстве признаков. Поэтому эффективное использование экстенсиональных методов распознаванияXE "распознавания" образов зависит от того, насколько удачно определены указанные меры близости, а также от того, какие объекты обучающей выборки (объекты с известной классификацией) выполняют роль диагностических прецедентов. Успешное решение данных задач дает результат, приближающийся к теоретически достижимым пределам эффективности распознавания.
Достоинствам экстенсиональныхXE "экстенсиональных" методов распознаванияXE "распознавания" образов противопоставлена, в первую очередь, высокая техническая сложность их практического воплощения. Для высокоразмерныхXE "высокоразмерных" пространств признаков внешне простая задача нахождения пар ближайших точек превращается в серьезную проблему. Также многие авторы отмечают в качестве проблемы необходимость запоминания достаточно большого количества объектов, представляющих распознаваемые классы.
Само по себе это не является проблемой, однако воспринимается как проблема (например, в методе k–ближайших соседей) по той причине, что при распознаванииXE "распознавании"каждого объекта происходитполный переборвсех объектов обучающейXE "обучающей"выборки.
Поэтому целесообразно применить модель системы распознавания, в которойXE "распознавания"XE "ЭЙДОС"проблема полного перебора объектов обучающей выборки при распознавании снимается, так как он осуществляетсялишь один разпри формировании обобщенных образов классов распознавания. При самом же распознавании осуществляется сравнение идентифицируемого объекта лишь с обобщенными образами классов распознавания, количество которых фиксировано и совершенно не зависит от размерностиXE "размерности"обучающей выборки. Данный подход позволяет увеличивать размерностьXE "размерность"обучающей выборки до тех пор, пока не будет достигнуто требуемое высокое качество обобщенных образов, совершенно при этом не опасаясь, что это может привести к неприемлемому увеличению времени распознавания (так как время распознавания в данной модели вообще не зависит от размерности обучающей выборки).
Теоретические проблемы применения экстенсиональныхXE "экстенсиональных" методов распознаванияXE "распознавания" связаны с проблемами поиска информативных групп признаков, нахождения оптимальных метрик для измерения сходства и различия объектов и анализа структуры экспериментальной информации. В то же время успешное решение перечисленных проблем позволяет не только конструировать эффективные распознающие алгоритмы, но и осуществлять переход от экстенсиональногоXE "экстенсионального" знания эмпирических фактов к интенсиональномуXE "интенсиональному" знанию о закономерностях их структуры.
Переход от экстенсиональногоXE "экстенсионального" знания к интенсиональномуXE "интенсиональному" происходит на той стадии, когда формальный алгоритм распознаванияXE "распознавания" уже сконструирован и его эффективность продемонстрирована. Тогда производится изучение механизмов, за счет которых достигается полученная эффективность. Такое изучение, связанное с анализом геометрической структуры данных, может, например, привести к выводу о том, что достаточно заменить объекты, представляющие тот или иной диагностический класс, одним типичным представителем (прототипом). Это эквивалентно, как отмечалось выше, заданию традиционной линейной диагностической шкалы. Также возможно, что каждый диагностический класс достаточно заменить несколькими объектами, осмысленными как типичные представители некоторых подклассов, что эквивалентно построению веера линейных шкал. Возможны и другие варианты, которые будут рассмотрены ниже.
Таким образом, обзор методов распознаванияXE "распознавания" показывает, что в настоящее время теоретически разработан целый ряд различных методов распознавания образов. В литературе приводится развернутая их классификация. Однако для большинства этих методов их программная реализация отсутствует, и это глубоко закономерно, можно даже сказать "предопределено" характеристиками самих методов распознавания. Об этом можно судить по тому, что такие системы мало упоминаются в специальной литературе и других источниках информации.
Следовательно, остается недостаточно разработанным вопрос о практической применимости тех или иных теоретических методов распознаванияXE "распознавания"для решения практических задач при реальных (т.е. довольно значительных) размерностяхXE "размерностях"данных и на реальных современных компьютерах.
Вышеупомянутое обстоятельство может быть понято, если напомнить, что сложность математической модели экспоненциальноXE "экспоненциально" увеличивает трудоемкость программной реализации системы и в такой же степени уменьшает шансы на то, что эта система будет практически работать. Это означает, что реально на рынке можно реализовать только такие программные системы, в основе которых лежат достаточно простые и "прозрачные" математические модели. Поэтому разработчик, заинтересованный в тиражировании своего программного продукта, подходит к вопросу о выборе математической моделине с чисто научной точки зрения, а какпрагматик, с учетом возможностей программной реализации. Он считает, что модель должна быть как можно более простой, а значит реализоваться с меньшими затратами и более качественно, а также должна обязательно работать (быть практически эффективной).
В этой связи особенно актуальной представляется задача реализации в системах распознаванияXE "распознавания" механизмаобобщенияописаний объектов, относящихся к одному классу, т.е. механизма формирования компактных обобщенных образов. Очевидно, что такой механизм обобщения позволит "сжать" любую по размерностиXE "размерности" обучающуюXE "обучающую" выборку к заранее известной по размерности базе обобщенных образов. Это позволит также поставить и решить ряд задач, которые даже не могут быть сформулированы в таких методах распознавания, как метод сравнения с прототипом, метод k–ближайших соседей и АВОXE "АВО".
Это задачи:
- определения информационного вклада признаков в информационный портрет обобщенного образа;
- кластерноXE "кластерно"–конструктивный анализ обобщенных образов;
- определение семантической нагрузки признака;
- семантический кластерно–конструктивный анализ признаков;
- содержательное сравнение обобщенных образов классов друг с другом и признаков друг с другом (когнитивные диаграммы, в т.ч. диаграммы Мерлина [190, 220, 355]).
Метод, который позволил достичь решения этих задач, также отличает основанную на нем перспективную системуXE "ЭЙДОС" от других систем, как компиляторы отличаются от интерпретаторов, так какблагодаря формированию обобщенных образов в этой перспективной системе достигается независимость времени распознаванияXE "распознавания"от объемов обучающейXE "обучающей"выборки. Известно, что именно существование этой зависимости приводит к практически неприемлемым затратам машинного времени на распознаваниеXE "распознавание" в таких методах, как метод k–ближайших соседей, АВОXE "АВО" и КРП при таких размерностяхXE "размерностях" обучающей выборки, когда можно говорить о достаточной статистике.
В заключение краткого обзора методов распознавания представим суть вышеизложенного в сводной таблице (табл. 3.1), содержащей краткую характеристику различных методов распознавания образов по следующим параметрам:
- классификация методов распознавания;
- области применения методов распознавания;
- классификация ограничений методов распознавания.
Таблица 3. 1
СВОДНАЯ ТАБЛИЦА КЛАССИФИКАЦИИ МЕТОДОВ РАСПОЗНАВАНИЯ, СРАВНЕНИЯ ИХ ОБЛАСТЕЙ ПРИМЕНЕНИЯ И ОГРАНИЧЕНИЙ
Классификация | Область | Ограничения | |
Интенсиальные методы распознавания | Методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов) | Задачи с известным распределением, как правило, нормальным, необходимость набора большой статистики | Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к непредставительности обучающей выборки и артефактам |
Методы, основанные на предположениях о классе решающих функций | Классы должны быть хорошо разделяемыми, система признаков – ортонормированной | Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками | |
Интенсиальные методы распознавания | Логические методы | Задачи небольшой размерности пространства признаков | При отборе логических решающих правил (коньюнкций) необходим полный перебор. Высокая вычислительная трудоемкость |
Лингвистические (структурные) | Задачи небольшой размерности пространства признаков | Задача восстановления (определения) грамматики по некоторому множеству высказываний (описаний объектов), является трудно формализуемой. Нерешенность теоретических проблем |
Окончание табл. 3.1
Классификация | Область | Ограничения | |
Экстенсиальные методы распознавания | Метод сравнения с прототипом | Задачи небольшой размерности пространства признаков | Высокая зависимость результатов классификации от меры расстояния (метрики). Неизвестность оптимальной метрики |
Метод k–ближайших соседей | Задачи небольшой размерности по количеству классов и признаков | Высокая зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость | |
Алгоритмы вычисления оценок | Задачи небольшой размерности по количеству классов и признаков | Зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода | |
Коллективы | Задачи небольшой размерности по количеству классов и признаков | Очень высокая техническая сложность метода, нерешенность ряда теоретических проблем, как при определении областей компетенции частных методов, так и в самих частных методах |
Роль и место распознавания образов в автоматизации
управления сложными системами
Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы.
Управляющая система осуществляет следующие функции:
- идентификация состояния объекта управления;
- выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и среды;
- оказание управляющего воздействия на объект управления.
Распознавание образов есть не что иное, как идентификация состояния некоторого объекта.
Следовательно, возможность применения системы распознавания образов на этапе идентификации состояния объекта управления представляется вполне очевидной и естественной. Однако в этом может не быть необходимости. Поэтому возникает вопрос, в каких случаях целесообразно применять систему распознавания в АСУ, а в каких нет.
По литературным данным [230, 241, 279, 334] во многих ранее разработанных и современных АСУ в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий используются детерминистские математические модели "прямого счета", которые однозначно и достаточно просто определяют, что делать с объектом управления, если у него наблюдаются определенные внешние параметры.
При этом не ставится и не решается вопрос о том, как связаны эти параметры с теми или иными состояниями объекта управления. Эта позиция соответствует точке зрения, состоящей в том, что "по умолчанию" принимается их взаимно–однозначная связь. Поэтому термины: "параметры объекта управления" и "состояния объекта управления" рассматриваются как синонимы, а понятие "состояние объекта управления" в явном виде вообще не вводится. Однако очевидно, что в общем случае связь между наблюдаемыми параметрами объекта управления и его состоянием имеет динамичный и вероятностный характер.
Таким образом, традиционные АСУ по сути дела являются системами параметрического управления, т.е. системами, которые управляютне состояниямиобъекта управления, а лишь его наблюдаемымипараметрами.Решение об управляющем воздействии принимается в таких системах как бы "вслепую", т.е. без формирования целостного образа объекта управления и окружающей среды в их текущем состоянии, а также без прогнозирования развития среды и реакции объекта управления на те или иные управляющие воздействия на него, действующие одновременно с прогнозируемым влиянием среды.
С позиций, развиваемых в данной работе, термин "принятие решений" в современном понимании едва ли вообще в полной мере применим к традиционным АСУ. Дело в том, что "принятие решений", как минимум, предполагает целостное видение объекта в окружающей среде, причем не только в их актуальном состоянии, но и в динамике, и во взаимодействии как друг с другом, так и с системой управления, предполагает рассмотрение различных альтернативных вариантов развития всей этой системы, а также сужение многообразия (редукцию) этих альтернатив на основе определенных целевых критериев. Ничего этого, очевидно, нет в традиционных АСУ, или есть, но в упрощенном виде.
Конечно, традиционный метод является адекватным и его применение вполне корректно и оправдано в тех случаях, когда объект управления действительно является стабильной и жестко детерминированной системой, а влиянием окружающей среды на него можно пренебречь.
Однако в других случаях этот метод малоэффективен.
Если объект управления динамичен, то модели, лежащие в основе алгоритмов управления им, быстро становятся неадекватными, так как изменяются отношения между входными и выходными параметрами, а также сам набор существенных параметров. По сути дела это означает, что традиционные АСУ способны управлять состоянием объекта управления лишь вблизи точки равновесия путем слабых управляющих воздействий на него, т.е. методом малых возмущений. Вдали же от состояния равновесия с традиционной точки зрения поведение объекта управления выглядит непредсказуемым и неуправляемым.
Если нет однозначной связи между входными и выходными параметрами объекта управления (т.е. между входными параметрами и состоянием объекта), иначе говоря, если эта связь имеет выраженный вероятностный характер, то детерминистские модели, в которых предполагается, что результатом измерения некоторого параметра является просто число, изначально неприменимы. Кроме того, вид этой связи просто может быть неизвестным, и тогда необходимо исходить из самого общего предположения: что она вероятностная, либо не определена совсем.
Автоматизированная система управления, построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели, в данном же исследовании поставлена задача разработки таких методов проектирования АСУ, которые позволят создать системы, способные выявлять и набор наиболее значимых параметров, и определять характер связей между ними и состояниями объекта управления.
В этом случае необходимо применять более развитые и адекватные реальной ситуации методы измерений:
- классификация или распознавание образов (обучение на основе обучающей выборки, адаптивность алгоритмов распознавания, адаптивность наборов классов и исследуемых параметров, выделение наиболее существенных параметров и снижение размерности описания при сохранении заданной избыточности и т.д.);
- статистические измерения, когда результатом измерения некоторого параметра является не отдельное число, а вероятностное распределение: изменение статистической переменной означает не изменение ее значения самого по себе, а изменение характеристик вероятностного распределения ее значений.
В итоге АСУ, основанные на традиционном детерминистском подходе, практически не работают со сложными динамическими многопараметрическими слабодетерминированными объектами управления, такими, например, как макро– и микросоциально–экономические системы в условиях динамичной экономики "переходного периода", иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.
Весьма знаменательно, что в середине 80–х годов школа И.Пригожина развивает подход [282], согласно которому в развитии любой системы (в том числе и человека) чередуются периоды, в течение которых система ведет себя то как "в основном детерминированная", то как "в основном случайная". Естественно, реальная система управления должна устойчиво управлять объектом управления не только на "детерминистских" участках его истории, но и в точках, когда его дальнейшее поведение становится в высокой степени неопределенным. Уже одно это означает, что необходимо разрабатывать подходы к управлению системами, в поведении которых есть большой элемент случайности (или того, что в настоящее время математически описывается как "случайность").
Поэтому, в состав перспективных АСУ, обеспечивающих управление сложными динамическими многопараметрическими слабодетерминированными системами, в качестве существенных функциональных звеньев, по–видимому, войдут подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.
Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решения об управляющем воздействии (подробнее этот вопрос будет рассмотрен далее, так как он является ключевым для данной работы). Если в качестве классов распознавания взять целевые и иные состояния объекта управления, а в качестве признаков – факторы, влияющие на него, то в модели распознавания образов может быть сформирована мера связи факторов и состояний. Это позволяет по заданному состоянию объекта управления получить информацию о факторах, которые способствуют или препятствуют его переходу в это состояние, и, на этой основе, выработать решение об управляющем воздействии.
Факторы могут быть разделены на следующие группы:
- характеризующие предысторию объекта управления;
- характеризующие актуальное состояние объекта управления;
- факторы окружающей среды;
- технологические (управляемые) факторы.
Таким образом,системы распознавания образов могут быть применены в составе АСУ: в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий.
Это целесообразно в случае, когда объект управления представляет собой сложную систему.
Решение проблемы синтеза адаптивных АСУ сложными системами рассматривается в данной работе с учетоммногочисленных и глубоких аналогий между методами распознавания образов и принятия решений.
С одной стороны, задача распознавания образов представляет собой принятие решения о принадлежности распознаваемого объекта к определенному классу распознавания.
С другой стороны, задачу принятия решения авторы предлагают рассматривать как обратную задачу декодирования или обратную задачу распознавания образов (см. раздел 2.2.2).
Особенно очевидной общность основных идей, лежащих в основе методов распознавания образов и принятия решений, становится при рассмотрении их с позиций теории информации.
Многообразие задач принятия решений
Принятие решений как реализация цели
Определение:принятие решения ("выбор") есть действие над множеством альтернатив, в результате которого исходное множество альтернатив сужается, т.е. происходит его редукция.
Выбор является действием, придающим всей деятельности целенаправленность. Именно через акты выбора реализуется подчиненность всей деятельности определенной цели или совокупности взаимосвязанных целей.
Таким образом, для того, чтобы стал возможен акт выбора, необходимо следующее:
- порождение или обнаружение множества альтернатив, на котором предстоит совершить выбор;
- определение целей, ради достижения которых осуществляется выбор;
- разработка и применение способа сравнения альтернатив между собой, т.е. определение рейтинга предпочтения для каждой альтернативы согласно определенным критериям, позволяющим косвенно оценивать, насколько каждая альтернатива соответствует цели.
Современные работы в области поддержки принятия решений выявили характерную ситуацию, которая состоит в том, что полная формализация нахождения наилучшего (в определенном смысле) решения возможна только для хорошо изученных, относительно простых задач, тогда как на практике чаще встречаются слабо структурированные задачи, для которых полностью формализованных алгоритмов не разработано (если не считать полного перебора и метода проб и ошибок). Вместе с тем опытные, компетентные и способные специалисты часто делают выбор, который оказывается достаточно хорошим. Поэтому современная тенденция практики принятия решений в естественных ситуациях состоит в сочетании способности человека решать неформализованные задачи с возможностями формальных методов и компьютерного моделирования: диалоговые системы поддержки принятия решений, экспертные системы, адаптивные человеко–машинные автоматизированные системы управления, нейронные сети и когнитивные системы.
Принятие решений как снятие неопределенности (информационный подход)
Процесс получения информации можно рассматривать как уменьшение неопределенности в результате приема сигнала, а количество информации – как количественную меру степени снятия неопределенности.
Но в результате выбора некоторого подмножества альтернатив из множества, т.е. в результате принятия решения, происходит тоже самое (уменьшение неопределенности). Это значит, что каждый выбор, каждое решение порождает определенное количество информации, а значит может быть описано в терминах теории информации.
Классификация задач принятия решений
Множественность задач принятия решений связана с тем, что каждая компонента ситуации, в которой осуществляется принятие решений, может реализовываться в качественно различных вариантах [273, 391].
Перечислим только некоторые из этих вариантов:
- множество альтернатив, с одной стороны, может быть конечным, счетным или континуальным, а с другой, – закрытым (т.е. известным полностью) или открытым (включающим неизвестные элементы);
- оценка альтернатив может осуществляться по одному или нескольким критериям, которые, в свою очередь, могут иметь количественный или качественный характер;
- режим выбора может быть однократным (разовым), или многократным, повторяющимся, включающим обратную связь по результатам выбора, т.е. допускающим обучение алгоритмов принятия решений с учетом последствий предыдущих выборов;
- последствия выбора каждой альтернативы могут быть точно известны заранее (выбор в условиях определенности), иметь вероятностный характер, когда известны вероятности возможных исходов после сделанного выбора (выбор в условиях риска) или иметь неоднозначный исход с неизвестными вероятностями (выбор в условиях неопределенности);
- ответственность за выбор может отсутствовать, быть индивидуальной или групповой;
- степень согласованности целей при групповом выборе может варьироваться от полного совпадения интересов сторон (кооперативный выбор) до их противоположности (выбор в конфликтной ситуации). Возможны также промежуточные варианты: компромисс, коалиция, нарастающий или затухающий конфликт.
Различные сочетания перечисленных вариантов и приводят к многочисленным задачам принятия решений, которые изучены в различной степени.
Языки описания методов принятия решений
Об одном и том же явлении можно говорить на различных языках различной степени общности и адекватности. К настоящему времени сложились три основных языка описания выбора.
Самым простым, наиболее развитым и наиболее популярным является критериальный язык [273].
Критериальныйязык.
Пусть, например,{X}– множество альтернатив, аx– некоторая определенная альтернатива, принадлежащая этому множеству:xX. Тогда считается, что для всехxможет быть задана функцияq(x),которая называется критерием (критерием качества, целевой функцией, функцией предпочтения, функцией полезности и т.п.), обладающая тем свойством, что если альтернативаx1предпочтительнееx2(обозначается:x1> x2), тоq(x1)>q(x2).
При этом выбор сводится к отысканию альтернативы с наибольшим значением критериальной функции.
Однако на практике использование лишь одного критерия для сравнения степени предпочтительности альтернатив оказывается неоправданным упрощением, так как более подробное рассмотрение альтернатив приводит к необходимости оценивать их не по одному, а по многим критериям, которые могут иметь различную природу и качественно отличаться друг от друга.
Например, при выборе наиболее приемлемого для пассажиров и эксплуатирующей организации типа самолета на определенных видах трасс сравнение идет одновременно по многим группам критериев: техническим, технологическим, экономическим, социальным, эргономическим и др.
Многокритериальные задачи не имеют однозначного общего решения. Поэтому предлагается множество способов придать многокритериальной задаче частный вид, допускающий единственное общее решение. Естественно, что для разных способов эти решения являются в общем случае различными. Поэтому едва ли не главное в решении многокритериальной задачи – обоснование данного вида ее постановки.
Используются различные варианты упрощения многокритериальной задачи выбора. Перечислим некоторые из них.
1. Условная максимизация (находится не глобальный экстремум интегрального критерия, а локальный экстремум основного критерия).
2. Поиск альтернативы с заданными свойствами.
3. Нахождение множества Парето.
4. Сведение многокритериальной задачи к однокритериальной путем ввода интегрального критерия.
Рассмотрим подробнее формальную постановку метода сведения многокритериальной задачи к однокритериальной.
Введем интегральный критерийq0(x), как скалярную функцию векторного аргумента:
q0(x)= q0((q1(x), q2(x),…, qn(x)).
Интегральный критерий позволяет упорядочить альтернативы по величинеq0, выделив тем самым наилучшую (в смысле этого критерия).Вид функции q0определяется тем,как конкретномы представляем себе вклад каждого критерия в интегральный критерий.Обычно используют аддитивные и мультипликативные функции:
Коэффициентыsiобеспечивают:
1. Безразмерность или единую размерность числаaiqi/si(различные частные критерии могут иметь разную размерность, и тогда над ними нельзя производить арифметических операций и свести их в интегральный критерий).
2. Нормировку, т.е. обеспечение условия:biqi/si<1.
Коэффициентыaiиbiотражают относительный вклад частных критериевqiв интегральный критерий.
Итак, в многокритериальной постановке задача принятия решения о выборе одной из альтернатив сводится к максимизации интегрального критерия:
Основная проблема в многокритериальной постановке задачи принятия решений состоит в том, что необходимо найти такой аналитический вид коэффициентовaiиbi, который бы обеспечил следующие свойства модели:
- высокую степень адекватности предметной области и точке зрения экспертов;
- минимальные вычислительные трудности максимизации интегрального критерия, т.е. его расчета для разных альтернатив;
- устойчивость результатов максимизации интегрального критерия от малых возмущений исходных данных.
Устойчивость решения означает, что малое изменение исходных данных должно приводить к малому изменению величины интегрального критерия, и, соответственно, к малому изменению принимаемого решения. Таким образом, если исходные данные практически те же, то и решение должно приниматься или тоже самое, или очень близкое.
Язык последовательного бинарного выбора
Язык бинарных отношений[273] является обобщением многокритериального языка и основан на учете того факта, что когда мы даем оценку некоторой альтернативе, то эта оценка всегда является относительной, т.е. явно или чаще неявно в качестве базы или системы отсчета для сравнения используются другие альтернативы из исследуемого множества или из генеральной совокупности. Мышление человека основано на поиске и анализе противоположностей (конструктов), поэтому нам всегда проще выбрать один из двух противоположных вариантов, чем один вариант из большого и никак неупорядоченного их множества.
Таким образом, основные предположения этого языка сводятся к следующему:
- отдельная альтернатива не оценивается, т.е. критериальная функция не вводится;
- для каждой пары альтернатив некоторым образом можно установить, что одна из них предпочтительнее другой или они равноценны или несравнимы;
- отношение предпочтения в любой паре альтернатив не зависит от остальных альтернатив, предъявленных к выбору.
Существуют различные способы задания бинарных отношений: непосредственный, матричный, с использованием графов предпочтений, метод сечений и др.
Отношения между альтернативами одной пары выражают через понятия эквивалентности, порядка и доминирования.
Обобщенный язык функций выбора
Язык функций выбора[273] основан на теории множеств и позволяет оперировать с отображениями множеств на свои подмножества, соответствующие различным вариантам выбора без необходимости перечисления элементов. Этот язык является весьма общим и потенциально позволяет описывать любой выбор. Однако математический аппарат обобщенных функций выбора в настоящее время еще только разрабатывается и проверяется в основном на задачах, которые уже решены с помощью критериального или бинарного подходов.
Естественно, различным принципам согласования индивидуальных решений будут соответствовать различные групповые решения.
Правила согласования индивидуальных решений при групповом выборе называются правилами голосования. Наиболее распространенным является "правило большинства", при котором за групповое решение принимается альтернатива, получившая наибольшее число голосов.
Необходимо понимать, что такое решение отражает лишь распространенность различных точек зрения в группе, а не действительно оптимальный вариант, за который вообще никто может и не проголосовать. "Истина не определяется путем голосования".
Кроме того, существуют так называемые "парадоксы голосования", наиболее известный из которых парадокс Эрроу.
Эти парадоксы могут привести, и иногда действительно приводят, к очень неприятным особенностям процедуры голосования: например, бывают случаи, когда группа вообще не может принять единственного решения (нет кворума или каждый голосует за свой уникальный вариант и т.д.), а иногда (при многоступенчатом голосовании) меньшинство может навязать свою волю большинству.
Выбор в условиях неопределенности
В современной теории выбора считается, что в задачах принятия решений существует три основных вида неопределенности:
1. Информационная (статистическая) неопределенность исходных данных для принятия решений.
2. Неопределенность последствий принятия решений (выбора).
3. Расплывчатость в описании компонент процесса принятия решений.
Рассмотрим их по порядку.
Информационная (статистическая) неопределенность в исходных данных [273]
Данные, полученные о предметной области, не могут рассматриваться как абсолютно точные. Кроме того, очевидно, эти данные нас интересуют не сами по себе, а лишь в качестве сигналов, которые, возможно, несут определенную информацию о том, что нас в действительности интересует. Таким образом, реалистичнее считать, что мы имеем дело с данными, не только зашумленными и неточными, но еще и косвенными, а возможно, и не полными. Кроме того, эти данные касаются не всей исследуемой (генеральной) совокупности, а лишь определенного ее подмножества, о котором мы смогли фактически собрать данные, однако при этом мы хотим сделать выводы о всей совокупности, причем хотим еще и знать степень достоверности этих выводов.
В этих условиях используется теория статистических решений.
В этой теории существуют два основных источника неопределенности. Во–первых, неизвестно, какому распределению подчиняются исходные данные. Во–вторых, неизвестно, какое распределение имеет то множество (генеральная совокупность), о котором мы хотим сделать выводы по его подмножеству, образующему исходные данные.
Статистические процедуры это и есть процедуры принятия решений, снимающих оба эти вида неопределенности.
Необходимо отметить, что существует ряд причин, которые приводят к некорректному применению статистических методов:
- статистические выводы, как и любые другие, всегда имеют некоторую определенную надежность или достоверность. Но, в отличие от многих других случаев, достоверность статистических выводов известна и определяется в ходе статистического исследования;
- качество решения, полученного в результате применения статистической процедуры, зависит от качества исходных данных;
- не следует подвергать статистической обработке данные, не имеющие статистической природы;
- необходимо использовать статистические процедуры, соответствующие уровню априорной информации об исследуемой совокупности (например, не следует применять методы дисперсионного анализа к негауссовым данным). Если распределение исходных данных неизвестно, то надо либо его установить, либо использовать несколько различных методов и сравнить результаты. Если они сильно отличаются – это говорит о неприменимости некоторых из использованных процедур.
Неопределенностьпоследствий [273]
Однако, в реальной практике нередко приходится иметь дело с более сложной ситуацией, когда выбор той или иной альтернативы неоднозначно определяет последствия сделанного выбора.
В случае дискретного набора альтернатив и исходов их выбора, при условии, что сам набор возможных исходов общий для всех альтернатив, можно считать, что различные альтернативы отличаются друг от друга распределением вероятностей исходов. Эти распределения вероятностей в общем случае могут зависеть от результатов выбора альтернатив и реально наступивших в результате этого исходов. В простейшем случае исходы равновероятны. Сами исходы обычно имеют смысл выигрышей или потерь и выражаются количественно.
Если исходы равны для всех альтернатив, то выбирать нечего. Если же они различны, то можно сравнивать альтернативы, вводя для них те или иные количественные оценки. Разнообразие задач теории игр связано с различным выбором числовых характеристик потерь и выигрышей в результате выбора альтернатив, различными степенями конфликтности между сторонами, выбирающими альтернативы и т.д.
Рассмотрим такой вид неопределенности, как расплывчатая неопределенность [273]
Известно, что все шкалы размыты, но в разной степени. Под термином "размытие" понимается свойство шкал, состоящее в том, что всегда можно предъявить такие две альтернативы, которые различимы, т.е. различны в одной шкале и неразличимы, т.е. тождественны, в другой – более размытой. Чем меньше градаций в некоторой шкале, тем более она размыта.
Таким образом, мы можем четко видеть альтернативы и одновременно нечетко их классифицировать, т.е. иметь неопределенность в вопросе о том, к каким классам они относятся.
Уже в своей первой работе по принятию решений в расплывчатой ситуации Беллман и Заде [63] выдвинули идею, состоящую в том, что и цели, и ограничения должны представляться как размытые (нечеткие) множества на множестве альтернатив.
О некоторых ограничениях оптимизационного подхода
Идея оптимальности является центральной идеей кибернетики и прочно вошла в практику проектирования и эксплуатации технических систем. Вместе с тем эта идея требует осторожного к себе отношения, когда мы пытаемся перенести ее в область управления сложными, большими и слабо детерминированными системами, такими, например, как социально–экономические системы.
Для этого заключения имеются достаточно веские основания. Рассмотрим некоторые из них:
1. Оптимальное решение нередко оказывается неустойчивым, т.е. незначительные изменения в условиях задачи, исходных данных или ограничениях могут привести к выбору существенно отличающихся альтернатив.
2. Оптимизационные модели разработаны лишь для узких классов достаточно простых задач, которые не всегда адекватно и системно отражают реальные объекты управления. Чаще всего оптимизационные методы позволяют оптимизировать лишь достаточно простые и хорошо формально описанные подсистемы некоторых больших и сложных систем, т.е. позволяют осуществить лишь локальную оптимизацию. Однако, если каждая подсистема некоторой большой системы будет работать оптимально, то это еще совершенно не означает, что оптимально будет работать и система в целом. Поэтому оптимизация подсистемы совсем не обязательно приводит к такому ее поведению, которое от нее требуется при оптимизации системы в целом. Более того, иногда локальная оптимизация может привести к негативным последствиям для системы в целом. Поэтому при оптимизации подсистем и системы в целом необходимо определить дерево целей и подцелей и их приоритетность.
3. Часто максимизация критерия оптимизации согласно некоторой математической модели считается целью оптимизации, однако в действительностью целью является оптимизация объекта управления. Критерии оптимизации и математические модели всегда связаны с целью лишь косвенно, т.е. более или менее адекватно, но всегда приближенно.
Итак, идею оптимальности, чрезвычайно плодотворную для систем, поддающихся адекватной математической формализации, на сложные системы необходимо переносить с осторожностью. Конечно, математические модели, которые удается иногда предложить для таких систем, можно оптимизировать. Однако всегда следует учитывать сильную упрощенность этих моделей, которой в случае сложных систем уже нельзя пренебречь, а также то, что степень адекватности этих моделей в случае сложных систем фактически неизвестна. Поэтому не известно, какое чисто практическое значение имеет эта оптимизация. Высокая практичность оптимизации в технических системах не должна порождать иллюзии, что она будет настолько же эффективна и при оптимизации сложных систем. Содержательное математическое моделирование сложных систем является весьма затруднительным, приблизительным и неточным.Чем сложнее система, тем осторожнее следует относиться к идее ее оптимизации.
Поэтому при разработке методов управления сложными, большими слабодетерминированными системами, авторы считают основным не только оптимальность выбранного подхода с формальной математической точки зрения, но и его адекватность поставленной цели и самому характеру объекта управления.
Однако необходимо учитывать, что эксперты сами представляют собой сверхсложные системы, и их деятельность также зависит от многих внешних и внутренних условий. Поэтому в методиках организации экспертных оценок большое внимание уделяется созданию благоприятных внешних и психологических условий для работы экспертов.
На работу эксперта оказывают влияние следующие факторы:
- ответственность за использование результатов экспертизы;
- знание того, что привлекаются и другие эксперты;
- наличие информационного контакта между экспертами;
- межличностные отношения экспертов (если между ними есть информационный контакт);
- личная заинтересованность эксперта в результатах оценки;
- личностные качества экспертов (самолюбие, конформизм, воля и др.)
Взаимодействие между экспертами может как стимулировать, так и подавлять их деятельность. Поэтому в разных случаях используют различные методы экспертизы, отличающиеся характером взаимодействия экспертов друг с другом: анонимные и открытые опросы и анкетирования, совещания, дискуссии, деловые игры, мозговой штурм и т.д.
Существуют различные методы математической обработки мнений экспертов. Экспертам предлагают оценить различные альтернативы либо одним, либо системой показателей. Кроме того им предлагают оценить степень важности каждого показателя (его "вес" или "вклад"). Самим экспертам также приписывается уровень компетентности, соответствующий вкладу каждого из них в результирующее мнение группы.
Развитой методикой работы с экспертами является метод "Дельфи" [118]. Основная идея этого метода состоит в том, что критика и аргументация благотворно влияют на эксперта, если при этом не затрагивается его самолюбие и обеспечиваются условия, исключающие персональную конфронтацию.
Необходимо особо подчеркнуть, что существует принципиальное различие в характере использования экспертных методов в экспертных системах и в поддержке принятия решений. Если в первом случае от экспертов требуется формализация способов принятия решений, то во втором – лишь само решение, как таковое.
Поскольку эксперты привлекаются для реализации именно тех функций, которые в настоящее время или вообще не обеспечиваются автоматизированными системами, или выполняются ими хуже, чем человеком, то перспективным направлением развития автоматизированных систем является максимальная автоматизация этих функций.
Автоматизированные системы поддержки принятия решений
Человек всегда использовал помощников при принятии решений: это были и просто поставщики информации об объекте управления, и консультанты (советники), предлагающие варианты решений и анализирующие их последствия. Человек, принимающий решения, всегда принимал их в определенном информационном окружении: для военачальника – это штаб, для ректора – ученый совет, для министра – коллегия.
В наше время информационная инфраструктура принятия решений немыслима без автоматизированных систем итерактивной оценки решений и особенно систем поддержки решений (DDS – Decision Support Systems) [118], т.е. автоматизированных систем, которые специально предназначены для подготовки информации, необходимой человеку для принятия решения. Разработка систем поддержки решений ведется, в частности, в рамках интернационального проекта, осуществляемого под эгидой Международного института прикладного системного анализа в Лаксенбурге (Австрия).
Выбор в реальных ситуациях требует выполнения ряда операций, одни из которых более эффективно выполняет человек, а другие – машина. Эффективное объединение их достоинств при одновременной компенсации недостатков и воплощается в автоматизированных системах поддержки принятия решений.
Человек лучше, чем машина принимает решения в условиях неопределенности, но и ему для принятия верного решения необходима адекватная (полная и достоверная) информация, характеризующая предметную область. Однако известно, что человек плохо справляется с большими объемами "сырой" необработанной информации. Поэтому роль машины в поддержке принятия решений может заключаться в том, чтобы осуществить предварительную подготовку информации об объекте управления и неконтролируемых факторах (среде), помочь просмотреть последствия принятия тех или иных решений, а также в том, чтобы представить всю эту информацию в наглядном и удобном для принятия решений виде.
Таким образом, автоматизированные системы поддержки принятия решений компенсируют слабые стороны человека, освобождая его от рутинной предварительной обработки информации, и обеспечивают ему комфортную информационную среду, в которой он может лучше проявить свои сильные стороны. Эти системы ориентированы не на автоматизацию функций лица, принимающего решения (и, как следствие, отчуждение от него этих функций, а значит и ответственности за принятые решения, что часто вообще является неприемлемым), а на предоставлении ему помощи в поиске хорошего решения.
1. Обоснована необходимость поиска или разработки математической модели, адекватной для целей моделирования сложных объектов управления адаптивных АСУ.
2. Рассмотрены общие принципы построения математических моделей и определено, что для моделирования сложных объектов управления при большой степени неопределенности исходной информации может быть целесообразно применение модели "черного ящика", как предъявляющей минимальные требования к объему априорной информации об объекте управления.
3. Определены общие и специфические требования к математической модели сложного объекта управления и критерии их оценки. Обосновано, что модель должна быть математически прозрачной (достаточно простой) и технологичной в программной реализации. Кроме того, она должна обеспечивать:
- идентификацию состояния СОУ по его выходным параметрам (при независимости времени идентификации от объема обучающей выборки);
- выработку эффективных управляющих воздействий на сложный объект управления;
- накопление информации об объекте управления и повышение степени адекватности модели, в том числе в случае изменения характера взаимосвязей между входными и выходными параметрами СОУ (адаптивность);
- определение ценности факторов для детерминации состояний СОУ и контролируемое снижение размерности модели при заданных граничных условиях, в том числе избыточности.
4. Проведен аналитический обзор и дана классификация методов распознавания образов и принятия решений, выполнен их сравнительный анализ в соответствии с ранее обоснованными критериями, очерчены области применения методов и их основные ограничения, определена степень соответствия рассмотренных методов целям, поставленным в работе.
Как показал аналитический обзор методов распознавания образов и принятия решений, а также их сравнительный анализ в соответствии с предложенными критериями, метода, вполне адекватного для применения в составе адаптивных АСУ сложными системами, в готовом виде не существует, но он может быть разработан на основе метода решения многокритериальной задачи с применением математических моделей теории информации.
| ||||||||||||