Воспроизводимая невоспроизводимость

http://elementy.ru/nauchno-populyarnaya_biblioteka/432791/Vosproizvodimaya_nevosproizvodimost

Одно из самых убийственных обвинений, которые могут быть предъявлены ученому, это обвинение в невоспроизводимости представленных им результатов. Оно губит репутацию, рушит карьеру, вплоть до изгнания из научного сообщества, приводит к закрытию научного направления, к его вытеснению за пределы истинной науки и навешиванию разных уничижительных приставок — лже-, пара-, псевдо- и т. д. Когда звучат обвинения в невоспроизводимости «отдельных» исследований, подразумевается, что подавляющая часть остальных хорошо воспроизводима. Но так ли это?

Ключевое понятие науки

Воспроизводимость — краеугольный камень научного метода, ключевое понятие. Оно возникло еще на заре становления современной науки, когда исследователи обратились к эксперименту как средству познания окружающего мира и к количественным измерениям как способу описания изучаемых явлений. Объективность истины подразумевает, что исключены любые субъективные факторы, поэтому различные исследователи, изучающие одинаковые объекты одинаковыми методами с использованием аналогичных инструментов, должны получать идентичные результаты независимо от времени и места проведения эксперимента. В этом состоит категорический императив воспроизводимости.

Идентичность результатов следует понимать, естественно, с учетом статистической погрешности. В этом смысле воспроизводимость аналогична (а во многих случаях и синонимична) точности измерений. Первичный и более узкий случай воспроизводимости — это повторяемость. Она характеризует сходимость повторных результатов индивидуального исследователя, который использует одни и те же материалы и оборудование, одну и ту же методику в идентичных рабочих условиях в течение короткого промежутка времени. Когда исследователя спрашивают о воспроизводимости результатов его работы, то подразумевают именно повторяемость. Близость всех перечисленных понятий подчеркивает и тот факт, что количественно их характеризуют общим параметром — величиной относительного стандартного отклонения (или аналогичными статистическими величинами).

Но суть и значение воспроизводимости гораздо шире ее математического выражения. Она выступает в качестве главного критерия, позволяющего отделить зерна от плевел, агнцев от козлищ, научное знание от прочего информационного шума. Результат, полученный исследователем, — это всего лишь набор цифр, рисунков и неких умозаключений. Статус научного знания эти результаты получат лишь после того, как их примет научное сообщество. И единственный надежный метод такой верификации — повторение, воспроизведение полученных результатов другими, независимыми исследователями по представленным протоколам (методикам) проведения эксперимента. Здесь недопустимы ссылки на «тайное» знание, магические ритуалы, доступные только избранным и посвященным, «секретные» компоненты и таинственное «ноу-хау», они сразу выводят рассматриваемые результаты за пределы научного знания, и там, за этими пределами, их можно квалифицировать по-разному, от шарлатанства и мошенничества до вполне работоспособных технологических регламентов.

Более мягкий вариант верификации результатов — их представление научному сообществу на научных конференциях и защитах диссертаций, в виде публикаций в научных журналах. Рассмотрение результатов, ответы на возникающие вопросы, дискуссия позволяют установить, насколько методически правильно была выполнена работа, насколько достоверны полученные результаты и обоснованны выводы. Чем выше уровень экспертов (рецензентов), тем больше доверия к результатам экспертизы. Понятно, что наибольшее сомнение вызывают статьи в нерецензируемых журналах (при том, что в них среди откровенного мусора могут присутствовать и настоящие бриллианты, которые по каким-то причинам не могут пробиться в «высокорейтинговые» издания). Но в любом случае все эти презентации лишь предварительная апробация результатов, истинное признание может принести лишь их воспроизведение другими исследователями.

Масштабы катастрофы

Но все это в теории. Все это в прошлом. Реальная жизнь отличается от теоретических схем, а современная наука далеко ушла от классических канонов. Одной из основных проблем науки стало стремительное нарастание количества невоспроизводимых результатов. Стремительное — потому что происходит буквально на наших глазах.

Во времена моей студенческо-аспирантской молодости литературные методики имели свойство воспроизводиться, и первой реакцией руководителя на сообщение, что методика не воспроизводится, были нелицеприятные предположения, откуда растут руки у исполнителя. По прошествии тридцати лет первая реакция принципиально изменилась: опять эти (неполиткорректное упоминание национальности авторов статьи) начудили. И происходит это не только в химии, но и во всех дисциплинах, где существует понятие объективной истины и где воспроизводимость результатов — необходимый критерий научности.

Оценить количественно масштабы катастрофы (а это именно катастрофа) затруднительно, потому что исследований этого явления нет и вряд ли они возможны. Но есть результаты выборочного контроля в некоторых узких областях. Так, Гленн Бигли и Ли Эллис, ведущие специалисты американской фармацевтической компании «Amgen», в статье, опубликованной в журнале Nature (2012, 483, 7391, 531–533), рассказали о предклинических испытаниях антираковых препаратов, переданных в компанию университетскими лабораториями. Из 53 проверенных препаратов лишь 6 показали удовлетворительные результаты, данные по остальным 47, опубликованные, к слову сказать, в высокорейтинговых журналах, не воспроизвелись. Несколько более оптимистичны специалисты компании «Bayer», по их данным, опубликованным годом ранее в Nature Reviews Drug Discovery, воспроизводимость работ по онкологии, сердечно-сосудистым и женским заболеваниям составляет 20–25%. И это при том, что тестирование проводили высокопрофессиональные специалисты, заинтересованные в положительном результате испытаний, — ведь таким образом компании выбирают препараты для последующей коммерческой проработки.

Эти и некоторые похожие публикации вызвали широкое обсуждение. Опросы специалистов в этих областях показали, что в среднем 55% опрошенных сталкивались с невоспроизводимостью чужих результатов. Треть опрошенных сообщали об этом в научных публикациях, причем наибольшую принципиальность проявляли «старшие» научные сотрудники, а «младшие» предпочитали не высовываться. И это понятно, потому что две трети молодых смельчаков признали, что имели проблемы при попытке опубликовать опровергающие данные.

Причины невоспроизводимости

Наибольший интерес представляют мнения участников дискуссий о причинах нарастающей невоспроизводимости научных результатов. Откровенная и сознательная подтасовка данных практически не рассматривается. Конечно, мошенники есть в любом сообществе, но, согласимся, доля таких индивидов в науке несравненно ниже, чем в других сферах человеческой деятельности — в политике, экономике, юриспруденции и т. д.

Основной драйвер невоспроизводимости — торопливость, стремление утвердить свой приоритет в новой области исследований. Это имеет вполне земную подоплеку — приоритет повышает вероятность получения финансирования на дальнейшие исследования. Это раньше ученые пеклись о репутации, теперь они думают о первородстве и грантах. Что же до возможных обвинений в невоспроизводимости, то здесь авторы вполне могут следовать логике Кочкарева из «Женитьбы» Гоголя: «Какая ж беда, если рассердятся! ...ведь здесь самое большее, если кто-нибудь из них плюнет в глаза — вот и всё». Когда всё вскроется, грант уже будет получен, а там, глядишь, разработка будет доведена до ума, то есть до воспроизводимости.

Следующая причина публикации «сырых» результатов — погоня за числом публикаций и индексом Хирша, который ныне возведен в ранг главного индикатора качества научной деятельности. Как говорят молодые научные сотрудники, опубликуй в высокорейтинговом журнале или умри. В результате мы наблюдаем картину, немыслимую в прежние времена, — отзыв статей из журналов (в том числе рецензируемых и высокорейтинговых) как на стадии подготовки к печати, так и после публикации из-за опровержений других исследователей.

Складывается также впечатление, что многие авторы совершенно не заинтересованы в воспроизведении своих работ другими исследователями и потому вполне осознанно опускают некоторые важные экспериментальные подробности. Раньше этим грешили патенты: кто хоть раз пытался воспроизвести пример из патента, тот поймет. Но патент на изобретение — это в первую очередь правовой документ, который устанавливает существенные признаки изобретения. А некоторые экспериментальные тонкости, ноу-хау, автор вполне может утаить как дополнительный козырь при продаже патента. С этой точки зрения патент вообще нельзя рассматривать как научную публикацию, и в рамках, например, диссертации патент может выступать только как свидетельство практической значимости.

Но сейчас, к сожалению, принцип ноу-хау всё шире распространяется и на научные статьи. Приходится прилагать большие усилия, чтобы выяснить, о чем умолчали авторы оригинальной публикации. А те, в свою очередь, получают некоторый временной гандикап, чтобы удержаться на гребне исследований и, возможно, продвинуться в сторону их коммерциализации. В этом им невольно подыгрывают издатели научных журналов, которые максимально сокращают место, отведенное описанию экспериментальной части работы (материалам, методикам, оборудованию). Правда, сейчас ведущие научные журналы на своих сайтах выкладывают методики в виде приложения к статьям. Но это пока что скорее исключение, чем правило.

Впрочем, большую часть опубликованных научных результатов никто не воспроизводит и тем самым не верифицирует. Это одно из следствий того громадного вала, Big Data, научных публикаций, который производит в последние годы научное сообщество и который оно само не может переварить. Чтобы воспроизвести результаты, представленные в какой-нибудь статье, ее нужно для начала прочитать. Сколько из опубликованных статей были прочитаны хотя бы одним человеком, не знают даже Web of Science и Scopus, тем более что они охватывают не весь массив научной информации. Но можно сделать оценку, основанную на психологии. Если исследователь по какой-то причине скачал статью и прочитал ее, то он непременно когда-нибудь на нее сошлется, в положительном или отрицательном смысле или просто «до кучи», придавая солидность списку цитированной литературы.

По количеству мы имеем богатую статистику — это импакт-факторы журналов, которые рассчитывают как отношение числа цитирований статей, опубликованных в определенный год, к общему числу статей, опубликованных в том же году. Возьмем теперь импакт-факторы журналов, например российских из списка ВАК. Подавляющая часть попадает в интервал от 0,01 до 0,5. Это и будет оценка среднего числа читателей одной статьи в соответствующем журнале. Несомненно, что многие из этих статей подготовлены грамотными, высококвалифицированными специалистами, изучающими узкие, специальные проблемы. Но в то же время необходимо признать, что подобное отсутствие хоть какой-то внешней экспертизы снижает внутреннюю требовательность к качеству работы и создает условия для производства и публикации недостоверных, невоспроизводимых данных.

Что делать?

Как со всем этим бороться? Бороться тяжело, если вообще возможно, потому что все эти причины обусловлены самим строем современной науки, нацеленной на публикации и коммерческий эффект. Не случайно исследователи, принимающие участие в обсуждении этих проблем, не могут предложить ничего конструктивного, кроме создания специальных научных организаций, которые будут заниматься выборочной проверкой публикаций, хотя бы выполненных в ключевых направлениях, на воспроизводимость. Всё же идея инквизиции неискоренима в умах человечества и немедленно возрождается при любом кризисе! Еще более утопичным, на мой взгляд, выглядит предложение создать индекс воспроизводимости результатов из публикаций в научных журналах по аналогии с импакт-фактором или публиковать в журналах в виде электронного приложения все первичные данные, полученные исследователем.

Единственный, как мне кажется, путь решения проблемы состоит в воспитании и образовании молодого поколения ученых. Научная деятельность стала в последние десятилетия массовой профессией, невероятно выросло число научных работников, учебных заведений и исследовательских центров. Как следствие, упал средний уровень экспериментальной подготовки молодых специалистов (утверждение спорное, но, полагаю, многие с ним согласятся). Они зачастую просто не понимают, что такое воспроизводимость результатов. В лучшем случае они проводят повторные измерения характеристик образца. Получить в этом случае хорошую сходимость результатов — дело нехитрое при известном навыке. Мысль о том, что необходимо повторить всю последовательность эксперимента, включая получение образцов, даже не приходит им в голову. Кто бы им объяснил, сколько великих открытий было закрыто после того, как исследователь, исчерпав одну банку реактивов, открыл новую!

Но никакие объяснения, призывы или виртуальные эксперименты не заменят живой экспериментальной работы с неизбежными ошибками (на которых, собственно, и учатся). Только так, набив шишки, начинающий исследователь поймет, что «тупое» повторение экспериментов, стандартизация и поверка оборудования — это не прихоть руководителя, а неотъемлемая составляющая научной деятельности. В плане же воспитания необходимо накрепко вбить в голову, что первейшая обязанность ученого — получение достоверных знаний и воспроизводимых результатов, в этом состоит один из важнейших принципов этики ученого, а не в модной ныне рефлексии по поводу ответственности ученого за последствия использования результатов его исследований. У невоспроизводимых результатов может быть только одно последствие — падение престижа науки. И вот за это придется нести ответственность.

Проблема уникальности

Все перечисленные факторы, влияющие на воспроизводимость научных исследований, можно отнести к разряду субъективных, обусловленных в значительной мере системой функционирования современной науки. Однако необходимо также учитывать, что изменилась сама наука и возникли объективные факторы, играющие против воспроизводимости в ее классическом понимании.

Современная наука всё чаще обращается к изучению уникальных объектов, систем, явлений, исследователи выполняют уникальные эксперименты на единственном в своем роде оборудовании. Всё это вызывает законное восхищение прогрессом науки, но, с другой стороны, порождает неудобные вопросы. Возьмем, например, историю с открытием бозона Хиггса на Большом адронном коллайдере. Это открытие не было подтверждено независимыми исследованиями и с очевидностью не будет воспроизведено в обозримом будущем, потому что у мирового сообщества просто нет средств для строительства еще одного подобного циклопического сооружения. Как тут быть: принять на веру утвердительный вердикт Нобелевского комитета или стоически следовать жесткому утверждению известного философа Карла Поппера, что «единичное невоспроизведенное сообщение ничего не значит для науки»?

Другой свежий пример связан с высадкой зонда «Филы» на поверхность ядра кометы Чурюмова—Герасименко. Это само по себе выдающееся достижение. Теперь ученые с нетерпением ждут, когда же наконец заработает установленное на зонде научное оборудование и они получат информацию о физических и химических характеристиках ядра кометы. Всё это, конечно, безумно интересно, но ведь это будут единичные данные, невоспроизведенные и невоспроизводимые в обозримом будущем и, кроме того, нерепрезентативные. (Представьте, что некие инопланетяне высадили единственный зонд на Землю и обозрели несколько квадратных метров ее поверхности. Понятно, что их представление о Земле будет сильно зависеть от места посадки — на Северном полюсе, в пустыне Сахара или на поле аэрации в Подмосковье.) Можно ли рассматривать эти данные как истинно научное знание? Это вопрос, над которым стоит задуматься.

Классическая наука имела дело с большими ансамблями объектов и с повторяющимися процессами и научилась прекрасно разбираться с ними. Анализ результатов измерений в таких системах и понятие доверительного интервала основаны на нормальном, гауссовом распределении, при котором вероятность событий, существенно отличающихся от среднего значения, пренебрежимо мала. Но в последние десятилетия наука приступила к изучению систем, в которых распределение событий отличается от гауссова, их еще называют распределениями с «тяжелыми хвостами». Они характерны, в частности, для фрактальных, безмасштабных систем. В них вероятность событий, существенно отличающихся от среднего, имеет значимую величину, которой нельзя пренебречь. Такие редкие события можно назвать уникальными, а еще во многих случаях их называют катастрофами, что по понятным причинам привлекает к ним особый интерес.

Для изучения уникального нужна другая методология. Она в целом разработана, осталось преподать ее студентам — будущим исследователям и, крайне желательно, донести в популярном виде до широкой общественности, чтобы ее не сбивали с толку «сенсационные разоблачения» журналистов.

Проблема уникальности и связанной с этим невоспроизводимости обострилась в связи с разворотом науки от изучения неживых объектов и создания технических устройств к исследованию живых систем. Сегодня как минимум половина публикаций в научных журналах так или иначе связана с медициной, здоровьем, экологией, а также изучением социальных процессов. А все живые существа, по сути своей, разные, и к ним неприменимы методы стандартизации, используемые при работе с неживыми объектами.

Выше мы говорили о катастрофической невоспроизводимости характеристик лекарственных препаратов и связывали это с субъективными факторами — спешкой, погоней за приоритетом, коммерциализацией, недостаточной квалификацией и ошибками в методологии. Но есть и объективные факторы. Живые объекты невероятно сложны. Принципиально невозможно досконально описать выборку живых объектов (мух, мышей, людей) и тем более взять ее повторно. Исследователи каждый раз имеют дело с уникальной выборкой, то есть зародыш невоспроизводимости присутствует в эксперименте изначально, и бороться с ним очень трудно.

За последние десятилетия выявлена также еще одна фундаментальная причина возможной невоспроизводимости результатов. Классическая наука основана на идее детерминированности процессов, однозначности их протекания. Тут можно провести аналогию с математикой: если исходить из одних и тех же постулатов и правильно применять разрешенные логические процедуры, то с неизбежностью будет получен один и тот же результат. Можно также сказать, что воспроизводимость — оборотная сторона предсказуемости, первая относится к эксперименту, вторая — к теории.

Именно математика разрушила эту благостную картину, выявив процессы с множественными решениями. Существует обширный класс систем, развитие которых протекает через точки бифуркации, где возникают альтернативные варианты развития системы. Выбор того или иного варианта происходит под влиянием незначительных флуктуаций параметров системы и, в сущности, случайно. Конечные состояния системы (результаты измерения) могут при этом принципиально различаться.

Но в таких системах существует, по крайней мере, возможность теоретического предсказания этих множественных конечных состояний (при незначительном количестве точек бифуркации). Гораздо хуже обстоит дело с системами, чувствительными к флуктуациям параметров исходной системы. В них возникает так называемый эффект бабочки: незначительное изменение исходных параметров приводит к непредсказуемым последствиям развития системы. Поведение таких систем описывают, используя различные подходы, в частности теорию динамического (детерминированного) хаоса. И это отнюдь не экзотические системы, а хорошо знакомые нам атмосферные явления, сердечные патологии, популяционная динамика, экономика, политика и другие социальные явления.

Проблема заключается в том, что априори экспериментатор не знает, относится ли изучаемая им система к классу «хаотических». Он видит только патологическую невоспроизводимость результатов. Конечно, задним числом можно попытаться создать теоретическую модель, объясняющую эти результаты, однако не каждый исследователь обладает необходимыми для этого знаниями, кроме того, он может счесть, что овчинка не стоит выделки. Мало кто решится опубликовать такие противоречивые экспериментальные данные, еще меньше число редакторов научных журналов, которые примут подобную статью. Так что исследователи, устав от борьбы, обычно либо прекращают работу, либо публикуют наиболее сходящиеся данные, отбросив все «странные». А во втором случае всегда есть риск нарваться на обвинения в невоспроизводимости.

Объективная истина и субъективные усилия

В заключение заметим, что системы, которые изучает современная наука, невероятно усложнились. Они могут быть очень чувствительны как к исходным параметрам (что порождает проблемы со стандартизацией), так и к многочисленным параметрам проведения процесса. Задача исследователя состоит в том, чтобы выявить эти параметры, оптимизировать их и добиться максимальной повторяемости результатов. Но вполне реальна ситуация, когда он не сможет решить эту задачу, не сможет найти параметры, критичные для изучаемого процесса. Они могут оказаться совершенно неожиданными, хотя бы потому, что не вытекают из существующего знания. Это может быть предшествием открытия, и честь и хвала исследователю, который ознакомит научное сообщество с этими сырыми результатами в надежде на то, что его коллеги больше преуспеют в их исследовании.

При оценке таких результатов необходимо также учитывать субъективные факторы, которые обычно игнорируют «теоретики» науки. Из жизненного опыта все мы знаем, что воспроизвести какое-либо действие весьма не просто даже при наличии детальной инструкции или демонстрации. Впервые сделанное блюдо или табуретка обычно очень далеки от образца. Но, повторяя раз за разом необходимые операции, мы постепенно приближаемся к совершенству. И вроде бы делаем всё точно так же, но результат улучшается, это то, что называется «набить руку». Причем одни вещи воспроизводятся легко, на раз-два-три, а на другие уходят годы тренировок.

В науке всё происходит точно так же. Объективная истина зависит от субъективных усилий по ее достижению. Исследователю, чтобы добиться повторяемости результатов (пусть даже не очень хорошей), тоже приходится иногда пройти очень долгий путь «набивания руки» в одном конкретном эксперименте. Существуют ли гарантии, что этот эксперимент «влёт» воспроизведется у другого исследователя? Никаких. Воспроизведение будет скорее случайностью, чем правилом. Особенно если исследователь не верит, что у него что-нибудь получится, и подсознательно настроен на опровержение, а не на подтверждение.

Речь сейчас идет об исследованиях, которые не вписываются в общепринятые представления. Тут надо с очень большой осторожностью относиться к заявлениям о невоспроизводимости результатов и тем более не спешить с навешиванием ярлыков. Ведь так легко с водой выплеснуть и ребенка. Именно «странные» результаты должны быть предметом первоочередного изучения в науке. Пусть большая часть их после детального исследования будет в конце концов опровергнута и отвергнута, но то, что останется, превратится в открытия. Наука не может и не должна останавливаться в своем познании мира и сосредотачиваться на обслуживании утилитарных потребностей людей. Мы верим в грядущие открытия. Возможно, они уже сделаны. Их просто нужно воспроизвести.

Обсуждение