понедельник, 6 августа 2012 г.

точный и приближенный методы построения доверительных интервалов прогноза






ПРИНЦИПЫ ЭКОЛОГИИ

Шитиков В. К. Использование рандомизации и будстрепа при обработке результатов экологических наблюдений // Принципы экологии. 2012. № 1. С. 4‒24.

Аналитический обзор

УДК 574 Использование рандомизации и будстрепа при обработке результатов экологических наблюдений

Шитиков Владимир Киррилович Институт экологии Волжского бассейна РАН, stok1@list.ru

Ключевые слова: экологическая информация ресамплинг бутстреп рандомизация статистические параметры доверительный интервал проверка гипотез экологические сообщества видовая структура

Аннотация: Рассмотрены основные идеи методов ресамплинга и показаны их преимущества при обработке данных экологических наблюдений. Приведены конкретные примеры использования бутстрепа и рандомизации для статистической инференции: построения доверительных областей выборочных параметров и проверки гипотез. Подробно анализируются процедуры и типовые нуль-модели, используемые при проверке гипотез о существовании неслучайных закономерностей организации видовой структуры экологических сообществ.

Петрозаводский государственный университет

Получена: 20 декабря 2011 года Подписана к печати: 31 марта 2012 года

Введение При анализе экологических данных часто ограничиваются вычислением точечных оценок изучаемых показателей по имеющимся выборкам (например, арифметических средних). Как правило, этого недостаточно – следует убедиться в том, что найденная величина, например средней популяционной плотности животных, является точной и несмещенной, а также получить ее надежные доверительные интервалы. Или если сравнивается видовой состав для двух или нескольких местообитаний, то необходимо оценить вероятность того, что найденное сходство биотопов по Съеренсену статистически значимо отличается от случайного распределения. Только так мы можем обосновать то, что изменчивость показателей обилия организмов имеет экологически закономерный характер. В противном случае мы вынуждены принять нуль-предположение, что видовой состав на всей площади изучаемого региона сформировался как случайные выборки из некого гипотетического резервуара видов бесконечной емкости (или по-английски – heat bath) в результате каких-то непредсказуемых стохастических событий. И тут есть две проблемы. Во-первых, статистические свойства параметров могут быть изучены только при наличии повторностей наблюдений. Однако в экологии можно выполнить срез данных только в определенном месте и в определенный момент времени, а если отбирать вторую, третью пробы и т. д., то это будут уже данные из другого места или же взятые в другой момент времени. Поэтому возникает вопрос: как, имея лишь одну единственную повторность, оценить значение необходимого нам показателя и получить меру точности этой оценки? Во-вторых, поскольку точный вид распределения обрабатываемых данных, как правило, неизвестен, используют приближенные методы аппроксимации предполагаемых свойств исследуемой статистики, причем как влияет степень этой приближенности на окончательные выводы, остается целиком на совести исследователя. В частности, классическая теория проверки статистических гипотез использует то или иное стандартное предельное выборочное распределение (Гаусса, Стьюдента, Фишера и др.), оценивая их параметры по выборочным данным. В этой связи обработка экологических наблюдений параметрическими методами, описанными во всех учебниках по биометрии, основывается на целом ряде априорных предположений, таких как независимость измерений и их ошибок, однородность дисперсий, нормальность распределения и проч. Если они верны, то тесты обладают несомненной надежностью и прекрасной теоретической проработанностью. В то же время возможные отклонения от этих предположений, характерные для экологических данных, могут серьезно повлиять на обоснованность конечных выводов. Современной альтернативой параметрическим методам является моделирование эмпирического распределения данных с использованием методов генерации повторных выборок (или численного ресамплинга – resampling), которые бурно развиваются два последних десятилетия. Методы ресамплинга объединяют три разных подхода, отличающихся по алгоритму, но близких по сути: рандомизацию, или перестановочный тест (permutation), бутстреп (bootstrap) и метод «складного ножа» (jackknife). К сожалению, русскоязычному читателю трудно встретить публикации, посвященные этой динамично развивающейся идеологии, поэтому в нашем сообщении мы приведем краткое изложение ее сути и проиллюстрируем возможности применения перечисленных методов на конкретных примерах гидробиологического плана. Исходными данными для расчетов явились экспедиционные материалы лабораторий Института экологии Волжского бассейна РАН (рук. Т. Д. Зинченко, д.б.н. и О. А. Розенцвет). Большинство вычислений (рис. 1‒7) выполнены с использованием простой и удобной программы Resampling Procedures 1.3, разработанной и свободно распространяемой Д. Хауэллом, профессором университета в Вермонте, автором книги «Статистические методы в психологии», выдержавшей семь изданий; на его сайте приведены также детальные рекомендации по использованию методов (Howell, 2007). Аналитический обзор

source




Комментариев нет:

Отправить комментарий