Статистика, несмотря на свою репутацию объективности, может приводить к нелогичным результатам, противоречащим здравому смыслу. Это часто происходит из-за статистических парадоксов, таких как парадокс Симпсона, когда закономерность проявляется в агрегированных данных, но меняется на противоположную при разделении данных на подгруппы. Понимание этих явлений крайне важно для точных исследований и принятия решений.
Дело о Приеме в Беркли
Известный пример произошел в 1970-х годах, когда Университет Калифорнии в Беркли был обвинен в гендерной дискриминации при поступлении в аспирантуру. Первоначальные данные показали более низкий процент приема для женщин (35%) по сравнению с мужчинами (44%), что, казалось бы, указывало на предвзятость. Однако, когда прием анализировали по факультетам, обнаружилось обратное: на четырех из шести основных факультетов женщин принимали больше, чем мужчин.
Расхождение возникло из-за того, что женщины непропорционально подавали заявления в более конкурентные факультеты с более низкими общими показателями приема, в то время как мужчины подавали заявления в факультеты с большим количеством мест и меньшим количеством абитуриентов. Это иллюстрирует, как группировка может искажать лежащие в основе тенденции.
Истоки Парадокса
Это явление впервые описал в 1899 году математик Карл Пирсон, а затем заново открыл Джордж Юдни Юл в 1903 году. Однако оно оставалось в значительной степени незамеченным до тех пор, пока Эдвард Симпсон формально не задокументировал его в 1951 году, дав эффект его имя. Работа Симпсона подчеркнула, как тенденции могут меняться в зависимости от деления на подгруппы.
Реальные Последствия
Этот парадокс — не просто теоретическое упражнение. В 2021 году данные показали, что COVID-19 был почти в два раза смертельнее в Италии, чем в Китае, несмотря на то, что в каждой возрастной группе в Италии выживаемость была выше. Эта кажущаяся противоречивой находка демонстрирует, как агрегированные тенденции могут скрывать динамику подгрупп.
Проблемы в Медицинских Исследованиях
Парадокс Симпсона создает проблемы в медицинских исследованиях, особенно при оценке эффективности лекарств. Лекарство может демонстрировать общую эффективность, но оказаться менее эффективным, чем плацебо, при анализе по подгруппам (например, по полу). Решение о том, одобрять такое лекарство или нет, требует тщательного рассмотрения: следует ли отдавать приоритет общему результату или несоответствия в подгруппах должны вызывать опасения?
Самый научно обоснованный подход — дальнейшее изучение, чтобы определить степень влияния смешивающих факторов и убедиться, что причинно-следственные связи установлены правильно. Нет обходных путей для строгого анализа при разделении корреляций и реальных эффектов.
В заключение, парадокс Симпсона напоминает нам, что статистика, хотя и мощна, не является безошибочной. Критический подход к анализу данных, включая проверку подгрупп и учет скрытых влияний, необходим, чтобы избежать вводящих в заблуждение выводов.
