Определения:
1. Точность обнаружения — количество ошибок первого рода, количество ошибок второго рода, для разных критериев можно выбрать одинаковое. Но если к выборкам намеренно добавлять выбросы, процент их обнаружения у разных критериев будет различаться. Не существует единого подхода к оценке эффективности критериев. Конкретно для этой статьи мы будем использовать термин «точность обнаружения», как субъективная оценка критерия на основе полученных данных (графиков).
2. Правило трёх сигм заключается в том, что при нормальном распределении практически все значения величины с вероятностью 0,9973 лежат не далее трёх сигм в любую сторону от математического ожидания, то есть находятся в диапазоне [μ−3σ;μ+3σ]
3. Выборка— множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Выборку можно описать некоторыми статистиками, среднее, медиана, мода, стандартное отклонение, размах, и. т. д.
Искажения нормального распределения по-разному влияют на разные описательные статистики.
4.
Критерий Граббса находит выбросы по оценке соотношения стандартного отклонения (или дисперсий, кому как удобнее) с проверяемым значением и без него.
5. Стандартное отклонение — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания
6. Среднее абсолютное отклонение (АAD) — является мерой статистической дисперсии. АAD — это надёжная статистика, более устойчивая к выбросам в наборе данных чем стандартное отклонение (не значит, что лучше). В стандартном отклонении расстояния от среднего возводятся в квадрат, поэтому большие отклонения имеют больший вес, и поэтому выбросы могут сильно на него влиять. В общем виде центральной точкой может быть среднее (АAD), медиана (MAD).
Утверждения:
1. Проверять необходимо число с наибольшим критическим значением.
2. p-value Процент ложного обнаружения.
3. Ссылка на авторитет не является доказательством.
4. Нет смысла тестировать критерии на распределениях отличных от нормального, а потом сравнивать полученные результаты, т. к. для практического применения в этом нет смысла. При этом не отрицается возможность намеренного искажения нормального распределения для оценки критериев.
Здесь мы рассмотрели
критерий Граббса. В этой статье будет рассмотрен альтернативные способы проверки на выбросы.
Критериев существует огромное количество, порядка 30
Например: Метод Ирвина, Критерий Стьюдента, Критерий наибольшего абсолютного отклонения, Критерий максимального относительного отклонения, Критерий Романовского, Метод вариационного размаха, Критерий 3 Сигм, Критерий Райта, Критерий Граббса, Q-критерий (Диксона), Критерий Львовского, Критерий Шовене, Критерий Дэвида, Критерий Хоглина-Иглевича, L-критерий (Критерий Титьена-Мура), Критерий Смоляка-Титаренко, Критерий Бродского-Быцаня-Власенко. Критерий Кимбера.
Описание некоторых, корыте могут заслуживать внимание.
Критерий 3 Сигм
— К данному критерию у меня претензий, нет, грубость при небольшом количестве данных, компенсируется упрощением.
Горячо любимый, и воспетый критерий Диксона.
— Реализация, на ПК, вызывает небольшие затруднения, с этими «X3-X1»
— Критические значения только до 30n
— Критерий Диксона теряет часть информации о выборке (большая часть значений просто не учитывается).
— Скачкообразное изменение свойств (для разных n формулы могут быть разные).
— Использует для вычислений критического значения числа с большим разбросом (числа ближе к минимальному и максимальному имеют больший разброс, чем числа, которые ближе к среднему значению).
— Попытки использовать критерий Диксона в качестве альтернативы критерию Граббса не увенчались успехом.
Пример вариантов результата при добавлении к выборке числа 4σ:
а)
Критерий Граббса обнаружил выброс, критерий Диксона обнаружил Выброс.
б)
Критерий Граббса обнаружил выброс, критерий Диксона не обнаружил Выброс.
г). Практически отсутствует вариант —
Критерий Граббса не обнаружил выброс, критерий Диксона обнаружил Выброс.
— Критические значения рассчитаны для одностороннего критерия, что уже в большинстве случаев приведёт к неправильному использованию и выводам.
Метод Ирвина
— Я бы его охарактеризовал как смесь критерия Диксона, и критерия Граббса. Зачем нам половинчатые меры? Первый забраковали, второй уже есть.
Критерий Стьюдента, и разные вариации.
— Критерий может составить конкуренцию критерию Граббcа. Любое p-value, любое n, без статистических таблиц. Результаты обоих критериев должны быть похоже, т. к. работают с одинаковыми свойствами нормального распределения.
Критерии, которые используют медиану.
— Возможно, мы их, когда ни будь рассмотрим.
Остальные критерии откровенно бесполезны.
Причины:
— Сомнительные критические значения. Стоить только вспомнить многолетний спор про неправильные коэффициенты Граббса, да работы которые основаны на неправильных выводах предыдущих работ.
— Повторяют Критерий Граббса, или Диксона в разных вариациях.
— Не подвергались анализу.
— Наверное самое главное, практический все вариации друг друга, используют либо нормальное распределение, либо разность крайних значений. Это должно приводить к одинаковым результатам (если критические значения посчитаны правильно). В итоге никаких альтернативных данных мы не получим, а вот ошибочные выводы вполне вероятно.
Предисловие.
В практике не всегда, а скорее никогда,
идеального нормального распределения не будет, помимо этого, бывают редкие события. Всё это по-разному может повлиять на описательные статистики, которые используют критерии, и в итоге может привести к неверным выводам.
Для подтверждения своих выводов можно использовать арбитражные методы, вычисляющие через другие свойства нормального распределения.
Для обнаружения выбросов рассмотрим критерий Рябкова первого порядка (R1), основанного на среднем абсолютном отклонении.