Критерий Граббса

файл не идеал, нужно кучу подправить, время на всякую мелочь уходит море.
Neiron6XX, файл распространяется бесплатно и принадлежит домену данного форуму. Разрешается любое использование в т.ч и статистических таблиц. (модификация, копирование, частичное копирование, округление). При копировании и использовании таблиц ссылка на тему Критерий Граббса обязательна. Так же желательно указать дату создания и версию таблицы.
Расчёты прошли валидацию. Критические значения для критерия Граббса полностью коррелируют с ГОСТ Р ИСО 5725-2-2002 (это подтверждает правильность расчёта, (выбранную модель расчёта) статистических таблиц). Так же был создан отдельный файл для независимой перепроверки правильности расчёта уровней значимости p (значения выбирались случайным образом) Ошибок обнаружено небыло. Файл готов для верификации в аккредитованных лабораториях.

Пароль для защищённых листов 1234
По умолчанию редактировать можно только значения помеченные красным цветом.
При скачивании из интернета файла у меня включился защищённый просмотр, (невозможно вносит данные). Необходимо отключить в настройках Excel. Файл => Сведения => Разрешить редактирование

Реализовано:
Проверка на грубые выбросы.
1. Критерий Граббса одно наибольшее или одно наименьшее значение
2. Критерий Граббса два наибольших или два наименьших значения

P - Доверительная вероятность. Статистическая мощность. Мощность критерия
q - Уровень значимости. Частота ошибок первого рода. Можно интерпретировать как коэффициент ложного обнаружения. p-value
q=(1-P)x100 например: P = 0,95 q=0,05 (5%) примечание: возможно уравнение не всегда верно.

Выбросы
В простейшем случае выброс представляет собой наблюдение, несовместимое с остальными наблюдениями набора данных. В общем случае набор данных может содержать более одного выброса, расположенных, как с одной, так и с двух сторон упорядоченного набора данных. Основная проблема выявления выбросов состоит в определении того, действительно ли наблюдения, не совместимые с остальными данными являются выбросами. Эту задачу решают посредством заданного критерия значимости с учетом предполагаемого распределения данных. Наблюдения, для которых получены значимые результаты, рассматривают как выбросы из предполагаемого распределения.

Важность правильного выбора соответствующего распределения данных нельзя переоценить. На практике часто в качестве распределения данных часто рассматривают нормальное распределение, даже если данные получены из другого источника. Однако ошибочное предположение о распределении данных может приводить к некорректному отнесению элементов выборки к выбросам.

Причины выбросов
Появление выбросов обычно связано с одной или несколькими причинами.

a) Ошибки измерений и регистрации данных. Сюда относят ошибки в точности измерений, некорректно проведенные наблюдения, некорректную регистрацию данных или их введения в базу данных.

b) Загрязнение данных. Загрязнение данных происходит в том случае, когда данные принадлежат двум или более распределениям, т. е. имеется одно основное распределение и одно или несколько дополнительных распределений (примесей), загрязняющих данные. Если загрязняющие распределения имеют значительно отличающиеся от основного истинные средние, большие значения стандартных отклонений и/или более тяжелые хвосты распределений, чем у основного распределения, то существует возможность того, что экстремальные наблюдения, принадлежащие распределениям-примесям, могут появиться как выбросы основного распределения.
Примечание 1 — Причиной загрязнения может быть ошибка при отборе выборки, когда небольшую часть данных считают полученной из другой совокупности или если было осуществлено преднамеренное искажение (завышение или занижение) результатов эксперимента или опроса.

c) Ошибочное предположение о распределении данных. Набор данных считают полученным из конкретного распределения, но он получен из другого распределения.
Пример — Набор данных считают отобранным из нормального распределения, но он может иметь сильно ассиметричное распределение (например, экспоненциальное или логнормальное) или быть симметричным, но иметь тяжелые хвосты (например, t-распределение). Поэтому наблюдения, далеко отстоящие от медианы распределения, могут быть ошибочно приняты за выбросы, даже если это достоверные данные, принадлежащие ассиметричному распределению или распределению с тяжелыми хвостами.

d) Редкие наблюдения. В выборках, отобранных (как предполагается) из заданных распределений маловероятные наблюдения могут появиться в очень редких случаях. Экстремальные наблюдения в этом случае обычно принимают за выбросы, но они не являются выбросами.
Примечание 2 — Если генеральная совокупность имеет симметричное распределение с тяжелыми хвостами, то редко поступающие наблюдения могут приводить к ошибочным предположениям о распределении.

Необходимость обнаружения выбросов
Выбросы не всегда являются «плохими» или «ошибочными» данными. Они могут быть рассмотрены как индикаторы проявления редких явлений, требующих дальнейшего изучения. Например, если выброс вызван исключительно особенностями промышленной обработки, то важное значение имеет изучение причин выброса.

Многие методы статистической обработки данных и многие получаемые статистики чувствительны к наличию выбросов. Например, выборочные среднее и стандартное отклонения могут изменить свои значения при наличии даже одного выброса, что впоследствии может привести к неверным выводам.

зарезервировано

Выброс: Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки.
Примечание 1 — Классификация наблюдения или подмножество выборки как выброс (или выбросы) зависит от выбранной модели генеральной совокупности, из которой отобрана выборка. Выброс не рассматривают как истинный элемент генеральной совокупности.
Примечание 2 — Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений.
Примечание 3 — Подмножество может содержать одно или несколько наблюдений.

Маскировка: Наличие более одного выброса, затрудняющее обнаружение каждого выброса.

Робастная оценка: Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.

Ошибка первого рода: Отклонение нулевой гипотезы, когда она истинна. (выброс есть, но не детектирован)

Ошибка второго рода: не отвергают нулевую гипотезу, когда она ложна. (выброса нет, но детектирован)

Вероятность ложного обнаружения выбросов: Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы.

Мощность: это вероятность отклонения нулевой гипотезы, когда она ложна. Мощность критерия можно контролировать, повышать, но тогда вырастает шанс допустить ошибку 2-го рода.

Тема по обнаружению выбросов не сложная, но многогранная. Начиная писать одно, ты понимаешь, что перед этим нужно объяснить другое. И так по кругу.
Я наработал довольно много материала для анализа результатов измерений, и хотел уже начинать потихоньку выкладывать результаты, но понял что могу столкнутся с критикой, в этой статье я хочу предварительно осветить некоторые моменты.

Претензия первая.
Табличные значения критерия Граббса, приведённые в ГОСТ Р ИСО 5725-2-2002 и ГОСТ Р 8-736-2011, неверны, а именно: указанные в них уровни значимости завышены в два раза, как это показано, в частности, в [1]. В табл. 4а.1 приведены действительные значения Uтабл, взятые из первоисточника [2] Ими и следует пользоваться. ссылка: https://arhiuch.ru/lab4a.html

Прежде чем ответить на критику, расскажу, как были получены цифры в статье и ГОСТах.
Генерировалась необходимого размера n выборка случайных чисел с нормальным законом распределения.
В первом случае рассчитывался Gвыбор МИНИМАЛЬНОГО ИЛИ МАКСИМАЛЬНОГО значения.
Так повторяется несколько тысяч раз. Полученные Gвыборки записываются, упорядочиваются по возрастанию. Наименьшее Gвыбор число, 5%ов наибольших и будет являться Gтабл для доверительной вероятности p=0,95 для n объёма выборки.

Для ГОСТ
Расчёт происходил так же, за исключением: вместо МИНИМАЛЬНОГО, ИЛИ МАКСИМАЛЬНОГО значения выбиралось значение, при котором будет наибольшее Gвыбор.
В итоге, в первом случае получаем (здесь придется вводить понятия) Односторонний критерий Граббса, во втором Двухсторонний критерий Граббса (у которого как раз уровень значимости завышен в два раза).
Прежде чем предположить, где ВЕРНЕЕ, необходимо уточнить, при оценке выборки на грубые выбросы, поиска сомнительных результатов, необходимо самому выбирать критические уровни. И в первом, и во втором случае значения верны, просто они решают разную задачу. (Не буду писать о принятии нулевой гипотезы). В первом случае, Вы отвечаете на два вопроса: Есть ли вероятность выброса у минимального значения, и Есть ли вероятность выброса у максимального значения. (вероятность в процентах 95, или 99)
Во втором — Есть ли вероятность выброса в выборке значения с наибольшим отклонением от среднего (вероятность в процентах 95, или 99).
Лично для меня, второй вариант для целей метрологии логичнее. Покажите, если есть, сомнительное число.

А теперь, где ВЕРНЕЕ
Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Т. е. если мы заранее не знаем может ли быть выброс, будет он минимальным значением, максимальным, либо вообще находится внутри выборки, необходимо брать двухсторонний, а если мы точно знаем, что с какой-либо стороны не может быть выброса (наверное, и такие варианты существуют), необходимо брать односторонний критерий Граббса.
Граббс мне друг, но ГОСТ дороже.

Претензия вторая
Применения критерия Граббса при анализе результатов испытания с тремя элементами.
Таким образом, проведенный моделирующий эксперимент показал ограниченность применения критерия Граббса для выявления выбросов и квази выбросов при проведении испытаний, когда объем выборки n 3. С одной стороны, чувствительность критерия Граббса недостаточная, а значит могут быть получены такие значения, которые с точки зрения физического смысла являются выбросами, а критерий Граббса их «не чувствует». С другой стороны, при двух одинаковых значениях из трех третье значение в выборке всегда по критерию Граббса будет признаваться выбросом. статья: КОРРЕКТНОСТЬ ПРИМЕНЕНИЯ КРИТЕРИЯ ГРАББСА ПРИ АНАЛИЗЕ РЕЗУЛЬТАТОВ ИСПЫТАНИЯ С ТРЕМЯ ЭЛЕМЕНТАМИ. Системи обробки інформації, 2007, випуск 6 (64) Е.Т. Володарский, И.А. Харченко, В.И. Згуря, М.Е. Молочков

Начну с определения.
Критерий Граббса применяется для оценки на грубые ошибки (промахи) сомнительных значений выборки из случайной величины, имеющей НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ.
Т. е. прежде, чем пользоваться этим критерием необходимо, либо доказать, либо предположить, либо по результатам предыдущих опытов принять то, что у Вас нормальное распределение.
Замечания к статье:
Если в выборке два из трёх одинаковые значения, распределение нормальным не будет.
Если «большая» дискретность, распределение нормальным не будет читайте Почему нормальное распределение не нормальное

Следует так же понимать, что бывают разные типы выборок, и статистические методы в некоторых случаях не будут давать ожидаемые результаты.

Например: не стоит искать выбросы при измерении температуры за окном (нестабильный объект исследования), при взятии проб в поле (у вас могут быть локальные загрязнения). В теоретическом эксперименте, приведенный в статье, данные на мой взгляд неподходящие. В статье не известно, что является в реальных условиях причиной разброса. Если регулятор нагрева (температура действительно может расти, рост величины, это не разброс вокруг величины), то такие данные не подходят для получения случайных величин.
Выбросы — это ошибки, это неправильно полученные данные, а не то, на что указала формула. Если система работала правильно, почему там необходимо их искать?

Немного теории. При 3 n обнаружить выбросы действительно сложно, НЕЗАВИСИМО ОТ ВЫБРАННОГО КРИТЕРИЯ.
Если СКО выборки заранее неизвестно, то 3 n это минимальное количество, при котором можно производить расчёты (для некоторых критериев 4-5). Приведу пример расчёта вероятности того, что число 10 не относится к выборке.
1,0; 4,0; 10,0 p=36%
1,0; 2,0; 4,0; 10,0 p=80%
1,0; 2,0; 3,0; 4,0; 10,0 p=93%
1,0; 2,0; 2,9; 3,0; 4,0; 10,0 p=97% (10 — сомнительное)
1,0; 2,0; 2,9; 3,0; 3,0; 4,0; 10,0 p=99% (10- выброс)
Нам потребовалось 6 измерений, чтобы убедиться, что число, отличавшиеся от среднего более чем на 6σ (сигм), может являться грубой ошибкой.

Пример 2
3,00; 3,01; 5,00 p=99% (5,00 - выброс)
Первые два значения практический равны, из за этого 5,00 определён как выброс. И это может быть ошибочным выводом, например если истинное значение = 3,80 СКО = 0,6

Немного теории.
Минимальная последовательность действий при поиске выбросов:
1. Получаем результаты измерений.
2. Доказываем, принимаем, предполагаем, что распределение нормальное, если нет при расчёте используем робастную оценку.
3 Распределение нормальное
3.1 Проверяем на выбросы.
4.1 Если обнаружен выброс проводим анализ, где могла быть ошибка. (например, неправильно записали число, сломался прибор).
4.2 Если находим причину выброса, исключаем ошибочное число и рассчитываем окончательный результат. Если нет, при расчёте используем робастную оценку.

Претензия третья
Первые правильное решение задачи об оценке анормальных результатов наблюдений было дано Н. В. Смирновым в 1941 г. В 1950 г. Ф. Е. Груббе повторил результат Н. В. Смирнова без ссылки на него. Поэтому в литературе часто неправомерно критерий Н. В. Смирнова приписывается Ф. Е. Груббсу. (Граббсу)
Ссылка на страницу в википедии товарища Н. В. Смирнова, и выдержка из текста
Второй период научной деятельности Николая Васильевича тесно связана с Математическим институтом им. В. А. Стеклова, в котором он работал с 1938 года до последних дней своей жизни. Здесь, в частности, им были получены новые фундаментальные результаты по непараметрической статистике, одним из создателей которой он является, а также изучены и классифицированы предельные распределения непараметрических критериев, теории вероятностей больших уклонений и предельным распределениям членов вариационного ряда, давно стали классическими, получили заслуженное мировое признание и ныне излагаются в учебниках по математической статистике. За этот цикл работ Н. В. Смирнов был в 1951 году удостоен Государственной премии.
Много сил отдал Николай Васильевич популяризации и широкому распространению методов математической статистики в естествознании и технике. Его учебники и пособия по практическому применению вероятностных и статистических методов пользуются известностью, как в нашей стране, так и за её пределами. Изданием серии таблиц различных специальных функций, наиболее часто используемых в теории вероятностей и математической статистике, Николай Васильевич продолжил дело, начатое в СССР его другом Е. Е. Слуцким, и внес большой вклад в современную вычислительную математику.

Оставим о Нём заметку здесь, мне кажется это будет лучшее что можно сделать.

Претензия четвёртая.
Критерий Граббса при неизвестном генеральном СКО возможно применять при объемах выборки n≥15, существуют критерии, которые более точны в обнаружении аномальных значений при малых выборках. ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИЙ ПО ПАССИВНЫМ ВЫБОРКАМ МАЛОГО ОБЪЁМА Диссертация Попукауло В. С. 2017 г. стр 50

Обобщу тезис выдвинутый диссертацией.
Критерий Граббса не применим для выборок n≥15, критерий Диксона более мощный, чем критерий Граббса.
Встречаются другие статьи, в том числе с ссылками на эту диссертацию, с идентичными утверждениями.
Для того, чтобы это опровергнуть, необходимо разобрать недочёты и ошибки методики анализа в диссертации. (если лень читать можно сразу прочитать пункт 5)
1. Не особо понятно, что понимается под словом «мощность».
При одинаковом уровне значимости и нормальном распределении (без выбросов), будет одинаковое количество ложноположительных результатов. (если критические табличные значения не содержат ошибок). Так сравнить критерии не получится.
При этом автору не понравился МОЩНЫЙ критерий Шовене, который забраковал 39%, понравился критерий Диксона, который забраковал 18% при 2σ, но не понравился НЕ МОЩНЫЙ критерий Граббса.
Не будем придираться, автор обосновал почему отсеяли критерий Шовне, явно не из за маленькой «мощности».

2. Автор исказил нормальное распределение.
Выброс не принадлежит генеральной совокупности. Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений. Его значение не зависит от выборки, так же как значения в выборке не зависят от него. Бесспорно, он влияет на конечный результат, его значение может находится в диапазоне выборки. Выброс — случайное число, может сильно отличающееся от остальных значений, это свойство позволяет его иногда обнаружить. Необходимо было НЕ НА МЕСТО максимального элемента добавлять значение, а вместо одного из значений, или как ещё одно значение.
Удаление максимального — не обоснованное решение. Это исказит выборку, в которой ищем выброс. Необходимо просто добавлять число, не принадлежащее выборке и анализировать, вероятность его обнаружения.
Как следствие
Методика оценки в статье заменяет "возможно" ложноположительный результат (который тоже необходимо оценивать) выбросом, цитата — и на место максимального элемента добавлялось значение из диапазона [1σ;5σ].

3. Не учтены некоторые практические моменты.
Если речь идёт не о математике, а о практическом применении, не понятно, как влияет другое крайнее значение, минимальное? По алгоритму поиска выбросов необходимо исключать число с наибольшим критическим значением за одну итерацию. Представим, при расчёте это окажется минимальное число (ложноположительный результат), его исключаем. Тогда для добавленного значения расчёт изменится. (это мы возвращаемся к вопросу о "односторонний", "двухсторонний" тест).

4. Возвращаемся к спору о "двухстороннем" и "одностороннем" тесте.
Исследование только одного хвоста может исказить выводы.
Проведём статистический эксперимент. С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 10 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями. Упорядочим каждую выборку по возрастанию.
Для исследования выберем критерий Диксона с уровнем значимости 5%. Поиск ошибки будем производить у максимального числа. И критерий Диксона забракует 5%
Повторим эксперимент, но ошибку будем считать и для минимального, и для максимального, в одной выборке ошибку будем учитывать только один раз, с максимальным отклонением (одна итерация). Критерий Диксона забракует 9,3% (не 10%)
Как видим, для практики односторонний тест не может точно указать на ожидаемый уровень принятия недостоверного решения. Даже если уровень значимости умножить на два.

5. Неправильно выбраны табличные данные.
Для сравнения статистических критериев необходимо их сопоставлять при одинаковых уровнях значимости и объёме выборки. Автор взял односторонний тест Диксона, и двухсторонний тест Граббса, как следствие для Граббса получили заниженные результаты. 5%, и 2,5% различаются в два раза. Уровень ошибок получился меньше, уровень обнаружения получился меньше. Для оценки критериев необходимо брать коэффициенты, которые, например указаны, а статье Критерий Граббса В.В.Заляжных.

Заметки не вошедшие в статью:
Выброс — это не только числа, находящееся вне диапазона генеральной совокупности. Пример — истинное значение 100, разброс показаний +/-10, Показание прибора 108, Вы ошиблись и записали 98. В этом случае 98 будет выбросом. При расчёте, а у Вас будет ограниченное количество измерений, неправильно записанное значение сместит среднее в сторону уменьшения, рассчитанное СКО будет меньше реального, из-за неправильно оценённого СКО возрастает шанс ошибочно принять крайние значения за выброс. Выброс, ошибка, недостоверное измерение, синонимы.

Никто не утверждал, уровень значимости необходимо брать 0,05 или 0,01 и они является оптимальной. Значения 0,05 и 0,01 удобно воспринимать, числа не противоречат здравому смыслу, для них рассчитаны критические значения. Оператор вправе сам выбирать необходимые уровни риска. Расчёт можно производить для нескольких произвольных уровней значимости.

Искал определение слова квазивыброс в технической литературе, не нашёл, а обозначает оно «как бы»

Из статистических тестов, если выбросов нет, а вы применяете статистические тесты для отбраковки, в среднем результаты будут менее точны.

Файл neiron6xx.xlsx содержит много уникальных модулей для обработки данных, даже нейронную сеть. К сожалению, не хватает времени всё оформить и выложить. Да и интерес в нашей стране стремится к 0.

Сама идея теста Граббса (как написано выше Смирнова) заключается в вычислении соотношения СКО с проверяемыми значениями, и СКО без них, это хорошо видно в формуле определение на два выброса. Большинство тестов — это так или иначе модификация этого теста.

Если выбросов больше одного, они могут маскировать друг друга, для этого и необходимы тесты на наличие более одного выброса.

Чтобы не подвергнуться обвинению, что статистический эксперимент был умышленно/неумышленно подогнан под желаемый результат, оставим условия в неизменном виде, небольшие изменения необходимы для устранения некоторых недочётов, озвученных ранее.
Принятые обозначения, определения.
P — Доверительная вероятность (диапазон, доверительный интервал)
q — Уровень значимости (пороговая критическая вероятность ошибки)
q=(1-P)x100 например: P = 0,95 q=0,05 или 5%
Z -Табличный коэффициент. Критическое значение (односторонний критерий)
n — объем выборки

1. Оценим вероятность ошибок первого порядка в процентах. Исследуемых критериев при заданном уровне значимости
С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 5; n= 10; n=30 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями.
С помощью критерия Граббса, и критерия Диксона оценим для НАИБОЛЬШЕГО числа процент ложноположительных результатов при уровне значимости q =5%.
Результаты:
Граббс n=5; Z= 1,672; 4,99%
Граббс n=10; Z= 2,176; 5,00%
Граббс n=30; Z= 2,745; 4,99%
Диксон n=5; Z= 0,642 примечание r10; 5,00%
Диксон n=10; Z= 0,531 примечание r11; 5,01%
Диксон n=30; Z= 0,376 примечание r21; 5,00%
Источник справочных данных (формулы, Z) http://arhiuch.ru
Полученные данные позволяют утверждать, что мы выбрали правильные табличные значения Z.

2. Сравним критерии.
С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 4; n= 9; n=29 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями.
Добавляем к каждой выборке значение из диапазона от 0σ до 5σ (можно от 0σ до −5σ), где σ — это среднеквадратичное отклонение (это будет выброс, значение не принадлежит выборке), назовём его «промах».

Исследуем каждую выборку на наличие выброса. Исследование будем проводить для минимального и максимального числа, при уровне значимости 5%.
Оценивать будем число с наибольшим критическим значением (это будет либо наибольшее, либо наименьшее значение).
Построим графики. По оси X на графике располагаются значения величины i из выражения iσ (добавленное значение),
По оси Y
1. Процент чисел, определенных как выброс, но не являющихся промахом, ложноположительный результат (ошибка). По факту — это две ошибки, ошибка первого и второго рода. (на графике показан красной линей).
2. Процент обнаружения промахов (промах был определён как выброс), положительный результат (выброс обнаружен).

: Обнаружение аномальных измерений, критерий Граббса, Диксона n=5

: Обнаружение аномальных измерений, критерий Граббса, Диксона n=10

: Обнаружение аномальных измерений, критерий Граббса, Диксона n=30

Обсуждение результатов
Проценты ложноположительных результатов у обоих критериев одинаковые, разница составляла в редких случаях более 0,2% На разных участках графика меньше ошибок показывал то критерий Диксона, то критерий Граббса.
При i=0 и любых n процент ложноположительных результатов ≈10% — это доказывает, что расчёты проведены верно (q=5% односторонний тест). При этом небольшие различия обусловлены добавлением выброса и искажением ожидаемого уровня см. пункт «Возвращаемся к спору о „двухстороннем“ и „одностороннем“ тесте» (на графике для обоих критериев показан красной линей).
При n=5 оба критерия показали идентичные результаты, с разницей не более погрешности определения точек. Это позволяет предположить (не утверждать), что существует некий теоретический предел обнаружения выбросов.
При n=10 и n=30 явным лидером становится критерий Граббса, процент обнаружения промахов (выброс обнаружен) выше и более резкий подъём после 3σ, чем у критерий Диксона. Уровень ошибок при любом iσ одинаковый для обоих критериев.
Из теории математической статистики известно, что значения нормально-распределенной случайной величины с вероятностью более 99% лежат в интервале −3σ; +3σ

Из практики.
Было проведено много статистических экспериментов (многое не было описано в статье), в том числе с разной методикой оценки, и модифицированным (улучшенным критерием Диксона). Во всех случаях критерий Граббса показывал лучший результат.
Посмотрим на примере какие данные доступны при анализе десяти значений 0,57; 0,89;1,17; −1,6; −0,13; −0,90; 1,63; −1,17; −0,01; −2,18 критериям.
Диксона: 1,63 1,17 ?; ?; ?; ?; ?; −1,66; −2,18
Граббса: 1,63; 1,17; 0,89; 0,57; −0,01; −0,13; −0,90; −1,17 −1,66; −2,18
Как видим, при анализе критерий Диксона теряет часть информации о выборке и использует для вычислений значения с большим разбросом (числа ближе к минимальному и максимальному имеют больший разброс, чем числа, которые ближе к среднему значению). Это не полный перечень недостатков, присущих этому критерию.
Попытки использовать критерий Диксона в качестве альтернативы критерию Граббса тоже не увенчались успехом.
Пример вариантов результата при добавлении к выборке числа 4σ:
Критерий Граббса обнаружил выброс, критерий Диксона обнаружил Выброс.
Критерий Граббса обнаружил выброс, критерий Диксона не обнаружил Выброс.
И практически отсутствует вариант — Критерий Граббса не обнаружил выброс, критерий Диксона обнаружил Выброс.

Выводы:
Уровень значимости равен вероятности ошибки. Бывает односторонний тест (практически не бывает, просто педалировался), бывает двухсторонний (может его и стоит называть критерий Граббса?).
При оценке критериев между собой, необходимо так же оценивать уровень ложных результатов.
Чем выборка меньше, тем сложнее обнаружить выброс, любым критерием. Это не недостаток критериев — это свойство.
Вероятно, существует предел обнаружения выброса, «грубой ошибки».
Критерий Граббса является наиболее точным критерием, исследуемым мной.
Если и существует критерий, который будет точнее критерия Граббса, то он будет составной (основан на оценке различных свойств нормального распределения), точность обнаружения будет ненамного выше, чем у критерия Граббса.
:оригинальный текст

Не буду писать академическим языком, и буду много повторяться.
Критические значения для приведённых примеров и расчёты находятся в файле neironXXX.xlsx
Вспомним теорию.
Выброс — это ошибка. Значение ошибки может сильно отличаться от измеренных величин. Это свойство и позволяет иногда детектировать выбросы.
Несколько выбросов могут маскировать друг друга (усложнять обнаружение). Например: у Вас два выброса. Вы применяете критерий поиск одного наибольшего, или наименьшего значения. Второй выброс сместит среднее (возможно в сторону первого выброса) и увеличит рассчитанное стандартное отклонение, что уменьшит шанс обнаружить выброс в наибольшем значении.
Для этого применяют критерии для одновременного поиска двух и более выбросов.
Для критерия Граббса существует статистические таблицы проверки результатов на наличие выбросов среди двух минимальных, или двух максимальных значений.
Данные таблицы можно дополнить большим количеством вариантов.
Данный подход не нов, первая реализация идеи обнаружена мной в работе «Расширение области применения критериев типа Граббса,
используемых при отбраковке аномальных измерений»
Измерительная техника. 2005. No 6. — С. 13-19,
Б. Ю. Лемешко, С. Б. Лемешко
В статье предлагаются статистические таблицы для проверки на два выброса, одного минимального и одного максимального, и проверка на три выброса, три максимальных или три минимальных.
Критика данного подхода.
Уровень значимости (далее q) равен вероятности появления ложного обнаружения. Если принять, что действительно может быть два выброса (пока не говорим о их расположении), то применяя сначала критерий из ГОСТ на два выброса, где q=0,01, а потом предложенный критерий тоже на два выброса, где q=0,01, то суммарно уровень ложного обнаружения будет = 2%
Примечание: применяя статистические критерии для отбраковки значений, там, где их нет, в среднем уменьшит точность результатов измерений, соответственно увеличение уровня значимости может привести к уменьшению точности.

Варианты расположения двух выбросов.

Новаторство предложенной здесь идеи заключается в реализации варианта поиска двух выбросов одновременно для всех трёх вариантов: "двух наименьших", "двух наибольших", "одного наименьшего и одного наибольшего".
Проверка двух наименьших результатов

: Проверка двух наименьших результатов.png (5.29 КБ) 5966 просмотров

Проверка одного наименьшего и одного наибольшего результата

: Проверка одного наименьшего и одного наибольшего результата.png (3.93 КБ) 5966 просмотров

Проверка двух наибольших результатов

: Проверка двух наибольших результатов.png (4.15 КБ) 5966 просмотров

Проверяют наименьшее из трёх рассчитанных G, Оба значения считаются выбросами при заданном уровне значимости, если вычисленное по выборке значение статистики окажется ниже критического из таблицы.

Проверка одновременно на три выброса.

Варианты расположения трёх выбросов.

Проверка трёх наименьших результатов

: Проверка трёх наименьших результатов.png (5.59 КБ) 5966 просмотров

Проверка двух наименьших и одного наибольшего результата

: Проверка двух наименьших и одного наибольшего результата.png (4.32 КБ) 5966 просмотров

Проверка двух наибольших и одного наименьшего результата

: Проверка двух наибольших и одного наименьшего результата.png (4.26 КБ) 5966 просмотров

Проверка трёх наибольших результатов

: Проверка трёх наибольших результатов.png (4.69 КБ) 5966 просмотров

Проверяют наименьшее из четырёх рассчитанных G. Три значения считаются выбросами при заданном уровне значимости, если вычисленное по выборке значение статистики окажется ниже критического из таблицы.

Критика.
Если данные получены из одного источника, например рутинная проба, то ошибки могут иметь одинаковую природу: например, не работает дисплей и вместо 8 записываем В практике, тогда чаще ошибки будут находится с одной стороны от среднего.

Выбросы с разных сторон от среднего хоть и увеличат стандартное отклонения, но в меньшей степени повлияют на смещение среднего от истинного значения, чем выбросы с одной стороны от среднего, поэтому проверка минимального и максимального в среднем даст меньший эффект.

При малом количестве значений большое количество выбросов редкое явление, а при большом количестве значений могут быть детектированы более простыми способами, например по одному тем же критерием Граббса или критерием 3 сигма и сигма 4 сигма.

Проверка более чем на два выброса требует дополнительных действий.
p/s: Критерий Граббса и ему подобные можно описать как вариации отношений стандартного отклонения выборки к отношению стандартного отклонения выборки без проверяемых значений. Примеры выше — это дисперсия выборки без проверяемого значения/дисперсии всей выборки.
Простым языком, если убрать проверяемые значения, и дисперсия резко уменьшилась, значит, что проверяемые значения не принадлежат выборке.
:оригинальный текст

Получена формула для приблизительного расчёта критических значений (G) критерия Граббса, Приоритетом было разработать максимально краткую запись для автоматизированных расчётов G (в ущерб точности). По идее в excel проверку на выброс теперь можно сделать одной формулой, без таблиц.
Формула для Одного наименьшего или Одного наибольшего довольно точно рассчитывает значение для объёма выборки от 3 до 251, дальше не проверял.
Формулы для двух выбросов применимы ограниченно, особенно в начале диапазона 6-12 и конце 250, но в качестве индикаторов (проверить, а вдруг ошибка в записи) работают. Коэффициенты так же добавлены в файл neiron61x.xlsx

(меня не оставляет ощущение что критерий Граббса можно рассчитать через критерий Стьюдента, и даже одновременно на несколько выбросов, но даже с примером из википедии, так и не смог сопоставить результаты).

Коэффициенты для расчёта критических значений для критерия Граббса.docx: (16.97 КБ) 221 скачивание

Критерий Рябкова первого порядка R1

Функция VBA для расчёта p-value выброса критерием Граббса методом Монте-Карло" в Excel
Пример =AGrabbs(A1:A15;5)
Первый аргумент: диапазон ячеек
Второй аргумент (необязательный) по умолчанию 3: [0] - выдает значение для которого рассчитывается выброс, [1-20](скорость/точность) - количество итераций*1000" для метода Монте-Карло.
Точность расчёта небольшая, только в качестве индикатора, но не требует статистических таблиц. (немного разочарован в результате, с помощью статистических таблиц как то понадёжнее)
Скорость расчёта небольшая.

Код: Выделить всё

'Функция для расчёта критерия Граббса V100 методом Монте-Карло
'Рябков А.В. 15.07.2023 для форума https://rosakkreditatsiya-forum.ru
'Тема https://rosakkreditatsiya-forum.ru/viewtopic.php?t=1304 Критерий Граббса

Function AGrabbs(rng As Range, Optional x As Integer = 3) As Variant

Dim RangeMin As Double, RangeMax As Double, RangeAverage As Double, RangeStDev As Double  'Минимальное диапазона,Максимальное диапазона,Среднее диапазона,СКО диапазона
Dim Gr As Long, RangeCount As Long, i As Long, J As Long

Dim Exc As Object
Set Exc = Application.WorksheetFunction 'Используется как контейнер для функций листа Microsoft Excel

Call RegisterUDF    'Регистрируем функцию в базу данных функций Excel

'Количество в выборке
RangeCount = Exc.Count(rng)
    If RangeCount < 3 Then
        AGrabbs = "Количество значений в выборке должно быть больше 3"
        Exit Function
    End If

'Расчёт промежуточных значений для диапазона выбранных ячеек для критерия Граббса
RangeMin = Exc.Min(rng)
RangeMax = Exc.Max(rng)
RangeAverage = Exc.Average(rng)

    If x < 1 Then 'Если x=0 вычисляем число для которого рассчитывается выброс
        If RangeAverage - RangeMin > RangeMax - RangeAverage Then
            AGrabbs = RangeMin
        Else
            AGrabbs = RangeMax
        End If
        Exit Function
    Else
        If x > 20 Then
            x = 20
        End If
        Dim G2_Сoff As Double 'Коэффициент G
        RangeStDev = Exc.StDev(rng) 'СКО
        G2_Сoff = Exc.Max(RangeAverage - RangeMin, RangeMax - RangeAverage) / RangeStDev
        End If

'----------------------------------------------------------------------------------------------------------------------------
er:
Gr = 0
'Массив для критерия Граббса
Dim arr() As Double
ReDim arr(1 To RangeCount)
  
Dim G2_arr_Сoff As Double 'Коэффициент G для Монте-Карло

    On Error GoTo er    ' Иногда цикл прерывается, пришлось включить обработчик ошибок
    Randomize           ' Инициализация генератора случайных чисел
        x = x * 1000    ' Итераций
        For J = 1 To x

            ' Заполнение массива случайными числами
            For i = 1 To RangeCount
                arr(i) = Exc.Norm_Inv(Rnd, 0#, 2#)
            Next i
    
            RangeMin = Exc.Min(arr)
            RangeAverage = Exc.Average(arr)
            RangeStDev = Exc.StDev(arr)
            RangeMax = Exc.Max(arr)
            
            G2_arr_Сoff = Exc.Max(RangeAverage - RangeMin, RangeMax - RangeAverage) / RangeStDev
    
            If G2_arr_Сoff > G2_Сoff Then
                Gr = Gr + 1
            End If
        
        Next J

AGrabbs = CCur(Gr / x)

End Function

Sub RegisterUDF() 'Регистрируем функцию
Dim strFunc As String                                             'Переменная для имени функции
Dim strDesc As String                                             'Переменная для описания функции
Dim strArgs() As String                                           'Переменная для описаний аргументов функции

    ReDim strArgs(1 To 2) 'Верхняя граница массива соответствует количеству аргументов нашей функции
    strFunc = "AGrabbs"
    strDesc = "Расчитывает p-value выброса критерием Граббса методом Монте-Карло"


    strArgs(1) = "Область значений в которых ищется выброс. Не менее 3х значений"
    strArgs(2) = "Опциональный аргумент - [0] выдает значение для которого рассчитывается p-value, [1-20] - количество итераций*1000"
    Application.MacroOptions Macro:=strFunc, _
                             Description:=strDesc, _
                             ArgumentDescriptions:=strArgs, _
                             Category:="My Custom Category"
End Sub

Аккредитация в Росаккредитации