Точность методов и результатов измерений.

Вложения 5
Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Точность методов и результатов измерений.

Непрочитанное сообщение texadmin » 30 Май 2020

neiron601b.xlsx
(1.38 МБ) 210 скачиваний
neiron602b.xlsx
(1.38 МБ) 107 скачиваний
Neiron601b, файл распространяется бесплатно и принадлежит домену данного форуму. Разрешается любое использование в т.ч и статистических таблиц. (модификация, копирование, частичное копирование, округление). При копировании и использовании таблиц ссылка на тему Точность методов и результатов измерений. обязательна. Так же желательно указать дату создания и версию таблицы. Расчёты прошли валидацию. Критические значения для критерия Граббса полностью коррелируют с ГОСТ Р ИСО 5725-2-2002 (это подтверждает правильность расчёта, (выбранную модель расчёта) статистических таблиц). Так же был создан отдельный файл для независимой перепроверки правильности расчёта уровней значимости p (значения выбирались случайным образом) Ошибок обнаружено небыло. Файл готов для верификации в аккредитованных лабораториях.

Пароль для защищённых листов 1234
По умолчанию редактировать можно только значения помеченные красным цветом.
При скачивании из интернета файла у меня включился защищённый просмотр, (невозможно вносит данные). Необходимо отключить в настройках Excel. Файл => Сведения => Разрешить редактирование


Реализовано:
Проверка на грубые выбросы.
1. Критерий Граббса одно наибольшее или одно наименьшее значение
2. Критерий Граббса два наибольших или два наименьших значения

P - доверительная вероятность
q - уровень значимости
q=(1-P)x100 например: P = 0,95 q=0,05 (5%)

Теги:

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Выбросы

Непрочитанное сообщение texadmin » 31 Май 2020

Выбросы
В простейшем случае выброс представляет собой наблюдение, несовместимое с остальными наблюдениями набора данных. В общем случае набор данных может содержать более одного выброса, расположенных, как с одной, так и с двух сторон упорядоченного набора данных. Основная проблема выявления выбросов состоит в определении того, действительно ли наблюдения, не совместимые с остальными данными являются выбросами. Эту задачу решают посредством заданного критерия значимости с учетом предполагаемого распределения данных. Наблюдения, для которых получены значимые результаты, рассматривают как выбросы из предполагаемого распределения.

Важность правильного выбора соответствующего распределения данных нельзя переоценить. На практике часто в качестве распределения данных часто рассматривают нормальное распределение, даже если данные получены из другого источника. Однако ошибочное предположение о распределении данных может приводить к некорректному отнесению элементов выборки к выбросам.

Причины выбросов
Появление выбросов обычно связано с одной или несколькими причинами.

a) Ошибки измерений и регистрации данных. Сюда относят ошибки в точности измерений, некорректно проведенные наблюдения, некорректную регистрацию данных или их введения в базу данных.

b) Загрязнение данных. Загрязнение данных происходит в том случае, когда данные принадлежат двум или более распределениям, т. е. имеется одно основное распределение и одно или несколько дополнительных распределений (примесей), загрязняющих данные. Если загрязняющие распределения имеют значительно отличающиеся от основного истинные средние, большие значения стандартных отклонений и/или более тяжелые хвосты распределений, чем у основного распределения, то существует возможность того, что экстремальные наблюдения, принадлежащие распределениям-примесям, могут появиться как выбросы основного распределения.
Примечание 1 — Причиной загрязнения может быть ошибка при отборе выборки, когда небольшую часть данных считают полученной из другой совокупности или если было осуществлено преднамеренное искажение (завышение или занижение) результатов эксперимента или опроса.

c) Ошибочное предположение о распределении данных. Набор данных считают полученным из конкретного распределения, но он получен из другого распределения.
Пример — Набор данных считают отобранным из нормального распределения, но он может иметь сильно ассиметричное распределение (например, экспоненциальное или логнормальное) или быть симметричным, но иметь тяжелые хвосты (например, t-распределение). Поэтому наблюдения, далеко отстоящие от медианы распределения, могут быть ошибочно приняты за выбросы, даже если это достоверные данные, принадлежащие ассиметричному распределению или распределению с тяжелыми хвостами.

d) Редкие наблюдения. В выборках, отобранных (как предполагается) из заданных распределений маловероятные наблюдения могут появиться в очень редких случаях. Экстремальные наблюдения в этом случае обычно принимают за выбросы, но они не являются выбросами.
Примечание 2 — Если генеральная совокупность имеет симметричное распределение с тяжелыми хвостами, то редко поступающие наблюдения могут приводить к ошибочным предположениям о распределении.

Необходимость обнаружения выбросов
Выбросы не всегда являются «плохими» или «ошибочными» данными. Они могут быть рассмотрены как индикаторы проявления редких явлений, требующих дальнейшего изучения. Например, если выброс вызван исключительно особенностями промышленной обработки, то важное значение имеет изучение причин выброса.

Многие методы статистической обработки данных и многие получаемые статистики чувствительны к наличию выбросов. Например, выборочные среднее и стандартное отклонения могут изменить свои значения при наличии даже одного выброса, что впоследствии может привести к неверным выводам.

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Точность методов и результатов измерений.

Непрочитанное сообщение texadmin » 31 Май 2020

зарезервировано

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Термины и определения

Непрочитанное сообщение texadmin » 31 Май 2020

Выброс: Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки.
Примечание 1 — Классификация наблюдения или подмножество выборки как выброс (или выбросы) зависит от выбранной модели генеральной совокупности, из которой отобрана выборка. Выброс не рассматривают как истинный элемент генеральной совокупности.
Примечание 2 — Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений.
Примечание 3 — Подмножество может содержать одно или несколько наблюдений.

Маскировка: Наличие более одного выброса, затрудняющее обнаружение каждого выброса.

Робастная оценка: Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.

Ошибка первого рода: Отклонение нулевой гипотезы, когда она истинна. (выброс есть, но не детектирован)


Ошибка второго рода: не отвергают нулевую гипотезу, когда она ложна. (выброса нет, но детектирован)
Вероятность ложного обнаружения выбросов: Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы.

Мощность: это вероятность отклонения нулевой гипотезы, когда она ложна. Мощность критерия можно контролировать, повышать, но тогда вырастает шанс допустить ошибку 2-го рода.

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Критерий Граббса, ответ на критику.

Непрочитанное сообщение texadmin » 16 Октябрь 2020

Тема по обнаружению выбросов не сложная, но многогранная. Начиная писать одно, ты понимаешь, что перед этим нужно объяснить другое. И так по кругу.
Я наработал довольно много материала для анализа результатов измерений, и хотел уже начинать потихоньку выкладывать результаты, но понял что могу столкнутся с критикой, в этой статье я хочу предварительно осветить некоторые моменты.

Претензия первая.
Табличные значения критерия Граббса, приведённые в ГОСТ Р ИСО 5725-2-2002 и ГОСТ Р 8-736-2011, неверны, а именно: указанные в них уровни значимости завышены в два раза, как это показано, в частности, в [1]. В табл. 4а.1 приведены действительные значения Uтабл, взятые из первоисточника [2] Ими и следует пользоваться. ссылка: https://arhiuch.ru/lab4a.html

Прежде чем ответить на критику, расскажу, как были получены цифры в статье и ГОСТах.
Генерировалась необходимого размера n выборка случайных чисел с нормальным законом распределения.
В первом случае рассчитывался Gвыбор МИНИМАЛЬНОГО ИЛИ МАКСИМАЛЬНОГО значения.
Так повторяется несколько тысяч раз. Полученные Gвыборки записываются, упорядочиваются по возрастанию. Наименьшее Gвыбор число, 5%ов наибольших и будет являться Gтабл для доверительной вероятности p=0,95 для n объёма выборки.

Для ГОСТ
Расчёт происходил так же, за исключением: вместо МИНИМАЛЬНОГО, ИЛИ МАКСИМАЛЬНОГО значения выбиралось значение, при котором будет наибольшее Gвыбор.
В итоге, в первом случае получаем (здесь придется вводить понятия) Односторонний критерий Граббса, во втором Двухсторонний критерий Граббса (у которого как раз уровень значимости завышен в два раза).
Прежде чем предположить, где ВЕРНЕЕ, необходимо уточнить, при оценке выборки на грубые выбросы, поиска сомнительных результатов, необходимо самому выбирать критические уровни. И в первом, и во втором случае значения верны, просто они решают разную задачу. (Не буду писать о принятии нулевой гипотезы). В первом случае, Вы отвечаете на два вопроса: Есть ли вероятность выброса у минимального значения, и Есть ли вероятность выброса у максимального значения. (вероятность в процентах 95, или 99)
Во втором — Есть ли вероятность выброса в выборке значения с наибольшим отклонением от среднего (вероятность в процентах 95, или 99).
Лично для меня, второй вариант для целей метрологии логичнее. Покажите, если есть, сомнительное число.

А теперь, где ВЕРНЕЕ
Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Т. е. если мы заранее не знаем может ли быть выброс, будет он минимальным значением, максимальным, либо вообще находится внутри выборки, необходимо брать двухсторонний, а если мы точно знаем, что с какой-либо стороны не может быть выброса (наверное, и такие варианты существуют), необходимо брать односторонний критерий Граббса.
Граббс мне друг, но ГОСТ дороже.

Претензия вторая
Применения критерия Граббса при анализе результатов испытания с тремя элементами.
Таким образом, проведенный моделирующий эксперимент показал ограниченность применения критерия Граббса для выявления выбросов и квази выбросов при проведении испытаний, когда объем выборки n 3. С одной стороны, чувствительность критерия Граббса недостаточная, а значит могут быть получены такие значения, которые с точки зрения физического смысла являются выбросами, а критерий Граббса их «не чувствует». С другой стороны, при двух одинаковых значениях из трех третье значение в выборке всегда по критерию Граббса будет признаваться выбросом. статья: КОРРЕКТНОСТЬ ПРИМЕНЕНИЯ КРИТЕРИЯ ГРАББСА ПРИ АНАЛИЗЕ РЕЗУЛЬТАТОВ ИСПЫТАНИЯ С ТРЕМЯ ЭЛЕМЕНТАМИ. Системи обробки інформації, 2007, випуск 6 (64) Е.Т. Володарский, И.А. Харченко, В.И. Згуря, М.Е. Молочков


Начну с определения.
Критерий Граббса применяется для оценки на грубые ошибки (промахи) сомнительных значений выборки из случайной величины, имеющей НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ.
Т. е. прежде, чем пользоваться этим критерием необходимо, либо доказать, либо предположить, либо по результатам предыдущих опытов принять то, что у Вас нормальное распределение.
Если в выборке два из трёх одинаковые значения, распределение нормальным не будет. Если «большая» дискретность распределение нормальным не будет читайте Почему нормальное распределение не нормальное

Следует так же понимать, что бывают разные типы выборок, и статистические методы в некоторых случаях не будут давать ожидаемые результаты.

Например: не стоит искать выбросы при измерении температуры за окном, при взятии проб в поле (у вас могут быть локальные загрязнения). В теоретическом эксперименте, приведенный в статье, данные на мой взгляд неподходящие. В статье не известно, что является в реальных условиях причиной разброса. Если регулятор нагрева (температура действительно может расти, рост величины, это не разброс вокруг величины), то такие данные не подходят для получения случайных величин.
Выбросы — это ошибки, это неправильно полученные данные, а не то, на что указала формула. Если система работала правильно, почему там необходимо их искать?

Немного теории. При 3 n обнаружить выбросы действительно сложно, НЕЗАВИСИМО ОТ ВЫБРАННОГО КРИТЕРИЯ.
Если СКО выборки заранее неизвестно, то 3 n это минимальное количество, при котором можно производить расчёты (для некоторых критериев 4-5). Приведу пример и вероятность того, что число 10 не относится к выборке.
1,0; 4,0; 10,0 p=36%
1,0; 2,0; 4,0; 10,0 p=80%
1,0; 2,0; 3,0; 4,0; 10,0 p=93%
1,0; 2,0; 2,9; 3,0; 4,0; 10,0 p=97% (10 — сомнительное)
1,0; 2,0; 2,9; 3,0; 3,0; 4,0; 10,0 p=99% (10- выброс)
Нам потребовалось 6 измерений, чтобы убедиться, что число, отличавшиеся от среднего более чем на 6σ, может являться грубой ошибкой.

Пример 2
3,00; 3,01; 5,00 p=99% (5- выброс)
Первые два значения практический равны, из за этого 5,00 определён как выброс. И это может быть ошибочным выводом, например если истинное значение = 3,80 СКО = 0,6

Немного теории.
Минимальная последовательность действий при поиске выбросов:
1. Получаем результаты измерений.
2. Доказываем, принимаем, предполагаем, что распределение нормальное, если нет при расчёте используем робастную оценку.
3 Распределение нормальное
3.1 Проверяем на выбросы. Если есть сомнительное значение, проводим анализ, где могла быть ошибка (например, неправильно записали число, сломался прибор).
3.2 Если находим причину сомнительного значения, исключаем ошибочное число и рассчитываем окончательный результат, если нет, рассчитываем окончательный результат.
4.1 Если обнаружен выброс проводим анализ, где могла быть ошибка. (например, неправильно записали число, сломался прибор).
4.2 Если находим причину выброса, исключаем ошибочное число и рассчитываем окончательный результат. Если нет, при расчёте используем робастную оценку.


Претензия третья
Первые правильное решение задачи об оценке анормальных результатов наблюдений было дано Н. В. Смирновым в 1941 г. В 1950 г. Ф. Е. Груббе повторил результат Н. В. Смирнова без ссылки на него. Поэтому в литературе часто неправомерно критерий Н. В. Смирнова приписывается Ф. Е. Груббсу. (Граббсу)
Ссылка на страницу в википедии товарища Н. В. Смирнова, и выдержка из текста
Второй период научной деятельности Николая Васильевича тесно связана с Математическим институтом им. В. А. Стеклова, в котором он работал с 1938 года до последних дней своей жизни. Здесь, в частности, им были получены новые фундаментальные результаты по непараметрической статистике, одним из создателей которой он является, а также изучены и классифицированы предельные распределения непараметрических критериев, теории вероятностей больших уклонений и предельным распределениям членов вариационного ряда, давно стали классическими, получили заслуженное мировое признание и ныне излагаются в учебниках по математической статистике. За этот цикл работ Н. В. Смирнов был в 1951 году удостоен Государственной премии.
Много сил отдал Николай Васильевич популяризации и широкому распространению методов математической статистики в естествознании и технике. Его учебники и пособия по практическому применению вероятностных и статистических методов пользуются известностью, как в нашей стране, так и за её пределами. Изданием серии таблиц различных специальных функций, наиболее часто используемых в теории вероятностей и математической статистике, Николай Васильевич продолжил дело, начатое в СССР его другом Е. Е. Слуцким, и внес большой вклад в современную вычислительную математику.

Оставим о Нём заметку здесь, мне кажется это будет лучшее что можно сделать.

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Критерий Граббса, ответ на критику.

Непрочитанное сообщение texadmin » 31 Октябрь 2020

Претензия четвёртая.
Критерий Граббса при неизвестном генеральном СКО возможно применять при объемах выборки n≥15, существуют критерии, которые более точны в обнаружении аномальных значений при малых выборках. ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИЙ ПО ПАССИВНЫМ ВЫБОРКАМ МАЛОГО ОБЪЁМА Диссертация Попукауло В. С. 2017 г. стр 50

Обобщу тезис выдвинутый диссертацией.
Критерий Граббса не применим для выборок n≥15, критерий Диксона более мощный, чем критерий Граббса.
Встречаются другие статьи, в том числе с ссылками на эту диссертацию, с идентичными утверждениями.
Для того, чтобы это опровергнуть, необходимо разобрать недочёты и ошибки методики анализа в диссертации. (если лень читать можно сразу прочитать пункт 5)
1. Не особо понятно, что понимается под словом «мощность».
Например:
При одинаковом уровне значимости и нормальном распределении (без выбросов), будет одинаковое количество ложноположительных результатов. (если критические табличные значения не содержат ошибок). Так сравнить мощность у критериев не получится.
За «мощность» можно попытаться принять соотношения между ложноположительными и ложноотрицательными, положительных и отрицательных результатов (выброс был и выявили, был не выявили, не было не выявили, не было но выявили).
Но методика оценки в статье подменила "возможно" ложноположительный результат выбросом, цитата — и на место максимального элемента добавлялось значение из диапазона [1σ;5σ].
При этом автору не понравился критерий Шовене, который забраковал 39%, понравился критерий Диксона, который забраковал 18% при 2σ. Тогда как определяется какой из этих критериев более «мощный»?
Не будем придираться, автор обосновал почему отсеяли критерий Шовне, явно не из за маленькой «мощности».

2. Автор исказил нормальное распределение.
Выброс не принадлежит генеральной совокупности. Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений. Его значение не зависит от выборки, так же как значения в выборке не зависят от него. Бесспорно, он влияет на конечный результат, его значение может находится в диапазоне выборки. Выброс — случайное число, может сильно отличающееся от остальных значений, это свойство позволяет его иногда обнаружить. Необходимо было НЕ НА МЕСТО максимального элемента добавлять значение, а вместо одного из значений, или как ещё одно значение.
Удаление максимального — не обоснованное решение. Это исказит выборку, в которой ищем выброс. Необходимо просто добавлять число, не принадлежащее выборке и анализировать, вероятность его обнаружения.

3. Не учтены некоторые практические моменты.
Если речь идёт не о математике, а о практическом применении, не понятно, как влияет другое крайнее значение, минимальное? По алгоритму поиска выбросов необходимо исключать число с наибольшим критическим значением за одну итерацию. Представим, при расчёте это окажется минимальное число (ложноположительный результат), его исключаем. Тогда для добавленного значения расчёт изменится. (это мы возвращаемся к вопросу о "односторонний", "двухсторонний" тест).

4. Возвращаемся к спору о "двухстороннем" и "одностороннем" тесте.
Исследование только одного хвоста может исказить выводы.
Проведём статистический эксперимент. С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 10 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями. Упорядочим каждую выборку по возрастанию.
Для исследования выберем критерий Диксона с уровнем значимости 5%. Поиск ошибки будем производить у максимального числа. И критерий Диксона забракует 5%
Повторим эксперимент, но ошибку будем считать и для минимального, и для максимального, в одной выборке ошибку будем учитывать только один раз, с максимальным отклонением (одна итерация). Критерий Диксона забракует 9,3% (не 10%)
Как видим, для практики односторонний тест не может точно указать на ожидаемый уровень принятия недостоверного решения. Даже если уровень значимости умножить на два.

5. Неправильно выбраны данные.
Для сравнения статистических критериев необходимо их сопоставлять при одинаковых уровнях значимости и объёме выборки. Автор взял односторонний тест Диксона, и двухсторонний тест Граббса, как следствие для Граббса получили заниженные результаты. 5%, и 2,5% различаются в два раза. Уровень ошибок получился меньше, уровень обнаружения получился меньше. Для оценки критериев необходимо брать коэффициенты, которые, например указаны, а статье Критерий Граббса В.В.Заляжных.


Заметки не вошедшие в статью:
Выброс — это не только числа, находящееся вне диапазона генеральной совокупности. Пример — истинное значение 100, разброс показаний +/-10, Показание прибора 108, Вы ошиблись и записали 98. В этом случае 98 будет выбросом. При расчёте, а у Вас будет ограниченное количество измерений, неправильно записанное значение сместит среднее в сторону уменьшения, рассчитанное СКО будет меньше реального, из-за неправильно оценённого СКО возрастает шанс ошибочно принять крайние значения за выброс. Выброс, ошибка, недостоверное измерение, почти синонимы.

Никто не утверждал, что оценка квазивыбросов, на уровне 5%, и выбросов на уровне 1%, является оптимальной. Значения 5 и 1 удобно воспринимать, числа не противоречат здравому смыслу. Оператор вправе сам выбирать необходимые уровни риска.

Искал определение слова квазивыброс в технической литературе, не нашёл, а обозначает оно «как бы»

Файл neiron6xx.xlsx содержит много уникальных модулей для обработки данных, даже нейронную сеть. К сожалению, не хватает времени всё оформить и выложить. Да и интерес в нашей стране стремится к 0.

Из статистических тестов, если выбросов нет, а вы применяете статистические тесты для отбраковки, в среднем результаты будут менее точны.

Сама идея теста Граббса (как написано выше Смирнова) заключается в вычислении соотношения СКО с проверяемыми значениями, и СКО без них, это хорошо видно в формуле определение на два выброса. Большинство тестов — это так или иначе модификация этого теста.

Если выбросов больше одного, они могут маскировать друг друга, для этого и необходимы тесты на наличие более одного выброса.

Аватара пользователя

Автор темы
texadmin
Администратор
Сообщения: 3077
Стаж: 3 года 10 месяцев
Поблагодарили: 353 раза

Статистические эксперименты

Непрочитанное сообщение texadmin » 15 Ноябрь 2020

Чтобы не подвергнуться обвинению, что статистический эксперимент был умышленно/неумышленно подогнан под желаемый результат, оставим условия в неизменном виде, небольшие изменения необходимы для устранения некоторых недочётов, озвученных ранее.
Принятые обозначения, определения.
P — Доверительная вероятность (диапазон, доверительный интервал)
q — Уровень значимости (пороговая критическая вероятность ошибки)
q=(1-P)x100 например: P = 0,95 q=0,05 или 5%
Z -Коэффициент (односторонний критерий)
n — объем выборки

1. Оценим вероятность ошибок в процентах исследуемых критериев при заданном уровне значимости
С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 5; n= 10; n=30 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями.
С помощью критерия Граббса, и критерия Диксона оценим для наибольшего числа процент ложноположительных результатов при уровне значимости q =5%.
Результаты
Граббс n=5; Z= 1,672; 4,99%
Граббс n=10; Z= 2,176; 5,00%
Граббс n=30; Z= 2,745; 4,99%
Диксон n=5; Z= 0,642 примечание r10; 5,00%
Диксон n=10; Z= 0,531 примечание r11; 5,01%
Диксон n=30; Z= 0,376 примечание r21; 5,00%
Источник справочных данных (формулы, Z) http://arhiuch.ru
Полученные данные позволяют утверждать, что мы выбрали правильные табличные значения Z.

2. Сравним критерии.
С помощью генератора случайных чисел получим массивы данных, содержащие несколько тысяч выборок n= 4; n= 9; n=29 с нормальным законом распределения, заранее заданными средними величинами и дисперсиями.
Добавляем к каждой выборке значение из диапазона от 0σ до 5σ (можно от 0σ до −5σ), где σ — это среднеквадратичное отклонение (это будет выброс, значение не принадлежит выборке), назовём его «промах».

Исследуем каждую выборку на наличие выброса. Исследование будем проводить для минимального и максимального числа, при уровне значимости 5%.
Оценивать будем число с наибольшим критическим значением (это будет либо наибольшее, либо наименьшее значение).
Построим графики. По оси X на графике располагаются значения величины i из выражения iσ (добавленное значение),
По оси Y
1. Процент чисел, определенных как выброс, но не являющихся промахом, ложноположительный результат (ошибка). По факту — это две ошибки, ошибка первого и второго рода. (на графике показан красной линей).
2. Процент обнаружения промахов (промах был определён как выброс), положительный результат (выброс обнаружен).
Сравнение Граббс Диксон 5.png
Обнаружение аномальных измерений, критерий Граббса, Диксона n=5
Сравнение Граббс Диксон 10.png
Обнаружение аномальных измерений, критерий Граббса, Диксона n=10
Сравнение Граббс Диксон 30.png
Обнаружение аномальных измерений, критерий Граббса, Диксона n=30
Обсуждение результатов
Проценты ложноположительных результатов у обоих критериев одинаковые, разница составляла в редких случаях более 0,2% На разных участках графика меньше ошибок показывал то критерий Диксона, то критерий Граббса.
При i=0 и любых n процент ложноположительных результатов ≈10% — это доказывает, что расчёты проведены верно (q=5% односторонний тест). При этом небольшие различия обусловлены добавлением выброса и искажением ожидаемого уровня см. пункт «Возвращаемся к спору о „двухстороннем“ и „одностороннем“ тесте» (на графике для обоих критериев показан красной линей).
При n=5 оба критерия показали идентичные результаты, с разницей не более погрешности определения точек. Это позволяет предположить (не утверждать), что существует некий теоретический предел обнаружения выбросов.
При n=10 и n=30 явным лидером становится критерий Граббса, т. к. имеет более резкий подъём после 3σ, чем критерий Диксона. Уровень ошибок при любом iσ одинаковый для обоих критериев. Из теории математической статистики известно, что значения нормально-распределенной случайной величины с вероятностью более 99% лежат в интервале −3σ; +3σ


Из практики.
Было проведено много статистических экспериментов (многое не было описано в статье), в том числе с разной методикой оценки, и модифицированным (улучшенным критерием Диксона). Во всех случаях критерий Граббса показывал лучший результат.
Посмотрим на примере какие данные доступны при анализе десяти значений 0,57; 0,89;1,17; −1,6; −0,13; −0,90; 1,63; −1,17; −0,01; −2,18 критериям.
Диксона: 1,63 1,17 ?; ?; ?; ?; ?; −1,66; −2,18
Граббса: 1,63; 1,17; 0,89; 0,57; −0,01; −0,13; −0,90; −1,17 −1,66; −2,18
Как видим, при анализе критерий Диксона теряет часть информации о выборке и использует для вычислений значения с большим разбросом (числа ближе к минимальному и максимальному имеют больший разброс, чем числа, которые ближе к среднему значению). Это не полный перечень недостатков, присущих этому критерию.
Попытки использовать критерий Диксона в качестве альтернативы критерию Граббса тоже не увенчались успехом.
Пример вариантов результата при добавлении к выборке числа 4σ:
Критерий Граббса обнаружил выброс, критерий Диксона обнаружил Выброс.
Критерий Граббса обнаружил выброс, критерий Диксона не обнаружил Выброс.
И практически отсутствует вариант — Критерий Граббса не обнаружил выброс, критерий Диксона обнаружил Выброс.

Выводы:
Уровень значимости равен вероятности ошибки. Бывает односторонний тест, бывает двухсторонний.
При оценке критериев между собой необходимо так же оценивать уровень ложных результатов.
Чем выборка меньше, тем сложнее обнаружить выброс, любым критерием. Это не недостаток критериев — это свойство.
Вероятно, существует предел обнаружения выброса, «грубой ошибки».
Критерий Граббса является наиболее точным критерием, исследуемым мной.
Если и существует критерий, который будет точнее критерия Граббса, то он будет составной (основан на оценке различных свойств нормального распределения), точность обнаружения будет ненамного выше, чем у критерия Граббса.
:оригинальный текст

Вложения 5

Вернуться в «Программы, ПО для лабораторий»