Выбросы, (грубые ошибки)
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Вообще есть люди которых выбросы интересуют, для себя сделал небольшую табличку Excel, с расчётами, если найдётся желающие в новогодние праздники мог бы привести в употребляемый вид и выложить.
-
-
- Сообщения: 30
- Стаж: 7 лет 3 месяца
- Поблагодарили: 9 раз
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Я наверное критериев 8 пробовал, кстати в госте написано используйте критерий грабса, или другие.
Отправлено спустя 2 минуты:
И Грабс и Кохрен. Причём прям вероятность выброса рассчитываю, а не более 0,95 и 0,99
Отправлено спустя 2 минуты:
И Грабс и Кохрен. Причём прям вероятность выброса рассчитываю, а не более 0,95 и 0,99
Выбросы, (грубые ошибки)
Табличные значения критерия Граббса в ГОСТ Р ИСО 5725-2-2002 и ГОСТ Р 8-736-2011 неверны, а именно: уровни значимости завышены в 2 раза. См. http://arhiuch.ru/lab4a.html
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Табличные значения верны, именно этим и занимаюсь,ВладимирЗаляжных писал(а): ↑23.04.2019 Табличные значения критерия Граббса в ГОСТ Р ИСО 5725-2-2002 и ГОСТ Р 8-736-2011 неверны
1. Мои данные полностью совпали с табличными (почти, необходимо будет всё перепроверить)
2. Я сделал файл в котором любой сможет проверить экспериментально коэффициенты которые я вычислил (способ проверки описан)
Единственная проблема у меня всё вычисляется долго для требуемой точности, делаю в excel, так вычисление для одной таблицы с критерием уходит где то месяц. Если где то ошибся ещё месяц, если перепроверяю ещё месяц. Конечно педали не кручу, запустил и пашет потихоньку. Ну и оформление нужно.
Хотелось бы спросить мнение пользователей форума вот есть Таблица 5 - Критические значения для критерия Граббса Два наибольших или два наименьших. Описание:
Проверка на два выброса
Чтобы проверить, могут ли два наибольших результата наблюдений быть выбросами, вычисляют статистику Граббса
Соответственно, чтобы проверить два наименьших результата наблюдений, вычисляют статистику Граббса
Теперь описываю что такое выбросы своими словами.
Это значения которые не принадлежат данной выборке, и появились в результате ошибки, например неправильно записали, поставили лишний ноль, не туда запятую, неправильно считал с прибора, неправильно сосчитали, некорректно измерили, сломался прибор, и.т.д и т.п. При МСИ как раз некоторые лаборатории присылают неверные данные в силу определённых причин.
Если все измерения прошли правильно вся выборка принадлежит измерению и среднеарифметическое будет наиболее близким значением к истинному. Я к тому что стоит проанализировать перепроверить перед тем одно из полученных значение отнести в выбросу.
Возвращаюсь к Проверка на два выброса Если подумать то два выброса (а так как они случайны то их значения могут быть абсолютно любыми), и ещё раз представим у нас точно два выброса. Эти значения могут быть,
1. два наименьших,
2. два наибольших,
3. одно наибольшее и одно наименьшее.
Я ещё считаю расширенное применение для критериев и пошёл по этому пути. Есть ли пользователи способные провести рецензию данного текста. Я просто не математик, и порою могу изъясняться неправильно.
Таблицу из ГОСТа и свои полученные данные прикладываю для одного выброса где по ГОСТу 5% у меня это 95(так как вычисляю вероятность выброса)
-
-
- Сообщения: 5
- Стаж: 5 лет 4 месяца
Выбросы, (грубые ошибки)
Тем не менее табличные значения в ГОСТе неверны. Для одного выброса они впервые приведены в статье:
Смирнов Н.В. Оценка максимального члена в ряду наблюдений // Доклады АН СССР, 1941. – Т. 33. – № 5. – С. 346-349
Затем - работах Граббса, например:
Frank E. Grubbs, Glenn Beck. Extension of sample sizes and percent¬age points for significance tests of outlying observations // Technomet¬rics, 1972. ¬– Vol. 14. ¬– No. 4. – P.847-854.
И в этих статьях таблицы не соответствуют таблице ГОСТа. На это было указано в статье:
Б.Ю. Лемешко, С.Б.Лемешко Расширение области применения критериев типа Граббса, используемых при отбраковке аномальных измерений. - Измерительная техника. 2005. № 6
Эти авторы проверили табличные значения методом статистического моделирования (Монте-Карло, по существу) и получили то же, что у Смирнова и Граббса.
Я также многократно проверял табличные значения критерия Граббса статистическим моделированием в ЭКСЕЛЕ, и они соответствовали тому, что у Граббса и Смирнова.
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Файл для проверки критических значений Граббса. До n 15-17 уровень значимости соответствует ГОСТ. формулы не сложные что бы где то ошибиться. Метод Монте-Карло. Правда после по моему n - 18 вычисляемые значения действительно не соответствуют ГОСТ.
Обещать не буду но постараюсь выложить описание как все считается.
Необходимо включить макросы.
Вводите n, критическое значение (можно своё, можно из ГОСТ), количество иттераций (больше точнее, но дольше),
В жёлтом поле расчёт (в статистических таблицах это проценты).
Обещать не буду но постараюсь выложить описание как все считается.
Необходимо включить макросы.
Вводите n, критическое значение (можно своё, можно из ГОСТ), количество иттераций (больше точнее, но дольше),
В жёлтом поле расчёт (в статистических таблицах это проценты).
- Вложения
-
- Граббс_1.xlsm
- (35.82 КБ) 651 скачивание
-
-
- Сообщения: 5
- Стаж: 5 лет 4 месяца
Выбросы, (грубые ошибки)
По существу, Вы использовали критерий наибольшего абсолютного отклонения, описанный. в частности, в книге Кобзаря "Прикладная математическая статистика" (стр. 547), только там в знаменателе при расчёте СКО стоит n, а у Вас n-1.
Критерий Граббса предполагает исследование на грубую ошибку только одного сомнительного значения - максимального или минимального.
Поскольку Вы и ГОСТ учитываете два значения, то отсюда и получается завышенный в два раза уровень значимости.
Критерий Граббса предполагает исследование на грубую ошибку только одного сомнительного значения - максимального или минимального.
Поскольку Вы и ГОСТ учитываете два значения, то отсюда и получается завышенный в два раза уровень значимости.
-
-
- Сообщения: 30
- Стаж: 7 лет 3 месяца
- Поблагодарили: 9 раз
Выбросы, (грубые ошибки)
Поздно увидел развитие этой темы про выбросы.
texadmin, я не математик, но хотел бы поправить.
Вы находите не вероятность выброса, а фактически достигаемый уровень значимости, p-level (p-значение).
p-значение - это вероятность получения значения критерия, которое вы получили при исследовании или еще большего значения критерия, при условии что нулевая гипотеза верна.
Отправлено спустя 26 минут:
По поводу различия данных в таблицах критерия Граббса.
Пробовал рассчитывать статистику критерия Граббса в Excel, но получалось очень медленно, более 100000 выборок обсчитать не реально, excel тупо виснет. А считается, что для расчета статистики критерия надо миллион выборок.
Поэтому считал в R, где -то 60-120 сек на обсчет миллиона выборок размером до 40.
В таблицах Н.В. Смирнова и Граббса критические значения статистики получены видимо при условии, что берется для проверки либо минимальное, либо максимальное значение из выборки.
Насколько это логично? Вот взяли мы для проверки, например, минимальное значение и получили, что оно выбросом не является. Ну и что? А вдруг максимальное значение отстоит от среднего значения в выборке дальше, чем проверяемое минимальное? Т.е. после проверки минимального значения необходимо проверить максимальное.
В ГОСТ Р ИСО 5725-2-2002 критические значения статистики Граббса рассчитаны исходя из того, что проверяться будет не минимальное или максимальное значение в выборке, а значение, максимально удаленное от среднего значения выборки.
Поэтому табличные значения критерия Граббса проверки выбросов в ГОСТ Р ИСО 5725-2 по существу правильные.
texadmin, я не математик, но хотел бы поправить.
Вы находите не вероятность выброса, а фактически достигаемый уровень значимости, p-level (p-значение).
p-значение - это вероятность получения значения критерия, которое вы получили при исследовании или еще большего значения критерия, при условии что нулевая гипотеза верна.
Отправлено спустя 26 минут:
По поводу различия данных в таблицах критерия Граббса.
Пробовал рассчитывать статистику критерия Граббса в Excel, но получалось очень медленно, более 100000 выборок обсчитать не реально, excel тупо виснет. А считается, что для расчета статистики критерия надо миллион выборок.
Поэтому считал в R, где -то 60-120 сек на обсчет миллиона выборок размером до 40.
В таблицах Н.В. Смирнова и Граббса критические значения статистики получены видимо при условии, что берется для проверки либо минимальное, либо максимальное значение из выборки.
Насколько это логично? Вот взяли мы для проверки, например, минимальное значение и получили, что оно выбросом не является. Ну и что? А вдруг максимальное значение отстоит от среднего значения в выборке дальше, чем проверяемое минимальное? Т.е. после проверки минимального значения необходимо проверить максимальное.
В ГОСТ Р ИСО 5725-2-2002 критические значения статистики Граббса рассчитаны исходя из того, что проверяться будет не минимальное или максимальное значение в выборке, а значение, максимально удаленное от среднего значения выборки.
Поэтому табличные значения критерия Граббса проверки выбросов в ГОСТ Р ИСО 5725-2 по существу правильные.
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Я тоже не математик, жена математик, но когда я пытаюсь ей объяснить что мне надо, она ничего не понимает, говорит что я несу чушь.
Мы переписывались с оппонентом, он генерирует значения, и считает с одни значением например минимальным, у него и получается в два раза меньше.
Я уже год эти таблицы кручу, компьютер работает по несколько месяцев. Есть файлы которыми генерирую, есть файлы которыми проверяю (валидация, верификация, всё как положено), всё время какая то утечка, никак не приближусь к той точности которую хочу.
Вчера опять ошибку нашел.
Вот заложил начало цикла статей, может звёзды сложатся и доделаю работу.
Почему нормальное распределение не нормальное
Не знаю насколько но вроде как быстрее должен считать, только после выполнения макроса надо включать "true"
Sub Макрос6()
'Больше не обновляем страницы после каждого действия
Application.ScreenUpdating = False
'Расчёты переводим в ручной режим, для пересчёта станицы ActiveSheet.Calculate, включаю потом в меню.
Application.Calculation = xlCalculationManual
'Отключаем события
Application.EnableEvents = False
'Не отображаем границы ячеек
If Workbooks.Count Then
ActiveWorkbook.ActiveSheet.DisplayPageBreaks = False
End If
'Отключаем статусную строку
Application.DisplayStatusBar = False
'Отключаем сообщения Excel
Application.DisplayAlerts = False
В официальных источниках это так и называется, но если озвучить задачу которую решаем мы то мы как раз оцениваем вероятность что значение будет выбросом, вы же когда генерируете, все ваши значения входят в вашу выборку, с нормальным распределением, вы отсеиваете например 1% крайних (которые по факту не выбросы)
Да и в иностранных источниках берётся одно максимально удалённое, и проверяется.
Мы переписывались с оппонентом, он генерирует значения, и считает с одни значением например минимальным, у него и получается в два раза меньше.
Я уже год эти таблицы кручу, компьютер работает по несколько месяцев. Есть файлы которыми генерирую, есть файлы которыми проверяю (валидация, верификация, всё как положено), всё время какая то утечка, никак не приближусь к той точности которую хочу.
Вчера опять ошибку нашел.
Вот заложил начало цикла статей, может звёзды сложатся и доделаю работу.
Почему нормальное распределение не нормальное
Не знаю насколько но вроде как быстрее должен считать, только после выполнения макроса надо включать "true"
Sub Макрос6()
'Больше не обновляем страницы после каждого действия
Application.ScreenUpdating = False
'Расчёты переводим в ручной режим, для пересчёта станицы ActiveSheet.Calculate, включаю потом в меню.
Application.Calculation = xlCalculationManual
'Отключаем события
Application.EnableEvents = False
'Не отображаем границы ячеек
If Workbooks.Count Then
ActiveWorkbook.ActiveSheet.DisplayPageBreaks = False
End If
'Отключаем статусную строку
Application.DisplayStatusBar = False
'Отключаем сообщения Excel
Application.DisplayAlerts = False
-
-
- Сообщения: 30
- Стаж: 7 лет 3 месяца
- Поблагодарили: 9 раз
Выбросы, (грубые ошибки)
Тем не менее, p-значение это не вероятность выброса, а, как я писал выше, вероятность получения значения критерия, которое вы получили при исследовании или еще большего значения критерия, при условии что нулевая гипотеза верна.
p-значение наверное как то связано с вероятностью того, выброс проверяемое значение или нет. но не равно этой вероятности.
Это Вам любой математик, знающий теорию вероятностей и мат. статистику скажет. На это обращают внимание во многих книгах по мат. статистике.
p-значение наверное как то связано с вероятностью того, выброс проверяемое значение или нет. но не равно этой вероятности.
Это Вам любой математик, знающий теорию вероятностей и мат. статистику скажет. На это обращают внимание во многих книгах по мат. статистике.
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Что не говорите, p=свыше 1% например для n=30, для числа, говорит о том что если у Вас нормальное распределение, 30 значений, вы берёте (назовём его сомнительное), в сколки случаях из ста оно будет дальше этой границы. Неправильно наверное выразился при нормальном распределении и N=30, G для сомнительного значения > 3,236 в 1% случаях. (без всяких выбросав)
Выбросы, (грубые ошибки)
Подскажите дилетанту, если методика измерений требует провести три измерения оптической плотности для "проверки на выбросы и дальнейшего усреднения результатов", могу ли я использовать критерий Граббса для выявления выброса. В методике не указанно об этом ничего
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Граббса Да, самый стандартный вариант. Побольше почитайте, выброс получается только в результате ошибок, поломок. При обнаружении выброса стоит проанализировать причину появления, и если причина не установлена уже принимать решение учитывать ли значение в результатах измерения, ведь это крайнее значение может быть частью результатов измерений.
Я бы поступал так, если обнаружен выброс (при не затратных измерениях), провести ещё одно, если при 4n выброс остался, исключать. Вроде не противоречит методике.
Я бы поступал так, если обнаружен выброс (при не затратных измерениях), провести ещё одно, если при 4n выброс остался, исключать. Вроде не противоречит методике.
-
-
- Сообщения: 5
- Стаж: 5 лет 4 месяца
Выбросы, (грубые ошибки)
Почему бы не проверять. Никаких затруднений здесь нет. Проверка максимально удалённого значения тоже предполагает дополнительную операцию - нахождение этого максимально удалённого. В первоисточниках - Н.В.Смирнов, Граббс, предполагается расчёт по одному из крайних значений - минимальному или максимальному. То, что считают по ГОСТу, отличается от первоисточников, поэтому и название критерия следовало бы дать другое. В упомянутой книге Кобзаря так и есть, название другое - критерий наибольшего абсолютного отклонения. Не знаю, откуда этот автор взял название, ссылки нет, но, видимо, из какого-то источника.dats писал(а): ↑23.02.2020 В таблицах Н.В. Смирнова и Граббса критические значения статистики получены видимо при условии, что берется для проверки либо минимальное, либо максимальное значение из выборки.
Насколько это логично? Вот взяли мы для проверки, например, минимальное значение и получили, что оно выбросом не является. Ну и что? А вдруг максимальное значение отстоит от среднего значения в выборке дальше, чем проверяемое минимальное? Т.е. после проверки минимального значения необходимо проверить максимальное.
У меня при n = 40 считает 1 млн. выборок часа за 3. Но у меня довольно слабый компьютер. На более быстром будет считать намного быстрее. И зависаний нет.
Определять допускаемый уровень значимости, видимо, имеет смысл, если он не более 0,1. Если уровень больше 0,1, что можно увидеть по полученному расчётному значению критерия, до достаточно констатировать, что грубой ошибки нет.
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
Нет, так как удалять выбросы правильнее по одному начиная с самого грубого вам так или иначе придётся считать два.
Двухсторонний, односторонний, уже всё придумали.
-
-
- Сообщения: 5
- Стаж: 5 лет 4 месяца
Выбросы, (грубые ошибки)
В приложенной статье корректность применения Граббса для 3х значений ставится под сомнение. Кроме того, можно ли считать нормальным распределение случайной величины , из которой получена выборка с n = 3?
Для 3х значений иногда делают так: отбрасывают то, которое сильнее удалено от среднего арифметического, а среднее по двум оставшимся принимают за результат.
Отправлено спустя 5 минут:
Да, два. Но не придётся искать максимально удалённое.
Известные критерии Шовене и Шарлье, по сути, отличаются от Граббса только уровнями значимости, но названия у них другие.
- Вложения
-
- КОРЕКТНОСТЬ ГРАББСА ПО ТРЁМ ЗНАЧ..pdf
- (214.91 КБ) 1079 скачиваний
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Выбросы, (грубые ошибки)
1. Бесспорно чем меньше n тем больше вероятность принятия ошибочного решения (не найти реальный выброс), так некоторые проводили эксперименты подсовывая отличные от нормального распределения данные, и сравнивали критерии с небольшими n, вывод и так очевиден что бы заниматься подобным.
2. Стоит понять что такое выброс - неправильно полученные данные в результате ошибки (неправильно списали, и.т.д.), а не то на что указал критерий, критерий лишь ставит по сомнение значение, если у Вас нет поводов его исключать, исключать его не следует, это является частью измерительной информации.
3.
4. Данные из статьи некорректны, рассматривается частный случай, и дискретность у них с большим шагом.
2. Стоит понять что такое выброс - неправильно полученные данные в результате ошибки (неправильно списали, и.т.д.), а не то на что указал критерий, критерий лишь ставит по сомнение значение, если у Вас нет поводов его исключать, исключать его не следует, это является частью измерительной информации.
3.
Такой вариант предусмотрен в случае дорогих, или продолжительных измерений, я бы предложил в случае сомнения провести ещё одно измерение четвёртое, и если вероятность выброса вырастит, исключить.
4. Данные из статьи некорректны, рассматривается частный случай, и дискретность у них с большим шагом.
-
-
- Сообщения: 5
- Стаж: 5 лет 4 месяца
Re: Выбросы, (грубые ошибки)
Думаю, не совсем правильно придумали, т.к. двусторонний критерий предполагает две критических области одновременно, а в "двустороннем" критерии Граббса критическая область одна.
Не понимаю, зачем так долго считать. Массив расчётных значений Граббса в ЭКСЕЛЕ по конкретному объёму выборки с макросом рассчитывается за минуты или часы. По этому массиву легко найти процентные точки для любых уровней значимости. И зачем верификация, не ясно.texadmin писал(а): ↑23.02.2020 Я уже год эти таблицы кручу, компьютер работает по несколько месяцев. Есть файлы которыми генерирую, есть файлы которыми проверяю (валидация, верификация, всё как положено), всё время какая то утечка, никак не приближусь к той точности которую хочу.
Вчера опять ошибку нашел.
-
- Администратор
- Сообщения: 4218
- Стаж: 7 лет 7 месяцев
- Поблагодарили: 574 раза
- Пол:
Re: Выбросы, (грубые ошибки)
Вы сможете озвучить вероятность отклонения нулевой гипотезы, когда она ложна при n=30 P = 0,95 если использовать Ваши коэффициенты?
Вы знаете что такое q - уровень значимости?
А порядок нахождения выбросов? Сначала удаляем с наибольшим отклонением, или как Вы предлагаете первый найденный выброс?
Точность методов и результатов измерений.
Вы знаете что такое q - уровень значимости?
А порядок нахождения выбросов? Сначала удаляем с наибольшим отклонением, или как Вы предлагаете первый найденный выброс?
Точность методов и результатов измерений.