Классическая теория проверки статистических гипотез, в основном разработанная Нейманом - Пирсоном, занимается проверкой гипотез о значении параметра а для плотности распределения вероятности я-мерной случайной величины
f(x|a)=fa=fa(x1, x2, ..., xn);
x=(x1, x2, ..., xn)
Наиболее разработана теория статистического выбора между двумя гипотезами H0 и H1 о значении параметра а:
Н0=Н0(а=а0) и Н1=Н1(а= а1>а0).
При этом истинное значение параметра а может не совпадать ни с одним из гипотетических значений а0 и а1.
Вводятся в рассмотрение вероятности ошибок первого и второго, рода: α и β. Ошибка первого рода происходит всякий раз, когда принимается гипотеза Н1 а на самом деле справедлива Н0. Ошибка второго рода имеет место, когда принимается гипотеза Н0 при истинности гипотезы Н1. Кроме того, следует сразу заметить, что в данном разделе будут рассматриваться только простые гипотезы Н0 и H1 т. е. такие, которые в отличие от сложных не могут быть сведены к более простым. При проверке простых гипотез принимается, по существу, только одно решение: справедлива гипотеза Н0 (Н1 ложна), тогда как при сложной гипотезе появляется несколько возможных решений. Так, при контроле качества продукции возникает задача проверки гипотезы Но том, что неизвестный параметр а в распределении случайной величины X не превосходит некоторого значения а'. Здесь имеет место сложная гипотеза. Как правило, одним из способов сложная гипотеза приближенно сводится к простой. В рассмотренном выше примере вводят два значения: а0<а', а1>а' и считают, что исходная задача будет равносильна проверке простой гипотезы, состоящей в том, что когда a=a1, принимается гипотеза Н0(a≤a'), когда a=a1} принимается гипотеза Н1(a>a') [Л. 34-37J.
В классическом случае объем выборки n фиксирован заранее - до испытаний, правда, одной из основных задач проверки статистических гипотез является определение оптимального значения n.
Требуется выработать правило или метод разбиения исходной совокупности Rn всевозможных выборок объема на две непересекающиеся области Е0 и Е1, причем Е=Rn-Е0. Если точка попадает в область Е0, то принимается гипотеза H0, при попадании точки в область Е1 принимается гипотеза Н1. Область Е1 называется критической. Это правило разбиения обычно называется критерием проверки статистической гипотезы.
Очень часто гипотезы H0 и Н1 бывают противоположными, т. е. Н1=H0. Например, в качестве гипотезы H0 при обнаружении сигнала в шумах радиолокации можно принять наличие сигнала (от цели), а за гипотезу Н1=H0 - отсутствие сигнала, наличие только шума. Второй пример: при изготовлении новых лекарств важно определить степень их токсичности. В этом случае гипотеза H0 означает, что лекарство токсично, Н1=H0 - нетоксично. Третий пример: при геологоразведочных изысканиях проводится серия пробных исследований породы на предмет обнаружения в ней искомого компонента, например золота. Гипотеза H0 означает наличие золота в породе, а H1 - его отсутствие. Для дальнейшей работы с нашими примерами воспользуемся понятиями вероятностей ошибок первого и второго рода. В случае изготовления нового лекарства величина β должна быть мала по сравнению с β, так как применение токсичного лекарства (ошибка первого рода) наносит больший вред, чем ошибочная браковка (ошибка второго рода). Перестраховка здесь вполне оправдана. Однако встречаются случаи, когда веса ошибок первого и второго рода близки. Так бывает при обнаружении сигнала в шумах в радиолокации, когда амплитуда полезного сигнала соизмерима с амплитудой шумов.
В классической теории проверки статистических гипотез [Л. 36] вводится понятие функции мощности критерия (или правила поведения) В(h|Е1), которая определяется как условная вероятность того, что при любой допустимой гипотезе h критическая область Е1 отвергает испытываемую гипотезу Я. В простейшем случае двух альтернативных гипотез H0=H, H1=H, который и будет в основном исследоваться, можно говорить о мощности критической области Е1, как об условной вероятности того, что при ложности гипотезы H (и справедливости H) она будет отвергнута. Очевидно, что в этом случае В(h|Е1)=1-β. Для лучшего понимания смысла введенных терминов рассмотрим числовой пример.
Пример 3-5. Произведено n испытаний породы на предмет определения в ней уровня содержания золота. Процедура исследования носит статистический характер и может быть оценена только в вероятностном смысле.
Испытуемая гипотеза Н0=Н - порода не содержит золота. Альтернативная гипотеза Н1=Н - порода содержит золото. Выбор такой испытуемой гипотезы достаточно условен и в основном определяется тем, что ошибка первого рода была бы вреднее ошибки второго рода, так как считается, что ошибочное заключение о содержании золота в пустой породе (ошибка первого рода) более вредно, чем ошибочное заключение об отсутствии золота в породе, имеющей его (ошибка второго рода).
В результате многолетнего опыта установлено, что вероятность обнаружения золота в пустой породе р1=0,01, а вероятность правильного заключения о наличии золота в породе р2= 0,8.
Допустим, что произведено n=3 независимых испытаний. Введем в рассмотрение случайную биномиальную величину, принимающую только целые значения 0, 1, 2, 3, равные числу положительных заключений о содержании золота. Заранее неизвестно, содержит порода золото или не содержит, поэтому функция распределения вероятности для величины X неизвестна и может определяться одним из двух следующих выражений: если золота нет, то
Px(K)=C3KpK1 (1-p1)3-K (K = 0, 1, 2, 3);
если золото имеется, то
px(K)=C3KpK2(1-p3)3-K.
Вопрос о строительстве предприятия по добыче золота зависит от того, какая из этих двух функций распределения имеет место на самом деле.
В данном случае выборочное пространство Rn состоит из четырех точек на прямой К=0, 1, 2, 3. Для определения критической области Е1 требуются дополнительные рассуждения. Предположим, что при установившейся практике подтверждается наличие золота только в случае, когда все три пробы дают положительный результат, что равносильно отрицанию гипотезы Н. Поэтому критическая область Е1 состоит из одной точки К=3, так как при попадании выборочной точки в эту точку гипотеза Н отвергается. Область Е0 состоит из точек К = 0, 1,2.
Подсчитаем вероятности ошибок первого и второго рода. Ошибка первого рода, состоящая в отрицании гипотезы Н, когда она истинна, будет иметь место тогда, когда точка X попадет в критическую область Е1, т. е. примет значение X=3:
α= Р{Х=3|H}=(p1)n=(0,2)3=0,008.
Ошибка второго рода β будет иметь место, когда точка займет положение X= 0, 1, 2 и будет истинна гипотеза H (порода золотоносна):
β=Р{Х≠3|Н}=1-Р{Х≠3|Н}=1-(0,8)3=0,488.
Теперь вычислим мощность критерия, равную вероятности того, что будет распознана ложность гипотезы H, когда истинна гипотеза Н, т. е.