НОВОСТИ   БИБЛИОТЕКА   ЮМОР   КАРТА САЙТА   ССЫЛКИ   О САЙТЕ  




предыдущая главасодержаниеследующая глава

3-2. Критерии согласия

Рассмотрим два критерия согласия: критерий χ2 Пирсона и критерий Колмогорова. Начнем с простейшего случая. Допустим вначале, что случайная величина X может принимать только два значения с вероятностями p1 и p2, причем

p1+p2=1. (3-4)

Пусть проведено n опытов, ν1 раз величина приняла первое значение (попала в группу S1) и ν2 раз - второе (попала в группу S2), причем

ν12=n. (3-5)

Необходимо определить достоверность (вероятность) гипотезы о возможности замены вероятностей p1 и p2 частотами p*11/n и p*22/n

За меру ошибки возьмем взвешенную сумму квадратов отклонений ν1 и ν2 от их математических ожиданий np1 и np2:


В качестве весов слагаемых в этой формуле выбраны величины, обратные математическим ожиданиям. Формулу (3-6) можно переписать в виде

χ2=K11-mν1)2+K(ν2-mν2)2, (3-7)

где


или


где


Величины

υ0101-np1; ν0202+np2 (3-9)

являются зависимыми. Действительно, в соответствии с формулами (3-4) и (3-5)

υ0102=(υ12)n(p1+p2)=0, (3-10)

откуда

υ01=-ν02

Взвешенные отклонения


и в соответствии с соотношением (3-10) будут также связаны следующей зависимостью:


С учетом равенств (3-11) выражение (3-6) можно преобразовать к виду:


Но согласно теореме Лапласа случайная величина при большом n распределена примерно по нормальному закону. Следовательно, квадрат этой величины (величина χ2) распределен по закону χ2 с одной степенью свободы. Выберем какое-нибудь значение доверительной вероятности р=0,01, которая в теории проверки статистических гипотез называется уровнем значимости, и найдем по таблицам χ2-распределения соответствующее этой вероятности значение величины χ220,01. Очевидно, что наша гипотеза о том, что можно определить вероятность через частоты, будет неверна, если вычисленное значение χ21 будет больше χ20,01. Точнее, в этом случае равенство между частотой и вероятностью будет нарушаться с вероятностью большей, чем р=0,01. В таблицах χ2-распределения для каждого χ2 приведены значения вероятности

P{V>χ2}=F12)

Эта функция - убывающая функция аргумента χ2. Она связана с функцией распределения χ2 определяемой формулой

F(χ2)=P{V≤χ2},

соотношением

F12)=1-F(χ2).

Такая система таблиц принята для удобства проверки статистических гипотез в ущерб теории оценок.

Рассмотренную выше задачу можно распространить на случай l групп и l вероятностей. Пусть имеется l групп: S1, S2, ..., Sn возможных значений случайной величины (или признака). Выдвигаем гипотезу, что можно определить значение вероятностей р1, р2,...,pl (где ) для попадания в каждую группу путем определения частот. Пусть в результате n опытов число попаданий в каждую группу составляет соответственно υ1, υ2,..., υl, причем

Рассмотренная задача полностью включает в себя определение закона распределения по гистограмме; в этом случае группы Si - это разряды Ji=(υi, υi+1); pυ - истинные вероятности попадания в данный интервал. Для количественной оценки точности согласия экспериментальных данных с некоторым гипотетическим законом распределения используем взвешенную сумму квадратов отклонений υ0ii-npi или величин p*i-pi


где


Это соотношение можно переписать в виде


или


Как и в рассмотренном случае, отклонения υ01 связаны линейным соотношением


В предыдущем примере случайные числа vt подчинялись биномиальному закону распределения, который может быть записан в виде


где m1+m2=n. В случае l групп (или интервалов) числа νi- подчиняются полиномиальному закону распределения [Л. 26], который является обобщением биномиального закона


На этот случай может быть распространена и теорема Лапласа, которая утверждает, что нормированные отклонения


связанные одним линейным соотношением (3-17), подчиняются (l-1)- мерному нормальному закону [теорема Лапласа для (l-1)-мерного случайного вектора]. Отсюда следует, что величина


распределена по закону χ2 с l-1 степенями свободы (строгое доказательство этого положения приведено у Крамера [Л. 22]).

В результате имеем следующую процедуру проверки статистической гипотезы. По рассчитанному в соответствии с гипотетическим законом распределения χ21 определяют вероятность появления значений χ2, больших χ21:

P{χ221} (3-22)

Предположим, что получен другой гипотетический закон распределения, который лучше согласуется с экспериментом, чем первый вариант. Тогда для него сумма взвешенных квадратов будет меньше χ21, т.е. χ2221. Вероятность этого события Р(χ2221} должна быть мала, тогда первый вариант гипотетического закона распределения лучше. Но так как

Р{χ221}=1-Р{χ2≤χ21}, (3-23)

то гипотетический закон распределения тем лучше, чем выше вероятность (3-22), соответствующая рассчитанному χ21.

Следует сделать несколько замечаний о методике применения критерия χ2. Предположим, что по экспериментальным данным значения χ2 получаются такими малыми, что значений, больших полученных, теоретически можно ожидать с вероятностью, близкой к единице [р(χ2)=0,99]. Такое хорошее совпадение заставляет думать о некачественном выполнении эксперимента и предварительной обработки данных. Имеется в виду распространенная на практике "подчистка" результатов эксперимента, которая состоит в том, что некоторые результаты субъективно отбрасываются или округляются. Если получилось, что для данного уровня значимости р условие χ212p, где χ21 - экспериментально вычисленное значение, не выполняется, то необходимо проверить экспериментальные данные и повторить эксперимент. Если при повторном эксперименте это условие опять не удовлетворяется, то необходимо отбросить гипотезу, т. е. изменить параметры закона распределения или выбрать другой закон.

Все наши рассуждения справедливы при большом n, так как теорема Лапласа имеет предельный характер (только при n→∞ и большом числе значений, попадающих в каждый разряд, величины Zi распределены по нормальному закону). На практике рекомендуется иметь не менее 5-10 значений в каждом разряде. Если число этих значений мало (один-два), то рекомендуется укрупнить разряды, сделав число их меньше.

Наконец, несколько слов о числе степеней свободы. Величины , входящие в сумму (3-21), должны быть независимы друг от друга. Только при этом условии (и нормальном законе их распределения) сумма их квадратов подчиняется распределению χ2. Поэтому число степеней свободы этого распределения равно числу величин Zi (число разрядов l) минус число связей, наложенных на Zi, или νi. Одно условие (связь), определяемое соотношением (3-17), накладывается всегда, его можно записать в виде


При этом следует иметь в виду, что


Если подбирается гипотетическое распределение с условием, чтобы совпадали теоретическое математическое ожидание mx и его оценка по экспериментальным данным, то накладывается еще условие


Предполагая, что в каждом разряде случайная величина сохраняет постоянное значение (в соответствии с гистограммой), равное среднему на этом разряде значению


можно формулу (3-25) записать в виде


С учетом условий (3-24) и (3-27) число степеней свободы теперь будет r=l-2.

Если распределение определяется при условии выполнения соотношения (3-27) и совпадении теоретической дисперсии и ее оценки, то добавляется третье условие:


или


При добавлении этого условия число степеней свободы будет r=l-3.

Пример 3-3. Для условий примера 3-1 проверим статистическую гипотезу о нормальности закона распределения при условии, что математическое ожидание и среднеквадратичное значение этого распределения равны оценкам этих величин m=1,160; σ=0,167.

Вероятности попадания в разряды, которые выбраны в примере 3-1, находим по формуле (см. приложение 1)


Далее подсчитываем npi (при n=200). Результаты сведены в табл. 3-4.

Таблица 3-4
Таблица 3-4

Используя полученные результаты, получаем:


Затем определяем число степеней свободы r=l-3=6-3=3 и с помощью таблиц χ2-распределения (см. приложение 2) устанавливаем, что найденное значение χ2 соответствует р=0,73. Следовательно, можно утверждать, что с вероятностью р=0,27 на практике отклонения могут быть больше наблюденных. Этот результат можно считать вполне удовлетворительным.

Если закон распределения F(х) известен полностью (т. е. и вид функции распределения и числовые значения параметров известны), то можно применять критерий согласия Колмогорова, который проще критерия χ2. В критерии Колмогорова за меру качества согласования экспериментального и теоретического распределения принимается максимальное значение модуля разности между этими функциями

D=max|F*(x)- F(х)|. (3-30)

Оказывается, что благодаря теореме Колмогорова, легко вычислить функцию распределения вероятности для величины D. Доказано, что какова бы ни была функция распределения F(х) непрерывной случайной величины X, при неограниченном числе n независимых наблюдений вероятность неравенства


стремится к пределу


Заметим, что функция (3-31) опять убывающая и равна единице минус функция распределения величины :


Процедура проверки согласия по этому критерию аналогична проверке по критерию χ2. По формуле (3-30) вычисляется D, а затем определяется величина


Далее рассуждаем следующим образом. Допустим, что за счет каких-то причин (лучшего подбора закона распределения) получилось

λ21. (3-35)

Тогда этот закон будет'лучше гипотетического. Чем меньше вероятность события (3-35), тем лучше наш закон, который соответствует λ1. Учитывая (3-33), можно сказать, что чем выше вероятность (3-31), тем лучше согласование.

Критерий Колмогорова значительно проще критерия χ2. Однако для его применения необходимо иметь график или таблицы теоретического закона распределения, т. е. он должен быть полностью задан. На практике это редко бывает. Чаще известен только вид закона и требуется определить его параметры. В случае применения критерия χ2 это учитывается изменением числа степеней свободы. Если внимательно изучить таблицы χ2-распределения, нетрудно убедиться, что чем больше степеней свободы, тем больше значение вероятности. Следовательно, если не учесть уменьшения числа степеней свободы, то вероятности будут больше и мы ошибочно примем гипотезу, тогда как на самом деле она несправедлива. Поэтому, если при неизвестных параметрах закона распределения применить критерий Колмогорова, взяв за значения параметров его оценки, также получим завышенный результат, так как эта процедура будет эквивалентна применению критерия без учета уменьшения степеней свободы, т. е. по этому критерию гипотеза будет признана допустимой, а на самом деле она несправедлива.

Рис. 3-3. Теоретическая ><i>F(x)</i>  и  экспериментальная  <i>F*(x)</i> функции распределения для примера 3-4
Рис. 3-3. Теоретическая F(x) и F*(x) экспериментальная функции распределения для примера 3-4

Для распределения Колмогорова составлены подробные таблицы (приложение 5). Оба критерия (χ2 и Колмогорова) часто применяются для проверки закона распределения чисел, которые получаются при моделировании на ЦВМ по методу Монте-Карло.

Пример 3-4. Применим критерий Колмогорова для определения степени согласия закона распределения случайной величины, фигурировавшей в трех предыдущих примерах, нормальному закону распределения с параметрами, равными оценкам:

mx=m*x=0,160;
σx=σ*x=0.967.

Систематизируем (табл. 3-5) полученные данные.

На рис. 3-3 представлены теоретическая F(х) и экспериментальная F*(х) функции распределения в виде кривой и ломаной линий. В случае критерия Колмогорова следует использовать непосредственно статистический ряд, так как при ступенчатой аппроксимации функции распределения ее кривая существенно зависит от выбора величины разряда.

Из табл. 3-5 определяем параметр

D =max|F*-F|=0,0175.

По формуле (3-34) находим:


С помощью таблиц функции р(λ), приведенных в приложении 5, находим?

р(0,25)=1,0000.

Как и следовало ожидать, это значение вероятности больше, чем рассчитанное по критерию χ2.

Таблица 3-5
Таблица 3-5

предыдущая главасодержаниеследующая глава








© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна:
http://informaticslib.ru/ 'Библиотека по информатике'
Рейтинг@Mail.ru
Поможем с курсовой, контрольной, дипломной
1500+ квалифицированных специалистов готовы вам помочь