<< Пред. стр.

стр. 3
(общее количество: 4)

ОГЛАВЛЕНИЕ

След. стр. >>


Случайная величина представляющая собой сумму квадратов n независимых случайных величин, каждая из которых подчиняется нормальному закону распределения с параметрами (0;1) и независимых случайных величин с распределением ?2 с к = n – степенями свободы.

Сама функция плотности вероятности f(?2) имеет вид:

Эта функция зависит только от объёма выборки и не зависит ни от математического ожидания, ни от дисперсии, ни от х.
Имеются таблицы распределения ?2 позволяющие вычислить вероятность события
,
где: к – число степеней свободы;
? – доверительная вероятность, которая задаётся самим исследователем.

Математическое ожидание неизвестно.
Когда случайная величина Х с параметрами (m, ?2) – неизвестны.
Для оценки дисперсии генеральной совокупности используется величина:

Случайная величина имеет распределение ?2 с к = n – 1 степенями свободы.
Уменьшение степени свободы использована для получения среднего выборочного.

Доверительный интервал.
Рассмотренные ранее оценки получили название точечных оценок. На практике широко используются интервальные оценки, для получения которых используется метод доверительных интервалов.
В методе доверительных интервалов указывает не одно(точечное) значение интересующего нас параметра, а целый интервал. Он строится на основе неравенства Чебышева:

Задаётся некоторое число 0 < ? < 1 близкое к нулю, которое называется уровень значимости.
Параметр ? находится из неравенства:
, тогда:


Интервал называется доверительным интервалом с уровнем значимости ?.
Доверяясь расчёту мы утверждаем, что неизвестная вероятность принадлежит указанному интервалу, а вероятность возможной ошибки имеющей место тогда, когда этот интервал не накрывает истинное значение ? не превосходит уровня значимости ?.
n = 1000, m/n = 0,6
При ? = 0,1 (0,550; 0,650)
При ? = 0,01 (0,442; 0,758)
Истинное значение вероятности Р мы незнаем, но можем утверждать, что первый интервал накрывает это значение с вероятностью не менее чем 0,9 , а второй – 0,99.

Пример. Имеется некоторое предположение, гипотеза, о том, что неизвестная вероятность Р равна заданному число Р0:
Н0: р = р0; (Р0 = 0,5).
Эту гипотезу можно принять, а можно и отклонить посчитав её противоречащей известным статистическим данным.
Для принятия решения(проверки гипотезы) мы проделаем следующую процедуру:
Если Р0I(Р*, Р*) с ?, то гипотезу принимаем(возможно здесь и ошибка, мы можем принять ложную гипотезу – такая ошибка первого рода).
Если Р0I (Р*, Р*) с ?, то гипотеза отвергается(здесь тоже можем совершить ошибку отклонить верную гипотезу – такая ошибка второго рода, вероятность такой ошибки заранее задаётся нами при построении доверительного интервала).
При наших предположениях, когда уровень значимости равен 0,1 в общем мы имеем Р0I (0,550; 0,650). Эта гипотеза отвергается, при этом мы ошибаемся не более чем в 1 случае из 10.

Построение доверительного интервала для математического ожидания.
Случайная величина Х распределённая с параметрами (m, ?2).
Математическое ожидание неизвестно и требуется построить для него доверительный интервал.
Известно ?2.
Неизвестно ?2.

1. ?2 известно.
Проводится выборка из генеральной совокупности и в качестве несмещённой, состоятельной и эффективной оценки математического ожидания выбирается . Оно тоже подчиняется нормальному закону с параметрами:
, где: n – объём выборки.
Нормированная величина:

подчиняется нормальному закону распределения с параметрами (0; 1), тогда вероятность:

Вероятность задаётся уровнем ?, величина Р – доверительная вероятность. По таблице находим величину Zp.
При известном Zp получим:


Интервал для математического ожидания (m*; m*) получим:
– доверительный интервал для математического ожидания с уровнем значимости ?.

2. ?2 неизвестно.
Точно так же проводится выборка объёмом n, формируется случайная величина t

Случайная величина t имеет распределение Стьюдента.
Зная объём выборки n, задаваясь уровнем значимости ? или задаваясь доверительной вероятностью р=1-?.
По распределению Стьюдента находим tn,p – максимальное отклонение m и .

где: Р – доверительная вероятность.
Отсюда легко строится доверительный интервал.



Несмотря на кажущиеся совпадения двух формул они существенно отличаются друг от друга.
Во втором случае величина доверительного интервала зависит не только от доверительной вероятности, но и от объёма выборки.
Это различие наиболее существенно проявляется при малых выборках.

Построение доверительного интервала для дисперсии.
Случайная величина Х распределена по нормальному закону с параметрами (m, ?2).

Требуется построить доверительный интервал для дисперсии по выборочным дисперсия.
или
Построение доверительного интервала для дисперсии основывается на том, что случайные величины:
– имеют распределение ?2 с
к = n, к = n – 1 – степенями свободы.

При заданной доверительной вероятности 1 – ? мы записываем:

По таблице распределения ?2 мы должны выбрать такие два числа , чтобы площадь заштрихованная была равна 1-?.



Обычно величины выбирают таким образом, чтобы выполнялось неравенство:


В таблице распределения ?2 имеется только вероятность вида:


Тогда:

Преобразуя это неравенство получим:

- доверительный интервал с уровнем значимости ?.
Проверка статистических гипотез.

Наряду с оценкой параметров распределения по выборочным данным большой интерес представляет вид (закон) распределения неизвестный на практике. Такие задачи решаются методами статических гипотез.
Относительно неизвестного теоретического распределения формируется некоторое предположение, которое формируется в виде гипотез.
Например, теоретическое распределение подчиняется нормальному, экспоненциальному закону.
При проверки гипотез используется принцип значимости основывающийся на принципе практической невозможности.
Согласно принципу практической невозможности события с очень малыми вероятностями в практических приложениях считаются невозможными.
Максимум таких вероятностей определяет уровень значимости ?, который задаётся.
В свою очередь согласно принципу значимости отвергается случайность появления практически невозможного события.
Поскольку теоретическое распределение задано гипотезой, то легко рассчитать вероятность появления некоторого события при проведении испытаний или взятии выборки и пусть такая расчётная вероятность не превышает ?, т.е. событие является практически невозможным.
Если же такое событие происходит, то возникает противоречие между выдвинутой гипотезой и выборкой. Гипотезу следует отвергнуть в этом и заключается содержание принципа значимости.
Проверяемая гипотеза называется нулевой или основной Н0.
Если гипотеза отвергается, то принимается противопоставляемая ей гипотеза Н1, которая называется конкурирующей ил альтернативной.
Про проверки гипотезы Н0 возможны ошибки.
Можно отвергнуть гипотезу Н0 в условиях когда она верна и совершить ошибку I-го рода и можно принять гипотезу, когда она не верна и совершить ошибку II-го рода.
Решение поставленной задачи по сути дела состоит в разделении всего множества выборочных данных на 2-а не пересекающихся подмножества О и W. Таких, что решение принимается в пользу гипотезы Н0, если выборка принадлежит области О и в пользу гипотезы Н1, если выборка принадлежит подмножеству W. Область W называется критической областью выборочного пространства. Здесь гипотеза Н0 отвергается, а область О является областью допустимых значений. Здесь гипотеза Н0 принимается.

Проверка гипотезы о равенстве центров распределения математического ожидания 2-х нормальных генеральных совокупностей.
Задача имеет большой практический интерес. Достаточно часто наблюдается такая ситуация, что средний результат в одной серии эксперимента отличается от среднего результата в другой серии эксперимента.
Возникает вопрос: можно ли объяснить отличительное расхождение случайными ошибками эксперимента и относительно малыми объёмами выборки или это отклонение вызвано какими-либо неизвестными, незамеченными закономерностями.
Имеется две случайных величин Х и Y с нормальным законом распределения.
Получим 2-е независимых выборки объёмом n1 и n2 из указанных генеральных совокупностей.
Необходимо проверить: Н0: М(X) = М(Y)
H1: |M(X) – M(Y)| > 0
Рассмотрим два случая:
1. – известны дисперсия генеральной совокупности ;
2. – дисперсия неизвестна .
1 - , M(X) и M(Y) - неизвестны, для их оценки мы используем средние выборочные
Относительно известно, что они подчиняются нормальному закону распределения с параметрами:

Рассмотрим случайную величину . В силу независимости выборок эта случайная величина подчиняется нормальному закону распределения.
Её дисперсия:

Если гипотез Н0 верна(справедлива), то тогда: .
Величина:
с параметрами (0, 1)
Выбирая уровень значимости ? или доверительную вероятность Р = 1- ? можем записать:
; ;
Выбирая по величине интеграла вероятности значения ZP мы тем самым делим выборочных данных на область допустимых значений и критическую область.
Для области, где выполняется неравенство |Z| ? ZP – область допустимых значений(ОДЗ) Н0 – принимается.
А, если |Z| > ZP – критическая область(КО) Н0 – отвергается, Н1 – принимается.
Чем меньше ?, тем меньше вероятность отклонить проверяемую гипотезе, если она верна. Но в этом случае увеличивается вероятность совершения ошибки II-го рода.
Чем меньше ?, тем больше ОДЗ и тем больше вероятность принять проверяемую гипотезу, если она не верна, т.е. совершить ошибку II-го рода.

Методы проверки гипотез позволяют только отвергнуть проверяемую гипотезу, но они не могут доказать её справедливость.

2 -Дисперсия неизвестна.
Есть 2-е случайных величины X и Y, .
mx и my неизвестны берутся независимые выборки (n1;n2) и рассматривается гипотеза: Н0: M(X) = M(Y)
H1: |M(X) – M(Y)| > 0.
Для оценки математического ожидания M(X) и M(Y) используем среднее выборочное . Для оценки дисперсий используем:
- несмещённые, состоятельные оценки дисперсии.
Поскольку генеральные совокупности X и Y имеют одинаковые дисперсии, то для оценки дисперсии целесообразно использовать результаты обеих выборок.
Наиболее целесообразной оценкой дисперсии является средняя взвешенная этих двух оценок.

Если гипотеза Н0 справедлива, то тогда случайная величина подчиняется нормальному закону распределения с и с дисперсией



Если построить случайную величину:

, то она будет подчиняться нормальному закону с параметрами (0; 1).
Т.к. неизвестна, то такая величина подчиняется t-распределению Стьюдента(со степенями свободы n1 + n2 – 2).
Для ?(Р = 1– ?) подсчитывается критическое значение

Если вычисленные значения , то гипотеза Н0 отвергается и наоборот:
Н0 принимается.

Проверка гипотезы о совпадении 2-х дисперсий.
Задача имеет важное практическое значение. Возникает при наладке какого-либо оборудования при сравнении точности приборов, инструментов, методов измерений.
По 2-м независимым выборкам вычислены оценки дисперсий:

Для проверки гипотезы Н0 используется критерий Фишера(F–критерий, F–распределение).
Вычисляется коэффициент:


Вычисляется критическое значение Fкр(? (или Р = 1 - ?))

,где: ? – число степеней свободы числителя и знаменателя.



Если Fн > Fкр, то Н0 отвергается,
Fн < Fкр, то Н0 принимается.



Анализ однородности дисперсий.
Понятие однородности является обобщением понятия равенства дисперсий в случае, если число выборок превосходит 2(N > 2).
Для проверки гипотезы H0:
Н0:
Н1: дисперсия неоднородна.
Объёмы выборок n1,n2, … ,nN различны.
Когда объёмы выборок различны для решения задачи является ?2 с (N-1) степенями свободы.
На практике наиболее частым является когда объёмы выборок одинаковы.
При равных объёмах выборок используется критерий Кохрана для проверки Н0.
Есть соответствующее распределение, но оно громоздко.
В начале вычисляется фактическое значение критерия:

Отношение максимальной оценки дисперсии к сумме всех оценок дисперсий вычисленных по табличным данным.
Для Р = 1 – ? вычисляется критическое значение критерия Кохрана Gкр.
При Gн ? Gкр - H0 принимается;
Gн > Gкр - H0 отвергается.

Проверка гипотез о законе распределения.
Имеется случайная величина Х, требуется проверить гипотезу Н0:
Н0: эта случайная величина подчиняется некоторому закону распределения F(x).
Для проверки гипотезы делается выборка состоящая из n независимых наблюдений над случайной величиной Х. По выборке строится эмпирическая функция распределения F*(x). Сравнивая эти распределения с помощью некоторого критерия(критерий согласия) делается вывод о том, что эти два распределения согласуются, т.е. Н0 – принимается.
Существует несколько критериев согласия: ?2 Пирсона, критерий Колмогорова и т.д.

Критерий согласия ?2 Пирсона.
Имеется случайная величина Х, выдвигается гипотеза Н0: F(x), делается выборка.
Диапазон Хmin – Хmax разбивается на ? интервалов. Размер интервала определяется по правилу Старджесса. D1;D2;D3;…;D?.
Интервал Di
D1
D2
D3

D?
Эмпирическая частота mi
m1
m2
m3

m?
Теоретическая частота npi
np1
np2
np2

np?


mi > 3(в среднем 5 - 7).
При mi < 3 укрупнить интервал.
Находим частоту попадания случайной величины внутрь каждого интервала.
Поскольку теоретическое распределение задано в гипотезе Н0 всегда можно найти вероятность pi попадания случайной величины внутрь каждого интервала.

?2 Пирсона предполагает, что надо построить:

(имеет распределение ?2 только при относительно больших n (n > 50)).

Порядок применения ?2 Пирсона:
Рассчитывается эмпирическое значение критерия ?2;
Выбирается уровень значимости ? (при Р = 1 - ?);
По таблице подсчитывается ,
где: ? – уровень значимости;
к – число степеней свободы.
В общем случае к = ? - r – 1,
где: ? - количество интервалов разбиения;
r – количество параметров распределения подсчитанных по выборке;
Здесь к = r – 1.
Если

Критерий Колмогорова.

По результатам выборки объёмом n строится эмпирическая функция распределения F(х). Принимается гипотеза Н0: случайная величина Х подчиняется распределению описанному функцией F(x).
За меру расхождения функций принимается величина:


Существуют таблицы распределения Колмогорова в которых можно найти:
- критическое значение. Оно зависит от уровня значимости ?(Р = 1 - ?), величины D и величины выборки n.

Если полученные из опыта значения коэффициента D оказывается больше критического , то Н0 отвергается.
Если
С помощью величины можно построить доверительные границы для неизвестной функции F(x):

Колмогоров показал, что при n > ? величина:

подчиняется распределению Колмогорова.

Критерий Колмогорова так же может быть использован для статистической проверки принадлежности двух выборок объёмом n1 и n2 к одной и той же генеральной совокупности. Вычисляется параметр ?:

где: - эмпирические функции распределения соответственно первой и второй выборки.
По величине ? судят о согласии.


Раздел 6. Основы дисперсионного анализа.

Дисперсионный анализ – это статистический метод анализа результатов наблюдений зависящий от различных одновременно действующих факторов и позволяющий выбрать из ряда факторов наиболее важные, оценивать их влияние.
Основными предпосылками дисперсионного анализа является как правило нормальное распределение результатов наблюдений и отсутствие влияния исследуемых факторов на дисперсию результатов наблюдения.
Обязательным здесь является возможность управляемого изменения фактора в рамках его разновидностей называется уровнями фактора. Эти эксперименты могут быть пассивными, когда существование уровней и их смена является естественными для исследуемого объекта и активными, когда эти изменения искусственно вносятся экспериментатором по заранее составленному плану.
Идея дисперсионного анализа в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждый из которых характеризует влияние того или иного фактора, или их взаимодействие. Последующие сравнения этих дисперсий позволяют оценить сущность влияния факторов на исследуемую величину.
Пусть Х – это некоторая случайная величина зависящая от 2х действующих на неё факторов А и В.
- среднее значение исследуемой величины.
Отклонение:
где: ? – отклонение вызванное фактором А;
? – отклонение вызванное фактором В;
? - отклонение вызванное другими факторами.
?, ?, ? – случайные величины независимы.

Дисперсию случайной величины Х, ?, ?, ? обозначим:

где: величина - остаточная дисперсия учитывающая влияние случайных и прочих неучтённых факторов.
Для независимых и случайных величин имеет место равенство:

Сравнивая или с величиной можно установить степень влияния факторов А и В на величину Х по сравнению с неучтёнными и случайными факторами.
Сравнивая между собой и мы можем оценить сравнительную степень влияния факторов А и В на величину Х.
Дисперсионный анализ позволяет на основании выборочных данных найти все значения дисперсии . Далее используя соответствующие критерии можно оценить степень влияния параметров А и В на исследуемую случайную величину.
Если речь идёт о влиянии одного фактора на исследуемую случайную величину, то речь идёт об однофакторном дисперсионном анализе. Если же речь идёт о многих факторах, то говорят о многофакторном дисперсионном анализе.


Однофакторный дисперсионный анализ.
Большое количество практических задач приводится к задачам однофакторного дисперсионного анализа.
Типичным примером является работа технологической линии в составе которой имеется несколько параллельных рабочих агрегатов.
На выходе имеют место какие-то детали. Эти детали по какому-то параметру можем контролировать.
Ясно, что среднее значения контролируемых параметров после каждого станка будут несколько отличаться.
Вопрос: Обусловлены ли эти отличия действием случайных факторов или имеет место влияние конкретного станка агрегата.
В данном случае фактор только один – станок.
Совокупность размеров деталей подчиняется нормальному закону распределения, и все эти совокупности имеют равные дисперсии.
Имеется m станков, т.о. имеется m совокупностей. Из этих совокупностей мы проводим выборки объёмом n. Так, что значение параметров i-той совокупности i: .
Все выборки можно записать в виде таблицы, которая называется матрицей наблюдения.


i \ j
1
2
.
j
.
n
Ср. выборочное
1
x11
x12
.
x1j
.
x1n

2
x21
x22
.
x2j
.
x2n

.
.
.
.
.
.
.
.
i
xi1
xi2
.
xij
.
xin

.
.
.
.
.
.
.
.
m
xm1
xm2
.
xmj
.
xmn


Выдвигаем гипотезу Н0 заключающуюся в равенстве средних выборочных.

Гипотеза Н0 проверяется сравнением внутригрупповых и межгрупповых дисперсий по F критерию Фишера.
Если расхождение незначительно, то принимается гипотеза Н0, в противном случае гипотеза Н0 отвергается.

Далее находят сумму квадратов отклонений от общего среднего:

Ноль потому, что стоит сумма от - сумма отклонений переменных одной совокупности от средней арифметической той же совокупности.

Слагаемое Q1 является суммой квадратов разностей между средними отдельных совокупностей и общей средней всех совокупностей. Эта сумма называется суммой квадратов отклонений между группами. Она характеризует систематическое отклонение между совокупностями наблюдений.
Величину Q1 – рассеяние по фактору.
Слагаемое Q2 – представляет собой сумма квадратов разностей между отдельными и средней соответствующей совокупности. Эта сумма называется суммой квадратов отклонений внутри группы.
Она характеризует остаточное рассеяние случайных погрешностей совокупностей.
Величина Q называется общей или полной суммой квадратов отклонений отдельных отклонений от общей средней.
Получим оценки дисперсий:
- дисперсия обусловленная влиянием фактора;
- остаточная дисперсия – влиянием случайных и других неучтённых факторов.
- полная дисперсия.
Далее формируем оценку различия между оценками
подчиняется распределению f2 Фишера.

Выбираем уровень значимости ?, или доверительной вероятности 1– ? = Р и по таблице F-распределения с числом степеней свободы: к1 = m–1; к2 = m(n–1) находим критическое значение Фишера.

Сравнивая между собой Fн и Fкр,? мы делаем вывод насколько сильно влияние интересующего нас фактора на исследуемую случайную величину.
В этом и состоит идея дисперсионного анализа.

Однофакторный дисперсионный анализ обычно представляют в виде таблицы.


Компоненты дисперсии
Оценки дисперсии
Число степеней свободы
Основной фактор
Межгрупповая дисперсия

<< Пред. стр.

стр. 3
(общее количество: 4)

ОГЛАВЛЕНИЕ

След. стр. >>