<< Пред. стр.

стр. 4
(общее количество: 4)

ОГЛАВЛЕНИЕ

m - 1
Случайные, неучтенные факторы
Внутригрупповая дисперсия

m(n - 1)

Общая дисперсия

mn - 1


Основы регрессионного и корреляционного анализа.


Связи между различными явлениями в природе сложны и многообразны. В технике чаще всего речь идет о функциональной зависимости. В большинстве случаев интересующие нас явления протекают в условиях воздействия на них множества неконтролируемых факторов. Воздействие каждого из этих факторов в целом невелико, при этом связь теряет строгую функциональность и система переходит не в строго определенное состояние, а в одно из множества возможных. Речь идет о стохастической связи.
Под стохастической мы понимаем такую связь, когда одна случайная переменная реагирует на изменения другой случайной переменной изменением своего закона распределения.
Наиболее широко в технике используется частный случай стохастической связи, называемый статистической связью, при которой условное МО некоторой случайной величины Y является функцией от значения, которое принимает другая случайная величина X:

Как правило исследуются такие виды статистической связи, при которых значение некоторой случайной переменной зависит в среднем от значений, принимаемых другой случайной переменной:

Такое представление зависимости между переменными X и Y называется полем корреляции. Можно также построить таблицу корреляции.
Проделывая операцию усреднения для всех тех значений Х, по которым есть экспериментальный материал, приходим к тому, что облако исчезает и получается набор точек, представляющих средние значения. Соединяя эти точки, получаем ломанную, называемую эмпирической линией регрессии.
Связь между СВ характеризуется формой и теснотой связи.

Определение фориы связи и понятие регрессии.
Определить форму связи между СВ – значит выявить механизм получения зависимой случайной величины. При изучении статистических связей, форму связей характеризует функция регрессии:
- зависимость условного МО
Если св Х и Y зависимы, то МО их произведения:

Регрессия св Y относительно Х определяется как:
,
где - условная плотность вероятности по формуле Байеса:

- регрессия Х по Y.
Функция регрессии имеет важное практическое значение. Она может быть использована для прогноза значений, которые может принимать известная случайная величина при ставших известными значениях другой случайной величины.
Точность прогноза определяется дисперсией условного распределения:

учитывая:

Несмотря на важность функции регрессии, возможности ее практического использования ограничены, т.к. для ее вычисления необходимо знать аналитический вид двумерной функции {x,y}. Мы же, как правило, имеем выборку ограниченного объема.
Традиционный путь приводи к большим ошибкам, т.к. одну и ту же совокупность точек на плоскости можно описать с помощью различных функций.
Другой характеристикой формы связи, используемой на практике, стала кривая регрессии – зависимость условного среднего случайной величины от значения, которое принимает случайная величина Х: .
Определение кривой регрессии инвариантно закона совместного распределения св Х и Y. Важное значение в практике имеет двумерный нормальный закон распределения. Особенностью этого распределения является то, что условные МО совпадают с условными средними. При этом функция регрессии совпадает с кривой регрессии.
Линейная регрессия (ЛР). Метод наименьших квадратов.
Линейная регрессия занимает в технике и теории корреляции особое место. Она обусловлена двумерным нормальным законом распределения СВ Х и Y:
, где
а0 и а1 – коэффициенты регрессии,
х – независимая случайная величина
Параметры уравнения регрессии определяются методом наименьших квадратов, предложенным Лагранжем и Гауссом, который сводится к следующему.
Строятся квадратичные формы:

xi – измеренное значение переменной,
e - истинное или теоретическое значение этой величины.
Требуется, чтобы сумма квадратов отклонений измеренных значений относительно истинных была минимальна.
В случае линейной регрессии за теоретическое значение принимается значение , т.е. ищется такая прямая линия с коэффициентами а0 и а1, чтобы сумма квадратов отклонений от этой линии была минимальна.
,
уi – измеренное значение переменной Y.
Минимальные квадратичные формы получают, приравнивая к нулю ее производные по а0 и а1:


Нелинейная регрессия (НР).
Форма связи между условными средними определяется уравнениями регрессии. В зависимости от вида уравнений можно говорить о ЛР или НР.
В общем случае эта зависимость может быть представлена в виде полинома степени k:

Определение коэффициентов регресии производится по методу наименьших квадратов:




В результате получаем систему нормированных уравнений:

Решая полученную систему известным способом, находим коэффициенты регрессии.
Измерение тесноты связи.
Если бы величина Y полностью определялась аргументом Х, все точки лежали бы на линии регрессии. Чем сильнее влияние прочих факторов, тем дальше отстоят точки от линии регрессии. В случае в) связь между Х и Y является более тесной.

За основу показателя, характеризующего тесноту связи, берется общий показатель изменчивости дисперсии:


(*)
- дисперсия переменной Y относительно теоретической линии дисперсии, определяющей влияние прочих факторов на величину Y.
- условная дисперсия, характеризует дисперсию теоретической линии регрессии относительно условной генеральной средней my. Именно она определяет влияние данного фактора (Х) на величину Y и может быть использована для оценки тесноты связи между величинами Х и Y.
- теоретическое корреляционное отношение.
Изменяется от 0 до 1, что легко доказать, поделив (*) на sу2:

Если =1, то
Влияние прочих факторов отсутствует. Все распределение будет сконцентрировано на линии регрессии. В этом случае между Х и Y существует простая функциональная зависимость.
Если =0, когда .
В этом случае линия регрессии Y по Х будет горизонтальной прямой, проходящей через центр распределения.
В случае, когда вид зависимости (форма связи) случайных величин Х и Y не установлен, часто бывает необходимо убедиться в наличии какой-либо связи вообще. Может оказаться, что связь несущественна и вычисление коэффициентов регрессии неоправданно.
Для объяснения такого вопроса вычисляется эмпирическое корреляционное отношение, определяемое на основе выборочных данных. При выводе формул для ЭКО пользуются эмпирической линией регрессии и оценкой дисперсии по выборке.
Определение эмпирического корреляционного соотношения.

y – измеряемое значение зависимой переменной
n – общее количество измерений
- условное среднее (среднее значение зависимой переменной у в i-ом интервале св Х)
k – общее количество интервалов
- среднее всей совокупности измерений
В пределах каждого интервала, для всех тех значений Х, для которых есть экспериментальные результаты (значения Y), находим средние значения.
Sy(x)2 – составляющая полной дисперсии, характеризует дисперсию результатов измерений относительно эмпирической линии регрессии, т.е. влияние прочих факторов на зависимую переменную Y.
dy(x)2 – характеризует дисперсию эмпирической линии регрессии относительно среднего всей совокупности, т.е. влияние исследуемого фактора на зависимую переменную Y.
- Эмпирическое корреляционное соотношение
Из сравнения с формулой для теоретического корреляционного соотношения видно: при расчете теоретического корреляционного соотношения необходимо знать форму связи между переменными.
При вычислении эмпирического корреляционного соотношения никакие предположения о форме связи не используются, нужна только эмпирическая линия регрессии.
Свойства:
0 ? ? 1
если =1, все точки корреляционного поля лежат на линии регрессии – функциональная связь между Х и Y.
Если =0 (когда ), отсутствует изменчивость условных средних , эмпирическая линия регрессии проходит параллельно оси абсцисс – свзи между Х и Y нет.
Эмпирическое корреляционное соотношение завышает тесноту связи между переменными и случайными величинами, причем тем сильнее, чем меньше число измерений, поэтому рекомендуется использовать для предварительной оценки тесноты связи, а для окончательной оценки – теоретическое корреляционное соотношение.
Коэфициент корреляции.
Рассмотрим случай вычисления теоретического корреляционного соотношения , когда связь между случайными величинами Х и Y является линейной.

Такая форма связи между Х и Y имеет место в случае, когда случайные величины подчиняются двуменому нормальному закону распределения.

Подставив вместо Y и их значения для случая линейной зависимости:
=
(х)=а0 + а1х
=
Заменим а1 ее значением, полученным из решения нормальных уравнений:


Коэфициент корреляции является частным случаем теоретического корреляционного соотношения , когда связь между СВ является линейной. В этом случае r является показателем тесноты связи.
- выборочный корреляционный момент

Выборочный коэфициент корреляции обладает свойствами:
r=0, если св Х и Y независимы
- Для любых св Х и Y
- Для случая линейной зависимости св Х и Y.
Коэфициент корреляции используется для оценки тесноты связи и в случае нелинейной зависимости между случайными величинами.
Если предварительный графический анализ поля корреляции указывает на какую либо тесноту связи, полезно вычислить коэфициент корреляции.
Если модуль коэфициента корреляции , то независимо от вида связи можно считать, что она достаточно тесна, чтобы исследоват ее форму.
Двумерное нормальное распределение.
Его возникновение объясняется центральной предельной теоремой Ляпунова:

r – коэффициент корреляции. Х и У по отдельности распределены нормально (mx,sx) и (my,sy).
В частном случае независимых СВ Х и У r=0:

Исходные плотности одномерных нормальных распределений Х и У:

Условное распределение – нормальное с условиями:
и .
Первое условие является уравнением функции регрессии.
и .
Нормальная регрессия прямолинейна. Точность оценки у/х одинакова для всех х. В качестве меры тесноты связи используется коэффициент корреляции, а форму связи при этом характеризует коэффициент регрессии.
Z=fxy(x,y) – трехмерная поверхность, сечения которой плоскостями XZ и YZ представляют собой графики плотности одномерных распределений.
Коэффициент множественной корреляции

D* – это D с добавочными верхней строкой и правым столбцом, состоящих из свободных членов уравнений.
Пример: Вычислить КМК:

Коэффициент корреляции рангов (объединенные ранги)
Анализ информации неподдающейся количественной оценке.
На экзаменах разные экзаменаторы ставят одним и тем же студентам разные оценки. Чтобы исключить элемент субъективизма, всех учащихся располагают в соответствии со степенью их способностей и ранжируют. Корреляция между рангами значительно точнее отражает взаимосвязь.
Есть n учащихся и ранги по некоторому фактору А: X1…Xn и по фактору B: Y1…Yn.
Xi, Yi – перестановки n первых натуральных чисел.
Xk-Yk=dk – мера тесноты связи A и B. Если все dk=0, то A и B полностью соответствуют.

Последнее выражение – коэффициент корреляции рангов Спирмена.
Существуют и другие показатели тесноты связи:
ККР Кендела: удобен для углубленных исследований, когда невозможно установит ранговые различия. Строятся объединенные усредненные ранги и

ti – число объединенных рангов.
Метод ранговой корреляции
Позволяет анализировать множество факторов и выделять доминирующие.
Для построения математической модели процесса необходимо выделить из множества факторов доминирующие. На первом этапе это делается с помощью экспертных оценок: максимальному кругу специалистов предлагается расположить факторы в порядке убывания степени влияния. При этом предлагается максимально полный список факторов, хотя каждый может включать в этот список дополнительные факторы.
Результат – матрица рангов, которая строится с учетом квалификации опрашиваемого: показания специалистов умножаются на коэффициент квалификации. Чем меньше сумма рангов фактора, тем более важное место он занимает, тем большее влияние он оказывает на выходной параметр.
Если распределение на диаграмме близко к равномерному, то все факторы должны учитываться. Обычно отмечается, что опрос не дал желаемого результата.
Если не равномерно, но изменение рангов не велико, значит специалисты делают различия между факторами, но неуверенно. Таким образом, надо учитывать все факторы.
Наиболее благоприятен случай быстрого экспоненциального спада суммы рангов. Малозначащие факторы отсеиваются. Для оценки степени согласованности мнений специалистов вычисляется коэффициент конкордации:

m – число специалистов
n – число факторов.
Чем больше W, тем больше степень согласованности. Если W=0, то согласованность отсутствует. При W=1 – полная согласованность.

Планирование эксперимента
Классический регрессионный и корреляционный анализ базируются на пассивном эксперименте, который сводится к сбору и обработке данных, полученных в результате наблюдения за процессом или явлением.
Привлекательность пассивного эксперимента в том, что он избавляет от необходимости тратить время и средства на постановку опытов. Полученные результаты в виде уравнения регрессии можно затем использовать для управления процессом. Однако пассивный эксперимент имеет ряд недостатков:
1. При сборе экспериментальных данных на реальном действующем промышленном объекте во избежание появления брака возможны лишь незначительные изменения параметров процесса. При этом интервалы варьирования параметров оказываются столь малыми, что изменение выходной величины будет в значительной степени обусловлено воздействием случайных факторов.
2. Часто упускают из вида важные факторы из-за невозможности их измерения или регистрации.
3. При пассивном эксперименте нельзя произвольно варьировать параметры. В результате этого экспериментальные точки часто располагаются неудачно и при большом количестве опытов затрудняют точное описание процесса.
Активный эксперимент
Ставится по плану. Достоинства:
1. Появляется четкая логическая схема всего исследования.
2. Повышается эффективность исследования. Оказывается возможным извлечь максимальное количество информации.
3. Обработка результатов эксперимента осуществляется стандартными приемами.
4. Планирование эксперимента позволяет обеспечить случайный порядок проведения опытов (рандомизация).
Отпадает необходимость в жесткой стабилизации мешающих факторов.
Активный эксперимент эффективен в лабораторной практике, а пассивный – в производстве.
С помощью методов планирования эксперимента можно получить математическую модель изучаемого процесса в аналитическом виде при отсутствии сведений о механизме процесса.
Математическая модель процесса задается полиномом:

Чаще всего используется линейная модель:

План эксперимента определяет расположение точек в к-мерном факторном пространстве.
Матрица планирования: каждая строчка – условие проведения опыта, а столбец – значения переменной в различных опытах.
При выборе линейной модели достаточно варьировать каждый фактор на двух уровнях. Если при этом осуществляются все возможные комбинации из k факторов, то реализация эксперимента по такому плану называется полным факторным экспериментом типа 2k (ПФЭ 2k).
Построение математической модели методом ПФЭ проводится в следующем порядке:
1. Планирование эксперимента
2. Проведение эксперимента
3. Проверка воспроизводимости
4. Построение математической модели с проверкой статистической значимости всех коэффициентов
5. Проверка адекватности математической модели.
Центр плана (точка, вокруг которой ставится серия опытов) выбирается на основании априорных сведений о процессе.
Если эти сведения отсутствуют, то в качестве центра плана выбирается центр исследуемой области.


<< Пред. стр.

стр. 4
(общее количество: 4)

ОГЛАВЛЕНИЕ