Меню
Бесплатно
Главная  /  Болезни  /  Чем ближе коэффициент детерминации к единице тем. Формула коэффициента детерминации, что измеряет

Чем ближе коэффициент детерминации к единице тем. Формула коэффициента детерминации, что измеряет

При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза Нo против альтернативной H1 которые заключаются в следующем:

Нo: существенного различия между выборочным коэффициентом детерминации и коэффициентом детерминации генеральной совокупности B(r) = 0 нет.

Эта гипотеза равносильна гипотезе Нo: β1 = β2 = … = βm = 0, т. е. ни одна из объясняющих переменных, включенных в регрессию, не оказывает существенного влияния на зависимую переменную.

Н1: выборочный коэффициент детерминации существенно больше коэффициента детерминации генеральной совокупности В(г) = 0.

Из постановки задачи ясно, что следует использовать одностороннюю критическую область. Принятие гипотезы Н1 означает, что по крайней мере одна из m объясняющих переменных, включенных в регрессию, оказывает существенное влияние на переменную у.

Для оценки значимости парного коэффициента детерминации используется статистика

Имеющая F-распределение Фишера с f1 = m = 1 и f2 = n – 2 степенями свободы. Значение статистики, вычисленное вышеприведенной формуле, сравнивается с критическим значением этой статистики при заданном уровне значимости £ и соответствующем числе степеней свободы. Если F > Ff1; f2;£, то вычисленный коэффициент детерминации значимо отличается от нуля. Этот вывод обеспечивается с вероятностью 1 - £.


28 Проверка значимости коэффициентов регрессии

Проверка статистической значимости параметров регрессионного уравнения (коэффициентов регрессии) выполняется по t -критерию Стьюдента, который рассчитывается по формуле:

где P - значение параметра;
S p - стандартное отклонение параметра.

Рассчитанное значение критерия Стьюдента сравнивают с его табличным значением при выбранной доверительной вероятности (как правило, 0.95) и числе степеней свободы N -k -1, где N -число точек, k -число переменных в регрессионном уравнении (например, для линейной моделиY=A*X+B подставляем k =1).

Если вычисленное значение t p выше, чем табличное, то коэффициент регрессии является значимым с данной доверительной вероятностью. В противном случае есть основания для исключения соответствующей переменной из регрессионной модели.

Величины параметров и их стандартные отклонения обычно рассчитываются в алгоритмах, реализующих метод наименьших квадратов.


29 Проверка общего качества уравнения регрессии. Коэффициент детерминации. Проверка значимости коэффициента детерминации

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R 2 , который рассчитывается по формуле:

В общем случае 0 < R 2 < 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R 2 .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R . Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y.

Коэффициент детерминации ()- это квадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

где - выборочные данные, а - соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть .

После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об общей значимости - гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

0: β 0 = β 1 = β 2 = ... = β m =0

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных X 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравне­ния регрессии невысоким.

Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий.

H 0: (объясненная дисперсия) = (остаточная дисперсия),

H 1: (объясненная дисперсия) > (остаточная дисперсия).

Строится F-статистика:

где - объясненная дисперсия; - остаточная дисперсия. При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы ν 1 =m, ν 2 = n-m-1. Поэтому, если при требуемом уровне значимости α F набл > F α,m,n-m-1 = F кр (критическая точка распределения Фишера), то H 0 отклоняется в пользу H 1 . Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y.

Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:

Для проверки данной гипотезы используется следующая F-статистика:

Величина F при выполнении предпосылок МНК и при справедливости. Но имеет распределение Фишера, аналогичное распределению F-статистики.

Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.


30. Путь, полный путь, критический путь, определение критического пути четырехсекторным методом.

Путь – любая последовательность работ, в которой конечное событие каждой работы совпадает с начальным событием следующий за ней работы.

Полный путь L – любой путь, начало которого совпадает с исходным событием сети, а конец – с завершающим.

Критич. путь - полный путь, имеющий наибольшую длину (продолжительность) из всех полных путей. Eгo длина опред. срок выполнения работ по сетевому графику. В rрафике может быть несколько критич. путей. Работы, лежащие на критич. пути, наз. критическими. Увеличение продолжительности критич. работ соответств. увеличивает общую продолжительность работ по СГ.

При четырехсекторном способе определения критического пути кружок сетевого графика, обозначающий событие, делится на четыре сектора (рис.а). В верхнем ставится номер события i, в левом – наиболее раннее из возможных время свершения события tp(i), в правом – наиболее позднее из допустимых время свершения события tп(i), в нижнем – резерв времени данного события R(i).

Рисунок: а) обозначения в вершине графика; б) сетевой график.

Раннее время свершения события tp(i) определяется продолжительностью максимального пути max(t) до (i), предшествующего событию i: tp(i)=max(t) до (i).

Послойно, переходя от исходного события до конечного, определим tp(i). Всегда для начального события tp(1)=0.

Для события 3 (рис., б) – tp(3)=max{1+3,0+5}=5; для события 4 – tp(4)=max{1+2,5+6}=11.

Длина критического пути Lкр=11. Послойно, переходя от конечного события до начального, определим tп(i). Всегда для конечного события tп(4)=t(Lкр)=11. Позднее время свершения события tп(i) определяется временем достаточным для выполнения работ, следующих за этим событием, т.е. зная продолжительность максимального из последующих за событием i путей max(t) после (i) и продолжительность критического пути t(Lкр), можно найти tп(i)= t(Lкр)-max(t) после (i).

Для события 2 – tп(3)=11-max{3+6,2}=2.

Для критического пути время раннего свершения события tp(i) равно времени позднего свершения этого события tп(i), т.е. tp(i)= tп(i). Зная ранние и поздние сроки свершения событий сетевого графика, легко выявить резерв времени каждого из них R(i)= tп(i)- tp(i).

Резерв времени события показывает максимально допустимое время, на которое можно отодвинуть момент его свершения, не вызывая увеличения критического пути. События критического пути резерва времени не имеют.

Связь параметров сетевого графика для событий и работ показана в таблице.

Таблица - Расчет параметров работ

Резерв времени для работы R(ij) определяется по формуле: R(ij)= tп(j)- tр(i)-tij.

31. Расчет временных параметров событий в задачах сетевого планирования.

При анализе сетевого графика прежде всего вычисляют его временные параметры. К основным временным параметрам относятся:

Продолжительность критического пути (критический срок);

Сроки свершения и резервы сетей;

Сроки выполнения отдельных работ и их резервы времени.

Основные временные параметры

Ранний срок свершения событий – самый ранний момент, в котором завершаются все работы предшествующие этому событию. Рассчитывается по формуле:

Где - ранний срок свершения события i.

Продолжительность работы i, j.

Подмножество, включающее все работы входящие в событие j.

Поздний срок свершения события – такой предельный момент, после которого остаётся столько времени, сколько необходимо для выполнения всех работ следующих за этим событием.

Рассчитывается по формуле: .

Резерв времени события показывает, на какой предельно допустимый срок может задержаться свершение событий i без нарушения сроков наступления завершающего события.

R(i)=

Резервы времени критических событий=0

Ранний срок начала работы совпадает с ранним сроком свершения событий i.

Ранний срок окончания работы определяется по формуле:

Поздний срок окончания работы совпадает с поздним сроком свершения события j.

Поздний срок начала работы определяется по формуле:

Полный резерв времени работы - это максимальный запас времени, на которое можно задержать начало работы или увеличить её продолжительность при условии, что весь комплекс работ будет завершён в критический срок.

Свободный резерв времени работы - это максимальный запас времени, на который можно отсрочить или увеличить её продолжительность при условии, что не нарушаться ранние сроки начала всех последующих работ.

Критические работы, как и критические события резервов не имеют.

Расчёт временных параметров сетевой модели проводят в 4 этапа:

1) прямой – вычисления начинаются с исходного события и продолжаются пока не будет достигнуто завершающее событие. Для каждого события вычисляется ранний срок его свершения.

2) обратный – вычисление начинается с обратного события и продолжается пока не будет достигнуто исходное событие. Для каждого события рассчитывается поздний срок его свершения.

3) вычисляются резервы времени событий и выделяется критический путь. Критический путь – это самый продолжительный путь, который проходит через события, резерв времени которых равен нулю.

4) строится сводная таблица временных параметров события.


32. Регрессии. Нелинейные по переменным и их построение.

Чтобы написать ту или иную зависимость прим. ур-ие регрессии – ур-ие, связыв. между собой фактор признаки и результативные признаки. Ур-ие регрессии бывают линейные и нелинейные. Сама регрессия бывает парная (зав-сть между 1-им фактор признаком и результатом) y = y(x) ; и множественная y = a + bx (парная линейная регрессия, т.к. х и у участвуют в 1-ой степени, а и b – параметры рег. имеющие эк. смысл).При иссл. соц.-экон. явл. и процессов далеко не все зависимости можно описать с помощью лин. связи. Т.О. в ЭММ широко использ. класс нелин. моделей регрессии, кот. делятся на 2 класса:1) модели регрессии, нелин. относительно включенных в анализ независ. переменных, но линейные по оцениваемым параметрам;2) модели регрессии, нелинейные по оцениваемым параметрам.Для оценки параметров нелинейных моделей используют два подхода. 1.основан на линеаризации модели (с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линей. соотношения между преобразованными переменными). 2.применяют в случаях, когда подобрать соответствующее линеаризующее преобразование не удается. Тогда исп. методы нелин. оптимизации на основе исходных переменных. Оценка параметров регрессии, нелинейной по переменным, включенным в анализ, но линейной по оцениваемым параметрам, проводится с помощью МНК путем решения системы линейных алгебр.уравнений. К моделям регрессии, нелинейным относительно включённых в анализ независимых переменных (но линейных по оцениваемым параметрам), относятся полиномы выше второго порядка и гиперболическая функция. Эти модели представляют собой что зависимая переменная yi линейно связана с параметрами модели.Полиномы или полин. функции примен. при анализе процессов с монотонным развитием и отсутствием пределов роста. (нап.натур.показатели пром. про-ва). Полин. функции характер. отсутствием явной зависимости приростов факторных переменных от значений результативной переменной yi.Общий вид полинома n-го порядка (n-ой степени): Чаще всего в ЭММ примен. полином второго порядка (параболическая функция), характ. равноускоренное развитие процесса (равноускоренный рост или снижение уровней).: Гиперболическая функция характеризует нелин. зависимость между результативной переменной yi и факторной переменной xi, однако, эта функция является лин.по оцениваемым параметрам.(модель зависимости затрат на единицу продукции от объёма производства)Гиперболоид или гиперболическая функция имеет вид: Данная гиперб. функция является равносторонней.Неизвестные параметры модели регрессии, нелинейной по факторным переменным, можно найти только после того, как модели будет приведена к линейному виду.Для того чтобы оценить неизвестные параметры нелин. регрессионной модели необходимо привести её к линейному виду. Суть процесс линеаризации нелин. по факторным переменным моделей регрессии заключается в замене нелин. факторных переменных на лин. переменные.Рассмотрим процесс линеаризации полиномиальной функции порядка n: Заменим все факторные переменные на линейные следующим образом:x=c1; x2=c2; x3=c3; … xn=cn.Тогда модель множественной регрессии можно записать в виде:yi= Рассмотрим процесс линеаризации гиперболической функции: Данная функция может быть приведена к линейному виду путём замены нелин.факторной переменной 1/x на лин.переменную с. Тогда модель регрессии можно записать в виде:yi=Следовательно, модели регрессии, нелин. относительно включенных в анализ независимых переменных, но лин. по оцениваемым параметрам, могут быть преобразованы к лин. виду. Это позволяет применять к линеаризованным моделям регрессии классические методы определения неизвестных параметров модели (метод наименьших квадратов), а также методы проверки различных гипотез.33. Резервы времени работ в задачах сетевого планирования Путь характеризуется двумя показателями - продолжительностью и резервом. Для событий рассчитывают три характеристики: ранний и поздний срок совершения события, а также его резерв.
Ранний срок свершения события определяется величиной наиболее длительного отрезка пути от исходного до рассматриваемого события, причем tр(1)=0, a tр(N)=tKp(L):
tр(j)=max{tр(j)+(i,j)}; j=2,…,N
Поздний срок свершения события характеризует самый поздний допустимый срок, к которому должно совершиться событие, не вызывая при этом срыва срока свершения конечного события:
tn(i)=min{tn(i)-t(i,j)}; j=2,…,N-1
Этот показатель определяется «обратным ходом», начиная с завершающего события, с учетом соотношения tn(N)=tp(N).
Все события, за исключением событий, принадлежащих критическому пути, имеют резерв R(i):
R(i)=tn(i)-tp(i)
Резерв определяется как разность между длинами критического и рассматриваемого путей. Из этого определения следует, что работы, лежащие на критическом пути, и сам критический путь имеют нулевой резерв времени. Резерв времени пути показывает, на сколько может увеличиться продолжительность работ, составляющих данный путь, без изменения продолжительности общего срока выполнения всех работ.Резерв показывает, на какой предельно допустимый срок можно задержать наступление этого события, не вызывая при этом увеличения срока выполнения всего комплекса работ. Для всех работ (i,j) на основе ранних и поздних сроков свершения всех событий можно определить показатели:
Ранний срок начала- tpn(i,j)=p(i) ;
Ранний срок окончания - tpo(i,j)=tp(i)+t(i,j);
Поздний срок окончания - tno(U)=tn(j);
Поздний срок начала -tпн(i,j)=tn(j)-t(i,j);
Полный резерв времени -Rn(i,j)=tn(j)-tp(i)-t(i,j);
Независимый резерв -
Rн(i,j)=max{0; tp(j)–tn(i)-t(i,j)}=max{0;Rn(i,j)-R(i)-R(j)}.
Полный резерв времени показывает, на сколько можно увеличить время выполнения конкретной работы при условии, что срок выполнения всего комплекса работ не изменится.
Независимый резерв времени соответствует случаю, когда все предшествующие работы заканчиваются в поздние сроки, а все последующие - начинаются в ранние сроки. Использование этого резерва не влияет на величину резервов времени других работ.

34. Сроки раннего и позднего начала и окончания работ в задачах сетевого планирования

Работа – это некоторый процесс, приводящий к достижению определенного результата и требующий затрат каких-либо ресурсов, имеет протяженность во времени.

Начало и окончание любой работы описываются парой событий, которые называются начальным и конечным событиями


Временные параметры работ определяются на основе ранних и поздних сроков событий:

· – ранний срок начала работы;

· – ранний срок окончания работы;

· – поздний срок окончания работы;

· – поздний срок начала работы;


35. Сроки совершения событий в задачах сетевого планирования

Событие – момент времени, когда завершаются одни работы и начинаются другие. Событие представляет собой результат проведенных работ и, в отличие от работ, не имеет протяженности во времени. Например, фундамент залит бетоном, комплектующие поставлены, отчеты сданы...

В сетевой модели имеется начальное событие (с номером 1), из которого работы только выходят, и конечное событие (с номером N), в которое работы только входят.

Путь – это последовательность работ в сетевом графике, в которой конечное событие одной работы совпадает с начальным событием следующей за ней работы. Полный путь – это путь от исходного до завершающего события. Критический путь –максимальный по продолжительности полный путь. Работы, лежащие на критическом пути, называют критическими. Критические работы имеют нулевые свободные и полные резервы. Подкритический путь – полный путь, ближайший по длительности к критическому пути. Сетевой график может содержать не один, а несколько критических путей. Критическими называются также работы и события, расположенные на этом пути. Резервный интервал от t до t* для событий, лежащих на критическом пути, равен 0. Для завершающего события сетевого графика поздний срок свершения события должен равняться его раннему сроку, т. е. tп = t*п.

– ранний срок наступления события i, минимально необходимый для выполнения всех работ, которые предшествуют событию i

– поздний срок наступления события i, превышение которого вызовет аналогичную задержку наступления завершающего события сети;

– резерв события i, т.е. время, на которое может быть отсрочено наступление события i без нарушения сроков завершения проекта в целом.

Ранние сроки свершения событий рассчитываются от исходного (И) к завершающему (З) событию следующим образом:

1) для исходного события И ;

2) для всех остальных событий I

Межотраслевые балансы могут разрабатываться на плановый и отчетный период в натуральном, натурально-стоимостном и стоимостном выражении.

МОБ в натуральном выражении (в физических измерителях) охватывают только важнейшие виды продукции. Натурально-стоимостной (баланс смешанного типа) охватывает весь общественный продукт. Стоимостной баланс характеризует процесс воспроизводства в денежном выражении.

МОБ представлен в виде системы линейных уравнений. МОБ представляет собой таблицу, в которой отражен процесс формирования и использования совокупного общественного продукта в отраслевом разрезе. Таблица показывает структуру затрат на производство каждого продукта и структуру его распределения в экономике. По столбцам отражается стоимостной состав валового выпуска отраслей экономики по элементам промежуточного потребления и добавленной стоимости. По строкам отражаются направления использования ресурсов каждой отрасли.

В. Леонтьев создал научно обоснованный метод "затраты-выпуск", который позволяет анализировать межотраслевые связи в национальном хозяйстве и определять возможные направления оптимизации отраслевой структуры.

В общем виде модель МОБ Леонтьева имеет следующий вид:

где X- объем производства какой-либо отрасли;Y - конечный продукт этой отрасли;А - матрица технологических коэффициентов прямых затрат, aij, которые показывают, сколько продукции отрасли необходимо затратить для производства единицы продукции отрасли.


37. Типы данных и виды переменных в эконометрических задачах

При эконометрическом моделировании экономических процессов используют следующие типы эмпирических (статистических) данных:

а) пространственные;

б) временные.

Пространственными данными является набор сведений по разным экономическим объектам, но за один и тот же период или момент времени. Примером таких данных явл сведения по разным фирмам (объем производства, численность работников, стоимость основных производственных фондов, прибыль за определенный период и т.д.).

Временными данными является набор сведений, характеризующих один и тот же объект, но в разные периоды или моменты времени. Примером таких данных явл данные о ежемесячных объемах грузооборота порта, о годовых объемах перевезенных грузов судоходной компанией, о среднегодовой себестоимости перевозки одной тонны груза по судоходной компании за ряд лет.

Переменные, участвующие в эконометрической модели, разделяются на следующие виды:

1) текущие экзогенные или независимые переменные (xt), значения которых задаются извне модели на данный момент времени t;

2) текущие эндогенные или зависимые переменные (yt), значения которых определяются внутри модели на данный момент времени t;

3) лаговые (экзогенные (xt-1, xt-2 и т.д.) или эндогенные переменные(yt-1, yt-2 и т.д.)), датированные предыдущими моментами времени и находящиеся в уравнении с текущими переменными;

4) предопределенные (объясняющие) переменные, к которым относятся текущие экзогенные переменные (xt), лаговые экзогенные переменные (xt-1, xt-2 и т.д.), а также лаговые эндогенные переменные (yt-1, yt-2 и т.д.)

Любая эконометрическая модель объясняет значения текущих эндогенных переменных в зависимости от предопределенных переменных.


Похожая информация.


В пунктах 3.3, 4.1рассмотрена постановка задачи оценивания уравнения линейной регрессии, показан способ ее решения. Однако оценка параметров конкретного уравнения является лишь отдельным этапом длительного и сложного процесса построения эконометрической модели.Первое же оцененное уравнение очень редко является удовлетворительным во всех отношениях. Обычно приходится постепенно подбирать формулу связи и состав объясняющих переменных, анализируя на каждом этапе качество оцененной зависимости. Этот анализ качества включает статистическую и содержательную составляющую. Проверка статистического качества оцененного уравнения состоит из следующих элементов:

проверка статистической значимости каждого коэффициента уравнения регрессии;

проверка общего качества уравнения регрессии;

проверка свойств данных, выполнение которых предполагалось

при оценивании уравнения.

Под содержательной составляющей анализа качества понимается рассмотрение экономического смысла оцененного уравнения регрессии: действительно ли значимыми оказались объясняющие факторы, важные с точки зрения теории; положительны или отрицательны коэффициенты, показывающие направление воздействия этих факторов; попали ли оценки коэффициентов регрессии в предполагаемые из теоретических соображений интервалы.

Методика проверки статистической значимости каждого отдельного коэффициента уравнения линейной регрессии была рассмотрена в предыдущей главе. Перейдем теперь к другим этапам проверки качества уравнения.

4.2.1. Проверка общего качества уравнения регрессии. Коэффициент детерминации r2

Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации R 2 . Для случая парной регрессии это квадрат коэффициента корреляции переменныхх иy . Коэффициент детерминации рассчитывается по формуле

Коэффициент детерминации характеризует долю вариации (разброса) зависимой переменной, объясненной с помощью данного уравнения. В качестве меры разброса зависимой переменной обычно используется ее дисперсия, а остаточная вариация может быть измерена как дисперсия отклонений вокруг линии регрессии. Если числитель и знаменатель вычитаемой из единицы дроби разделить на число наблюденийп, то получим, соответственно, выборочные оценки остаточной дисперсии и дисперсии зависимой переменнойу. Отношение остаточной и общей дисперсий представляет собой долю необъясненной дисперсии. Если же эту долю вычесть из единицы, то получим долю дисперсии зависимой переменной, объясненной с помощью регрессии. Иногда при расчете коэффициента детерминации для получе­ния несмещенных оценок дисперсии в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы; тогда

.

или, для парной регрессии, где число независимых переменных т равно 1,

В числителе дроби, которая вычитается из единицы, стоит сумма квадратов отклонений наблюдений у i от линии регрессии, в знаменателе - от среднего значения переменнойу. Таким образом,дробь эта мала (а коэффициент R 2 , очевидно, близок к единице), если разброс точек вокруг линии регрессии значительно меньше, чем вокруг среднего значения . МНК позволяет найти прямую, для ко­торой суммае i 2 минимальна, а
представляет собой одну из возможных линий, для которых выполняется условие. Поэтому величина в числителе вычитаемой из единицы дроби меньше, чем величина в ее знаменателе, - иначе выбиремой по МНК линией регрессии была бы прямая
. Таким образом, коэффициент детерминацииR 2 является мерой, позволяющей определить, в какой степени найденная регрессионная прямая дает лучший результат для объяснения поведения зависимой переменнойу, чем просто горизонтальная прямая
.

Смысл коэффициента детерминации может быть пояснен и немного иначе. Можно показать, что
, гдеk i =
- отклонениеi й точки на линии регрессии от. В данной формуле величина в левой части может интерпретироваться как мера общего разброса (вариации) переменнойу, первое слагаемое в правой части
- как мера разброса, объясненного с помощью регрессии, и второе слагаемое
- как мера остаточного, необъясненного разброса (разброса точек вокруг линии регрессии). Если разделить эту формулу на ее левую часть и перегруппировать члены, то

, то есть коэффициент детерминацииR 2 есть доля объясненной части разброса зависимой переменной (или доля объясненной дисперсии, если разделить числитель и знаменатель наn илип- 1). Часто коэффициент детерминацииR 2 иллюстрируют рис. 4.2

Рис. 4.2.

Здесь TSS (To tal Sum of Squares ) - общий разброс переменнойу, Е SS (Explained Sum of Squares ) - разброс, объясненный с помощью регрессии, USS (Unexplained Sum of Squares ) -разброс, необъясненный с помощью регрессии. Из рисунка видно, что с увеличением объясненной доли разброса коэффициентR 2 - приближается к единице. Кроме того, из рисунка видно, что с добавлением еще одной переменнойR 2 обычно увеличивается, однако если объясняющие переменныех 1 их 2 сильно коррелируют между собой, то они объясняют одну и ту же часть разброса переменнойу, и в этом случае трудно идентифицировать вклад каждой из переменных в объяснение поведенияу.

Если существует статистически значимая линейная связь величин х иу , то коэффициентR 2 близок к единице. Однако он может быть близким к единице просто в силу того, что обе эти величины имеют выраженный временной тренд, не связанный с их причинно-следственной взаимозависимостью. В экономике обычно объемные показатели (доход, потребление, инвестиции) имеют такой тренд, а темповые и относительные (производительности, темпы роста, доли, отношения) - не всегда. Поэтому при оценивании линейных регрессий по временным рядам объемных показателей (например, зависимости выпуска от затрат ресурсов или объема потребления от величины дохода) величинаR 2 обычно очень близка к единице. Это говорит о том, что зависимую переменную нельзя описать просто как равную своему среднему значению, но это и заранее очевидно, раз она имеет временной тренд.

Если имеются не временные ряды, а перекрестная выборка, то есть данные об однотипных объектах в один и тот же момент времени, то для оцененного по ним уравнения линейной регрессии величина R 2 не превышает обычно уровня 0,6-0,7. То же самое обычно имеет место и для регрессии по временным рядам, если они не имеют выраженного тренда. В макроэкономике примерами таких зависимостей являются связи относительных, удельных, темповых показателей: зависимость темпа инфляции от уровня безра­ботицы, нормы накопления от величины процентной ставки, темпа прироста выпуска от темпов прироста затрат ресурсов. Таким образом, при построении макроэкономических моделей, особенно - по временным рядам данных, нужно учитывать, являются входящие в них переменные объемными или относительными, имеют ли они временной тренд 1 .

Точную границу приемлемости показателя R 2 указать сразу для всех случаев невозможно. Нужно принимать во внимание и число степеней свободы уравнения, и наличие трендов переменных, и содержательную интерпретацию уравнения. ПоказательR 2 может оказаться даже отрицательным. Как правило, это случается в уравнении без свободного членау =
. Оценивание такого уравнения производится, как и в общем случае, по методу наименьших квадратов. Однако множество выбора при этом существенно сужается: рассматриваются не все возможные прямые или гиперплоскости, а только проходящие через начало координат. ВеличинаR 2 получится отрицательной в том случае, если разброс значений зависимой переменной вокруг прямой (гиперплоскости)
меньше, чем вокруг даже наилучшей прямой (гиперплоскости) из проходящих через начало координат. Отрицательная величинаR 2 в уравнении
говорит о целесообразности введения в него свободного члена. Эта ситуация проиллюстрирована на рис. 4.3.

Линия 1 на нем - график уравнения регрессии без свободного члена (он проходит через начало координат), линия 2 - со свободным членом (он равен а 0 ), линия 3 -
. Горизонтальная линия 3 дает гораздо меньшую сумму квадратов отклоненийе i , чем линия 1, и поэтому для последней коэффициент детерминацииR 2 будет отрицательным.

Рис. 4.3. Линии уравнений линейной регрессии у=f(х) без свободного члена (1) и со свободным членом (2)

Поправка на число степеней свободы всегда уменьшает значение R 2 , поскольку(п- 1)>(п-т- 1). В результате величинаR 2 также может стать отрицательной. Но это означает, что она была близкой к нулю до такой поправки, и объясненная с помощью уравнения регрессии доля дисперсии зависимой переменной очень мала.

Сoefficient of determination

Синонимы: Коэффициент смешанной корреляции

Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общейвариации SST:

где – уровень ряда,– смоделированное значение,– среднее по всем уровням ряда.

Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным.

Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно налинии регрессии , т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когдавходная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.

Коэффициент детерминации (R 2 )- это долядисперсии отклонений зависимой переменной от еёсреднего значения , объясняемая рассматриваемоймоделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связиR 2 является квадратомкоэффициента корреляции между зависимой переменной и объясняющими переменными.

Общая формула для вычисления коэффициента детерминации:

где y i - наблюдаемое значение зависимой переменной, аf i - значение зависимой переменной предсказанное по уравнению регрессии-среднее арифметическое зависимой переменной.

При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда ее задают в виде кусочно-постоянной функции (в этом случае коэффициент детерминации равен квадрату корреляционного отношения) либо оценивают неизвестные значения функции связи, используя методы сглаживания эмпирической зависимости (напримерметод скользящих средних ) .

Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы:

· – общая сумма квадратов отклонений зависимой переменной от средней (TSS );

· – сумма квадратов, обусловленная регрессией (RSS );

· – сумма квадратов, характеризующая влияние неучтенных факторов (ESS ).

Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство

Исходя из этого равенства, вводился коэффициент детерминации

. (6.22)

В силу определения R 2 принимает значения между 0 и 1, . Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные , тем теснее наблюдения примыкают к линии регрессии. Если R 2 =1, то эмпирические точки (x i ,y i) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость . Если R 2 =0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных . Величина R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной .

Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется , т.е. . В связи с этим может получиться, что или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R 2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии.

На практике обычно в качестве коэффициента детерминации принимается величина

Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки.

Замечание. Величину R 2 для нелинейных моделей иногда называют индексом детерминации , корень из данной величины R называют индексом корреляции.

Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z =1/x или z =lnx .



Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае линейный коэффициент корреляции по преобразованным значениям даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции.

Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений R yx и или R yx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии .

Коэффициент детерминации можно сравнивать с квадратом коэффициента корреляции для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина ( – ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным.

Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y , поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R 2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y , а в другом – объясненную регрессией долю дисперсии lnY . Если для одной модели коэффициент R 2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R 2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.

Более подробно проблемы спецификации рассматриваются в дополнении 3.

Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели . Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки.

Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2.

ПРИМЕРЫ

Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y , %) от среднемесячного дохода семьи (X , тыс. $ ):

X
Y 13,4 15,4 16,5 18,6 19,3

Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1:

Табл. 6.1.

x u= lnx y uy u 2 y 2 A
9,88 0,12 1,241 0,0154
0,693 13,4 9,29 0,48 179,56 13,43 -0,03 0,232 0,0010
1,099 15,4 16,92 1,21 237,16 15,51 -0,11 0,718 0,0122
1,386 16,5 22,87 1,92 272,25 16,99 -0,49 2,946 0,2363
1,609 18,6 29,94 2,59 345,96 18,13 0,47 2,524 0,2203
1,792 19,1 34,22 3,21 364,81 19,07 0,03 0,180 0,0012
Итого 6,579 113,24 9,41 1499,74 7,840 0,4864
Среднее значение 3,5 1,097 15,5 18,87 1,57 249,96 1,307

В соответствии с формулами (6.103) вычисляем

, .

В результате, получим уравнение полулогарифмической регрессии:

Подставляя в уравнение (6.24) фактические значения x i , получаем теоретические значения результата . Используя программу Excel ,

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,9958
R -квадрат 0,9916
Нормированный R -квадрат 0,9896
Стандартная ошибка 0,3487
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 57,75 57,75 474,93 0,000026
Остаток 0,49 0,12
Итого 58,24
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 9,8759 0,2947 33,51 0,0000047 9,0576 10,6942
Переменная lnX 5,1289 0,2353 21,79 0,0000262 4,4755 5,7823

Из этих данных видно, в частности, что все коэффициенты регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации

,

т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо.

Вычислим теперь средний коэффициент эластичности

Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% .

Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем

И .

Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y , т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные.

Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем

, .

Поскольку F набл >F крит , то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым. â

Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.

. Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t =1 для января 2000 г.), получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,846
R -квадрат 0,716
Нормированный R -квадрат 0,675
Стандартная ошибка 12,233
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 2640,07 2640,07 17,64 0,00403
Остаток 1047,58 149,65
Итого 3687,64
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 410,12 8,89 46,15 5,87E-10 389,11 431,14
Переменная X 1 -6,63 1,58 -4,20 4,03E-03 -10,37 -2,90

,



причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила: млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05):

.

Точность прогноза составила .

б) Линеаризуем модель, полагая v =1/y . Составляем расчётную таблицу.

Месяцы t y v= 1/y tv t 2 v 2
Январь 387,6 0,00258 0,0026 0,0000067 0,00247 0,0001134 0,00000001286
Февраль 399,9 0,00250 0,0050 0,0000063 0,00252 -0,0000145 0,00000000021
Март 404,0 0,00248 0,0074 0,0000061 0,00256 -0,0000885 0,00000000783
Апрель 383,1 0,00261 0,0104 0,0000068 0,00261 -0,0000020 0,00000000000
Май 376,9 0,00265 0,0133 0,0000070 0,00266 -0,0000076 0,00000000006
Июнь 377,7 0,00265 0,0159 0,0000070 0,00271 -0,0000618 0,00000000382
Июль 358,1 0,00279 0,0195 0,0000078 0,00276 0,0000345 0,00000000119
Август 371,9 0,00269 0,0215 0,0000072 0,00281 -0,0001177 0,00000001385
Сентябрь 333,4 0,00300 0,0270 0,0000090 0,00286 0,0001442 0,00000002081
Итого: 3392,6 0,02395 0,1227 0,0000639 0,02395 0,00000006063
Среднее 376,96 0,002661 0,0136 31,67 0,0000071

Вычисляем

В результате, получим уравнение обратной регрессии:

.

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,41557E-07 1,41557E-07 16,34 0,00492
Остаток 6,06323E-08 8,66176E-09
Итого 2,02189E-07
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 0,002418 6,76E-05 35,76 3,47E-09 0,00226 0,00258
Переменная lnX 0,0000486 1,20E-05 4,04 0,00492 2,02E-05 7,70E-05

R 2 =0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к обратным значениям 1/y

t y A
387,6 405,42 -17,821 317,58 113,30 810,26 4,60
399,9 397,59 2,309 5,33 526,45 425,83 0,58
404,0 390,06 13,942 194,37 731,40 171,68 3,45
383,1 382,81 0,294 0,09 37,75 34,22 0,08
376,9 375,82 1,082 1,17 0,00 1,29 0,29
377,7 369,08 8,620 74,30 0,55 62,02 2,28
358,1 362,58 -4,480 20,07 355,53 206,64 1,25
371,9 356,31 15,595 243,19 25,56 426,43 4,19
333,4 350,24 -16,844 283,71 1897,09 713,52 5,05
3392,6 2,696 1139,81 3687,64 2851,90 21,77
376,96 2,42

.

Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными .

Отсюда, в частности, следует, что равенство не выполняется. Действительно,

В связи с этим, для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство.

Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит:

Млн. руб.

Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05):

В результате, доверительный интервал для прогнозного значения будет иметь вид

Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v =1/y , а с y . Переходя к исходной переменной, получим следующий доверительный интервал

.

Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат.

в) Оценим МНК коэффициенты обратной модели

,

используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты.

Уравнение регрессии имеет вид

с коэффициентом детерминации R 2 =0,6947. Для сравнений приведем результаты вычислений.

Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами.

г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R 2 =0,716 для линейной модели и R 2 =0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель. â

Пример 6.3. Имеются данные о зависимости расхода топлива (Y , г /на т·км ) от мощности двигателя грузовых автомобилей общего назначения (X , л.с. ):

X
Y

а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии.

Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8378
R -квадрат 0,7019
Нормированный R -квадрат 0,6688
Стандартная ошибка 12,8383
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 3493,3 3493,3 21,19 0,001284
Остаток 1483,4 164,8
Итого 4976,7
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y-пересечение 103,866 9,993 10,39 0,0000 81,261 126,471
Переменная X -0,3388 0,0736 -4,60 0,0013 -0,5053 -0,1723

Таким образом, линейное уравнение регрессии будет иметь вид

,

причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные.

На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом:

4,248 4,477 19,022 18,050 20,047 4,4714 0,0059 0,00003 4,248 4,431 18,824 18,050 19,632 4,4714 -0,0406 0,00165 4,317 4,477 19,331 18,641 20,047 4,4119 0,0655 0,00429 4,443 4,331 19,240 19,737 18,755 4,3038 0,0270 0,00073 4,575 4,263 19,501 20,928 18,170 4,1897 0,0730 0,00533 4,745 3,951 18,748 22,514 15,612 4,0427 -0,0914 0,00836 4,787 3,951 18,917 22,920 15,612 4,0059 -0,0547 0,00299 5,011 3,829 19,184 25,106 14,658 3,8132 0,0154 0,00024 5,165 4,143 21,398 26,675 17,166

Используя программу Excel получим следующие данные (на уровне значимости a=0,05):

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,8233
R -квадрат 0,6778
Нормированный R -квадрат 0,6420
Стандартная ошибка 0,2653
Наблюдения
ДИСПЕРСИОННЫЙ АНАЛИЗ
df SS MS F Значимость F
Регрессия 1,3327 1,3327 18,93 0,001847
Остаток 0,6336 0,0704
Итого 1,9663
Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%
Y -пересечение 8,141 0,946 8,609 0,0000123 6,002 10,280
Переменная lnX -0,864 0,198 -4,351 0,0018473 -1,313 -0,415

Качество линеаризованного уравнения довольно высокое (R 2 =0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y , а к их логарифмам lny , а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.

45,295 -0,705 0,50 89,39 261,13 1,56 39,649 -23,351 545,29 89,39 475,50 58,90 38,696 17,696 313,13 1636,57 517,97 45,73 30,182 -4,818 23,21 699,84 977,95 15,96 -12,909 988,03 5038,18 4267,39 157,85 125,18 61,45 14,35

Из таблицы видно, что для данной модели

.

Следовательно, оценки исходной нелинейной модели будут смещёнными.

Для коэффициента детерминации можно получить два разных значения:

, или .

Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий .

Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x =70 л.с. расход топлива на 1 т-км составит

Вариация признака определяется различными факторами, часть этих факторов можно выделить, если статистическую совокупность разделить на группы по определенному признаку. Тогда, наряду с изучением вариации признака по совокупности в целом, можно изучить вариацию для каждой из составляющих ее группы и между этими группами. В простом случае, когда совокупность разделена на группы по одному фактору, изучение вариации достигается посредством вычисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Эмпирический коэффициент детерминации

Эмпирический коэффициент детерминации широко применяется в статистическом анализе и является показателем, представляющим долю межгруппопой дисперсии в результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Показывает долю вариации результативного признака у под влиянием факторного признака х, он связан с коэффициентом корреляции квадратичной зависимостью. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи - единице.

Например, когда изучается зависимость производительности труда рабочих от их квалификации коэффициент детерминации равен 0,7, то на 70% вариация производительности труда рабочих обусловлена различиями в их квалификации и на 30% - влиянием прочих факторов.

Эмпирическое корреляционное отношение - это квадратный корень из коэффициента детерминации. Отношение показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение принимает значения от -1 до 1. Если связи нет, то корреляционное отношение равняется нулю, т.е. все групповые средние равняются между собой и межгрупповой вариации нет. Значит, группировочный признак не влияет на образование общей вариации.

Если связь функциональная, то корреляционное отношение равняется единице. В таком случае дисперсия групповых средних равна общей дисперсии, т.е. внутригрупповой вариации нет. Это значит, что группировочный признак полностью определяет вариацию результативного признака.

Чем ближе значение корреляционного отношения к единице, тем сильнее и ближе к функциональной зависимости связь между признаками. Для качественной оценки силы связи на основе показателя эмпирического коэффициента корреляции можно использовать соотношение Чэддока.

Соотношение Чэддока

  • Связь весьма тесная — коэффициент корреляции находится в интервале 0,9 — 0,99
  • Связь тесная — Rxy = 0,7 — 0,9
  • Связь заметная — Rxy = 0,5 — 0,7
  • Связь умеренная — Rxy = 0,3 — 0,5
  • Связь слабая — Rxy = 0,1 — 0,3