Статистическая значимость логит и пробит-моделей и факторов этих моделей. Статистическая значимость параметров регрессии и корреляции

Расчет параметров и построение регрессионных моделей

Корреляционный анализ

Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: (1) связи зависимой переменной с независимыми, (2) связи между самими независимыми.

Рассмотрение матрицы позволяет, во первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них.

Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х 1 , Х 2 ,.... Х n

Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

Y = a 0 + b 1 Х 1 + b 2 Х 2 + ... +b n X n

ЭВМ вычисляет параметры модели: свободный член а 0 (константа, или пересечение) и коэффициенты b п (коэффициенты регрессии). Величину у называют откликом, а Х 1 , Х 2 , .. ., Х п - факторами или предикторами.

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

Статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.



На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии.

R Squared (R 2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

R 2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R 2 >= 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R 2 , к давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R 2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R 2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R 2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

Средствами регрессионного анализа, в т.ч. Excel, вычисляется F-критерий значимости регрессиидля уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fк, (F критический, табличный) (см. приложение А). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp окажется меньше критического значения Fк, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.

Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно.

Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.

Задание . По территориям региона приводятся данные за 199Х г.;
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора .
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 0.92, a = 76.98
Уравнение регрессии:
y = 0.92 x + 76.98

1. Параметры уравнения регрессии.
Выборочные средние.



Выборочные дисперсии:


Среднеквадратическое отклонение


Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между среднедневной заработной платы и среднедушевым прожиточным минимумом высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 0.92 x + 76.98
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 0.92 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 руб. среднедушевого прожиточного минимума в день среднедневная заработная плата повышается в среднем на 0.92.
Коэффициент a = 76.98 формально показывает прогнозируемый уровень Среднедневная заработная плата, но только в том случае, если х=0 находится близко с выборочными значениями.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между среднедневной заработной платы и среднедушевого прожиточного минимума в день определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:


Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами - влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.


Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.72 2 = 0.5199
т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим t крит:
t крит = (10;0.05) = 1.812
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим.
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:


S 2 y = 157.4922 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

12.5496 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.


S b - стандартное отклонение случайной величины b.


2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bx p ± ε)
где

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (10;0.05) = 1.812


Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).


Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:


где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Cтраница 1


Значимость модели для решения конкретных исследовательских задач заключается в том, что она позволяет дать количественную оценку скрытых параметров, отражающих динамику двухпродуктовых систем. При решении таких задач понятия внутреннего (продукта I рода) и внешнего (продукта II рода) могут меняться. Так, в построенной В. М. Глушковым с сотрудниками (1979) модели биосинтеза белка роль продуктов I и II рода играют регуляторные и структурные белки, в модели иммунного ответа - соответственно стволовые клетки и лимфоциты, в модели регуляции сердечных сокращений - вещества, которые доставляются миокардиоцитам соответственно через коронарные сосуды и через аорту.  

Оценка значимости модели дается через / - критерий и / J2 для каждого уравнения в отдельности.  

Предположение о значимости модели основывается на двух положениях.  

Все это не умаляет значимости модели. Естественно, без йот немыслимо сущостжшание музыки.  

Наконец, максимальному ограничению значимости договорной модели как таковой способствовало то, что почти все действовавшие в этой области нормы носили абсолютно обязательный (императивный) характер.  

Применение дисперсионного анализа в дополнение к регрессионному позволяет оценить не только значимость модели в целом, но и значимость частных зависимостей.  

Из приведенных данных также следует, что при разбуривании более твердых пород значимости модели выше. Доказательство значимости полученной модели подтверждает гипотезу о нелинейной зависимости рассматриваемых параметров.  

Несмотря на успехи в развитии теории принятия решений она еще долго, по-видимому, будет находиться на промежуточном месте между искусством - умением принимать решения, присущим данному носителю решений, - и наукой как системой принципов, общих положений, процедур и методов. Однако это не снижает актуальности книги: число систем человек - ЭВМ будет увеличиваться, значение принятий решений в сложных ситуациях будет расти, и человек будет все более затрудняться решать соответствующие задачи старыми (точными и вероятностными) методами. Поэтому значимость моделей, использующих формализованные неопределенности на основе идей, отличных от математики случая, может только увеличиваться.  

При индуктивном подходе, характерном для процесса моделирования в рамках анализа хозяйственной деятельности, модель получается путем обобщения наблюдений по единичным частным фактам, учет которых считается важным для принятия решений. Индуктивным путем разрабатываются модели для решения конкретных проблем управления экономикой. Модели включают в себя учет специфических исторически сформированных свойств моделируемого процесса. Основной проблемой составления индуктивных моделей является выбор из совокупности единичных наблюдений тех, которые определяют сущность принимаемого решения, и представление их структуры и связей в формализованном виде. Значимость индуктивных моделей состоит в том, что путем упрощенного описания взаимосвязей информация, содержащаяся в большой совокупности наблюдений, будет представлена в наглядном и сжатом виде. Качество индуктивных моделей не определяется точностью копирования комплексной реальности путем символических систем, а зависит от того, насколько удается, с одной стороны, так упростить модель, чтобы добиться решения проблемы с приемлемыми затратами, но, с другой стороны, отразить основные свойства реальности.  

Если такого рода трудовые соглашения фиксируют уровень заработной платы, то когда ее рыночный уровень отклоняется от уровня, ожидаемого работниками и работодателями при подписании контракта, тогда и для работников, и для работодателей было бы оптимальным изменить установленную номинальную заработную плату. Следовательно, при том, что условия на рынке труда постоянно изменяются, было бы логичным предположить, что с течением времени подобные трудовые соглашения перестанут существовать. Работники и работодатели придут к тому, что номинальную заработную плату нужно менять каждый день, что приведет к эластичной изменчивости номинальной заработной платы в соответствии с динамикой спроса и предложения на рынке труда. На самом деле подтверждением верности подобной критики служит резкое сокращение деятельности профсоюзов в отраслях США в конце 1970 - х - 1980 - е годы. Конечно же, работники, не состоящие в профсоюзах, часто имеют официальные или неофициальные трудовые соглашения с работодателями, но некоторые экономисты считают, что подобное снижение доли состоящих в профсоюзах является подтверждением снижения значимости модели коллективных договоров для экономики США.  

Построенных на основе уравнений регрессии , начинается с проверки значимости каждого коэффициента регрессии с помощью Г-критерия Стьюдента  

Можно показать, что для парной линейной модели оба способа проверки значимости с использованием F- и /-критериев равносильны, ибо эти критерии связаны соотношением F = /2.  

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии , которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии . Этой цели, как уже указывалось, служит и применение обобщенного метода наименьших квадратов , к рассмотрению которого мы и переходим в п. 3.11.  

Предложенные методы информационного моделирования технологических цепей и операций, реализованные в соответствующих методиках, не отличаются по форме от корреляционно-регрессионного анализа . Расчет и обоснование моделей проходят по классической схеме решение систем уравнений, оценка значимости коэффициентов, проверка идентичности модели. Типичными являются и задачи, решаемые с помощью моделей оценка взаимосвязей между параметрами ТП, выявление параметров, обладающих наибольшей нормативностью или влиятельностью на другие параметры, возможность расчета межоперационных допусков. Однако с позиций управления технологическими процессами информационные модели более просты, лаконичны и, следовательно, более приемлемы для целей управления.  

Нам необходимо решить, будет ли проверка значимости "односторонней" или "двусторонней". Это решение должно быть принято еще до того, как станут известны результаты рефессии. Выбор определяется теоретическим обоснованием модели связи X и Y, проверяемой с помощью рефессии.  

Проверка значимости скорректированного Л2 - это также проверка значимости связи между зависимой переменной Y и любой из независимых переменных X,-. Действительно, если регрессионная модель имеет высокую степень предоставления объяснения формирования взаимосвязи, изменение зависимой переменной происходит из-за изменений независимых переменных , и суммы квадратов отклонений , объясняемые регрессией (СКР) будут относительно больше остаточной суммы квадратов отклонений (СКО). Если же модель имеет низкую степень предоставления объяснения, изменение зависимой переменной происходит из-за изменения значения ошибки, и СКО будет относительно больше СКР.  

Для проверки значимости (пригодности) полученного уравнения регрессии применяют специальные приемы. Такую проверку называют проверкой адекватности модели.  

Объяснить природу и методы двумерного регрессионного анализа и описать модель, процедуры оценки параметров , нормирование коэффициента регрессии , проверки значимости, процедуру определения точности прогноза, анализ остатков и перекрестную проверку модели.  

Hi) В попытке устранить до некоторой степени недостатки, описанные в пунктах (i) и (it), мы можем разработать модель прогнозирования исходя из усеченного набора имеющихся исторических данных. Например, если у нас есть показатели объема продаж за период с 1990 по 1997 гг., мы можем выработать модель на основе значений только за 1990-1996 гг. Остальные показатели, т. е. показатели за 1997 г., можно использовать для сравнения с прогнозными показателями, полученными с помощью этой модели. Такого рода проверка более реалистична, так как она фактически моделирует прогнозную ситуацию. Недостаток этого метода состоит в том, что самые последние, а следовательно, и наиболее значимые показатели исключены из процесса формирования исходной модели.  

Можно продолжить этот перечень, мы только привели некоторые из возможных факторов. После анализа и проверки существенности всех факторов отбираются наиболее значимые, которые и должны войти в состав многофакторной корреляционной экономико-математической модели определения потребности в машинах напольного безрельсового электротранспорта. Применение такого метода расчета представляется в данном случае наиболее целесообразным. При долгосрочном прогнозировании следует также учитывать факторы научно-технического прогресса , методика определения и учета которых широко изложена в .  

Проверка выдвинутых гипотез дала значительное количество интересных и противоречивых результатов, которые часто указывали на наличие связей, обратных предсказанным. Регрессионная модель показывает все связи, которые проявили себя как достаточно значимые по отношению к основной зависимой переменной , т.е. использованию методов активного трансфера технологий.  

Самое важное решение, которое должен принять аналитик, - это выбор совокупности переменных для описания моделируемого процесса. Чтобы представить себе возможные связи между разными переменными, нужно хорошо понимать существо задачи. В этой связи очень полезно будет побеседовать с опытным специалистом в данной предметной области . Относительно выбранных вами переменных нужно понимать, значимы ли они сами по себе, или же в них всего лишь отражаются другие, действительно, существенные переменные . Проверка на значимость включает в себя кросс-корреляционный анализ . С его помощью можно, например, выявить временную связь типа запаздывания (лаг) между двумя рядами. То, насколько явление может быть описано линейной моделью , проверяется с помощью регрессии по методу наименьших квадратов (OLS). Полученная после оптимизации невязка R может принимать значения от 0 (полное несоответствие) до 1 (точное соответствие). Часто бывает так, что для линейных систем OLS-метод дает такие результа-  

В целом, можно сказать, что предварительная обработка через формирование совокупности переменных и проверку их значимости существенно улучшает качество модели . Если никаких теоретических методов проверки в распоряжении нет, переменные можно выбирать методом проб и ошибок, или с помощью формальных методов типа генетических алгоритмов , .  

Другим известным приемом является вычеркивание связей в чрезмерно связанном графе с целью изучения поведения системы и ее элементов в новых условиях. Устойчивость системы может означать верность гипотезы. Решение об уничтожении той или иной связи модели может быть принято или на основании критерия статистической значимости, или на основании произвольно установленного порогового критерия величины коэффициента причинного влияния. Проверкой правильности гипотез и корректности модели должно служить ее подтверждение при испытаниях на контрольных данных.  

Как показывает рис. 6.3, в случае вероятностных моделей расчет коэффициентов регрессии с использованием выражений (6.7) и (6.8) дает одну оценку величины Y, т.е. E(Yt). Оценки коэффициентов регрессии также предположительно нормально распределены. Нам нужно знать, статистическую значимость этих коэффициентов. Данная задача решается проверкой того, что коэффициенты регрессии значимо отличаются от нуля.  

Из анализа Калдора в его статье Модель экономического роста кажется очевидным, что он (в первом приближении) трактует sw и Sp как константы в течение длительных промежутков времени. Конечно, возможно, что теория Калдора могла бы быть эмпирически значимой, даже когда sp и s изменяются часто. В этом случае проверка теории будет заключаться в наблюдении за динамикой ковариации sp/sw и I/Y. Однако у нас нет наблюдений за sp и sw в различные моменты времени, и поэтому, если теория проверяется на временных рядах , необходимо допускать постоянство sw и sp. Конечно, возможно также, что когда соответствующие данные станут доступными, эта теория сможет быть полезной в объяснении международных или межрегиональных изменений в относительных долях, независимо от временных колебаний sp и s ,.  

Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы , получаемые при стандартных проверках качества оценок , могут быть ошибочными и приводить к неверным заключениям по построенной модели . Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющимися.  

В целом, говоря о разделении временного интервала на части, отметим, что оно необходимо в тех случаях, когда значения параметров а, менялись во времени (что нарушало предпосылку модели линейной регрессии об их неизменности). Если изменялись они более или менее скачкообразно, то, разделяя временной интервал моментами таких "скачков", можно разбить его на несколько интервалов, на каждом из которых предпосылки модели выполнялись Для проверки статистической значимости различия коэффи-  

Довольно часто гипотеза конвергенции неоклассической модели роста тестируется на примере регионов одной страны. Несмотря на то что возможно наличие расхождений между регионами по уровню развития технологий, предпочтений, и т.д., данные различия будут существенно менее значимыми, чем различия между странами. Поэтому вероятность наличия абсолютной конвергенции между регионами существенно выше, нежели между странами. Вместе с тем при использовании регионов для проверки гипотезы абсолютной сходимости нарушается важная предпосылка неоклассической модели роста - закрытость экономики . Очевидно, что культурные, лингвистические, институциональные и формальные барьеры для перемещения факторов оказываются менее значимыми для группы регионов одной страны. Однако показано, что даже в случае мобильности факторов и, таким образом, нарушения предпосылок исходной модели динамические свойства закрытой экономики и экономики со свободным  

Оцененные коэффициенты статистически значимы, коэффициент детерминации высокий, проверка на адекватность не выявляет нарушений стандартных предположений классической линейной модели регрессии.  

Следует отметить не совсем удачный перевод на русский язык термина dummy variables как фиктивная переменная . Во-первых, в модели регрессионного анализа мы уже имеем фиктивную переменную X при коэффициенте Ро> всегда равную единице. Во-вторых, и это главное - все процедуры регрессионного анализа (оценка параметров регрессионной модели , проверка значимости ее коэффициентов и т. п.) проводятся при включении фиктивных переменных так же, как и обычных, количественных объясняющих переменных. Фиктивность же переменных 2/ состоит только в том, что они количественным образом описывают качественный признак.  

Кроме проверки значимости всей модели, необходимо провести проверки значимости коэффициентов регрессии по /-критерию Стюдента. Минимальное значение коэффициента регрессии Ьг должно соответствовать условию bifob- t, где bi - значение коэффициента уравнения регрессии в натуральном масштабе при i-ц факторном признаке аь. - средняя квадратическая ошибка каждого коэффициента.  

Вернемся к общему (негауссовскому) случаю. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции , определенные соотношениями (1.22) - (1.23), являются, как правило, удовлетворительными измерителями очищенной линейной связи между х(1) и при фиксированных значениях остальных переменных и в случае, когда распределение анализируемых показателей ((0), x(l . .., х(р>) отличается от нормального. Определив с помощью формулы (1.22) частный коэффициент корреляции в случае любого исходного распределения признаков (х(0 х(1 . .., х(р)), включим его в общий математический инструментарий корреляционного анализа линейных моделей . При этом их можно интерпретировать как показатели тесноты очищенной связи, усредненные по всевозможным значениям фиксируемых на определенных уровнях мешающих переменных. 1.2.3. Статистические свойства выборочных частных коэффициентов корреляции (проверка на статистическую значимость их отличия от нуля, доверительные интервалы). При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k (т. е. при исключении опосредованного влияния k мешающих переменных) следует воспользоваться тем (см., например, ), что он распределен точно так же, как и обычный (парный) выборочный коэффициент корреляции между теми же переменными с единственной поправкой объем выборки надо уменьшить на k единиц, т. е. полагать его равным п - , а не я. Поэтому  

Для probit- или /опроверка гипотез о наличии ограничений на коэффициенты, в частности, гипотез о значимости одного или группы коэффициентов, может проводиться с помощью любого из трех тестов - Вальда, отношения правдоподобия , множителей Лагранжа , рассмотренных в главе 10 (п. 10.6). Большинство эконометрических пакетов, в которых реализованы probit- или /о

Пусть мы приступаем к эксперименту, полагая, что адекватна модель , содержащая только k главных эффектов , или, в терминологии регрессионного анализа , мы имеем модель первого порядка. Если взять насыщенный план разрешения III, то можно точно подогнать модель, но нельзя проверить ее адекватность. Однако, если (k + 1) не кратно четырем, план разрешения III будет не насыщенным, или, если все же (k + 1) кратно четырем, можно взять план разрешения IV. В обоих случаях мы сможем оценить несколько (смешанных) первых взаимодействий. Далее, если одна или несколько экспериментальных точек дублировалось, мы независимо оценим а2 и сможем проверить значимость наших парных взаимодействий. Пусть одни взаимодействия окажутся значимыми, а другие- - нет. Тогда может иметь смысл взять модель со всеми взаимодействиями. Несмотря на то что некоторые взаимодействия незначимы, их несмещенные МНК-оценки с минимальной дисперсией не равны нулю (хотя и малы). Так, если все факторы количественные , мы можем взять полином второго порядка (со всеми парными взаимодействиями плюс полные квадраты) вместо модели первого порядка. Сравните также с обсуждением в и в , где рассмотрена практика проверки отдельных параметров. Итак, вместо раздельной проверки эффектов мы можем получить их общую (объединенную) сумму квадратов и сравнить ее средний квадрат с независимой оценкой сг2.20  

Если мы отбрасываем гипотезу о корректности нашей модели, то обычно переходим к модели более высокого порядка 21. Это приводит к последовательному планированию . Мы можем начать с плана из очень малого числа опытов. Затем мы увидим, что планы разрешения III годятся для изучения k факторов всего в N = k + 1 опытах, если N кратно четырем, иначе мы возьмем следующий план с Nlt кратным четырем. Если АГ не" кратно четырем или же если есть некоторые дополнительные опыты, то мы можем проверить, адекватна ли модель первого порядка. Для этого мы можем подсчитать некоторые суммы квадратов взаимодействий или остаточную сумму квадратов . При наличии независимой оценки а2 (из параллельных или предварительных опытов) можно воспользоваться /""-критерием. А если взаимодействия окажутся значимыми, то мы можем перейти к плану разрешения IV. f K счастью, мы видим, что построить план разрешения IV из плана разрешения III не представляет никакого труда. Мы просто должны повторить план разрешения III с обратными знаками, т. е. помимо Ыг опытов плана22 разрешения III, которые мы уже провели, мы берем еще NI опытов. По определению, план разрешения IV дает оценки главных эффектов , которые не смешаны с парными взаимодействиями. Поэтому из плана разрешения IV мы можем надежно заключить, есть ли у какого-либо фактора главный эффект (при условии, что нет взаимодействий трех и более факторов это условие можно проверить при проверке адекватности по плану разрешения IV). Если предположить, что те факторы, у которых нет главных эффектов , не имеют и взаимодействий, то вполне возможно, что на основании плана разрешения IV мы исключим некоторые факторы. Иметь меньше факторов это значит, что сокращается число опытов, необходимых для эксперимента (ср. с табл. 8). Оставшиеся факторы можно изучить в плане разрешения V.  

Напомним (см. разд. 1.4. Главы 1), что поскольку логит-модель является нелинейной моделью , то оцененные коэффициенты имеют интерпретацию, отличающуюся от интерпретации коэффициентов в линейной модели . В связи с этим, в третьем столбце табл. 1 приведены значения предельного эффекта для переменных со статистически значимыми оценками коэффициентов, вычисленные при средних значениях объясняющих переменных на рассмотренном периоде. Так, значение 0.060 предельного эффекта для дамми переменной end of period означает, что если аукцион проводится в конце периода между проверками выполнения требований в отношении резервов, то (при неизменных значениях остальных объясняющих переменных) шансы за то, что банк примет участие в аукционе, против того, что банк не примет участие в аукционе, возрастают в среднем приблизительно на 6%.  

Похожие публикации