* Параметры ≠ переменные! Наблюдаемые переменные − часть данных, параметры − часть модели.
Бóльшее число параметров автоматически повышает способность модели объяснять данные, но снижает ее способность объяснить процессы в генеральной совокупности;
Правило экономичности (оно же Бритва Оккама ): чем проще модель, тем лучше. Идеал − минимальное количество параметров при максимальном качестве модели.
Если две модели имеют одинаковое согласие с данными, предпочтение следует отдавать более простой модели.
Количество степеней свободы (degrees of freedom, df) − число заранее известных параметров, которое потенциально позволяет найти значения неизвестных параметров. Величина, обратная количеству параметров. Большее число степеней свободы указывает на более экономичную модель.
❗️Нужно четко разделять данные (имеющиеся, наблюдаемые, известные значения) и неизвестные.
❗️структура модели является частью данных, которые мы вводим в модель, но редко осознается как данные.
Выбор подхода зависит от степени разработанности теории и знания изучаемого предмета.
\[ y = a + bx + \epsilon, \]
\[ y = a + bx + \epsilon\]
Отсутствие стрелки – связь считается равной нулю.
\[ y = a + b_1x_1 + b_2x_2 + b_3x_3 + \epsilon \]
\[ y = b_1x_1 + b_2x_2 + b_3x_3 + \epsilon_y \] Отбросим константу (представим, что она равна нулю из-за того, что все переменные специальным образом стандартизированы).
В дополнение к одному уравнению появилось второе:
\[ x_2 = b_{x1 -> x2}x_1 + \epsilon_{x2} \]
Теперь подставим \(x_2\) в первое уравнение:
\[ y = b_1x_1 + b_2(b_{x1-> x2}x_1 + \epsilon_{x2}) + b_3x_3 + \epsilon_y \] или
\[ y = b_1x_1 + b_2b_{x1-> x2}x_1 + b_2\epsilon_{x2} + b_3x_3 + \epsilon_y \] Теперь разберемся что здесь к чему.
Непрямой эффект − произведение двух прямых в пути из точки \(x_1\) в точку \(y\) (поэтому путевой анализ).
Прямой эффект также тут существует.
Общий эффект – это сумма прямого и непрямого эффектов.
Когда в модели представлен и прямой, и непрямой эффект, она называется модель частичной медиации, а все опосредующие переменные (здесь это \(x_2\)) − медиаторами.
Прямой эффект от x1 к y отсутствует.
Медиатор – проводник, который «пропускает через себя» влияния одной переменной на другую. Выражается одной переменной, которая зависит от другой и влияет на третью.
Модератор – посредник, который усиливает или ослабляет эффект одной переменной на другую, лишь опосредованно участвует в причинно- следственных отношениях. Ср. «модератор в фокус-группе». Выражается через интеракцию (взаимодействие) двух или более переменных.
Поскольку в путевом анализе много зависимых переменных, некоторые из них также являются независимыми для других. Поэтому используется другая классификация:
В структурных уравнениях значения этих терминов перевернуты.
Нерекурсивными моделями называются модели с циклами (более сложные, касаться не будем). Рекурсивными - модели без циклов.
Пример неидентифицированной модели (две неизвестных, одно известное, df = -1):
\(x + y = 10\)
Пример идентифицированной модели (два известных, одно неизвестное, df = 1):
\(x + 1 = 10\)
Пример идентифицированной модели, параметры \(y\) и \(x\) зафиксированы равеными друг другу (одно неизвестное, одно известное, df = 0):
\(x + y = 10\)
Количество степеней свободы равно или больше нуля (df ≥ 0).
Рекурсивные путевые модели всегда идентифицированы.
Модели КФА сложнее идентифицировать (на следующей лекции).
Количество параметров: все прямые эффекты (4), остатки (2), дисперсии экзогенных переменных* (2) = 8.
* На путевой диаграмме не отображаются.
Количество “наблюдений” (уникальных элементов в матрице дисперсии-ковариации): \[ N_{obs} = {k*(k+1)} / 2, \\ где~k − количество~наблюдаемых~переменных.\\ N_{obs} = {4*(4+1)} / 2 = 10 \]
Число степеней свободы: Количество “наблюдений” минус Количество параметров. 10 − 8 = 2.
Это означает, что в модель теоретически можно добавить еще 2 параметра для ее точного определения.
Определяется по разному, но основной критерий − это близость найденных параметров к истинным, то есть к существующим в генеральной совокупности.
Отличается от близости модели к данным.
Хи-квадрат сравнивает дисперсии и ковариации, предсказанные моделью с эмпирическими (наблюдаемыми) матрицами ковариации.
Нулевая гипотеза – предсказанная матрица дисперсий-ковариаций равна матрице эмпирической, поэтому большие (и значимо отличающиеся от нуля) значения хи-квадрат указывают на плохое согласие модели с данными.
Больший хи-квадрат указывает на случайность возникновения матрицы ковариаций.
При высоких р-value
(обычно больше 0,05) различия между предсказанной и эмпирической матрицей ковариации незначимы и модель считается ‘верной’.
В едва-идентифицированных моделях всегда χ2=0, но это ничего не значит.
Чувствителен (всегда значим) к большим выборкам (>1000)
\[\chi^2 = F_{max.lik.}(N-1) \] при количестве степеней свободы, которое есть у модели, Fmax.lik. − значение функции наибольшего правдоподобия, N − размер выборки.
Вложенной (nested) моделью называется модель с одним или более пропущенными переменными/параметрами. Редуцированная модель вложена в полную. Вложенные модели имеют один и то же набор наблюдаемых переменных, но различаются по количеству параметров.
Разницу между вложенными моделями можно проверить, посмотрев насколько ухудшилось согласие модели при исключении одного или нескольких параметров:
Если разница хи-квадратов χ2delta= χ2reduced – χ2full при df=dfreduced − dffull значима, то полная модель лучше объясняет данные, если незначима, то редуцированная и полная модели имеют одинаковое качество. Следуя правилу экономности, в последнем случае предпочтение отдается редуцированной модели.
Предварительная оценка параметров до включения их в модель.
MI – модификационный индекс (на сколько уменьшится хи-квадрат модели, если включить данный параметр)
EPC – expected parameter change – каково будет значение параметра если его включить в модель
Работают только для отдельных параметров и являются лишь приблизительными оценками, подсказками для ре-спецификации.
Мантра: “Correlation is not causation”
Чтобы проверить НАПРАВЛЕНИЕ причинности, в эксперименте есть возможность фиксировать время событий. Более раннее событие – причина, более позднее – следствие.
Направление связи не является обратным (необходимо в связи с ошибкой ретроспективного измерения)
Наличие взаимосвязи (ковариация)
Полностью ли данный предиктор определяет зависимую переменную (детерминистское) или только какую-то небольшую ее вероятность (вероятностное)?