Резонно ли допущение о том, что конструкт измерен безошибочно?
Зависит от полноты имеющейся информации об изучаемом конструкте.
В каждом отдельном случае зависит от надежности и валидности измерительных инструментов.
* Рост
* Пол
* Возраст
* Образование
* Социально-экономический статус
* Доверие парламенту
* Субъективное благополучие
* Потребительская привлекательность продукта
Даже в случае переменной «рост» лучше применять многоиндикаторное измерение конструкта (например, утром, днем и вечером).
Цель факторного анализа – найти параметры латентной(ых) переменной(ых), которые объясняют всю* корреляцию/ковариацию между всеми переменными-индикаторами через расщепление дисперсии индикаторов на общую и уникальную.*
Каждый индикатор является линейной функцией одного или более факторов и уникальных дисперсий индикаторов.
потому что
АГК предназначен для сокращения размерности данных.
Типичный пример: сжатие изображений. Чтобы сохранить максимум информации об изображении, но существенно сократить информацию о каждом пикселе.
Разведывательный | Подтверждающий/Конфирматорный |
---|---|
(Exploratory FA – EFA) | (Confirmatory – CFA) |
Нет предварительной теории. | Теория существует. |
Отталкиваемся от того, что подсказывают данные. | Исходим из теории и подхода проверяющего гипотезы. |
Цель – описание данных. | Цель – проверка гипотез о генсовокпуности. |
Количество факторов неизвестно. | Количество факторов известно априори. |
Используется на ранних стадиях разработки измерительных шкал. | На поздних стадиях, когда набор индикаторов и их принадлежность к различным факторам уже известна. |
Нагрузки всех индикаторов на все факторы устанавливаются свободно (сложности интерпретации) | Нагрузки некоторых индикаторов на соответствующие факторы, остальные нагрузки фиксируются равными нулю |
Вся общая ковариация, которая есть у индикаторов одного фактора – является проявлением влияния этого фактора.
Локальная независимость - нескоррелированность индикаторов после “вычитания” из них фактора.
Однако у групп индикаторов могут быть и другие источники ковариации, такие как:
Дисперсия индикатора = факторная нагрузка в квадрате X на дисперсию фактора + остаток. \[ Var(y_1) = F.loading_{y_1}*F.loading_{y_1} * Var_{F_1} + Residual_{y_1} \]
Ковариация между двумя индикаторами одного фактора = произведение нагрузок этих индикаторов и дисперсии этого фактора. \[ Covar_{y_1, y_2} = F.loading_{y_1}*F.loading_{y_2}*Var_{F}\] Ковариация между двумя индикаторами одного фактора, между остатками которых разрешена ковариация = произведение нагрузок этих индикаторов, дисперсии фактора плюс ковариация остатков. \[ Covar_{y1,y2} = F.loading_{y_1}*F.loading_{y_2}*Var_{F}+Covar_{Residuals(y_1,y_2)} \]
Ковариация между двумя индикаторами разных факторов = произведение нагрузок этих индикаторов и ковариации между факторами \[ Covar_{y1(F1),y3(F2)} = F1.loading_{y1} * F2.loading_{y3} * Covar_{F1,F2} \]
ess7 <- haven::read_sav("data/ESS7e02_1.sav")
Austria <- ess7[ess7$cntry == "AT",]
library(lavaan)
cfa1 <- cfa( 'F1 =~ ipadvnt + impfun + impdiff + ipgdtim;
F2 =~ ipcrtiv+ impfree;
impfun ~~ ipgdtim;
', data=Austria)
semPlot::semPaths(cfa1, whatLabels="est", style="lisrel", layout="tree2", rotation=2, sizeMan=10, nCharNodes=0, edge.label.cex=1.1)
lavInspect(cfa1, "cov.ov") # предсказанная моделью матрица дисперсий-ковариаций
## ipdvnt impfun impdff ipgdtm ipcrtv impfre
## ipadvnt 1.867
## impfun 0.568 1.333
## impdiff 0.947 0.601 1.743
## ipgdtim 0.536 0.687 0.567 1.201
## ipcrtiv 0.569 0.361 0.602 0.341 1.480
## impfree 0.257 0.163 0.272 0.154 0.379 0.938
\(df≥0\): количество степеней свободы должно быть равно или больше нуля;
\(df = N_{obs} – N_{par}\): кол-во степеней свободы – это разница между количеством уникальных элементов матрицы дисперсии-ковариации наблюдаемых переменных и количеством параметров в модели;
\(N_{obs} = (N_{vars}(N_{vars} + 1))/2\): количество уникальных элементов матрицы дисперсии-ковариации;
\[Npar_{FA} = (N_{fact} * (N_{fact}+1))/2 + N_{vars}*N_{fact} + N_{vars} – N_{fact}\]
Количество параметров в факторном анализе включает:
В КФА:
В путевом анализе/структурной части:
Нужно взять индикатор, обладающий известными характеристиками, наиболее надежный и валидный, т.е. именно он будет задавать «единицу измерения» латентной переменной (фактора)
-1 степень свободы
-1 степень свободы
По сути зафиксированный параметр не является параметром (т.е. искомым), поскольку его значение определено априорно.
Используется
Например, можно ограничить два параметра выражением равенства, т.е. назначить их равными друг другу.
Сравнение вложенных моделей с зафиксированными/ограниченными vs. свободными параметрами.
Например:
две модели, одна из которых может быть получена посредством фиксации или ограничения параметров другой.
В КФА:
# Наблюдаемая матрица дисперсий-ковариаций
observed.var.cov <- cov(Austria[,c("ipadvnt", "impfun", "impdiff", "ipgdtim", "ipcrtiv", "impfree")], use="complete.obs")
round(observed.var.cov,2)
## ipadvnt impfun impdiff ipgdtim ipcrtiv impfree
## ipadvnt 1.87 0.63 0.96 0.52 0.50 0.18
## impfun 0.63 1.33 0.56 0.69 0.32 0.21
## impdiff 0.96 0.56 1.74 0.53 0.65 0.25
## ipgdtim 0.52 0.69 0.53 1.20 0.40 0.33
## ipcrtiv 0.50 0.32 0.65 0.40 1.48 0.38
## impfree 0.18 0.21 0.25 0.33 0.38 0.94
# Предсказанная моделью
implied.var.cov <- lavInspect(cfa1, "cov.ov")
implied.var.cov
## ipdvnt impfun impdff ipgdtm ipcrtv impfre
## ipadvnt 1.867
## impfun 0.568 1.333
## impdiff 0.947 0.601 1.743
## ipgdtim 0.536 0.687 0.567 1.201
## ipcrtiv 0.569 0.361 0.602 0.341 1.480
## impfree 0.257 0.163 0.272 0.154 0.379 0.938
# Разница между предсказанной и наблюдаемой матрицами дисперсий-ковариаций (матрица остатков)
implied.var.cov - observed.var.cov
## ipdvnt impfun impdff ipgdtm ipcrtv impfre
## ipadvnt -0.001
## impfun -0.067 -0.001
## impdiff -0.017 0.037 -0.001
## ipgdtim 0.012 0.000 0.036 -0.001
## ipcrtiv 0.065 0.045 -0.044 -0.055 -0.001
## impfree 0.072 -0.045 0.023 -0.175 0.000 -0.001
Goodness of Fit index
Рекомендованные значения: >0.90
Индекс абсолютного согласия – доля ковариаций, объясненных моделью (сравнивает модель с параметрами и «нулевую» модель без параметров совсем),
\[GFI = 1 – \frac{сумма~квадратов ~остатков}{сумма ~квадратов ~наблюдаемой ~матрицы ~дисперсии/ковариации}\]
Standardized Root Mean Square Residual
Рекомендованные значения: <0.08
residuals(path1, type="standardized")`
Хи-квадрат тестируемой модели [Chi-Square Test of Model Fit /Minimum Function Test Statistic] - сравнивает предсказанную нашей моделью матрицу ковариаций и эмпирическую матрицу ковариаций.
\[\chi^2 = F_{ML}*(N-1)~ при~ df_M\] где \(F_{ML}\) - значение функции правдоподобия, \(N\) – размер выборки.
Хи-квадрат модели независимости [Baseline Model/Independence model] - сравнивает матрицу, предсказанную моделью независимости и эмпирическую матрицу ковариаций.
Comparative Fit index
Рекомендованные значения: >0.90 или >0.95
Сравнительный индекс, сравнивает согласие тестируемой модели и «базовой» модели независимости с эмпирической матрицей дисперсии-ковариации.
\[ CFI = 1- \frac{\chi^2_{model}-df_{model}}{\chi^2_{independence}-df_{independence}}\]
Tucker-Lewis Index
Рекомендованные значения: >0,90 или >0,95.
По смыслу похожа на CFI.
Иногда превосходит 1.
\[ TLI = \frac{\frac{\chi^2_{independence}}{df_{independence}} - \frac{\chi^2_{model}}{df_{model}}}{ \chi^2_{independence}/df_{independence}-1 }\]
Root Mean Squared Error of Approximation
Рекомендованные значения: <0.08
PCLOSE – вероятность близости RMSEA к 0,05
Чем выше значения RMSEA, тем НИЖЕ согласие модели.
Наказывает за большее количество параметров.
\[ RMSEA = \sqrt\frac{\chi^2_{model} - df_{model}}{df_{model}*(N-1)} \] Лучше других работает на больших выборках.
Следует уделять внимание доверительному интервалу RMSEA
так как все они имеют свои недостатки и в одиночестве могут ввести вас и читателя в заблуждение относительно модели.
Обычные (стандатизованные) остатки – также важный критерий согласия модели, указывающий на локальные источники ошибки.
хи-квадрат модели с поправкой на сложность модели, размер выборки и количество переменных
❗️ По-разному вычисляются в разных программах. Годятся только для сравнения моделей, вычисленных одной программой. Не несут содержательного смысла сами по себе.
Akaike Information Criterion - AIC \[ AIC = χ^2 - 2*df \]
Bayesian Information Criterion - BIC \[ BIC = χ^2+\log(N_{samp})*(N_{vars}(N_{vars} + 1)/2 – df) \]
The Sample-Size Adjusted BIC \[ SABIC = χ^2 +[(N_{samp} + 2)/24]*[N_{par}*(N_{par} + 1)/2 - df] \]
Expected Cross-Validation Index \[ ECVI = \frac{χ^2}{N-1} + \frac{2*N_{par}}{N-1} \]
\(df\) -количество степеней свободы
\(N_{vars}\) – количество переменных в модели
\(N_{par}\) – количество свободных параметров в модели
\(N_{samp}\) – размер выборки
Чем меньше, тем лучше.
предмет психометрики/психометрии.
Степень, в которой значения переменной свободны от случайно ошибки измерения.
Большее количество индикаторов на один концепт помогают повысить надежность измерения. Большее разнообразие индикаторов повышает валидность, так как они охватывают различные аспекты изучаемого явления и единственное, что у них остается общего – это дисперсия самого концепта.
Более высокие значения соответствуют большей консистентности (однородности) индикаторов. Применим только для ФА с индикаторами на одной шкале.
\[ \omega = \frac{(Сумма~нагрузок)^2}{((Сумма~нагрузок)^2+сумма~остатков (+корр. остатков)}\]
higher-order factor models
Факторы второго порядка объясняют ковариации между фаткорами первого порядка.
Все правила построения КФА распространяются и на факторы второго порядка.
Примеры:
Удаление одного из индикаторов изменяет содержание индекса, т.к. они независимы.
Нет ошибки измерения.
Модель не идентифицирована в терминах структурных уравнений.
Оправдана только тогда, когда есть полная уверенность в том, что индикаторы являются причиной латентной переменной.