Чтение, фильтрация и чистка данных. Построение модели регрессионного анализа.
Скачайте данные по вашему раунду для всех стран. Отфильтруйте данные по вашей стране. Выберите одну переменную из своего блока вопросов, для которой можно было бы принять допущение об интервальности.
Разработайте гипотезы – от чего могут зависеть ответы респондентов на этот вопрос в данной стране (независимые переменные могут быть за пределами вашего блока вопросов).
Разработайте гипотезу взаимодействия предикторов. Проверьте ее в регрессии, используя интеракцию.
Посчитайте линейные регрессионные модели обязательно контролируя на уровень образования и гендер.
Добавьте эффект взаимодействия и постройте график, иллюстрирующий взаимодействие.
(Дополнительно для 9 и 10)
Опишите распределения и связи между переменными:
- вычислите среднюю, стандартное отклонение каждой из интервальных переменных;
- постройте гистограмму для зависимой переменной;
- посчитайте средние для каждого уровня одной из ваших независимых переменных;
- проведите дисперсионный анализ с этими переменными;
- t-тест для двух независимых подвыборок, разделив зависимую переменную на две группы по любой подходящей категориальной переменной;
ИЛИ
- Посчитайте порядковую регрессию (например, функцией из пакета `MASS`), сравните ее результаты с результатами линейной регрессии.
Оценка также повышается за:
Загрузите оба документа в соответствующий проект в LMS.
Срок сдачи различается для групп:
“Значимы все коэффициенты, кроме к-та при переменной образования, исключим ее из модели”. Переменные с незначимыми коэффициентами НЕ нужно исключать из модели. Это приемлемо только если наша цель – предсказание будущих значений зависимой переменной. см. https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r/115850#115850);
Интерпретация взаимодействия переменных. Переменные в интеракции могут не коррелировать друг с другом и не влиять друг на друга. Интеракция представляет собой уточнение основных эффектов и в большинстве случаев не имеет собственного отдельного смысла. Правильно: “образование усиливает эффект возраста на употребление алкоголя”.
Мультиколлинеарность не означает корреляцию между предикторами; она означает что эта корреляция мешает регрессии (сама по себе корреляция может и не мешать!);
интерпретация коэффициентов с использованием терминов роста/падения. В срезовых данных ничего не растет и не падает, а речь идет об индивидуальных различиях.
дисперсионный анализ с использованием дихотомической переменной (напр. гендера) в качестве независимой;
установка на мой компьютер пакетов install.packages(‘foreign’) или открытие новых вкладок View(mydata)
запуск ненужных пакетов library("histogram")
невнимание к количеству пропущенных значений (иногда более 50% в результате разных действий)
“переменные также оказались незначимы”
причинно-следственные связи 🥴
Конфирматорный факторный анализ и структурная модель
Работа должна содержать:
(а) введение с содержательными гипотезами,
(б) анализ:
(в) выводы, содержательные и статистические,
(г) (дополнительно для 9 и 10) сформулируйте гипотезу и проверьте хотя бы один непрямой эффект включающий латентную(ые) переменную(ые).
semTable()
(за скриншоты снижается оценка!);Загрузите оба документа в соответствующий проект в LMS.
Срок выполнения - неделя. Срок сдачи различается для групп:
DiagrammeR::grViz(diagram="
digraph {
a:sw -> b:nw
b:ne -> a:se
b:sw -> c:nw
c:ne -> b:se
c:w -> a:w
a:e -> c:e
}
")
lavaan
: отрицательные дисперсии и предсказанные корреляции больше 1.Reproducible Data Story
Оформите (и, по желанию, доработайте) первую и вторую домашние работы в Rmarkdown. Используйте разные элементы оформления (заголовки разных уровней, выделение курсивом, списки и т.п.)
Дополните графиками, описывающими
Поместите все в единый Rmarkdown документ, отформатируйте код, сгенерируйте html-отчет и загрузите в LMS два документа: Rmd и html.
(Дополнительно для 9 и 10) Сделайте отчет в виде дэшборда flexdashboard. Источники:
Старайтесь не включать в отчет выдачу консоли – оформляйте таблицы автоматически (возвращая data.frame) или вручную (текстовый ввод или функция
knitr::kable()
). Все упоминания коэффициентов в тексте замените на автоматизированные (например, “Каждый год возраста повышает межличностное доверие на `r coef(model)[1] ` единиц.”).
Избегайте аббревиатур и сделайте всю представляемую информацию понятной и привлекательной для широкой публики.
Оцениваться будет прежде всего понятность представления информации, эффективность графиков в передачи информации, аккуратность оформленияи и богатство использованных средств оформления.
Использование дополнительных пакетов для визуализации (различных расширений ggplot2, добавление интерактивных графиков, например, через
plotly
) будет плюсом.
Объем не ограничен, но не злоупотребляйте текстом, главное тут – быстрое восприятие.
Срок сдачи различается для групп: