Домашнее задание 1

Чтение, фильтрация и чистка данных. Построение модели регрессионного анализа.

  1. Скачайте данные по вашему раунду для всех стран. Отфильтруйте данные по вашей стране. Выберите одну переменную из своего блока вопросов, для которой можно было бы принять допущение об интервальности.

  2. Разработайте гипотезы – от чего могут зависеть ответы респондентов на этот вопрос в данной стране (независимые переменные могут быть за пределами вашего блока вопросов).

  3. Разработайте гипотезу взаимодействия предикторов. Проверьте ее в регрессии, используя интеракцию.

  4. Посчитайте линейные регрессионные модели обязательно контролируя на уровень образования и гендер.

    • постройте модель регрессионного анализа и проверьте ее на мультиколлинеарность и гетероскедастичность;
    • проинтерпретируйте результаты (математический и содержательный смысл коэффициентов, наличие и характер связи);
    • сделайте содержательные выводы по ранее сформулированным гипотезам.
  5. Добавьте эффект взаимодействия и постройте график, иллюстрирующий взаимодействие.

  6. (Дополнительно для 9 и 10)

Опишите распределения и связи между переменными:

- вычислите среднюю, стандартное отклонение каждой из интервальных переменных;
- постройте гистограмму для зависимой переменной;
- посчитайте средние для каждого уровня одной из ваших независимых переменных;
- проведите дисперсионный анализ с этими переменными;
- t-тест для двух независимых подвыборок, разделив зависимую переменную на две группы по любой подходящей категориальной переменной;

ИЛИ

- Посчитайте порядковую регрессию (например, функцией из пакета `MASS`), сравните ее результаты с результатами линейной регрессии.

Оценка также повышается за:

  • форматирование скрипта и короткие, но информативные комментарии в нем;
  • за использование нелинейный (квадратичных) эффектов;
  • за визуализацию и оформление результатов.

Что сдавать?

  1. Eдиный R скрипт со всеми вводными командами. Скрипт должен работать без ошибок целиком.
  2. Word документ с описанием регрессионного анализа: гипотезы, результаты обсчетов и краткие их интерпретации (не более двух страниц или не более трех страниц если выполняется дополнительный пункт).

Загрузите оба документа в соответствующий проект в LMS.

Срок выполнения

Срок сдачи различается для групп:

  • 20 сентября, в 20:00 – для группы 184 и 185;
  • 21 сентября, в 20:00 – для группы 183.

Общие проблемы по итогам проверки: заблуждения

  • “Значимы все коэффициенты, кроме к-та при переменной образования, исключим ее из модели”. Переменные с незначимыми коэффициентами НЕ нужно исключать из модели. Это приемлемо только если наша цель – предсказание будущих значений зависимой переменной. см. https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r/115850#115850);

  • Интерпретация взаимодействия переменных. Переменные в интеракции могут не коррелировать друг с другом и не влиять друг на друга. Интеракция представляет собой уточнение основных эффектов и в большинстве случаев не имеет собственного отдельного смысла. Правильно: “образование усиливает эффект возраста на употребление алкоголя”.

  • Мультиколлинеарность не означает корреляцию между предикторами; она означает что эта корреляция мешает регрессии (сама по себе корреляция может и не мешать!);

  • интерпретация коэффициентов с использованием терминов роста/падения. В срезовых данных ничего не растет и не падает, а речь идет об индивидуальных различиях.

  • дисперсионный анализ с использованием дихотомической переменной (напр. гендера) в качестве независимой;

  • установка на мой компьютер пакетов install.packages(‘foreign’) или открытие новых вкладок View(mydata)

  • запуск ненужных пакетов library("histogram")

  • невнимание к количеству пропущенных значений (иногда более 50% в результате разных действий)

  • “переменные также оказались незначимы”

  • причинно-следственные связи 🥴

Домашнее задание 2

Конфирматорный факторный анализ и структурная модель

  • Выберите конструкт (2-3 латентных переменных, хотя бы одна должна быть из вашего блока вопросов)
  • Подберите индикаторы изучаемых конструктов;
  • Добейтесь приемлемого согласия модели
  • Опишите каждый шаг модификации модели и обоснуйте каждый шаг теоретически и статистически,
  • Добавьте структурную часть модели (регрессионные эффекты между латентными переменными). Можно также включать наблюдаемые переменные в качестве предикторов.

Работа должна содержать:

  • (а) введение с содержательными гипотезами,

  • (б) анализ:

    • теоретическая модель,
    • диаграммы исходной модели и “лучшей”,
    • обсуждение качества модели,
    • обоснование модификаций,
    • обоснованное изменение моделей,
    • сравнение моделей,
  • (в) выводы, содержательные и статистические,

  • (г) (дополнительно для 9 и 10) сформулируйте гипотезу и проверьте хотя бы один непрямой эффект включающий латентную(ые) переменную(ые).

Что сдавать?

  • результаты в Word (не более 4 стр.), текст должен быть понятен без обращения к коду R;
  • таблицы должны быть оформлены через semTable() (за скриншоты снижается оценка!);
  • работающий, отформатированный и откомментированный скрипт R.

Загрузите оба документа в соответствующий проект в LMS.

Срок выполнения - неделя. Срок сдачи различается для групп:

  • 4 октября, в 12:00 – для группы 184 и 185;
  • 5 октября, в 12:00 – для группы 183.

Общие проблемы по итогам проверки:

  • Циклические отношения в структурной модели - попытка замаскировать неуверенность в причинно-следственных отношениях между переменными. Подобные модели почти всегда не идентифицированы.
DiagrammeR::grViz(diagram="
        digraph {
  a:sw -> b:nw
  b:ne -> a:se
  b:sw -> c:nw
  c:ne -> b:se
  c:w -> a:w
  a:e -> c:e
}
")
  • Невнимание к знакам нагрузок – на что указывают отрицательные нагрузки?
  • Игнорирование ошибок lavaan: отрицательные дисперсии и предсказанные корреляции больше 1.
  • Игнорирование незначимых дисперсий факторов — это свидетельствует о бесполезности такого фактора, т.к. он не имеет разброса, а значит не описывает индивидуальные различия.
  • “Факторы объясняются индикаторами” — все наоборот, в факторном анализе индикаторы объясняются факторами.
  • Сравнение факторной модели со структурной моделью в большинстве случаев либо не имеет смысла, либо невозможно из-за невложенности.
  • Непрямой эффект латентной переменной через индикатор. Индикаторы не могут участвовать в структурной части модели (за редким исключением моделей особого типа), так как возникают циклические отношения с факторами.
  • Циклы в структурной части.
  • Скриншоты.

Домашнее задание 3

Reproducible Data Story

  1. Оформите (и, по желанию, доработайте) первую и вторую домашние работы в Rmarkdown. Используйте разные элементы оформления (заголовки разных уровней, выделение курсивом, списки и т.п.)

  2. Дополните графиками, описывающими

  • (а) распределение зависимой переменной,
  • (б) совместные распределения зависимой и хотя бы одной из независимых переменных,
  • (в) связь между зависимой переменной и тремя независимыми переменными: тип населенного пункта, возраст и еще одну непрерывную, включенную в регрессию.
  1. Поместите все в единый Rmarkdown документ, отформатируйте код, сгенерируйте html-отчет и загрузите в LMS два документа: Rmd и html.

  2. (Дополнительно для 9 и 10) Сделайте отчет в виде дэшборда flexdashboard. Источники:

Старайтесь не включать в отчет выдачу консоли – оформляйте таблицы автоматически (возвращая data.frame) или вручную (текстовый ввод или функция knitr::kable()). Все упоминания коэффициентов в тексте замените на автоматизированные (например, “Каждый год возраста повышает межличностное доверие на `r coef(model)[1] ` единиц.”).

Избегайте аббревиатур и сделайте всю представляемую информацию понятной и привлекательной для широкой публики.

Оцениваться будет прежде всего понятность представления информации, эффективность графиков в передачи информации, аккуратность оформленияи и богатство использованных средств оформления.

Использование дополнительных пакетов для визуализации (различных расширений ggplot2, добавление интерактивных графиков, например, через plotly) будет плюсом.

Объем не ограничен, но не злоупотребляйте текстом, главное тут – быстрое восприятие.

Срок сдачи различается для групп:

  • 13 октября, в 12:00 – для группы 184 и 185;
  • 14 октября, в 12:00 – для группы 183.



Максим Руднев, 2018-2021 на основе RMarkdown.