🤓 Чего ждать от этого курса?

⦿ Цели

  1. ТЕХНОЛОГИЯ. Научиться использовать известные методы анализа данных в R: кластерный, факторный, регрессионный анализ, описательные статистики.
  2. МЕТОД. Понять и научиться применять метод структурных уравнений: путевой анализ и конфирматорный факторный анализ.
  3. Дополнительная: научиться строить графики в R и коммуницировать результаты анализа данных.

Зачем вам этот курс?

  • конкурентное преимущество на рынке труда,
  • работники в data science имеют более высокие зарплаты,
  • удобство в рутинном анализе данных,
  • возможности и скорость в нерутинных операциях,
  • более успешная коммуникация результатов анализа.

Огромный спектр методов анализа данных

  • тысячи методов и процедур для обработки количественных и качественных данных.
  • Работа с наиболее новыми и передовыми статистическими моделями.

Каждый статистик, разрабатывая новый метод, считает своим долгом создать собственный пакет в R, который готов к применению.

Возможности визуализации данных

1

ggplot2

ggplot2

2

ggplot2

ggplot2

3

ggplot2

ggplot2

4

Создание интерактивных графиков, веб-приложений с обновляющимся контентом apps.maksimrudnev.com:3838/Shiny_Values/ ggplot2+Shiny

5

Множество других стандартных и нестандартных графических представлений. Возможности кастомизации почти не ограничены.

googleVis http://decastillo.github.io/googleVis_Tutorial/ rCharts http://www.rpubs.com/dnchari/rcharts

Прозрачность и воспроизводимость

  • Воспроизводимость - старое требование, для которого теперь есть новые возможности.
  • Необходимо для обеспечения фальсифицируемости по К.Попперу.

Использование R позволяет в единой технологии осуществлять

  • сбор,
  • обработку,
  • анализ данных,
  • создавать отчеты
  • и документировать весь процесс исследования.

При повторяющихся или типовых исследованиях весь этот процесс можно полностью автоматизировать.

Процесс социологического исследования

Можно автоматизировать, особенно если задача типовая и часто повторяющаяся Сделано в Creately.com

Что еще может R?

  • Aнализ соц.сетей
  • Машинное обучение
  • Aнализ временных рядов
  • Обработка текстовой информации
  • Анализ географической и пространственной информации
  • Распознавание и сортировка изображений
  • Интерактивные приложения
  • Работа с большими данными - не главный конек, но есть средства ускорения обработки данных.
  • и много-много чего еще.

💡 Моделирование структурными уравнениями

Структурные модели

  • современный продвинутый способ моделирования сложных взаимосвязей;
  • непосредственная проверка сложных причинно-следственных отношений в путевом анализе;
  • моделирование латентных переменных, их более точное измерение в конфирматорном факторном анализе;
  • учет ошибки измерения в регрессиях.

Три пересекающихся метода

  • Путевой анализ - расширение регрессионного на несколько зависимых переменных, оценка систем причинно-следственных отношений.
  • Конфирматорный факторный анализ (КФА) - поиск непрерывных латентных переменных при наличии конкретных гипотез.
  • Структурные модели с латентными переменными - всевозможные комбинации путевого анализа и КФА.

Примеры

Путевой анализ - 1

alt

alt

Путевой анализ - 2

alt

alt

Конфирматорный факторный анализ

alt

alt

Структурные модели с латентными перемеными

alt

alt

Чего в этом курсе не будет

Курс - вводный.

  • глубинного программирования,
  • сложных струкутрных моделей и технически деталей.

🤪 Каково это будет?

 curve(                      # название функции R
   expr=x^3,                 # матем.выражение для вычисления значений линии
   col="red",                # цвет линии
   xlim = c(0,15),           # диапазон значений по оси х
   xlab="Недели",            # название оси х
   ylab="Степень владения",  # название оси у
   main="Кривая обучения R"  # заголовок 
   )

📚 Источники и литература

ℹ️ Ресурсы для изучения R

a) Советы

  • используйте онлайн ресурсы, т.к. они чаще обновляются,
  • очень предпочтительно использовать англоязычные ресурсы, т.к. огромное международное сообщество

b) Для введения

Введение в R от одного из его создателей:

Графика в R:

Классический источник по теории визуализации данных:

  • Tufte, E. R. (1983). The visual display of quantitative information. Cheshire, CT: Graphics press.

Введение в R по-русски

  • Кабаков, Р. (2015). R в действии. Анализ и визуализация данных на языке R. Litres.

c) Для ответов на конкретные вопросы

d) Онлайн курсы

на русском: на английском:
- http://stepic.ru - http://DataCamp.com
- - http://coursera.org

e) Приложения

Для тренировки на ходу:

ℹ️ Ресурсы для изучения структурных моделей

Основная литература

  • Назаров Б. В., Мальцев В. Е. Структурные ковариационные модели в социологии. Учебное пособие. (выложен в ЛМС)
  • Lavaan Online Tutorial. Chapters “A CFA example”, “Mean Structures”, “Modification indices”, “Extracting information”. URL: http://lavaan.ugent.be/tutorial/index.html

Дополнительная литература

Лучший учебник по общей практике структурных уравнений:

  • Kline R. Principles and Practice of Structural Equation Modeling. 4th ed.

Понятный учебник по конфирматорному факторному анализу:

  • Brown, T. Confirmatory Factor Analysis in Applied Research. Guilford Press. New York, London. (2006 - 1st, or 2017 - 2nd edition).

Теория латентных переменных:

  • Bollen, K. A. Latent Variables in Psychology and the Social Sciences. Annual Review of Psychology, 2002. Vol. 53. P. 605-634.

Обзор практик применения структурных моделей:

  • Hoogland, J. J., Boomsma, A. Robustness studies in covariance structure modeling. An overview and a meta-analysis. Sociological Methods & Research, 1998. Vol. 26, No. 3. No. 329-367.

Пример многогруппового конфирматорного факторного анализа:

  • Руднев М. Г. Инвариантность измерения базовых ценностей по методике Шварца среди русскоязычного населения четырех страню Социология: 4М. 2013. № 37. С. 7-38.

Советы

Список рассылки SEMnet - обсуждение новых и продвинутых тем, возможность задать вопрос или найти ответ.

Лучше сразу читать по-английски, т.к. 99% литературы с использованием структурных моделей - на английском.

⏰ Расписание

Будет 5 лекций и 14 семинаров (практических занятий). Следите за временем, оно не всегда регулярное.

❗️ Рекомендуется использовать свой собственный ноутбук, иметь его на всех семинарах

❗️Оценка

Оценка складывается из трех домашних работ и одного итогового теста

Домашние работы (80%):

  1. Чтение, фильтрация и чистка данных. Построение и описание модели регрессионного анализа.
  2. Визуализация описательных и аналитических статистик. Создание автоматизированного отчета.
  3. Построение модели конфирматорного факторного анализа.

На каждую домашнюю работу дается 1 неделя. За нарушение срока сдачи работы на 1 неделю оценка за нее снижается на 50%, на 2 недели – на 100%.

Итоговый тест (20%)

Примеры вопросов:

  • Напишите, значение (значения), которое возвращает следующая строка кода R: sapply(1:5, function(x) x + 10)
  • Исправьте ошибку, из-за которой может не работать следующая строка кода R: Names(data) = c('var1', 'var2', 'var3')?
  • Напишите по памяти код точечного графика с разноцветными точками и подписями с использованием функций из пакета ggplot2.
  • Каким символом в rmarkdown обозначаются заголовки?
  • В исходную структурную модель вы решили добавить переменную “возраст”. С помощью какой статистики (статистик) согласия можно сравнивать эту и исходную модель?
  • Чем медиация отличается от модерации? Приведите пример. Как моделируются модерация и медиация переменных?
  • Что такое параметры модели? Чем они отличаются от переменных? Что такое ограничение и фиксация параметров? Для чего они могут применяться?
  • Нарисуйте путевую диаграмму структурной модели с наблюдаемыми переменными. Поясните смысл каждого элемента.
  • Зачем необходима оценка согласия модели? Опишите принцип традиционных оценок согласия модели.

~40 минут; ~10 вопросов.

📍 Выбрать тему и страну

В домашних работах и на семинарах будут использоваться данные Европейского социального исследования. Каждый студент использует свой собственый набор данных, выбрав страну и тему.

Чтобы темы не пересекались, запишите свою фамилию в таблицу: http://tinyurl.com/SEMtopics

🔄 Коммуникация

  • домашние работы отправляются в LMS
  • в LMS есть форум, на нем можно задавать вопросы
  • в критических ситуациях можете писать на email: mrudnev (at) hse.ru
  • лекции будут доступны в LMS и на сайте курса https://maksimrudnev.com/learn (сейчас переехал на адрес https://maksimrudnev.com/archive/R2018 )

?Вопросы?


🐑 | 🐕 | 🐈 | 🐌 | 🐸 | � �

🔦

♨︎

✔︎ Достаньте свои смартфоны

https://pollev.com/maksimrudnev100




Максим Руднев, 2018 на основе RMarkdown.