🤓 Чего ждать от этого курса?

⦿ Цели

  1. ТЕХНОЛОГИЯ. Научиться использовать известные методы анализа данных в R: управление данными, описательные статистики, регрессионный и факторный анализ.
  2. НОВЫЕ МЕТОДЫ. Понять и научиться применять метод структурных уравнений: путевой анализ и конфирматорный факторный анализ.
  3. ГРАФИКИ. Научиться строить хорошие графики и дэшборды.

?Зачем вам R?

  • конкурентное преимущество на рынке труда,
  • работники в data science имеют более высокие зарплаты,
  • самый широкий спектр методов анализа данных, который постоянно пополняется,
  • широкие возможности автоматизации,
  • более успешная коммуникация результатов анализа (графики и дэшборды).

1

Популярность языков программирования среди аналитиков данных

Глобальный опрос kdnuggets в 2019 г. https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html

2

Зарплаты alt text

Глобальный опрос stackoverflow.com в 2020 г. https://insights.stackoverflow.com/survey/2020#top-paying-technologies

Огромный спектр методов анализа данных

  • десятки тысяч методов и процедур для обработки количественных и качественных данных.
  • Работа с наиболее новыми и передовыми статистическими моделями.

источник

Каждый статистик, разрабатывая новый метод, считает своим долгом создать собственный пакет в R, который готов к применению.

Большинство методов, доступных в платных программах со временем тоже реализовываются в R

Попробуйте найти статистический метод, который (еще) не доступен в R

Возможности визуализации данных

1

График плотности с разделением на квартили

ggplot2, ggridges

источник

2

Двухмерная гистограмма (карта нагрева)

ggplot

источник

3

Обычные графики с линиями

ggplot2+Shiny

источник

4

Сетевые модели

igraph, gephi

источник

5

ggplot2

источник

6

Анимация на картах

London rail network in the run-up to the Olympic Games

7

Анимация на любых графиках

ggplot2

источник

8

Создание интерактивных графиков, веб-приложений с обновляющимся контентом

источник

10

Множество других стандартных и нестандартных графических представлений. Возможности кастомизации почти не ограничены.

Галерея возможностей визуализации в R: https://www.r-graph-gallery.com/

Прозрачность и воспроизводимость

  • Воспроизводимость - старое требование, для которого теперь есть новые возможности.
  • Необходимо для обеспечения фальсифицируемости по К.Попперу.

Использование R позволяет в единой технологии осуществлять

  • сбор,
  • обработку,
  • анализ данных,
  • создавать отчеты
  • и документировать весь процесс исследования.

При повторяющихся или типовых исследованиях весь этот процесс можно полностью автоматизировать.

Процесс социологического исследования

Можно автоматизировать, особенно если задача типовая и часто повторяющаяся Сделано в Creately.com

Что еще может R?

  • Aнализ соц.сетей
  • Машинное обучение
  • Aнализ временных рядов
  • Обработка текстовой информации
  • Анализ географической и пространственной информации
  • Распознавание и сортировка изображений
  • Интерактивные приложения
  • Работа с “большими данными” - не главный конек, но есть средства ускорения обработки данных.
  • и много-много чего еще.

А не лучше ли Python?

Python лучше для методов машинного обучения, обработки естественного языка, в скорости работы.

Python уступает R:

  • в легкости изучения в качестве первого языка;
  • в статистическом моделировании,
  • в простоте и гибкости создания визуализаций/дэшбордов.

R можно пользоваться изнутри Python (rpy2) и наоборот (reticulate).

Для карьеры в анализе данных необходимо знать оба.

💡 Моделирование структурными уравнениями

Структурно-ковариационные модели

  • современный способ моделирования латентных переменных (практически все переменные в социальных науках);
  • проверка систем взаимосвязей, с несколькими зависимыми и несколькими независимыми переменными;
  • учет ошибки измерения.

Три пересекающихся метода

  • Путевой анализ - расширение регрессионного на несколько зависимых переменных, оценка систем причинно-следственных отношений.
  • Конфирматорный факторный анализ (КФА) - поиск непрерывных латентных переменных при наличии конкретных гипотез.
  • Структурные модели с латентными переменными - всевозможные комбинации путевого анализа и КФА.

Примеры

Путевой анализ - 1

Путевой анализ - 2

Конфирматорный факторный анализ

Структурные модели с латентными перемеными

Чего в этом курсе не будет

  • настоящего программирования,
  • сложных структурных моделей и технических деталей их построения,
  • теории визуализации.

Курс – вводный.

😱 Каково это будет?

 curve(                      # название функции R
   expr=x^3,                 # матем.выражение для вычисления значений линии
   col="red",                # цвет линии
   xlim = c(0,15),           # диапазон значений по оси х
   xlab="Недели",            # название оси х
   ylab="Степень владения",  # название оси у
   main="Кривая обучения R"  # заголовок 
   )

📚 Источники и литература

ℹ️ Ресурсы для изучения R

Учебники

Введение в R от одного из его создателей:

На русском

Графика в R:

  • R Graphics Cookbook by Winston Chang
  • Wickham, H. (2009). ggplot2: elegant graphics for data analysis. Springer Science & Business Media. - для более глубокого изучения.

Классический источник по теории визуализации данных:

  • Tufte, E. R. (1983). The visual display of quantitative information. Cheshire, CT: Graphics press.

Онлайн курсы

Приглашение на DataCamp

  1. Пройдите по ссылке
  2. Зарегистрируйтесь с использованием имейла на @edu.hse.ru
  3. Успех: бесплатный доступ ко всем курсам в течение 6 месяцев.

Рекомендуемые курсы:

Внутри R

  • swirl - вводные интерактивные курсы
install.packages("swirl")

library("swirl")

swirl()
  • learnr внутри RStudio, вкладка Tutorial

Советы

ℹ️ Ресурсы для изучения структурных моделей

Основная литература

  • Назаров Б. В., Мальцев В. Е. Структурные ковариационные модели в социологии. Учебное пособие. (выложен в ЛМС)
  • Lavaan Online Tutorial. Chapters “A CFA example”, “Mean Structures”, “Modification indices”, “Extracting information”. URL: http://lavaan.ugent.be/tutorial/index.html

Дополнительная литература

Лучший учебник по общей практике структурных уравнений:

  • Kline R. Principles and Practice of Structural Equation Modeling. 4th ed.

Понятный учебник по конфирматорному факторному анализу:

  • Brown, T. Confirmatory Factor Analysis in Applied Research. Guilford Press. New York, London. (2006 - 1st, or 2017 - 2nd edition).

Теория латентных переменных:

  • Bollen, K. A. Latent Variables in Psychology and the Social Sciences. Annual Review of Psychology, 2002. Vol. 53. P. 605-634.

Обзор практик применения структурных моделей:

  • Hoogland, J. J., Boomsma, A. Robustness studies in covariance structure modeling. An overview and a meta-analysis. Sociological Methods & Research, 1998. Vol. 26, No. 3. No. 329-367.

Пример многогруппового конфирматорного факторного анализа:

  • Руднев М. Г. Инвариантность измерения базовых ценностей по методике Шварца среди русскоязычного населения четырех страню Социология: 4М. 2013. № 37. С. 7-38.

Советы

Список рассылки SEMnet - обсуждение новых и продвинутых тем, возможность задать вопрос или найти ответ.

Лучше сразу читать по-английски, т.к. 99% литературы с использованием структурных моделей - на английском.

⏰ Практческие вопросы

Лекции - в Zoom. Ссылка для подключения: https://us02web.zoom.us/j/84901415996?pwd=SXRuOTdxMnMyU0JoQUxCV3BWSUZOUT09

Семинары - очные (если ничего не случится).

❗️ Рекомендуется использовать свой собственный ноутбук, иметь его на всех семинарах

❗️Оценка

Оценка складывается из трех домашних работ и одного итогового теста, все оценки - текущие. Экзамена не будет.

Три домашние работы (75%):

  1. Чтение, фильтрация и чистка данных. Построение модели регрессионного анализа.
  2. Построение модели конфирматорного факторного анализа.
  3. Визуализация описательных и аналитических статистик. Создание Data Story.

На каждую домашнюю работу дается 1 неделя. За нарушение срока сдачи работы на 1 неделю оценка за нее снижается на 50%, на 2 недели – на 100%.

За плагиат/списывание/одинаковые работы ставится 0 и сообщается в учебную часть.

Итоговый тест (25%)

Примеры вопросов:

  • Напишите, значение (значения), которое возвращает следующий код R: a <- 15; b <- c(5, 0, 5, 0); a * b
  • Исправьте ошибку, из-за которой может не работать следующая строка кода R: Names(data) = c('var1', 'var2', 'var3')
  • Напишите по памяти код точечного графика с разноцветными точками и подписями с использованием функций из пакета ggplot2.
  • Каким символом в rmarkdown обозначаются заголовки?
  • В исходную структурную модель вы решили добавить переменную “возраст”. С помощью какой статистики (статистик) согласия можно сравнивать эту и исходную модель?
  • Напишите формулу lavaan модели неполной медиации эффекта переменной x на переменную y с медиатором z.

~90 минут; ~20 вопросов.

Формирование оценки

Оценки 9 или 10 ставятся студентам, которые инициативно выходят за рамки программы дисциплины… выполняют задачи повышенной сложности

Источник: Рекомендации преподавателям…

📍 Выбираете тему

В домашних работах и на семинарах будут использоваться данные Европейского социального исследования и Европейского исследования ценностей. Каждый студент использует свой собственный набор данных, выбрав тему. Страна и раунд будут назначены случайным образом.

Выбор тем завершен, в таблице ниже отражаются выбранные тема, год опроса (раунд) и страна, с данными из которой нужно выполнить домашние задания.

🔄 Коммуникация

  • домашние работы загружаются в проект LMS;

  • в критических ситуациях можете писать на имейл:

    • (для групп БСЦ183 и БСЦ184)
    • (для группы БСЦ185)
    • (лучше писать с адресов @edu.hse.ru чтобы письмо не оказалось в спаме).
  • Лекции доступны на сайте курса https://maksimrudnev.com/R2021 Материалы будут добавляться по ходу курса.

Вопросы?

🐑 | 🐕 | 🐈 | 🐌 | 🐸




Максим Руднев, 2018-2021 на основе RMarkdown.