⦿ Цели
Популярность языков программирования среди аналитиков данных
Глобальный опрос kdnuggets в 2019 г. https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html
Зарплаты
Глобальный опрос stackoverflow.com в 2020 г. https://insights.stackoverflow.com/survey/2020#top-paying-technologies
Каждый статистик, разрабатывая новый метод, считает своим долгом создать собственный пакет в R, который готов к применению.
Большинство методов, доступных в платных программах со временем тоже реализовываются в R
Попробуйте найти статистический метод, который (еще) не доступен в R
Множество других стандартных и нестандартных графических представлений. Возможности кастомизации почти не ограничены.
Галерея возможностей визуализации в R: https://www.r-graph-gallery.com/
Использование R позволяет в единой технологии осуществлять
При повторяющихся или типовых исследованиях весь этот процесс можно полностью автоматизировать.
Можно автоматизировать, особенно если задача типовая и часто повторяющаяся
Python лучше для методов машинного обучения, обработки естественного языка, в скорости работы.
Python уступает R:
R можно пользоваться изнутри Python (rpy2) и наоборот (reticulate).
Для карьеры в анализе данных необходимо знать оба.
Курс – вводный.
curve( # название функции R
expr=x^3, # матем.выражение для вычисления значений линии
col="red", # цвет линии
xlim = c(0,15), # диапазон значений по оси х
xlab="Недели", # название оси х
ylab="Степень владения", # название оси у
main="Кривая обучения R" # заголовок
)
Введение в R от одного из его создателей:
На русском
Графика в R:
Классический источник по теории визуализации данных:
Приглашение на DataCamp
- Пройдите по ссылке
- Зарегистрируйтесь с использованием имейла на @edu.hse.ru
- Успех: бесплатный доступ ко всем курсам в течение 6 месяцев.
Рекомендуемые курсы:
- Введение в R: https://learn.datacamp.com/courses/free-introduction-to-r
- Средний уровень R: https://learn.datacamp.com/courses/intermediate-r
- Введение в визуализацию: https://www.datacamp.com/courses/data-visualization-in-r
- Знакомство с ggplot2: https://learn.datacamp.com/courses/introduction-to-data-visualization-with-ggplot2
swirl
- вводные интерактивные курсыinstall.packages("swirl")
library("swirl")
swirl()
learnr
внутри RStudio, вкладка TutorialЧитайте документацию R: в разделе help и на сайте https://www.rdocumentation.org/
используйте онлайн ресурсы, т.к. они чаще обновляются,
предпочтительно использовать англоязычные ресурсы, т.к. огромное международное сообщество;
для постоянно развития навыков R читайте тематические блоги - например, - https://towardsdatascience.com
Лучший учебник по общей практике структурных уравнений:
Понятный учебник по конфирматорному факторному анализу:
Теория латентных переменных:
Обзор практик применения структурных моделей:
Пример многогруппового конфирматорного факторного анализа:
Список рассылки SEMnet - обсуждение новых и продвинутых тем, возможность задать вопрос или найти ответ.
Лучше сразу читать по-английски, т.к. 99% литературы с использованием структурных моделей - на английском.
Лекции - в Zoom. Ссылка для подключения: https://us02web.zoom.us/j/84901415996?pwd=SXRuOTdxMnMyU0JoQUxCV3BWSUZOUT09
Семинары - очные (если ничего не случится).
❗️ Рекомендуется использовать свой собственный ноутбук, иметь его на всех семинарах
Оценка складывается из трех домашних работ и одного итогового теста, все оценки - текущие. Экзамена не будет.
На каждую домашнюю работу дается 1 неделя. За нарушение срока сдачи работы на 1 неделю оценка за нее снижается на 50%, на 2 недели – на 100%.
За плагиат/списывание/одинаковые работы ставится 0 и сообщается в учебную часть.
Примеры вопросов:
a <- 15; b <- c(5, 0, 5, 0); a * b
Names(data) = c('var1', 'var2', 'var3')
ggplot2
.~90 минут; ~20 вопросов.
Оценки 9 или 10 ставятся студентам, которые инициативно выходят за рамки программы дисциплины… выполняют задачи повышенной сложности
Источник: Рекомендации преподавателям…
В домашних работах и на семинарах будут использоваться данные Европейского социального исследования и Европейского исследования ценностей. Каждый студент использует свой собственный набор данных, выбрав тему. Страна и раунд будут назначены случайным образом.
Выбор тем завершен, в таблице ниже отражаются выбранные тема, год опроса (раунд) и страна, с данными из которой нужно выполнить домашние задания.
домашние работы загружаются в проект LMS;
в критических ситуациях можете писать на имейл:
Лекции доступны на сайте курса https://maksimrudnev.com/R2021 Материалы будут добавляться по ходу курса.
🐑 | 🐕 | 🐈 | 🐌 | 🐸