Статистическое программирование в r

Окончательное Руководство
R-это язык программирования и среда. Обычно используемые в статистических вычислениях. Анализе данных и научных исследованиях. Это один из самых популярных языков. Используемых статистиками. Аналитиками данных. Исследователями и маркетологами для извлечения. Очистки, анализа. Визуализации и представления данных. Благодаря выразительному синтаксису и простому в использовании интерфейсу. В последние годы он набрал популярность.

Содержание

Зачем использовать R для статистических вычислений и графики?

  1. R — это открытый исходный код и бесплатно!
    R можно скачать бесплатно. Так как он лицензирован в соответствии с условиями GNU General Public License. Вы можете посмотреть на источник. Чтобы увидеть. Что происходит под капотом. Более того, большинство пакетов R доступны под одной лицензией. Так что вы можете использовать их даже в коммерческих приложениях. Не вызывая своего адвоката.
  2. R популярен – и с
    каждым годом IEEE публикует список самых популярных языков программирования. R занял 5-е место в 2016 году. По сравнению с 6-м в 2015 году. Очень важно. Чтобы доменный язык. Такой как R. Был более популярен. Чем язык общего назначения. Такой как C#.

    Это свидетельствует не только о растущем интересе к R как языку программирования. Но и к таким областям. Как Наука о данных и машинное обучение. Где R обычно используется.

  3. R работает на всех платформах
    Вы можете найти дистрибутивы R для всех популярных платформ – Windows. Linux и Mac.R-код, который вы пишете на одной платформе. Легко переносится на другую без каких-либо проблем. Кросс-платформенная совместимость является важной особенностью современного компьютерного мира – даже Microsoft делает свою желанную платформу .NET доступной на всех платформах после того. Как осознает преимущества технологии. Которая работает на всех системах.
  4. Обучение R увеличит ваши шансы получить работу
    Согласно Опросу заработной платы Data Science. Проведенному O’Reilly Media в 2014 году. Специалисты по обработке данных получают среднюю зарплату в размере 98 000 долларов по всему миру. Эта цифра выше в США – около 144 000 долларов.Конечно, знание того. Как писать R-программы. Не даст вам работу сразу. Специалисту по обработке данных приходится жонглировать множеством инструментов. Чтобы выполнять свою работу. Даже если вы претендуете на должность разработчика программного обеспечения. Опыт программирования R может выделить вас из толпы.

  5. R используется крупнейшими технологическими гигантами
    , Принятие которых технологическими гигантами всегда является признаком потенциала языка программирования. Современные компании не принимают решения по наитию.
    Компании, использующие R
    R, — это правильное сочетание простоты и мощи. И компании по всему миру используют его для принятия взвешенных решений. Вот несколько способов. Которыми сторонники отрасли используют R и вносят свой вклад в экосистему R.
Компания Заявка/Вклад
Twitter Мониторинг пользовательского опыта
Брод Анализируйте социальные сети, чтобы поддержать дизайнерские решения для своих автомобилей

Нью-Йорк Таймс Инфографика, журналистика данных
Майкрософт Выпущен Microsoft R Open, расширенный дистрибутив R и сервер Microsoft R после приобретения Revolution Analytics в 2015 году
Группа анализа данных по правам человека Измерение влияния войны
Google Создал руководство по стилю R для сообщества пользователей R внутри Google

Используя R. Вы можете быть уверены. Что стоите на плечах гигантов.

Является ли программирование на R простым языком для изучения?

На этот вопрос трудно ответить. Многие исследователи изучают R как свой первый язык. Чтобы решить свои потребности в анализе данных.

В этом и заключается сила программирования R. Его достаточно просто освоить по ходу дела. Все, что вам нужно. — это данные и ясное намерение сделать вывод на основе анализа этих данных.

Фактически, R построен поверх языка программирования S, который изначально был задуман как язык программирования. Помогающий студенту научиться программировать. Играя с данными.

Тем не менее. Программисты. Которые приходят из Python. PHP или Java фон может найти R причудливым и запутанным на первый взгляд. Синтаксис. Который использует R. Немного отличается от других распространенных языков программирования.

Хотя R действительно обладает всеми возможностями языка программирования. Вы не обнаружите. Что пишете много условий if или циклов при написании кода на языке R. Существуют и другие программные конструкции. Такие как векторы. Списки, фреймы. Таблицы данных. Матрицы и т. Д., Которые позволяют выполнять массовые преобразования данных.

Применение R-программирования в реальном мире

  1. Data Science
    Harvard Business Review назвала data scientist “самой сексуальной работой 21 века. Glassdoor назвал его “лучшей работой года” за 2016 год.

    С появлением устройств интернета вещей. Создающих терабайты и терабайты данных. Которые могут быть использованы для принятия лучших решений. Наука о данных-это область. В которой нет другого пути. Кроме как идти вверх. Проще говоря. Специалист по обработке данных-это статистик с дополнительным преимуществом: навыками компьютерного программирования. Языки программирования. Такие как R. Наделяют специалистов по обработке данных сверхспособностями. Позволяющими им собирать данные в реальном времени. Выполнять статистический и прогнозный анализ. Создавать визуализации и сообщать заинтересованным сторонам о реальных результатах.Большинство курсов по науке о данных включают R в свою учебную программу. Потому что это любимый инструмент специалиста по данным.

  2. Статистические вычисления
    R-самый популярный язык программирования среди статистиков. По сути, изначально он был построен статистиками для статистиков. Он имеет богатый репозиторий пакетов с более чем 9100 пакетами со всеми статистическими функциями. Которые вы можете себе представить. Выразительный синтаксис R позволяет исследователям – даже тем. Кто не имеет опыта в области компьютерных наук. — быстро импортировать. Очищать и анализировать данные из различных источников данных.
    R также имеет возможности построения графиков. Что означает. Что вы можете построить свои данные и создавать интересные визуализации из любого набора данных.
  3. Машинное обучение
    R нашло широкое применение в прогностической аналитике и машинном обучении. Он имеет различные пакеты для общих задач ML. Таких как линейная и нелинейная регрессия. Деревья решений. Линейная и нелинейная классификация и многое другое. Все-от энтузиастов машинного обучения до исследователей-используют R для реализации алгоритмов машинного обучения в таких областях. Как финансы. Генетические исследования. Розничная торговля. Маркетинг и здравоохранение.

Альтернативы программированию на R

R-не единственный язык. Который можно использовать для статистических вычислений и графики. Некоторые из популярных альтернатив программирования R:

Python – Популярный язык общего назначения

Python-это очень мощный высокоуровневый объектно-ориентированный язык программирования с простым в использовании и простым синтаксисом.

Python чрезвычайно популярен среди специалистов по обработке данных и исследователей. Большинство пакетов в R также имеют эквивалентные библиотеки в Python.

В то время как R-это первый выбор статистиков и математиков. Профессиональные программисты предпочитают реализовывать новые алгоритмы на языке программирования. Который они уже знают.

Выбор между R и Python также зависит от того. Чего вы пытаетесь достичь с помощью своего кода. Если вы пытаетесь проанализировать набор данных и представить результаты в исследовательской работе. То R, вероятно. Является лучшим выбором. Но если вы пишете программу анализа данных. Которая работает в распределенной системе и взаимодействует с множеством других компонентов. Было бы предпочтительнее работать с Python.

SAS (Система Статистического Анализа)

SAS-это мощное программное обеспечение. Которое долгое время было первым выбором частного предприятия для своих аналитических нужд. Его графический интерфейс и полная документация в сочетании с надежной технической поддержкой делают его очень хорошим инструментом для компаний.

В то время как R является бесспорным чемпионом в академических и научных исследованиях. SAS чрезвычайно популярен в коммерческой аналитике. Но R и Python набирают обороты в корпоративном пространстве. И компании также пытаются перейти к технологиям с открытым исходным кодом. Время покажет. Будет ли SAS продолжать свое доминирование или R/Python возьмет верх.

SPSS – Программный комплекс для статистического анализа

SPSS-еще один популярный статистический инструмент. Он используется чаще всего в социальных науках и считается самым простым для изучения среди статистических инструментов предприятия.

SPSS любят не статистики. Потому что он похож на Excel. Поэтому те. Кто уже знаком с ним. Найдут SPSS очень простым в использовании.

SPSS имеет тот же недостаток. Что и SAS – это дорого. SPSS была приобретена IBM в 2009 году за 1,2 миллиарда долларов.

В этом разделе вы найдете самый простой способ запуска R-программирования в вашей системе (Windows. Mac OS X или Linux).

Запуск R программирования в Mac

  1. Зайдите на официальный сайт R programming
  2. Нажмите на ссылку CRAN на левой боковой панели
  3. Выберите зеркало
  4. Нажмите кнопку “Скачать R для (Mac) OS X”
  5. Скачать последнюю версию pkg binary
  6. Запустите файл и следуйте инструкциям. Приведенным в инструкции по установке R.

Запуск программирования R в Linux

На Ubuntu

Advanced Packaging Tool (APT). Который поставляется с Ubuntu. Использует файл sources.список. Чтобы решить. Где искать пакеты.

Прежде чем мы сможем установить R. Нам нужно сказать Ubuntu. Чтобы она заглянула в репозитории CRAN R. А также добавила открытый ключ для безопасной загрузки.

  1. Откройте исходники.файл списка(обычно находится в /etc/apt/sources.list) в текстовом редакторе и добавьте следующую строку в конце
    
    

    Например. Если вы используете Ubuntu trusty и хотите использовать зеркало RStudio CRAN. Строка будет

    деб https://cran.rstudio.com/bin/linux/ubuntu надежный/

    Если вы ленивы. Как все хорошие программисты. Вы можете сделать это прямо из терминала. Не открывая текстовый редактор как

    
    
  2. Аутентификация пакетов Ubuntu на CRAN
    Пакеты для Ubuntu. Которые хранятся на зеркалах CRAN. Все подписаны с помощью ключа с идентификатором E084DAB9
    Мы загружаем открытый ключ с сервера ключей Ubuntu с помощью этого идентификатора и добавляем его в нашу систему с помощью команды

    sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-ключи E084DAB9 
  3. Обновите список доступных пакетов
    Поскольку мы изменили sources.list. Нам нужно сказать APT. Чтобы он загрузил пакеты. Доступные с серверов CRAN. Выполнив команду.

    sudo apt-получить обновление 
  4. Скачать и установить R
    Почти готово. Просто скачайте и установите пакет R. Выполнив команду:

    sudo apt-get -y install r-base
  5. Откройте консоль R и выполните следующую команду.
    $ R

    Если во время установки не возникло никаких проблем. Консоль R должна успешно открыться с информацией о вашей установке R.

Дистрибутивы на основе RedHat

Этот процесс аналогичен для дистрибутивов Linux на базе Redhat. Таких как CentOS. Вместо того чтобы изменять файл типа sources.list. Вы можете напрямую добавить репозиторий для EPEL(Дополнительные пакеты для Enterprise Linux) с помощью следующей команды.

su -c 'rpm -Uvh http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm

Вы можете найти URL для правильного файла rpm для вашей системы здесь.

Теперь осталось только обновить список доступных пакетов и установить R.

sudo yum update sudo yum install R

Федора

Установка R на fedora-это просто кусок пирога. В репозиториях Fedora установлена последняя версия двоичных файлов R.

Просто выполняйте команды:

sudo yum update sudo yum install R

Запуск R программирования в Windows

  1. Зайдите на официальный сайт R programming
  2. Нажмите на ссылку CRAN на левой боковой панели
  3. Выберите зеркало
  4. Нажмите кнопку “Скачать R для Windows”
  5. Нажмите на ссылку которая загружает базовый дистрибутив
  6. Запустите файл и следуйте инструкциям. Приведенным в инструкции по установке R.

Должен ли я установить 32-битную версию или 64-битную?

Большинству людей не нужно беспокоиться об этом. Очевидно, что 64-битная версия R не будет работать на 32-битной машине. Но и 32-битная. И 64-битная версии R легко работают на 64-битной Windows.

Возможно, вы захотите рассмотреть возможность установки 32-разрядной версии R. Если ваша производственная среда 32-разрядная. Потому что некоторые пакеты могут иметь проблемы с совместимостью и могут привести к фиаско “Но это работает на моей машине”.

Установка RStudio

RStudio является самой популярной IDE для запуска программ R и имеет бесплатную лицензию.

Процесс установки идет прямо вперед. Скачайте RStudio (Windows. Linux и Mac OS X). Запустите файл и следуйте инструкциям по его установке.

Примечание: R должен быть установлен в вашей системе. Прежде чем вы сможете запустить RStudio.

После того. Как вы установите RStudio и откроете его в первый раз. Он попросит вас выбрать. Какую версию R использовать.

Выберите версию R в Rstudio

Если RStudio обнаружит. Что R не был установлен в вашей системе. Он выдаст вам предупреждение.

Если R был установлен. Вы увидите интерфейс R Studio. Вначале вы можете видеть только консоль R. Где вы можете написать однострочные операторы в R и выполнить их.

Однако даже для тривиальной работы вам нужно будет выполнить последовательность шагов. И лучше создать R-скрипт.

Перейдите в как показано на скриншоте ниже. Чтобы создать новый R script.

Новый файл в RStudio

Теперь вы можете увидеть редактор сценариев R. В котором можно вводить и сохранять программы R. Занимающие несколько строк. RStudio-это не просто текстовый редактор, а IDE. Которая помогает вам легко запускать и отлаживать R-скрипты.

Графический интерфейс R Studio разделен на 4 основных раздела как показано на скриншоте ниже:

Графический интерфейс RStudio GUI

R имеет репутацию человека. Который делает все с очень небольшим количеством кода. Если вы программист и думаете: “Вот идет Hello World code”. Вас ждет сюрприз.

Всего в трех строках кода ваша первая программа R генерирует 10 000 чисел в случайном распределении. Организует их на основе частоты и создает причудливую гистограмму.

Скопируйте следующий код в окно RStudio. Нажмите Ctrl+A(Windows) или Cmd+A(Mac), чтобы выбрать все три строки. И нажмите Ctrl+Enter(Windows) или Cmd+Enter(Mac)

n 

Посмотрите на правую нижнюю часть RStudio. И вы увидите эту красивую гистограмму. Показывающую колоколообразную кривую случайного нормального распределения.

Создание гистограммы с помощью r

Вот что делает каждая часть кода:

Получение списка случайных чисел с нормальным распределением

н))

Первая строка генерирует список из 10000 случайных чисел с нормальным распределением, таким образом, что среднее значение этих чисел составляет 500, а стандартное отклонение 100.

Функция floor берет каждое число в этом списке и удаляет десятичную точку.

Вы даже можете попробовать запустить этот код отдельно в консоли R и увидеть результат следующим образом:

Функция пола r

Подсчет вхождений каждого значения

Табличная функция принимает эти 10000 чисел и подсчитывает частоту каждого

Табличная функция в программировании R

Поскольку это нормальное распределение. Вы можете ясно видеть. Что частоты чисел постепенно увеличиваются по мере приближения к среднему.

Построение частот на гистограмме

Функция barplot берет эту таблицу частот и создает гистограмму из данных.

На самом деле нам не нужны три строки. Всего в одной строке мы могли бы сделать то же самое в одной строке. Добавляя метки к осям x и y с помощью

barplot(table(floor(rnorm(10000, 500, 100))). Xlab="Numbers". Ylab="Frequencies")

В этом и заключается сила языка программирования R. Будучи инструментом. Специально созданным для статистиков. Он выполняет все обычные операции. Используя выразительный синтаксис. Который вы полюбите.

Хотя RStudio-это удивительный инструмент для начала изучения языка R. Это всего лишь интерфейс к консоли R. Важно быть знакомым с запуском R-программ непосредственно через командную строку или терминал. Поскольку у вас не всегда может быть доступ к графическому интерфейсу. Если вы запускаете R-программы на сервере.

Если R установлен правильно. Вы можете открыть консоль R, набрав

Мы можем начать вводить команды непосредственно в командной строке и нажать return. Чтобы выполнить их.

Например, попробуйте ввести следующие команды в командной строке R

> n mean(n) [1] 6.8 

Как вы можете видеть. Каждая команда выполняется. Как только вы нажимаете клавишу возврата. И если есть какой-либо вывод(среднее значение в приведенном выше примере). То он отображается.

Если команда не завершена при нажатии кнопки return. Приглашение меняется на “+” и продолжает принимать входные данные до тех пор. Пока команда не будет синтаксически завершена.

В качестве альтернативы мы можем выполнить команды R. Хранящиеся во внешнем файле. Используя функцию source() следующим образом.

> source("example.R ") To exit the command prompt we can call the q() function (as in quit). > q() 

Различные способы запуска R скриптов

Иногда вам может понадобиться запустить R-программу внутри пакетного или шелл-скрипта. Для этого существуют различные способы.

Метод 1: Использование ПАКЕТНОЙ команды R CMD

Сохраните R-скрипт в текстовом файле с расширением .R и введите следующую команду.

R CMD BATCH /home/demo/learnR/Rprogramming.R

Выходные данные этой команды будут сохранены в файле Rprogramming.Rout

Метод 2: Использование Rscript

Используйте следующую команду

Rscript /home/demo/learnR/Rprogramming.R 

Разница между R CMDи Rscriptзаключается в том. Что Rscriptвывод выводится в STDOUT вместо файла.

Если вы хотите превратить вашу программу R в исполняемый файл. Вы можете указать. Что вы хотите. Чтобы файл выполнялся с помощьюRscript, добавив следующую строку в начале вашего сценария R.

#!/usr/bin/env Rscript For example. If your R program looks like #!/usr/bin/env Rscript n 

Вы можете непосредственно выполнить его из терминала как ./Rprogramming.R

Нет лучшего способа научиться программировать с помощью языка программирования R. В зависимости от вашего стиля обучения вы можете выбрать любой из доступных онлайн-ресурсов.

Узнайте R из DataMentor

В DataMentor мы создали массу ресурсов. Которые помогут вам начать работу с изучением R. Вы можете использовать наши учебные пособия. Чтобы начать работу со статистикой с помощью R.

  • Скачать программное обеспечение для запуска R скриптов
  • Написать код R
  • Понять синтаксис R
  • Выполнение основных статистических операций
  • Изучите расширенные концепции R

Практическое программирование с помощью R

Эта книга написана главным тренером RStudio Гарреттом Гролемундом и наполнена несколькими практическими проектами анализа данных казино (Взвешенные кости. Игральные карты. Игровой автомат).

Это не исчерпывающее руководство по языку программирования R. Но отличный учебник. Чтобы начать работу с языком.

Искусство программирования R – Тур по разработке статистического программного обеспечения

Если вы инженер-программист. Который хочет создать программное обеспечение в R. Это книга для вас. С другой стороны. Книга не может быть идеальной. Если вы статистик. Пытающийся изучать программирование через R.

Начало R: Язык Статистического программирования

Отличная книга для начинающих. Которые хотят изучить общеизвестно сложные понятия R с помощью ясных простых статистических примеров.

Используйте функцию help()

Чтобы получить помощь по конкретным темам. Мы можем использовать эту help()функцию вместе с темой. Которую хотим найти. Для этого мы также можем использовать ?оператора.

> help(Syntax) > ?Syntax

У нас также есть help.search()функция поиска по типу поисковой системы. Мы могли бы использовать ??для этого оператора.

> help.search("histograms") > ??"histograms"

Должно быть. Вам уже не терпится начать изучать R. Наша коллекция учебников R поможет вам выучить R. Независимо от того. Являетесь ли вы новичком или экспертом. Каждый учебник объясняет соответствующие понятия и синтаксис с помощью простых для понимания примеров.

Следите за сообществами R и блогами

Учитесь и получайте помощь от других. Существует множество замечательных сообществ R. Которые помогут вам решить реальные проблемы и стать лучше в R.

Некоторые из них:

  • StackOverflow – Самый популярный сайт вопросов и ответов по программированию в Интернете
  • R-bloggers – R новости и учебные пособия. Предоставленные (750) R блоггерами
  • R-help – Активный список рассылки для R
  • Конкретный список рассылки Nabble – R и форум

Должно быть. Вам уже не терпится начать изучать R. Наша коллекция учебников R поможет вам узнать R. Независимо от того. Являетесь ли вы новичком или экспертом. Каждый учебник объясняет соответствующие понятия и синтаксис с помощью простых для понимания примеров.


R Введение

Решение и петля

R Функции

R Структуры данных

R Объект и класс

Графики и диаграммы

Подробнее о заговоре в R