Популярность программного обеспечения для анализа данных

Популярность программного обеспечения для анализа данных

31 марта 2015, 09:53
СанСаныч Фоменко
1
875

Существует много способов измерения популярности программного обеспечения. Рассмотрим некоторые из них по отношению к программным средствам для анализа данных.

 

Предложения о найме на работу

Для сбора статистики о предложениях о найме на работу использовались следующие ключевые слова:

  • R
  • статистический анализ
  • интеллектуальный анализ данных (data mining)
  • аналитика данных
  • машинное обучение
  • количественный анализ
  • бизнес анализ
  • статистическое программное обеспечение
  • предсказательное моделирование

Результаты выглядят следующим образом:

 

 R значительно превосходит другие проблемно-ориентированные языки: SAS и SPSS. R не только догнал SPSS, но превзошел его приблизительно  на 50% большим количеством запросов на работу. У MATLAB есть много общих черт с R, таким образом, интересно видеть, что у него есть только приблизительно половина требований на работу. Заметим, что R, SAS и SPSS предназначены для анализа данных, а у  MATLAB, есть много технических возможностей, которые не учтены при подсчете.

Упоминание в академических статьях

Чем более популярный пакет программного обеспечения, тем более вероятно, что он появится в академических публикациях как тема или как инструмент анализа. Программное обеспечение, которое используется в академических статьях, - это то, что следующее поколение аналитиков будет иметь в качестве дипломированного знания, таким образом, это опережающий индикатор тенденции. Google предлагает способ измерить такое действие. Однако, поиск не точно отражает эту величины, и будет включать некоторые несоответствующие статьи и отклонять некоторые соответствующие. Детали критериев поиска, которые использовались, являются достаточно комплексными, чему посвящена отдельная статья.

 

На рисунке 2a показано число статей, найденных для каждого пакета программного обеспечения за 2014. SPSS - безусловно самый доминирующий пакет, вероятно из-за его баланса между мощностью и простотой в употреблении. SAS примерно вдвое меньше, за которыми следует MATLAB и R. Программное обеспечение от Java до Statgraphics показывает медленное убывание. Заметим, что программное обеспечение общего назначения C, C++, C#, MATLAB, Java и Python включены только при их комбинации с параметрами аналитики, таким образом, их оценка более грубая по отношению их места среди средств программирования, но довольно точно отражает их место среди инструментов по анализу данных.

 

Рис.2а.  Число академических статей, использующих указанные программные средства

Интересна тенденция за несколько лет среди статистических пакетов. Она представлена на рис.2в

 

Рис. 2b

 

 Из рисунка следует доминирование SAS  и SPSS. Если их исключить, то получим следующее соотношение упоминания статистических пакетов в академических статьях.

 

 

Весьма полезно оценить не максимальное количество, а тенденцию роста использования соответствующих продуктов, что представлено на рис. 2е

 

Рис.2е.  Процентное изменение в академических статьях

 

Книги

Статистика по книгам взята из Amazon 

 

Рис.3  Число книг

Популярность на сайтах

 

Рис.4.  Количество ссылок на основной сайт

Теперь, когда SPSS - часть IBM, то он доминирует над другими статистическими продуктами. Указанная величина отражает широкий диапазон продаваемой IBM продукции, включая компьютерное оборудование и службы, которые не имеют никакого отношения к анализу данных. Однако, более старый  SPSS.com веб-сайт больше не обнаруживается в веб-поиске с перенаправлением на сайте IBM, и, имеет крошечную входящую меру по связи.

R следующий с половиной величины IBM  сопровождается SAS. Отметим, что  Revolution R Enterprise и R-PLUS - коммерческие версии R, которые относительно новы для рынка.

Программная активность

Оценить популярность программного обеспечения можно через обзоры.

 

 Рис.

 Мы видим, что R находится в топе с 70% среди аналитиков данных, использующих его. SPSS, RapidMiner, SAS и Weka следуют за ним с приблизительно 30% пользователей.

На сайте KDnuggets был задан вопрос: Какой язык программирования вы используете для анализа данных в последние 12 месяцев? Вот результат:

 

 Мы видим полное доминирование R.

 

 

На сайте Kaggle.com  размещаются заказы на анализ данных. Ниже приводится статистика о программных средствах, которые будут использоваться исполнителями при выполнении заказов.

 

Рис.8. Рост возможностей 

 

 Ниже приведен рост числа пакетов в R.

 

 

 Интересно сравнение с другим лидирующим пакетом – SAS. SAS имеет 1200 команд, что грубо соответствует функциям R. В 2013 году в R было добавлено 835 пакетов, содержащих примерно 17390 функций, т.е больше, чем за всю историю SAS.

Каково же общее число функций R? На сайте Rdocumentation  подсчитано общее число пакетов во всех хранилищах на 4 июля 2014 года – 7384, которые содержат 153696  функций.