Введение в машинное обучение от Майкрософт

Введение в машинное обучение от Майкрософт

26 января 2017, 20:44
СанСаныч Фоменко
3
485
MicrosoftML - новый пакет машинного обучения для Microsoft R Server, который добавляет современные алгоритмы и преобразования данных Microsoft R Server. Microsoft R - набор серверов и инструментов, которые расширяют возможности R, упрощая и ускоряя создание и развертывание, основанных на R решений. Microsoft R Server дает возможность выполнить параллельную и разделенную на блоки обработку данных, которые уменьшают ограничения на размер набора данных, наложенный открытым исходным кодом R в памяти. Пакет MicrosoftML в настоящее время доступен в Microsoft R Server для Windows и в SQL Server vNext.

MicrosoftML добавляет алгоритмы и преобразования, которые используются командами разработчиков  в рамках Microsoft. Это дает новую функциональность машинному обучению с увеличенной скоростью, результативностью и масштабируемостью, специально для обработки больших наборов текстовых данных или высоко-размерных категориальных данных.

Что нового?


MicrosoftML поддерживает новые сквозные сценарии, которые включают новые инструменты и функциональность. Вы теперь можете:

  • Создать модели классификации текстов для проблем, таких как классификация запросов в службу поддержки и анализ мнений.
  • Обучить глубокие нейронные сети с ускорением GPU, чтобы решить сложные проблемы, такие как розничная классификация изображений и анализ почерка.
  • Работать с высоко-размерными категориальными данными для сценариев  онлайн-рекламы - через прогноз.
  • Решить много других общих задач машинного обучения, таких как анализ рисков кредита и прогнозирование потребления, используя современны, быстрые и точные алгоритмы.
  • Модели тренировки быстрее в два, чем логистическая регрессия с Быстрым Линейным Алгоритмом (SDCA).
  • Обучить многоуровневые пользовательские сети на GPUs до 8x быстрее с ускорением GPU для Нейронных сетей.
  • Уменьшить время обучения до 10x в то время как все еще сдерживается точность моделирования при использовании выбор признака.

 

Преобразования данных

Пакет MicrosoftML предоставляет конвейрную обработку для преобразований при машинном обучении, что позволяет составлять пользовательский набор преобразований, которые могут быть применены к Вашим данным перед обучением или проверки для упрощения этих процессов. Они включают:
быструю линейную модель 
  • concat (): создает единственный оцененный вектор-столбец из многих столбцов. Сочетание функций одного и того же типа в вектор может значительно ускорить время обучения.
  • categoricalHash (): преобразовывает категорическое значение в хешированый массив индикатора. Полезно, когда число категорий велико или переменное
  • категорический (): преобразовывает категорическое значение в массив индикатора, используя словарь. Полезный, когда число категорий не велико или фиксировано.
  • selectFeatures (): выбирает признаки из указанных переменных, используя один из этих двух режимов: количество или взаимная информация.
  • featurizeText (): производит стеллаж количеств n-граммов (последовательности последовательных слов) из данного текста. Это предлагает обнаружение языка, токенизацию, удаление стоп-слов, нормализацию текста, генерацию признака и весовой коэффициент параметра, используя TF, IDF и TF-IDF.

 

Алгоритмы обучения машины


Пакет MicrosoftML предоставляет быстрые и масштабируемые алгоритмы машинного обучения, которые позволяют заняться общими задачами машинного обучения, такими как классификация, регрессия и обнаружение аномалии. Это высокоэффективные алгоритмы, которые являются многопоточными, некоторые из которых выполняются вне диска, так, чтобы они могли масштабироваться к 100 GB на одном узле. Они включают:

 быструю линейную модель (SDCA) - бинарная классификация  и регрессия

 быстрые деревья - бинарная классификация  и регрессия

быстрые леса - бинарная классификация  и регрессия

нейронные сети - бинарная классификация для многих классов  и регрессия 

логистическая регрессия - - бинарная классификация  и регрессия 

Более подробно по функциям машинного обучения от Майкрософт здесь