Новости    Библиотека    Байки    Ссылки    О сайте


13.11.2015

Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK

Компания Microsoft объявила о переводе в разряд открытых проектов инструментария DMTK (Distributed Machine Learning Toolkit), предназначенного для создания распределённых систем машинного обучения. Система может применяться для решения таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации.

В состав инструментария входят:

  • Масштабируемый фреймворк машинного обучения, состоящий из хранилища Parameter Server, поддерживающего хранение гибридных моделей данных, и клиентского SDK, который можно применять для планирования работ на стороне клиента, организации обучения моделей и поддержания локального кэша моделей, синхронизированного к моделями на Parameter Server.
  • Cистема тематического моделирования LightLDA;
  • Реализация распределённых алгоритмов векторного представления слов (Word2vec и multi-sense), позволяющих применять методы обработки информации на естественном языке.
Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK
Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK

Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин.

Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ.


Источники:

  1. opennet.ru






Выпущен открытый сервер навыков 0Mind для упрощения разработки ИИ

Создатель Всемирной паутины выступил против Facebook и Google

В Китае построят суперкомпьютер, способный выполнять квинтиллион вычислений в секунду

Использование нейронной сети для восстановления повреждённых изображений

В Китае робот сдал тест для поступления в университет

Россия будет защищена от внешнего отключения Рунета к 2021 году

О конференции Strata AI: будущее искусственного интеллекта

Китайский самообучающийся процессор сможет имитировать работу нервных клеток человека

Илон Маск работает над интерфейсом для подключения мозга к компьютеру

Загадка QWERTY: почему буквы на клавиатуре расположены не в алфавитном порядке

Нейронную сеть научили практически идеально копировать человеческий голос





© Злыгостев Алексей Сергеевич, подборка материалов, оцифровка, статьи, оформление, разработка ПО 2001-2018
При копировании материалов проекта обязательно ставить активную ссылку на страницу источник:
http://informaticslib.ru/ "InformaticsLib.ru: Информатика"