|
13.11.2015 Компания Microsoft открыла код распределённого инструментария машинного обучения DMTKКомпания Microsoft объявила о переводе в разряд открытых проектов инструментария DMTK (Distributed Machine Learning Toolkit), предназначенного для создания распределённых систем машинного обучения. Система может применяться для решения таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации. В состав инструментария входят:
Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин. Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ. Источники:
|
|
|
© Злыгостев А.С., 2001-2019
При использовании материалов сайта активная ссылка обязательна: http://informaticslib.ru/ 'Библиотека по информатике' |