• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

HPC TaskMaster - система мониторинга эффективности задач на суперкомпьютере

Инструкция по работе с системой HPC TaskMaster
Вход в систему

Заказчик

Научно-технический совет суперкомпьютерного комплекса НИУ ВШЭ​

Исполнитель

Отдел суперкомпьютерного моделирования НИУ ВШЭ​

Руководитель проекта

Костенецкий Павел Сергеевич

Цель проекта

Разработка системы мониторинга эффективности задач на суперкомпьютере cHARISMa, которая поможет пользователям определять правильность запуска их вычислений, а администраторам обнаруживать неэффективные задачи, помогая пользователям с оптимизацией. Данная система позволяет снизить неэффективную загрузку вычислительного кластера, и тем самым уменьшать время ожидания в очереди для всех пользователей.

Описание проекта

С момента появления суперкомпьютеров обеспечение эффективности их использования является важнейшей задачей. Все суперкомпьютеры в своей степени уникальны за счет различных технических характеристик и программного обеспечения, поэтому универсальных систем анализа эффективности задач не существует. Для крупных вычислительных кластеров разрабатывают собственные системы мониторинга, и суперкомпьютер cHARISMa не стал исключением.

Система HPC TaskMaster уже запущена на суперкомпьютере cHARISMa, и все пользователи имеют доступ к ней: lk.hpc.hse.ru. Система не только собирает и визуализирует данные о задачах, но и производит анализ эффективности задач, опираясь на обнаруженные индикаторы проблем. Разработка таких систем является масштабной научной работой, так как для анализа задач требуется внедрение математических методов и методов обработки при помощи искусственного интеллекта.

На суперкомпьютере cHARISMa ежегодно выполняется более 300 тысяч запусков научных и учебных задач. Система HPC TaskMaster призвана помочь пользователям эффективнее выполнять свои вычисления. Она предоставляет информативные отчеты о характеристиках выполненных задач, указывает на ошибки и выдает рекомендации по повышению эффективности пользователям. Автоматически определяя проблемные задачи, система позволяет эффективнее использовать ресурсы всего суперкомпьютера, экономя дорогостоящее машинное время и ускоряя работу для всех пользователей.

Система HPC TaskMaster разработана на языках Python и JavaScript с использованием открытого программного обеспечения Telegraf, InfluxDB и Grafana.

Система доступна для всех пользователей суперкомпьютера cHARISMa в едином личном кабинете пользователей суперкомпьютера по адресу https://lk.hpc.hse.ru/. Перейдя на сайт, выберите раздел «Мои вычисления», в котором будут отображены ваши выполняющиеся и завершенные задачи на суперкомпьютере. Инструкция по использованию HPC TaskMaster доступна по ссылке.

Результат

​Разработанная система «HPC TaskMaster» позволяет отслеживать эффективность всех выполняемых на суперкомпьютере задач. Вывод об эффективности работы задачи основывается как на показателях утилизации ее компонентов, так и на ее индивидуальных свойствах. Пользователи могут просматривать отчеты о выполнении своих задач вместе с выводами об их работе и интерактивными графиками.

«HPC TaskMaster» построена на базе открытого программного обеспечения, что позволит в дальнейшем установить ее на других вычислительных кластерах.

За счет проведения пользовательский консультаций, уже удалось снизить на 25% объем неэффективных вычислений на суперкомпьютере.

Репозиторий

HPC TaskMaster активно развивается и улучшается путем добавления нового функционала. Приглашаем научное сообщество, студентов и всех желающих программистов к участию в нашем OpenSource проекте.

https://git.hpc.hse.ru/open-source/hpc-taskmaster

Свидетельство о регистрации

Костенецкий П.С., Шамсутдинов А.Б, Чулкевич Р.А., Козырев В.И. Свидетельство о государственной регистрации программы для ЭВМ «HPC TaskMaster - система мониторинга эффективности задач суперкомпьютера» № 2022682037 от 18.11.2022, правообладатель: Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики».

Реестр российского программного обеспечения

Реестровая запись №18920 от 05.09.2023. HPC TaskMaster - система мониторинга эффективности задач на суперкомпьютере. Правообладатель программного обеспечения: Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики».

Стоимость ПО

Стоимость установки и сопровождения программного обеспечения предоставляется по запросу. Контактное лицо: Костенецкий П.С. (pkostenetskiy@hse.ru).

Документация

Инструкция по работе с системой HPC TaskMaster

Функциональные возможности HPC TaskMaster (PDF, 474 Кб) 

Руководство пользователя HPC TaskMaster (PDF, 1001 Кб) 

Руководство администратора HPC TaskMaster (PDF, 303 Кб) 

Свидетельство о регистрации программы для ЭВМ (PDF, 889 Кб)

Технический отчет о расширении функционала HPC TaskMaster 2023 (PDF, 1.78 Мб)

Публикации

  1. Kostenetskiy P., Chulkevich R., Kozyrev V., Shamsutdinov A., Antonov D. HPC TaskMaster - Task Efficiency Monitoring System for the Supercomputer Center // Communications in Computer and Information Science. 2022
  2. Voevodin V., Chulkevich R., Kostenetskiy P., Kozyrev V., Maliutin A., Zhumatiy S. Administration, Monitoring and Analysis of Supercomputers in Russia: a Survey of 10 HPC Centers // Supercomputing Frontiers and Innovations. 2021. Vol. 8. No. 3. P. 82-103 (Q2)
  3. Костенецкий П.С., Козырев В.И., Чулкевич Р.А., Шамсутдинов А.Б. HPC TaskMaster – система мониторинга эффективности задач суперкомпьютера // В кн.: Суперкомпьютерные дни в России: Труды международной конференции (27-28 сентября 2021 г., Москва). М. : МАКС Пресс, 2021
  4. Костенецкий П.С., Шамсутдинов А.Б. Разработка системы мониторинга эффективности задач на суперкомпьютере cHARISMa // В кн.: Параллельные вычислительные технологии – XV международная конференция, ПаВТ'2021, г. Волгоград, 30 марта – 1 апреля 2021 г. Короткие статьи и описания плакатов. Челябинск : Издательский центр ЮУрГУ, 2021

Рисунки

Диаграмма компонентов системы
Рис. 1. Схема системы


Графики утилизации задачи
Рис. 2. Графики использования вычислительных ресурсов конкретной задачей





 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.