HPC TaskMaster - система мониторинга эффективности задач на суперкомпьютере
Вход в систему
Заказчик
Научно-технический совет суперкомпьютерного комплекса НИУ ВШЭ
Исполнитель
Отдел суперкомпьютерного моделирования НИУ ВШЭ
Руководитель проекта
Цель проекта
Разработка системы мониторинга эффективности задач на суперкомпьютере cHARISMa, которая поможет пользователям определять правильность запуска их вычислений, а администраторам обнаруживать неэффективные задачи, помогая пользователям с оптимизацией. Данная система позволяет снизить неэффективную загрузку вычислительного кластера, и тем самым уменьшать время ожидания в очереди для всех пользователей.
Описание проекта
С момента появления суперкомпьютеров обеспечение эффективности их использования является важнейшей задачей. Все суперкомпьютеры в своей степени уникальны за счет различных технических характеристик и программного обеспечения, поэтому универсальных систем анализа эффективности задач не существует. Для крупных вычислительных кластеров разрабатывают собственные системы мониторинга, и суперкомпьютер cHARISMa не стал исключением.
Система HPC TaskMaster уже запущена на суперкомпьютере cHARISMa, и все пользователи имеют доступ к ней: lk.hpc.hse.ru. Система не только собирает и визуализирует данные о задачах, но и производит анализ эффективности задач, опираясь на обнаруженные индикаторы проблем. Разработка таких систем является масштабной научной работой, так как для анализа задач требуется внедрение математических методов и методов обработки при помощи искусственного интеллекта.
На суперкомпьютере cHARISMa ежегодно выполняется более 300 тысяч запусков научных и учебных задач. Система HPC TaskMaster призвана помочь пользователям эффективнее выполнять свои вычисления. Она предоставляет информативные отчеты о характеристиках выполненных задач, указывает на ошибки и выдает рекомендации по повышению эффективности пользователям. Автоматически определяя проблемные задачи, система позволяет эффективнее использовать ресурсы всего суперкомпьютера, экономя дорогостоящее машинное время и ускоряя работу для всех пользователей.
Система HPC TaskMaster разработана на языках Python и JavaScript с использованием открытого программного обеспечения Telegraf, InfluxDB и Grafana.
Система доступна для всех пользователей суперкомпьютера cHARISMa в едином личном кабинете пользователей суперкомпьютера по адресу https://lk.hpc.hse.ru/. Перейдя на сайт, выберите раздел «Мои вычисления», в котором будут отображены ваши выполняющиеся и завершенные задачи на суперкомпьютере. Инструкция по использованию HPC TaskMaster доступна по ссылке.
Результат
Разработанная система «HPC TaskMaster» позволяет отслеживать эффективность всех выполняемых на суперкомпьютере задач. Вывод об эффективности работы задачи основывается как на показателях загрузки вычислительных ресурсов, так и на ее индивидуальных свойствах. Пользователи могут просматривать отчеты о выполнении своих задач вместе с выводами об их работе и интерактивными графиками.
«HPC TaskMaster» построена на базе открытого программного обеспечения, что позволит в дальнейшем установить ее на других вычислительных кластерах.
За счет проведения пользовательский консультаций, уже удалось снизить на 25% объем неэффективных вычислений на суперкомпьютере.
Репозиторий
HPC TaskMaster активно развивается и улучшается путем добавления нового функционала. Приглашаем научное сообщество, студентов и всех желающих программистов к участию в нашем OpenSource проекте.
https://git.hpc.hse.ru/open-source/hpc-taskmaster
Свидетельство о регистрации
Костенецкий П.С., Шамсутдинов А.Б, Чулкевич Р.А., Козырев В.И. Свидетельство о государственной регистрации программы для ЭВМ «HPC TaskMaster - система мониторинга эффективности задач суперкомпьютера» № 2022682037 от 18.11.2022, правообладатель: Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики».
Реестр российского программного обеспечения
Реестровая запись №18920 от 05.09.2023. HPC TaskMaster - система мониторинга эффективности задач на суперкомпьютере. Правообладатель программного обеспечения: Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Высшая школа экономики».
Стоимость ПО
Стоимость адаптации и сопровождения программного обеспечения предоставляется по запросу. Контактное лицо: Костенецкий П.С. (pkostenetskiy@hse.ru).
Документация
Инструкция по работе с системой HPC TaskMaster
Функциональные возможности HPC TaskMaster (PDF, 474 Кб)
Руководство пользователя HPC TaskMaster (PDF, 1001 Кб)
Руководство администратора HPC TaskMaster (PDF, 303 Кб)
Свидетельство о регистрации программы для ЭВМ (PDF, 889 Кб)
Технический отчет о расширении функционала HPC TaskMaster 2023 (PDF, 1.78 Мб)
Публикации
- Voevodin V., Chulkevich R., Kostenetskiy P., Kozyrev V., Maliutin A., Zhumatiy S. Administration, Monitoring and Analysis of Supercomputers in Russia: a Survey of 10 HPC Centers // Supercomputing Frontiers and Innovations. 2021. Vol. 8. No. 3. P. 82-103 (Q2)
- Костенецкий П.С., Козырев В.И., Чулкевич Р.А., Шамсутдинов А.Б. HPC TaskMaster – система мониторинга эффективности задач суперкомпьютера // В кн.: Суперкомпьютерные дни в России: Труды международной конференции (27-28 сентября 2021 г., Москва). 2021
- Костенецкий П.С., Шамсутдинов А.Б. Разработка системы мониторинга эффективности задач на суперкомпьютере cHARISMa // В кн.: Параллельные вычислительные технологии – XV международная конференция, ПаВТ'2021, г. Волгоград, 30 марта – 1 апреля 2021 г.
- Kostenetskiy P., Chulkevich R., Kozyrev V., Shamsutdinov A., Antonov D. HPC TaskMaster - Task Efficiency Monitoring System for the Supercomputer Center // Communications in Computer and Information Science. 2022
- Костенецкий П. С., Шамсутдинов А. Б., Чулкевич Р. А., Козырев В. И. Разработка подсистемы анализа эффективности использования вычислительных ресурсов для системы HPC TaskMaster // Параллельные вычислительные технологии – XVII всероссийская конференция с международным участием, ПаВТ'2023, г. Санкт-Петербург, 28–30 марта 2023 г.
- Чулкевич Р.А., Козырев В.И., Костенецкий П.С., Раимова А.А. Внедрение технологии NVIDIA GPUDirect на суперкомпьютере НИУ ВШЭ // RuSCDays, 2023
Рисунки
Рис. 2. Страница вычислительной задачи пользователя с выделенными ресурсами и графиками
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.