• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Инструкция по работе с системой HPC TaskMaster

Страница проекта HPC TaskMaster

1.  Знакомство с HPC TaskMaster

HPC TaskMaster – система мониторинга эффективности задач суперкомпьютера, разработанная отделом суперкомпьютерного моделирования НИУ ВШЭ специально для суперкомпьютера «cHARISMa». Данная система призвана помочь пользователям корректно выполнять расчеты, а также предоставить детальный отчет о работе задачи. Благодаря данной системе, удается обнаруживать неэффективные и некорректно запущенные задачи пользователей, проводить консультации, а также освобождать до 10% вычислительных ресурсов для корректных задач.

Система HPC TaskMaster доступна для всех пользователей в Личном кабинете пользователя суперкомпьютера. Авторизация в данной системе происходит с учетными данными от единого личного кабинета НИУ ВШЭ.

1

Рис. 1. Главная страница личного кабинета пользователя суперкомпьютера

 

Система HPC TaskMaster располагается в разделе «Мои вычисления». Разверните «Список задач», чтобы открыть в новом окне завершенные или выполняющиеся задачи.

Также, Вам доступна статистика запуска ваших расчетов в соответствующей вкладке.


2. Список задач

Выберите «Завершенные» или «Выполняющиеся» задачи из «Списка задач», чтобы перейти на страницу со своими задачами. Если Вы являетесь руководителем проекта, то Вам также будут доступны для просмотра все задачи участников проекта. Их можно увидеть, очистив фильтр в поле «Пользователь».

2

Рис. 2. Страница «Мои задачи»

 

На данной странице списком отображаются задачи, относящиеся к вашему проекту. Нажмите на любую задачу из списка для перехода на страницу подробного отчета о ней.

В колонках таблицы указаны ID, состояние, название, пользователь (если Вы руководитель), время старта, время завершения, количество узлов, ядер CPU, GPU, а также список потенциальных проблем, обнаруженных системой. При наведении на иконку «проблемы» отображаются ее подробности.

Задачи можно сортировать по нажатию на название колонки. Также, доступен поиск по списку в правом верхнем углу.

По умолчанию на странице отображается 30 записей, но Вы можете увеличить это значение вплоть до 250. Внизу списка также отображается общее количество задач и страниц.


3. Отчет о задаче

Нажав на интересующую вас задачу левой кнопкой мыши или колесиком, Вы увидите подробный отчет о задаче. В верхней части страницы указана общая информация о задаче, а справа результаты анализа системы HPC TaskMaster. Результат анализа состоит из трех частей:

·      Индикаторов, которые свидетельствуют о низком использовании  компонентов суперкомпьютера;

·      Тегов, которые описывают свойства системы (например, задача относится к типу “srun/salloc”), индикаторы не всегда несут негативный характер;

·      Выводов, которые делаются на основе собранных индикаторов и тегов.

Выводы призваны помочь Вам определить, в чем заключается проблема с работой задачи, которую обнаружила система.

3

Рис. 3. Общая информация и результаты анализа

Выводы призваны помочь Вам определить, в чем заключается проблема с работой задачи, которую обнаружила система.

 

Далее располагается информация об агрегированных метриках задачи.

4

Рис. 4. Агрегированные метрики задачи

 

Ниже располагаются графики использования компонентов задачи. На данных графиках Вы можете увидеть:

·      загрузка каждого выделенного ядра CPU (как правило, загрузка должна быть 95-100% если загрузка ядер низкая, значит ваша задача не поддерживает параллелизм и ей не нужно столько ядер), также на этом графике Вы можете увидеть сколько процессор тратит на ожидание операций ввода-вывода (чем меньше, тем лучше);

·      загрузка GPU (чем выше, тем быстрее работает ваша задача, загрузка GPU не должна быть ниже 20% иначе задача будет отменена);

·      использование видеопамяти (чем больше данных задача разместит в очень быстрой оперативной памяти GPU, тем быстрее будет происходить их обработка),

·      энергопотребление GPU (для общей информации),

·      использование оперативной памяти (скорость работы оперативной памяти в тысячи раз быстрее, чем доступ к SSD, поэтому, чем больше данных в памяти, тем быстрее будет работать задача),

·      использование оперативной памяти вашей задачей в масштабах всего вычислительного узла (на узлах нашего кластера может работать множество задач кроме вашей, каждая задача защищена от влияния других, тем не менее, данный график позволит дополнительно убедиться, что памяти вычислительного узла хватило всем задачам),

·      использование файловой системы (чем меньше обращений к файловой системе, тем быстрее будет работать программа)

·      Если ваша задача работает на нескольких вычислительных узлах, Вы также увидите график загрузки вычислительной сети InfiniBand (высокая загрузка сети свидетельствует о качественной параллельной программе).

5

Рис. 5. Графики загрузки ресурсов задачей (отрицательный пример)

 

Если задача находится в стадии выполнения, то графики для нее будут строить в режиме реального времени, что позволит Вам быстро отреагировать, если задача была запущена некорректно. Страницы задач появляются в списке «Выполняющиеся» через 5-10 минут после старта, а графики строятся по мере накопления статистики.

В качестве дополнительного функционала Вы можете:

·      Сохранить страницу в формате PDF (необходимо предварительно прокрутить страницу вниз до конца для корректного отображения графиков),

·      Скачать все доступные метрики по задаче в формате Excel для ручной обработки.


4. Типовые проблемы и их решения

В этом разделе приведены выводы, которые система HPC TaskMaster может делать о работе задач пользователей.

4.1   Неэффективное использование salloc/интерактивного режима

Данная проблема возникает, когда пользователь выделяет себе вычислительные ресурсы при помощи команды salloc или интерактивного режима, и большую часть времени не использует их.

В HPC TaskMaster данная проблема будет выглядеть следующим образом:

6

Рис. 6. Неэффективное использование srun/salloc

Признаки проблемы: низкая загрузка выделенных ресурсов для задачи, задача относится к типу srun/salloc

Решение проблемы: необходимо использовать ресурсы сразу же после их выделения и останавливать задачу после завершения расчетов при помощи команды scancel $jobid.

В случае, если задача простаивает в течение 1 часа, она будет снята системой автоматически.

 

4.2  Задача не использует одно или несколько ядер CPU/Запущена не параллельная задача

Ошибка создается путем запуска обычной (непараллельной) программы на нескольких ядрах процессора. Особенно часто эта проблема проявляется в задачах с использованием машинного обучения на Python.

7

Рис. 7. Задача не использует одно или несколько ядер CPU

 

Признаки проблемы: низкая средняя загрузка CPU, загрузка отдельных ядер около 0%.

Решение проблемы: определить, использует ли задача параллельные вычисления и отталкиваться от этого. Непараллельные задачи могут использовать только одно вычислительное ядро. Если задача параллельная, но загрузка все равно низкая, то необходимо разобраться, за счет какой технологии достигается параллелизм – MPI или OpenMP. Для MPI необходимо использовать в параметрах запуска флаг «-n» (--ntasks), который отвечает за количество процессов (Внимание! Не используйте для этих целей флаг «-c», так как он назначает количество ядер для одного процесса). Если параллелизм достигается за счет использования технологии OpenMP, то используйте флаг «-с» или «--cpus-per-task».

 

4.3   Задача не использует GPU

Данная проблема чаще всего возникает при запуске задач на Python, когда из-за неправильно настроенного окружения пользователем, его программа не видит GPU. Другой вариант, пользователь запускает программу, которая в принципе не рассчитана на поддержку GPU или неправильно скомпилирована.

8

Рис. 8. Задача не использует GPU

 

Признаки проблемы: загрузка GPU составляет 0%.

Решение проблемы: правильно настроить окружение Python согласно инструкции.


5. Статистика

Вы можете просмотреть свою статистику на соответствующей вкладке. Перейдя на страницу, Вы увидите:

·      диаграмму эффективности задач пользователя, собранную на основе выводов HPC TaskMaster,

·      диаграмму запуска задач пользователя, собранную на основе планировщика задач Slurm,

·      график средней загрузки ресурсов по последним 10 задачам,

·      график эффективности пользователя за выбранный период.

Вы можете изменить период для отображения статистики за другой временной промежуток.

Также, у вас есть возможность скачать статистику эффективности задач пользователя для самостоятельного анализа в формате Excel.

 9

Рис. 9. Статистика эффективности пользователя за выбранный промежуток времени

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.