Планирование и отслеживание объема вычислительных ресурсов на проект
При формировании заявки на регистрацию нового проекта для доступа к суперкомпьютеру НИУ ВШЭ, необходимо указать требуемый объем вычислительных ресурсов. Указанный объем ресурсов будет делиться на всех участников проекта.
Максимальный объем ресурсов на проект зависит от публикационной активности руководителя проекта и выражается в Уровне доступа. Подробнее об уровнях доступа см. Решение НТС СКК.- Дисковый объём - пространство на параллельной системе хранения данных суперкомпьютера, доступное для выполнения вычислений по проекту и хранения файлов, необходимых для текущих расчетов.
- Квота часов GPU - доступное количество часов GPU, которые будут использованы при выполнении задач на суперкомпьютере. В вычислительных узлах суперкомпьютера установлено от 4 до 8 GPU. Час работы GPU - это час использования одного отдельного GPU. Если используется, например, 8 GPU, то за астрономический час тратится 8 GPU-часов.
- Квота ядро-часов CPU - доступное количество ядро-часов, которые могут будыть использованы при выполнении задач на суперкомпьютере. В вычислительных узлах суперкомпьютера НИУ ВШЭ установлено по 2 процессора. В каждом из них от 22 до 64 ядер, в зависимости от типа. Ядро-час - это час использования одного ядра процессора. Например, вычислительная задача, запущенная на 48 процессорных ядрах, будет за каждый астрономический час потреблять 48 ядро-часов CPU.
Важно
- Ресурсы выделяются не монопольно, а в течение всего срока проекта в порядке очередности. Например, если попытаться в последний день проекта взять все неизрасходованные ресурсы проекта, это не получится, т.к. на суперкомпьютере одновременно выполняются сотни вычислений и загрузка близка к предельной.
- Любой из участников проекта может исчерпать общий объем ресурсов, отведенный на проект. Руководитель проекта должен контролировать работу своих исполнителей. На странице проекта в системе HPC TaskMaster отображается статистика по каждому участнику проекта.
- Подсчёт использованного машинного времени начинается с момента запуска задачи на вычислительном узле.
- Выделенные, но простаивающие задачи (salloc, JupyterHub и т.п.), также расходуют общую квоту проекта.
- Неизрасходованные ресурсы не переносятся в другие проекты.
Проверка доступного объёма ресурсов
Посмотреть текущий остаток квот на ресурсы можно следующим образом:- На странице проекта в системе HPC TaskMaster: https://lk.hpc.hse.ru/projects/
- В интерфейсе JupyterHub на странице запуска задачи https://jupyter.hpc.hse.ru/hub/spawn
- В консоли суперкомпьютера командами checkquota или mp
Общий переподсчёт использованного машинного времени осуществляется раз в день. Очередь задач отслеживает квоты более точно и проверяет их при каждой постановке задачи в очередь. Если задача, по расчётам очереди Slurm, не может быть завершена в пределах оставшейся квоты, то будет показано сообщение об ошибке:
При расчётах учитываются как запрошенные ресурсы, так и задачи уже находящиеся/выполняющиеся в очереди.
В случае исчерпания утверждённых на проект лимитов, задачи участников проекта могут остановиться в очереди со статусом AssocGrpCPUMinutesLimit или AssocGrpGRESMinutes.
Что делать, в случае исчерпания доступных лимитов?
В случае исчерпания утвержденных лимитов, есть несколько путей.
- Досрочный отчет по проекту, подача заявки на новый проект, закрытие старого проекта. Досрочное завершение проекта не отменяет необходимости написания отчета и достижения утвержденных показателей проекта. Управление проектом производится в едином личном кабинете. Досрочное закрытие проекта можно запросить через форму техподдержки.
- Переход участников завершившегося проекта в другие проекты. Обновление списков участников выполняется руководителями проектов самостоятельно на их усмотрение.
- Пользователи суперкомпьютера могут участвовать в нескольких проектах. При запуске задач через консоль, нужно указывать, к какому проекту относится задача (-A proj_ID). ID можно узнать открыв список проектов. В JupyterHub название проекта выбирается из списка.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.