• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Планирование и отслеживание объема вычислительных ресурсов на проект

При формировании заявки на регистрацию нового проекта для доступа к суперкомпьютеру НИУ ВШЭ, необходимо указать требуемый объем вычислительных ресурсов. Указанный объем ресурсов будет делиться на всех участников проекта.

Максимальный объем ресурсов на проект зависит от публикационной активности руководителя проекта и выражается в Уровне доступа. Подробнее об уровнях доступа см. Решение НТС СКК.
  1. Дисковый объём - пространство на параллельной системе хранения данных суперкомпьютера, доступное для выполнения вычислений по проекту и хранения файлов, необходимых для текущих расчетов.
  2. Квота часов GPU - доступное количество часов GPU, которые будут использованы при выполнении задач на суперкомпьютере. В вычислительных узлах суперкомпьютера установлено от 4 до 8 GPU. Час работы GPU - это час использования одного отдельного GPU. Если используется, например, 8 GPU, то за астрономический час тратится 8 GPU-часов.
  3. Квота ядро-часов CPU - доступное количество ядро-часов, которые могут будыть использованы при выполнении задач на суперкомпьютере. В вычислительных узлах суперкомпьютера НИУ ВШЭ установлено по 2 процессора. В каждом из них от 22 до 64 ядер, в зависимости от типа. Ядро-час - это час использования одного ядра процессора. Например, вычислительная задача, запущенная на 48 процессорных ядрах, будет за каждый астрономический час потреблять 48 ядро-часов CPU.

Важно

  • Ресурсы выделяются не монопольно, а в течение всего срока проекта в порядке очередности. Например, если попытаться в последний день проекта взять все неизрасходованные ресурсы проекта, это не получится, т.к. на суперкомпьютере одновременно выполняются сотни вычислений и загрузка близка к предельной.
  • Любой из участников проекта может исчерпать общий объем ресурсов, отведенный на проект. Руководитель проекта должен контролировать работу своих исполнителей. На странице проекта в системе HPC TaskMaster отображается статистика по каждому участнику проекта.
  • Подсчёт использованного машинного времени начинается с момента запуска задачи на вычислительном узле.
  • Выделенные, но простаивающие задачи (salloc, JupyterHub и т.п.), также расходуют общую квоту проекта.
  • Неизрасходованные ресурсы не переносятся в другие проекты.

Проверка доступного объёма ресурсов

Посмотреть текущий остаток квот на ресурсы можно следующим образом:
  1. На странице проекта в системе HPC TaskMaster: https://lk.hpc.hse.ru/projects/

  2. В интерфейсе JupyterHub на странице запуска задачи https://jupyter.hpc.hse.ru/hub/spawn

  3. В консоли суперкомпьютера командами checkquota или mp

Общий переподсчёт использованного машинного времени осуществляется раз в день. Очередь задач отслеживает квоты более точно и проверяет их при каждой постановке задачи в очередь. Если задача, по расчётам очереди Slurm, не может быть завершена в пределах оставшейся квоты, то будет показано сообщение об ошибке:

При расчётах учитываются как запрошенные ресурсы, так и задачи уже находящиеся/выполняющиеся в очереди.
В случае исчерпания утверждённых на проект лимитов, задачи участников проекта могут остановиться в очереди со статусом AssocGrpCPUMinutesLimit или AssocGrpGRESMinutes.

Что делать, в случае исчерпания доступных лимитов?

В случае исчерпания утвержденных лимитов, есть несколько путей.

  1. Досрочный отчет по проекту, подача заявки на новый проект, закрытие старого проекта. Досрочное завершение проекта не отменяет необходимости написания отчета и достижения утвержденных показателей проекта. Управление проектом производится в едином личном кабинете. Досрочное закрытие проекта можно запросить через форму техподдержки.
  2. Переход участников завершившегося проекта в другие проекты. Обновление списков участников выполняется руководителями проектов самостоятельно на их усмотрение.
  3. Пользователи суперкомпьютера могут участвовать в нескольких проектах. При запуске задач через консоль, нужно указывать, к какому проекту относится задача (-A proj_ID). ID можно узнать открыв список проектов. В JupyterHub название проекта выбирается из списка.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.