• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

История изменений конфигурации суперкомпьютера "cHARISMa" НИУ ВШЭ

На данной странице протоколируются только наиболее существенные изменения конфигурации

Обновления во 2 квартале 2022 года

  • Обновлены ядро и релиз ОС на управляющих и вычислительных узлах.
  • Установлены новые версии драйверов NVIDIA и фреймворка CUDA 11.7.
  • Установлены новые версии драйверов Mellanox и программный стек вычислительной сети InfiniBand.
  • Обновлён клиент файловой системы Lustre: скорость записи файлов увеличена на 11%.
  • Обновлено микропрограммное обеспечение управляющих и вычислительных узлов.
  • Обновлено системное программное обеспечение на управляющих узлах.

Обновления в 1 квартале 2022 года
  • В два раза увеличена скорость сети между суперкомпьютером и основным кампусом на Покровском бульваре, и в 4 раза - в Строгино.
  • Устранены узкие места в сети, что повысило скорость доступа из Интернета.
  • Организовано резервирование сетей. Обеспечена защита сети управления.
  • Создана резервная копия данных и настроек суперкомпьютера.

Обновления в 4 квартале 2021 года
  • Установлена новая версия контейнерной платформы Singularity.
  • Установлена новая версия программного пакета Anaconda.
  • Выполнено развёртывание системы JupyterHub для запуска Jupyter-ноутбуков на вычислительных узлах суперкомпьютера.
  • Установлена новая версия GROMACS.
  • Установлен программный пакет Quantum Espresso.

Обновления в 3 квартале 2021 года
  • Проведена модернизация суперкомпьютера: добавлено шесть мощнейших вычислительных узлов HPE Apollo 6500 Gen10+ со 128 ядрами, 1ТБ ОЗУ и восемью графическими процессорами NVIDIA A100 80GB SXM в каждом.
  • Модернизирована управляющая коммуникационная сеть и установлен сервер резервного копирования, выполнен плановый ремонт управляющего сервера параллельной системы хранения данных.
  • Обновлено встроенное программное обеспечение всех коммутаторов и InfiniBand адаптеров вычислительной коммуникационной сети.
  • Обновлен планировщик задач SLURM и ключевые версии интерфейса управления процессами PMIx.
  • Установлены новые версии драйверов NVIDIA и фреймворка CUDA.
  • Разработана базовая версия сервиса «Личный кабинет пользователя суперкомпьютера». Сервис позволит существенно упростить работу на суперкомпьютере и таким образом привлечь дополнительных пользователей.
  • Проведено обновление версий микропрограммного обеспечения оборудования суперкомпьютерного комплекса.
  • Выполнена реконфигурация сетевого оборудования с целью повышения надежности и производительности локальной сети.

Обновления во 2 квартале 2021 года
  • Разработана предварительная версия HPC TaskMaster - системы обнаружения неэффективных и некорректно запущенных вычислительных задач на суперкомпьютере.
  • Доработан и утверждён регламент доступа к суперкомпьютерному комплексу НИУ ВШЭ.
  • Установлен программный пакет Intel oneAPI 2021 Update 2
  • Расширен функционал вспомогательных утилит checkquota, nodetypes и т.д.

Обновления в 1 квартале 2021 года
  • Проведена перерегистрация проектов и пользователей суперкомпьютерного комплекса НИУ ВШЭ.
  • Разработана базовая система ограничений для пользователей суперкомпьютера (сотрудники и студенты теперь имеют разные лимиты на использование ресурсов).
  • Установлен и настроен демонстраницонный сервер с графическими ускорителями NVIDIA A100 для проведения тестирования.

Обновления от октября-декабря 2020 г.

 В суперкомпьютер добавлено 14 новых узлов.


Обновления от 30 сентября 2020 г.
  • Обновлена версия планировщика SLURM до новейшей версии 20.02.
  • Обновлены пакеты pmix (версии 2.2.4, 3.1.5).
  • Улучшены принципы формирования приоритетов задач.

Обновления от мая - августа 2020 г.
  • Реализована возможность просмотра квот на дисковое пространство с помощью команды checkquota.
  • Установлено окружение для выполнения расчётов на языке программирования R версий 3.6.1 и 4.0.2.
  • Установлены компиляторы GNU Compilers Collection версии: 10.1.0 (поддержка GO и -std=c++20) и 9.3.0 (поддержка GO и -std=c++17).
  • Установлены программные пакеты MATLAB, BEAST, IQ-TREE, GNU Octave и библиотеки OpenPose, BEAGLElibsndfile1PRIMME MAGMA .
  • Установлен программный тулбокс NVIDIA HPC SDK 20.7.
  • Обновлены драйверы для NVIDIA Tesla V100 до версии 450.51.06.
  • Обновлен пакет NV_peer_memory для multi-GPU задач до версии 1.10.
  • Установлена CUDA 11.0 Update 1.

Обновления от 30 апреля 2020 г.
  • Переработаны механизмы определения GPU на вычислительных узлах: теперь без явного выделения (ключи -G, --gpus) нельзя получить доступ к утилитам, использующим GPU (например, nvidia-smi и т.д.).
  • Режим file-locking'а теперь доступен и на логин-сервере: программы, требующие данный режим (sqlite, ipython, nvprof, и тд), теперь могут корректно выполнять операции ввода-вывода.
  • В тестовом режиме введен самостоятельно разработанный plugin для SLURM для анализа распределения процессов по вычислительным узлам. Теперь пользователи будут получать уведомления при запросе такого количества ядер, которое приведёт к блокировке GPU на вычислительных узлах.
  • Обновлено программное обеспечение от производителя аппаратной части логин-сервера.

Обновления от 31 марта 2020 г.
  • Удалены все очереди, за исключением normal. Пользователям необходимо удалить ключ --partition (или -p) в своих скрипт-файлах sbatch.
  • Переработаны механизмы постановки задач SLURM на вычислительные узлы для корректного определения ресурсов в случае запусков через ssh и salloc.
  • Режим file-locking'а теперь доступен для домашних директорий (пока только на узлах): программы, требующие данный режим (sqlite, ipython, nvprof, и тд), теперь могут корректно выполнять операции ввода-вывода.
  • Обновлён пакет Intel® Parallel Studio XE Cluster Edition for Linux 2020 до версии Update 1. Добавлен соответствующий модуль: INTEL/parallel_studio_xe_2020_u1_ce

Обновления от 17 марта 2020 г.
  • Измененение конфигурации очередей. В очереди normal теперь время расчёта по умолчанию составляет 1 день. Максимальное время - 30 дней. Для указания максимального времени при запуске задачи используйте ключ --time=дни-часы:минуты:секунды. Все остальные очереди, кроме normal, будут удалены во время профилактики 31.03.2020 г.
  • Установлен пакет программ для моделирования физико-химических процессов в молекулярной динамике GROMACS с поддержкой GPU и MPI. Для использования подключите модуль GROMACS/2019.6.

Обновления от 28 февраля 2020 г.
  • Драйверы GPU обновлены до последней версии - 440.33.01, теперь версии CUDA 10.1 и 10.2 доступны к использованию.
  • Добавлен модуль CUDA/10.2 (CUDA10.2 также добавлена непосредственно в ОС каждого вычислительного узла).

Обновления от 11 февраля 2020 г.
  • Установлен программный пакет Intel Parallel Studio XE Cluster Edition for Linux 2020. Добавлены модули INTEL/parallel_studio_xe_2020_ce и INTEL/parallel_studio_xe_2018_u2_ce.
  • Установлен программный пакет Anaconda. Добавлены модули Python/Anaconda_v10.2019 и Python/Miniconda_v4.7.12.1.
  • Установлены библиотеки и добавлены модули CUDA/10.0, OpenBlas/v0.2.20, OpenBlas/v0.3.0, OpenBlas/v0.3.7, CNpy/1.0.

Обновления от 15 января 2020 г.
  • Исправлена ошибка, мещающая корректному поведению планировщика при работе c srun и --wrap (error: invalid generic resource (gres) specification).
  • Теперь при запуске задач, не требущих GPU, флаг --gres (--gres=none, --gres=gpu) указывать не нужно.
  • Для запуска srun доступны новые интерфейсы (--mpi=...): pmix_v1, pmix_v2 и pmix_v3 (v1=v1.2.5; v2=2.2.3; v3=v3.1.4).

Обновления от 27 декабря 2019 г.
  • Обновлен планировщик задач SLURM до версии 19.05.5 и изменен plugin планирования GPU.
    Теперь при запуске задач доступны новые флаги:
    • --gpus (или -G) - количество GPU для задачи,теперь аналогично CPU
    • --gpus-per-node - количество GPU на каждый выделенный узел;
    • --gpus-per-task - количество GPU на подзадачу;
    • --cpus-per-gpu - количество CPU на каждый выделенный GPU;
    • --gpu-bind - привязка задач к указанным/ближайшим GPU;
    • --accel-bind=g - привязка задачи к ближайшей выделенному CPU GPU;
  • Для задач, не использующих GPU и запускаемых через обертку srun в sbatch (--wrap или скипт-файл теперь нужно использовать --gres=none)
  • pmix обновлен с 2.1.4 до 2.2.2, ведутся работы по наладке v3.1.4.

Обновления от 29 ноября 2019 г.
  • Внедрена централизованная система авторизации LDAP.
  • Улучшена политика групп UNIX, позволяющая формировать группы по проектам.
  • GNU C Library (glibc) обновлена до версии 2.17-292.

Обновления от 31 октября 2019 г.

  • Оптимизация настроек планировщика с точки зрения распределения задач по узлам: теперь задачи нескольких пользователей могут работать на одном вычислительном узле, если ресурсов достаточно.
  • Настройка правил безопастности, в частности запрет использования вычислительных узлов в обход планировщика.
  • Очистка ОС вычислительных узлов от ненужных процессов.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.