История изменений конфигурации суперкомпьютера "cHARISMa" НИУ ВШЭ
На данной странице протоколируются только наиболее существенные изменения конфигурации
Обновления в 2024 году
- В кластер добавлены 2 новых вычислительных узла типа F с двумя современными графическими ускорителями NVIDIA H100 80 ГБ PCIe в кажом.
- Удвоен объём оперативной памяти на узлах типа D.
- Установлено новое программное обеспечение - Elegant, Amber, DeepMD-Kit, Smilei, ml-agents.
- Обновлена версия MATLAB Full Suite до R2024a.
- По заявкам пользователей обновлён каталог с популярными датасетами.
- Обновлено микропрограммное обеспечение управляющих и вычислительных узлов.
- Проведена полная замена аккумуляторов системы бесперебойного электропитания (3,5 тонны).
Обновления в 2023 году
- Установлено новое программное обеспечение - Abinit, Stata, Julia, Apertium, CP2K, schmutzi.
- Установлена новая версия MATLAB, OpenMPI.
- Установлены новые версии драйверов NVIDIA и фреймворка CUDA 12.2.
- Обновлён планировщик задач SLURM до версии 23.02.
- Подготовлен каталог с популярными датасетами.
- Внедрены технологии GPUDirect Copy и GPUDirect RDMA. Скорость обмена данными с GPU увеличилась до 238%, а задержка при передаче данных снизилась до 7 раз.
- Обновлено микропрограммное обеспечение управляющих и вычислительных узлов.
- Организовано подключение к исследовательской коммуникационной сети НИКС.
Обновления в 3-4 кварталах 2022 года
- Внедрена система мониторинга эффективности задач суперкомпьютера - HPC TaskMaster.
- Установлено новое программное обеспечение - LAMMPS, fMRIPrep.
- Обновлены версии программного обеспечения - GROMACS.
- Подготовлены окружения Python с набором наиболее часто используемых модулей - PyTorch, TensorFlow, Google Colab.
- Выполнена замена двух прецизионных кондиционеров в помещении суперкомпьютерного комплекса.
Обновления во 2 квартале 2022 года
- Обновлены ядро и релиз ОС на управляющих и вычислительных узлах.
- Установлены новые версии драйверов NVIDIA и фреймворка CUDA 11.7.
- Установлены новые версии драйверов Mellanox и программный стек вычислительной сети InfiniBand.
- Обновлён клиент файловой системы Lustre: скорость записи файлов увеличена на 11%.
- Обновлено микропрограммное обеспечение управляющих и вычислительных узлов.
- Обновлено системное программное обеспечение на управляющих узлах.
Обновления в 1 квартале 2022 года
- В два раза увеличена скорость сети между суперкомпьютером и основным кампусом на Покровском бульваре, и в 4 раза - в Строгино.
- Устранены узкие места в сети, что повысило скорость доступа из Интернета.
- Организовано резервирование сетей. Обеспечена защита сети управления.
- Создана резервная копия данных и настроек суперкомпьютера.
Обновления в 4 квартале 2021 года
- Установлена новая версия контейнерной платформы Singularity.
- Установлена новая версия программного пакета Anaconda.
- Выполнено развёртывание системы JupyterHub для запуска Jupyter-ноутбуков на вычислительных узлах суперкомпьютера.
- Установлена новая версия GROMACS.
- Установлен программный пакет Quantum Espresso.
Обновления в 3 квартале 2021 года
- Проведена модернизация суперкомпьютера: добавлено шесть мощнейших вычислительных узлов HPE Apollo 6500 Gen10+ со 128 ядрами, 1ТБ ОЗУ и восемью графическими процессорами NVIDIA A100 80GB SXM в каждом.
- Модернизирована управляющая коммуникационная сеть и установлен сервер резервного копирования, выполнен плановый ремонт управляющего сервера параллельной системы хранения данных.
- Обновлено встроенное программное обеспечение всех коммутаторов и InfiniBand адаптеров вычислительной коммуникационной сети.
- Обновлен планировщик задач SLURM и ключевые версии интерфейса управления процессами PMIx.
- Установлены новые версии драйверов NVIDIA и фреймворка CUDA.
- Разработана базовая версия сервиса «Личный кабинет пользователя суперкомпьютера». Сервис позволит существенно упростить работу на суперкомпьютере и таким образом привлечь дополнительных пользователей.
- Проведено обновление версий микропрограммного обеспечения оборудования суперкомпьютерного комплекса.
- Выполнена реконфигурация сетевого оборудования с целью повышения надежности и производительности локальной сети.
Обновления во 2 квартале 2021 года
- Разработана предварительная версия HPC TaskMaster - системы обнаружения неэффективных и некорректно запущенных вычислительных задач на суперкомпьютере.
- Доработан и утверждён регламент доступа к суперкомпьютерному комплексу НИУ ВШЭ.
- Установлен программный пакет Intel oneAPI 2021 Update 2
- Расширен функционал вспомогательных утилит checkquota, nodetypes и т.д.
Обновления в 1 квартале 2021 года
- Проведена перерегистрация проектов и пользователей суперкомпьютерного комплекса НИУ ВШЭ.
- Разработана базовая система ограничений для пользователей суперкомпьютера (сотрудники и студенты теперь имеют разные лимиты на использование ресурсов).
- Установлен и настроен демонстраницонный сервер с графическими ускорителями NVIDIA A100 для проведения тестирования.
Обновления от октября-декабря 2020 г.
В суперкомпьютер добавлено 14 новых узлов.
- Внедрена система регистрации пользователей суперкомпьютера в личном кабинете.
- Внедрён дополнительный параметр для постановки задач в очереди - тип узлов. Разработана утилита nodetypes для их отображения.
- Обновлены программные пакеты R 4.0.3, BEAST 2, MATLAB r2020b, Intel Parallel Studio Cluster Edition 2020 Update 4
- Установлены программные пакеты: JAGS, EEGLAB.
Обновления от 30 сентября 2020 г.
- Обновлена версия планировщика SLURM до новейшей версии 20.02.
- Обновлены пакеты pmix (версии 2.2.4, 3.1.5).
- Улучшены принципы формирования приоритетов задач.
Обновления от мая - августа 2020 г.
- Реализована возможность просмотра квот на дисковое пространство с помощью команды checkquota.
- Установлено окружение для выполнения расчётов на языке программирования R версий 3.6.1 и 4.0.2.
- Установлены компиляторы GNU Compilers Collection версии: 10.1.0 (поддержка GO и -std=c++20) и 9.3.0 (поддержка GO и -std=c++17).
- Установлены программные пакеты MATLAB, BEAST, IQ-TREE, GNU Octave и библиотеки OpenPose, BEAGLE, libsndfile1, PRIMME, MAGMA .
- Установлен программный тулбокс NVIDIA HPC SDK 20.7.
- Обновлены драйверы для NVIDIA Tesla V100 до версии 450.51.06.
- Обновлен пакет NV_peer_memory для multi-GPU задач до версии 1.10.
- Установлена CUDA 11.0 Update 1.
Обновления от 30 апреля 2020 г.
- Переработаны механизмы определения GPU на вычислительных узлах: теперь без явного выделения (ключи -G, --gpus) нельзя получить доступ к утилитам, использующим GPU (например, nvidia-smi и т.д.).
- Режим file-locking'а теперь доступен и на логин-сервере: программы, требующие данный режим (sqlite, ipython, nvprof, и тд), теперь могут корректно выполнять операции ввода-вывода.
- В тестовом режиме введен самостоятельно разработанный plugin для SLURM для анализа распределения процессов по вычислительным узлам. Теперь пользователи будут получать уведомления при запросе такого количества ядер, которое приведёт к блокировке GPU на вычислительных узлах.
- Обновлено программное обеспечение от производителя аппаратной части логин-сервера.
Обновления от 31 марта 2020 г.
- Удалены все очереди, за исключением normal. Пользователям необходимо удалить ключ --partition (или -p) в своих скрипт-файлах sbatch.
- Переработаны механизмы постановки задач SLURM на вычислительные узлы для корректного определения ресурсов в случае запусков через ssh и salloc.
- Режим file-locking'а теперь доступен для домашних директорий (пока только на узлах): программы, требующие данный режим (sqlite, ipython, nvprof, и тд), теперь могут корректно выполнять операции ввода-вывода.
- Обновлён пакет Intel® Parallel Studio XE Cluster Edition for Linux 2020 до версии Update 1. Добавлен соответствующий модуль: INTEL/parallel_studio_xe_2020_u1_ce
Обновления от 17 марта 2020 г.
- Измененение конфигурации очередей. В очереди normal теперь время расчёта по умолчанию составляет 1 день. Максимальное время - 30 дней. Для указания максимального времени при запуске задачи используйте ключ --time=дни-часы:минуты:секунды. Все остальные очереди, кроме normal, будут удалены во время профилактики 31.03.2020 г.
- Установлен пакет программ для моделирования физико-химических процессов в молекулярной динамике GROMACS с поддержкой GPU и MPI. Для использования подключите модуль GROMACS/2019.6.
Обновления от 28 февраля 2020 г.
- Драйверы GPU обновлены до последней версии - 440.33.01, теперь версии CUDA 10.1 и 10.2 доступны к использованию.
- Добавлен модуль CUDA/10.2 (CUDA10.2 также добавлена непосредственно в ОС каждого вычислительного узла).
Обновления от 11 февраля 2020 г.
- Установлен программный пакет Intel Parallel Studio XE Cluster Edition for Linux 2020. Добавлены модули INTEL/parallel_studio_xe_2020_ce и INTEL/parallel_studio_xe_2018_u2_ce.
- Установлен программный пакет Anaconda. Добавлены модули Python/Anaconda_v10.2019 и Python/Miniconda_v4.7.12.1.
- Установлены библиотеки и добавлены модули CUDA/10.0, OpenBlas/v0.2.20, OpenBlas/v0.3.0, OpenBlas/v0.3.7, CNpy/1.0.
Обновления от 15 января 2020 г.
- Исправлена ошибка, мещающая корректному поведению планировщика при работе c srun и --wrap (error: invalid generic resource (gres) specification).
- Теперь при запуске задач, не требущих GPU, флаг --gres (--gres=none, --gres=gpu) указывать не нужно.
- Для запуска srun доступны новые интерфейсы (--mpi=...): pmix_v1, pmix_v2 и pmix_v3 (v1=v1.2.5; v2=2.2.3; v3=v3.1.4).
Обновления от 27 декабря 2019 г.
- Обновлен планировщик задач SLURM до версии 19.05.5 и изменен plugin планирования GPU.
Теперь при запуске задач доступны новые флаги:- --gpus (или -G) - количество GPU для задачи,теперь аналогично CPU
- --gpus-per-node - количество GPU на каждый выделенный узел;
- --gpus-per-task - количество GPU на подзадачу;
- --cpus-per-gpu - количество CPU на каждый выделенный GPU;
- --gpu-bind - привязка задач к указанным/ближайшим GPU;
- --accel-bind=g - привязка задачи к ближайшей выделенному CPU GPU;
- Для задач, не использующих GPU и запускаемых через обертку srun в sbatch (--wrap или скипт-файл теперь нужно использовать --gres=none)
- pmix обновлен с 2.1.4 до 2.2.2, ведутся работы по наладке v3.1.4.
Обновления от 29 ноября 2019 г.
- Внедрена централизованная система авторизации LDAP.
- Улучшена политика групп UNIX, позволяющая формировать группы по проектам.
- GNU C Library (glibc) обновлена до версии 2.17-292.
Обновления от 31 октября 2019 г.
- Оптимизация настроек планировщика с точки зрения распределения задач по узлам: теперь задачи нескольких пользователей могут работать на одном вычислительном узле, если ресурсов достаточно.
- Настройка правил безопастности, в частности запрет использования вычислительных узлов в обход планировщика.
- Очистка ОС вычислительных узлов от ненужных процессов.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.