• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Домашние директории и их очистка

👉 Регистрация на суперкомпьютере
👉 Инструкции для пользователей
👉 Базовая инструкция для пользователей

Общая информация

На суперкомпьютере Харизма пользовательские данные размещаются в двух директориях:
  1. home — домашняя директория пользователя (срок хранения данных до 3 месяцев);
  2. scratch — рабочая директория для временных данных и датасетов, используемых в расчетах (срок хранения данных 1 месяц).  Данные в scratch не резервируются и могут быть удалены в любое время. Важные файлы, итоговые результаты расчетов и данные, которые необходимо сохранить, следует как можно скорее переносить на свой компьютер или в домашнюю директорию.
В соответствии с Регламентом доступа длительное хранение на суперкомпьютере данных, не используемых в текущих расчетах, не допускается. Пользователям необходимо регулярно проверять свои директории и удалять старые, временные и ненужные файлы

О директории scratch

Директория scratch расположена на массиве быстрых NVMe дисков и предназначена для краткосрочного хранения данных, с которыми пользователь работает в настоящий момент. Пользовательская директория scratch находится по пути: /scratch/$USER
Не следует использовать scratch как постоянное хранилище. Для долговременного хранения данных следует использовать персональный компьютер или домашнюю директорию (3 месяца). Временные, промежуточные и неиспользуемые данные следует регулярно удалять.

  1. Scratch используется для задач, связанных с глубоким обучением, он адаптирован для работы с миллионами маленьких файлов, из которых состоят датасеты.
  2. Для естественно-научных и инженерных вычислений scratch использовать необязательно. Кластер имеет довольно производительное хранилище home, ориентированое на работу с крупными файлами, специфичными для естественно-научных и инженерных расчетов.
  3. Не копируйте распакованные датасеты между home и scratch, это создаст высокую бесполезную нагрузку на хранилище home, неприспособленное к работе с миллионами маленьких файлов.
  4. Распаковывайте скачанные датасеты напрямую в scratch, например tar -xzvf ./датасет.tar.gz -C /scratch/$USER/datasets/ или tar -x -I lz4 -f ./датасет.tar.lz4 -C /scratch/$USER/datasets/ или unzip ./датасет.zip -d /scratch/$USER/datasets/
  5. Если нужно передать датасет обратно в home, делайте это так: tar -cvf - /scratch/$USER/datasets/ | lz4 - > ~/datasets.tar.lz4 В этом случае в home запишется один большой файл, что не создаст нагрузки.
  6. Не дублируйте себе общедоступные датасеты (наборы данных), т.к. они и так размещены на NVMe.
  7. Удаляйте лишние директории и файлы командой rm -rf путь_к_директории или rmfast путь_к_директории. Не храните файлы дольше 30 дней.

Как найти директории с неиспользуемыми файлами

Для обнаружения директорий со старыми файлами воспользуйтесь страницей "Хранилище" системы мониторинга производительности HPC TaskMaster. Проверка директорий пользователей происходит раз в квартал. Отчет о старых файлах появляется на странице, а также присылается в корпоративную почту.

Очистка директорий home и scratch

Пожалуйста, регулярно удаляйте:

- неиспользуемые датасеты и модели;
- временные файлы расчетов и промежуточные результаты;
- неиспользуемые архивы и дубликаты данных;
- кэш программ и библиотек.

Многие файлы находятся в скрытых каталогах, имена которых начинаются с точки:

~/.cache
~/.conda/
~/.local/
~/.cache/huggingface/

Например, в каталог ~/.cache/huggingface/ автоматически загружаются датасеты и модели с портала HuggingFace, где они и остаются лежать. Удаляйте, пожалуйста, неиспользуемые датасеты и модели.

Как удалить конкретные файлы и директории

Задите в терминал (подключитесь через SSH или воспользуйтесь терминалом встроенным в Jupyter Hub).
Если вы точно знаете, какие файлы или директории больше не нужны, их можно удалить вручную из командной строки. Перед удалением рекомендуется проверить содержимое директории командой:

ls -lah путь_к_директории

Для ускоренного рекурсивного удаления файлов и директорий на кластере cHARISMa разработана утилита rmfast. Ее удобно использовать вместо обычной команды rm -rf в случаях, когда нужно удалить крупную директорию. Она создает существенно меньшую нагрузку на файловую систему Lustre и поэтому работает быстрее.
Утилита rmfast доступна на новом сервере login-02 и на всех обновленных вычислительных узлах. Если команда недоступна, зайдите на новый управляющий сервер: ssh login-02
Чтобы удалить директорию со всем содержимым без подтверждений выполните в терминале:


rmfast путь_к_директории

Удаленные файлы нельзя восстановить. Не удаляйте директории, назначение которых вам неизвестно, а также внимательно проверяйте, что путь к удаляемой директории указан правильно.


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.