Датасеты

👉Вернуться к списку инструкций

Для экономии дискового пространства, общеизвестные датасеты не дублируются в каталогах пользователей, а размещаются в общей директории:

/opt/software/datasets

На текущий момент, в общей директории уже размещены (по запросам пользователей) следующие датасеты:

Stanford ImageNET (ILSVRC 2014-2017), Cars - 1.9 ГБ, CheXpert: Chest X-rays - 440 ГБ
Stanford ScanNet – 1.6 ТБ
University of Toronto CIFAR-10, CIFAR-100 - 0.7 ГБ
University of Edinburgh CINIC-10 - 1.2 ГБ
Caltech 101, 256 - 1.4 ГБ
Oxford Describable Textures Dataset (DTD), FGVC-Aircraft, 102 Category Flower, IIIT Pet - 4.6 ГБ
OpenSLR LibriSpeech ASR corpus SLR12 - 62 ГБ, Russian LibriSpeech – 11 ГБ
Rotterdam EyePACS AIROGS train set - 62 ГБ
ETH Zürich Food-101 - 5 ГБ
HaGRID Hand Gesture Recognition Image Dataset (тестовая выборка) - 57 ГБ
Huawei ONCE Dataset - 63 ГБ
Waymo Open Perception Dataset 1.4.2 - 761 ГБ
TUM WeatherBench - 5 ТБ (в другой директории, доступ по запросу)
SberDevices Dusha – 59 ГБ, Golos – 21 ГБ (сжатый формат .opus), 102ГБ (без сжатия .wav)
SigSep MUSDB18-HQ - 30 ГБ
Mozilla Common Voice Corpus 21.0 RU – 7.2 ГБ
Music AI MoisesDB - 139 ГБ
SenseTime Research CelebAMask-HQ - 4.2 ГБ
Microsoft COCO (Detection 2020) - 48 ГБ

Если Вам необходим другой датасет для вашего проекта, создайте заявку. Мы оперативно скачаем и разместим новые датасеты в эту же директорию, чтобы они стали доступны всем пользователям и не дублировались в домашних директориях.

Пример использования

Укажите в качестве источника директорию с интересующим вас датасетом. Не копируйте датасет к себе.
В качестве примера приведен sbatch-скрипт для запуска обучения модели для системы OpenPose:

#!/bin/bash
#SBATCH --job-name=openpose             # Название задачи
#SBATCH --error=openpose-%j.err         # Файл для вывода ошибок
#SBATCH --output=openpose-%j.log        # Файл для вывода результатов
#SBATCH --time=1:00:00                  # Максимальное время выполнения
#SBATCH --ntasks 1                      # Количество MPI процессов
#SBATCH --nodes 1                       # Требуемое кол-во узлов
#SBATCH --gpus 1                        # Требуемое кол-во GPU

module load OpenPose/1.6                # Загрузка модуля OpenPose
# Выполнение обучения ИНС на 1 ядре CPU и 1 GPU
srun openpose.bin -display 0 -image_dir /opt/software/datasets/openpose/v1.6-examples-media -model_folder $MODELS_DIR -write_images ./

Для постановки этой тестовой задачи в очередь выполните команду sbatch openpose.sbatch

Полезные ссылки:
1. Инструкция Пример обучения нейронной сети с использованием PyTorch

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Отдел суперкомпьютерного моделирования

Датасеты