The Well : Масштабная коллекция физических симуляций для машинного обучения

The Well : Масштабная коллекция физических симуляций для машинного обучения. The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых. Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом. Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования. Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах , где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование. The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face , что позволяет получать данные напрямую через интернет. Установка и пример использования c HF: python -m venv path/to/env source path/to/env/activate/bin git clone cd the_well pip install . from import WellDataset from import DataLoader trainset = WellDataset( well_base_path=“hf://datasets/polymathic-ai/“, well_dataset_name=“active_matter“, well_split_name=“train“, ) train_loader = DataLoader(trainset) for batch in train_loader: ... Лицензирование кода : BSD-3-Clause License. Лицензирование датасетов : CC-BY-4.0 License. Страница проекта Коллекция на HF Demo Arxiv GitHub
Back to Top