Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms

В этом выпуске подкаста про инсайты ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. За время подкаста мы обсудили темы - Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой - Как можно строить платформы данных (централизованно, гибридно и децентрализованно) - Как выглядят принципы федерализации данных (аля data mesh) в теории - Во что этот подход превращается на практике - Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году - Что не так с классическими базами данных (Postgres и иже с ним) - Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...) - Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике - Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов - Почему облачные аналитические базы так быстры: колоночное хранение разделение storage и compute - Что такое medalion architecture - Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения Дополнительные материалы - Статья из периода работы в Avito “Vertica Anchor Modeling = запусти рост своей грибницы“ - - Статьи из периода работы в Manychat и - Запись “Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov“ - - Запись “DataVault / Anchor Modeling / Николай Голов“ - - Научная статья “Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases“ //Computer Standards & Interfaces, 09-May-2017, - Научная статья “Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem“, Computer Algebra in Scientific Computing, July 2019 Timeline: 00:00 - Знакомство с гостем 01:52 - Карьера Коли и опыт преподавания курса по базам данных 03:28 - Централизованный подход к построению дата платформ 09:34 - Гибридный подход к построению дата платформ 12:20 - Децентрализованный подход к построению дата платформ (data mesh) 14:13 - Принципы федерализации управления данными 15:07 - Переход от виртуальных концепций к реальности 16:57 - Проблемы с автономностью в стартапах 20:07 - Аналитическая репликация 22:22 - Переход к MPP базам 26:21 - Ограничения MPP баз 28:53 - Проблемы с параллельным использованием баз данных 30:41 - Примеры из практики 32:30 - Организация данных в компаниях 37:50 - Проблемы критического пути (построение зависимых дата продуктов) 41:36 - Решение проблем с помощью введения базовых доменов для уменьшения критического пути 43:01 - Гибкая модель управления данными и проблемы, что она вызывает 48:02 - Проблемы с передачей данных между системами 50:48 - Преимущества разделения compute и storage в аналитических базах 54:24 - Современные форматы хранения данных (Apache Parquet) 56:16 - Разделение compute и storage в облаке 58:09 - Medallion Architecture 59:05 - Использование Snowflake 01:00:01 - Проблемы с запросами 01:02:48 - Будущее технологий 01:08:41 - Заключение Нельзя полагаться на старые ограничения и подходы - важно выбирать оптимальные инструменты для текущих задач. Необходимо переосмысливать старые концепции и адаптироваться к новым условиям.
Back to Top