Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы

Гость: Влад Гоцуляк. Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции для студентов кафедры БИТ в МФТИ по big data. Содержание выпуска — Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить. — Из каких источников в систему приходят сырые данные. — Куда данные сохраняются и в каком виде. — Как предварительно обрабатываются и готовятся данные. — Как отбираются данные для обработки и анализа. — Как происходит анализ в DS и чем он отличается от традиционной аналитики. — Какие решения и инструменты существуют для анализа и изучения данных в data science. — Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное. — Чем занимается отдел data science. Какие роли связаны с data science. — Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться. — Насколько data science — это программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков. — Какие языки и для каких задач используются. — Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры. — Какие зарплаты, специализации и перспективы в data science. Полезные ссылки Apache Spark Apache Hadoop Язык программирования Scala Amazon Simple Storage Service (S3) Redis MLflow CI/CD Apache Kafka Debezium Micro Batching Витрина данных Слои в data science REST API Модель вычислений MapReduce Google File System HDFS Захват изменения данных Apache NiFi Nginx Apache Airflow Dimensional modeling Сайт-тренажёр «Книга с кабанчиком» Codewars LeetCode YouTube-канал «Диджитализируй!» Марк Лутц. «Изучаем Python» Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора» Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: @, Стартовать в программировании вместе со Skillbox: Наш подкаст удобно слушать на популярных платформах: Castbox: «Яндекс Музыка»: Apple Podcasts: Google Podcasts: Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Back to Top