Автоматизация МО - - лекция + конспект от YandexGPT
Автоматизация МО - - лекция конспект от YandexGPT
00:02 Задачи инженерии данных
• Сбор и передача данных, организация сбора данных, мониторинг и анализ работы источников данных, выявление проблем в сборе и передаче данных.
• Проектирование базы данных, организация схемы хранения данных, контроль изменений в данных, использование данных при обучении модели.
05:33 Анализ данных
• Анализ имеющихся данных, исследование признаков, конструирование новых признаков для обучения модели.
• Статистическая информация о данных, хранение данных отдельно для обучения, тестирования, валидации.
10:15 Использование данных при обучении
• Улучшение качества работы модели, учет изменений в данных, ответственность за изменение источников данных.
• Версионирование элементов решения, отслеживание изменений, оценка влияния изменений на данные, тестирование результатов на отдельных этапах.
17:53 Хранилища данных и витрины данных
• Видео обсуждает различные типы хранилищ данных, включая OLTP (транзакционные) и аналитические системы.
• OLTP системы работают с конечными пользователями, в то время как аналитические системы используются для анализа и принятия решений.
• OLTP системы хранят актуальные состояния данных, в то время как аналитические системы хранят большие объемы данных для анализа.
28:11 Медленно меняющиеся измерения
• Видео обсуждает подходы к сохранению изменений в измерениях, включая нулевой, первый, второй и третий уровни.
• Нулевой уровень предполагает, что измерения не меняются, первый уровень перезаписывает значения, второй уровень создает новую запись с обновленными данными, а третий уровень хранит версию и дату актуальности.
35:53 ETL системы
• ETL системы (Extract, Transform, Load) используются для извлечения, преобразования и загрузки данных из различных источников в хранилище данных.
• Второй подход к ETL системам набирает популярность, так как он позволяет избежать ошибок, возникающих при извлечении и сохранении данных.
37:56 Проблемы на этапе трансформации данных
• Ошибки, связанные с получением и передачей информации, сбои формирования ответа на запрос, перебои в каналах передачи данных, перебой с количеством данных.
• Оценка длительности загрузки данных и приведение их к целевой модели.
42:38 Проблемы на этапе анализа данных
• Большие массивы информации и ошибки в логике могут привести к накладным расходам и трате времени.
• Использование данных, погружение в структуру для получения информации полезной для поддержки принятия решений.
47:08 Хранилища данных
• Озёра данных - хранилище больших объемов неструктурированных данных.
• Альтернатива - дата-хаус, объединение структурированных и неструктурированных данных.
• Брокер сообщений, менеджер очередей, файловая система, объектное хранилище.
56:46 Анализ данных и управление версиями
• В видео обсуждается использование специальных контейнеров (бакетов) для хранения данных разных типов и размеров.
• Бакеты могут быть доступны только определенным пользователям или группам.
• В видео также рассматривается понятие Content Delivery Network (CDN) и его использование для быстрой доставки контента пользователям веб-сервисов.
01:00:33 Инструменты управления данными
• В видео обсуждаются инструменты для контроля версий данных, включая Data Version Control (DVC).
• DVC позволяет контролировать изменения в наборах данных, модели и эксперименты, а также создавать потоки операций для автоматизации.
• DVC также может быть использован для хранения артефактов в локальном кэше или на удаленном сервере.
01:10:36 Подключение к облачным хранилищам
• В видео демонстрируется, как настроить DVC для подключения к облачным хранилищам, таким как Google Drive.
• Это позволяет хранить данные в облаке и управлять версиями данных через DVC.
• В видео также обсуждаются возможности автоматизации с использованием DVC для запуска цепочек расчетов и публикации изменений в датасетах.
3 views
833
227
3 weeks ago 00:05:22 1
Дональд Трамп, стратегический резерв Bitcoin и Dexnet
1 month ago 00:43:35 1
Порядок в компании на основе Google Таблиц // CRM и ERP система в таблицах
2 months ago 00:55:22 1
Как написать РЕГГИ с нуля. Пишу трек и делюсь крутыми фишками по созданию Reaggae
3 months ago 00:22:53 1
Маркетинг- план Компании Фаберлик.
3 months ago 00:12:53 1
Как писать пост за 1 минуту с Чат GPT-4o? (промпт-инжиниринг для блогеров и экспертов)
3 months ago 00:34:10 3
#4 Прохождение Eden Crafters. Летаю по планете на кора
3 months ago 00:28:22 1
Франшиза сети кофеен “ЗДРАСТЕ“! Мы В ДЕЛЕ! Интервью с владельцами.
3 months ago 00:29:22 12
Friflex: импортозамещение начинает работать в полную силу
3 months ago 00:00:00 6
☢ Новый Сюжет от dan_a + “РЕАНИМАЦИЯ“ Хемуль36рус ☢ #14 Продолжаем сюжет АТП. Квесты Варягина.
3 months ago 00:19:12 1
ЛУЧШИЙ АНТИДЕТЕКТ БРАУЗЕР / АРБИТРАЖ ТРАФИКА 2024
3 months ago 00:17:09 1
Формула промпта: учимся правильно общаться с ИИ
3 months ago 00:05:31 1
Артем Левитский / Дождь струн / Rain of strings - Великая Тартария (Great Tartary) 432Hz Music
3 months ago 01:07:39 1
ЛУЧШАЯ ПЛАНЕРКА ДЛЯ КОМАНДЫ🔥Старт шикарных акций, и как на них вырасти #наставникфаберлик #faberlic
3 months ago 00:02:15 1
Инструкция для новичка. Регистрация в проект ПОТОКCash и заполнение ПАСПОРТА СООБЩЕСТВА МЕРКУРИЙ
3 months ago 00:05:21 1
НОВЫЕ УСЛУГИ АВИТО Х10, Х5, Х2 – как правильно настроить +3 лайфхака | продвижение на Авито в 2020
3 months ago 00:12:34 1
Новое поколение AI Ассистентов в Телеграм в твоем Телефоне | Новые функции Telegram для бизнеса 2024
3 months ago 00:47:15 14
ПЕРВЫЙ ЧЕРТЕЖ ДЛЯ ЦЕХА ЖЕЛЕЗОБЕТОННОЙ БАЛКИ #SATISFACTORY 622
3 months ago 00:01:15 1
Перевод USDT с кошелька Pintopay на Сберкассу или Money Storage. Поток Cash, CashFlow
3 months ago 00:07:42 1
MANEKI NEKO : Лидер компании Анатолий Васин о пирамидах и командной работе #путешествия #лига
3 months ago 00:02:10 1
“Автозаработок 24/7: Как начать зарабатывать от 100 К ₽ Без навыков и усилий!“
3 months ago 00:33:56 2
#3 Прохождение Eden Crafters. Занимаюсь терраформингом планеты
3 months ago 00:22:17 1
ИИ работает за ТЕБЯ! Claude 3.5 Sonnet New. Нейросети 2024
3 months ago 02:33:20 1
ИИ Спасение Или Трагедия Для Человека? Ольга Ускова.
3 months ago 00:41:49 1
🚀 ChatGPT: Бесплатный Супермозг 2024 | Решение Всех Задач за Секунды!