Автоматизация МО - - лекция + конспект от YandexGPT
Автоматизация МО - - лекция конспект от YandexGPT
00:02 Задачи инженерии данных
• Сбор и передача данных, организация сбора данных, мониторинг и анализ работы источников данных, выявление проблем в сборе и передаче данных.
• Проектирование базы данных, организация схемы хранения данных, контроль изменений в данных, использование данных при обучении модели.
05:33 Анализ данных
• Анализ имеющихся данных, исследование признаков, конструирование новых признаков для обучения модели.
• Статистическая информация о данных, хранение данных отдельно для обучения, тестирования, валидации.
10:15 Использование данных при обучении
• Улучшение качества работы модели, учет изменений в данных, ответственность за изменение источников данных.
• Версионирование элементов решения, отслеживание изменений, оценка влияния изменений на данные, тестирование результатов на отдельных этапах.
17:53 Хранилища данных и витрины данных
• Видео обсуждает различные типы хранилищ данных, включая OLTP (транзакционные) и аналитические системы.
• OLTP системы работают с конечными пользователями, в то время как аналитические системы используются для анализа и принятия решений.
• OLTP системы хранят актуальные состояния данных, в то время как аналитические системы хранят большие объемы данных для анализа.
28:11 Медленно меняющиеся измерения
• Видео обсуждает подходы к сохранению изменений в измерениях, включая нулевой, первый, второй и третий уровни.
• Нулевой уровень предполагает, что измерения не меняются, первый уровень перезаписывает значения, второй уровень создает новую запись с обновленными данными, а третий уровень хранит версию и дату актуальности.
35:53 ETL системы
• ETL системы (Extract, Transform, Load) используются для извлечения, преобразования и загрузки данных из различных источников в хранилище данных.
• Второй подход к ETL системам набирает популярность, так как он позволяет избежать ошибок, возникающих при извлечении и сохранении данных.
37:56 Проблемы на этапе трансформации данных
• Ошибки, связанные с получением и передачей информации, сбои формирования ответа на запрос, перебои в каналах передачи данных, перебой с количеством данных.
• Оценка длительности загрузки данных и приведение их к целевой модели.
42:38 Проблемы на этапе анализа данных
• Большие массивы информации и ошибки в логике могут привести к накладным расходам и трате времени.
• Использование данных, погружение в структуру для получения информации полезной для поддержки принятия решений.
47:08 Хранилища данных
• Озёра данных - хранилище больших объемов неструктурированных данных.
• Альтернатива - дата-хаус, объединение структурированных и неструктурированных данных.
• Брокер сообщений, менеджер очередей, файловая система, объектное хранилище.
56:46 Анализ данных и управление версиями
• В видео обсуждается использование специальных контейнеров (бакетов) для хранения данных разных типов и размеров.
• Бакеты могут быть доступны только определенным пользователям или группам.
• В видео также рассматривается понятие Content Delivery Network (CDN) и его использование для быстрой доставки контента пользователям веб-сервисов.
01:00:33 Инструменты управления данными
• В видео обсуждаются инструменты для контроля версий данных, включая Data Version Control (DVC).
• DVC позволяет контролировать изменения в наборах данных, модели и эксперименты, а также создавать потоки операций для автоматизации.
• DVC также может быть использован для хранения артефактов в локальном кэше или на удаленном сервере.
01:10:36 Подключение к облачным хранилищам
• В видео демонстрируется, как настроить DVC для подключения к облачным хранилищам, таким как Google Drive.
• Это позволяет хранить данные в облаке и управлять версиями данных через DVC.
• В видео также обсуждаются возможности автоматизации с использованием DVC для запуска цепочек расчетов и публикации изменений в датасетах.
2 views
833
227
4 days ago 00:06:21 1
СКОЛЬКО ПРИХОДИТ НОВИЧКОВ В КОМАНДУ
5 days ago 00:01:18 1
⚠ КАКИЕ СПОСОБЫ ЗАРАБОТКА ЕСТЬ В ИНТЕРНЕТЕ ⚠ МОМЕНТАЛЬНЫЙ ЗАРАБОТОК С ВЫВОДОМ ДЕНЕГ ⭐
5 days ago 00:01:18 1
🔥 КАК НАДО ЗАРАБАТЫВАТЬ В ИНТЕРНЕТЕ НОВОСТИ ИГРЫ ❕ РАБОТА НА ДОМУ ТУЛА БЕЗ ВЛОЖЕНИЙ
5 days ago 00:01:18 1
1500 заработок 💣 Интернет доход россия 🔴
5 days ago 00:01:18 3
🚀 Яндекс толока сколько можно заработать за день 🔥 Как на халяву получить деньги на карту 🔴
5 days ago 00:01:05 1
Технологии будущего: Битрикс24 как ваш бизнес-партнер!
5 days ago 00:01:18 1
Заработать через телефон 🔥 Заработок самому на компьютере
5 days ago 00:01:18 1
💯 Открыть бизнес в интернете идеи ⚪ Как зарабатывать удаленно по интернету 🚫
5 days ago 00:01:18 1
💶 ЗАРАБОТОК НА УСТАНОВКЕ МОБИЛЬНЫХ ПРИЛОЖЕНИЙ НА ANDROID 🔔
5 days ago 00:01:18 2
💷 Зарабатывать через программу
5 days ago 00:01:18 1
Android лотерея заработок в интернете без вложений
5 days ago 00:01:18 1
Удаленная работа в ставрополе свежие вакансии
5 days ago 00:01:02 6.2K
История нашего питомника
6 days ago 00:51:47 1
VK для бизнеса, фрилансеров, экспертов: разбор инструментов и возможностей. Стоит ли это того?
6 days ago 00:01:18 4
💱 ХОББИ ДЛЯ МУЖЧИН ПРИНОСЯЩЕЕ ДОХОД 🔴 ЗАРАБОТАТЬ 100 ДОЛЛАРОВ БЕЗ ВЛОЖЕНИЙ ☑
6 days ago 00:01:18 3
Как зарабатывать в интернете 11 лет ❕ Платформы для заработка денег без вложений
6 days ago 00:01:18 5
💵 Заработок на буксах отзывы ✔ Как начать зарабатывать онлайн без вложений 🚫
6 days ago 00:01:18 1
💸 Сайт где зарабатывают на текстах 👀
6 days ago 00:01:18 1
🎁 Как заработать на 1 сентября ⚡ Надомная работа в крыму ⛔
6 days ago 03:30:42 3
[man smart-home] Рассказываю про умный дом, помогаю подписчикам и отвечаю на ваши вопросы
6 days ago 00:15:50 59
Профи (НЕ) работают в CAPCUT, и вот почему
6 days ago 00:36:01 41
Вот почему CAPCUT тупо ЛУЧШЕ других программ (на примере DAVINCI RESOLVE)
6 days ago 00:27:17 14
По душам о Тестировании | Поиск работы. Опыт. Тренды
6 days ago 00:01:18 1
🎯 САЙТЫ НА КОТОРЫХ МОЖНО ЗАРАБОТАТЬ С 12 ЛЕТ 🔵 РАБОТА В ИНТЕРНЕТЕ ПЕРМЬ ⚫