П.В. Голубцов - От последовательной к распределенной параллельной обработке данных
Это видео заблокировано на Rutube.
From sequential to distributed parallel data processing: Information algebras in big data problems
Peter Golubtsov
Lomonosov Moscow State University;
National Research University Higher School of Economics
In big data problems, it is often impossible to collect all the relevant data on one place before processing. As a result, there emerges a need to transform existing algorithms to a “parallel” form. The corresponding data analysis algorithm must, working on many computers in parallel, extract from each set of source data some intermediate compact “information”, gradually combine and update it and, finally, use the accumulated information to produce the result. Upon the arrival of new pieces of data, it should be able to add the information extracted from them to the accumulated information in real time and, eventually, update the result. Usually it is not obvious, how to design such completely parallel and ultimately scalable version of an existing algorithm. In this study, we will approach this problem gradually, by starting with a sequential algorithm and then transforming it to a completely parallel one.
Procedures of sequential updating of information are important for “big data streams” processing because they avoid accumulating and storing large data sets. As a model of information accumulation, we study the Bayesian updating procedure for linear experiments. Analysis and gradual transformation of the original processing scheme in order to increase its efficiency lead to certain mathematical structures - information spaces. We show that processing can be simplified by introducing a special intermediate form of information representation. Thanks to the rich algebraic properties of the corresponding information space, it allows unifying and increasing the efficiency of the information updating. It also leads to various parallelization options for inherently sequential Bayesian procedure, which are suited for distributed data processing platforms, such as MapReduce. Besides, we will see how certain formalization of the concept of information and its algebraic properties can arise simply from adopting data processing to big data demands. Developed approaches and concepts allow to increase efficiency and uniformity of data processing and present a systematic approach to transforming sequential processing into parallel.
От последовательной к распределенной параллельной обработке данных: информационные алгебры в задачах больших данных
П.В. Голубцов
Московский государственный университет им. М.В. Ломоносова;
Национальный исследовательский университет Высшая школа экономики
В задачах больших данных часто невозможно собрать все необходимые данные в одном месте перед обработкой. В результате возникает необходимость преобразования существующих алгоритмов в «параллельную» форму. Соответствующий алгоритм анализа данных должен, работая на множестве компьютеров параллельно, извлекать из каждого набора исходных данных некоторую промежуточную компактную «информацию», постепенно комбинировать и обновлять ее и, наконец, использовать накопленную информацию для получения результата. По прибытии новых частей данных он должен иметь возможность добавлять информацию, извлеченную из них, к накопленной информации в реальном времени и, в конечном итоге, обновлять результат. Обычно не очевидно, как разработать такую полностью параллельную и в конечном итоге масштабируемую версию существующего алгоритма. В этом исследовании мы подойдем к этой проблеме постепенно, начав с последовательного алгоритма, а затем преобразовав его в полностью параллельный.
Процедуры последовательного обновления информации важны для обработки «больших потоков данных», поскольку они позволяют избежать накопления и хранения больших наборов данных. В качестве модели накопления информации мы рассмотрим процедуру байесовского обновления для линейных экспериментов. Анализ и постепенное преобразование исходной схемы обработки с целью повышения ее эффективности приводят к определенным математическим структурам - информационным пространствам. Мы покажем, что обработку можно упростить, введя специальную промежуточную форму представления информации. Благодаря богатым алгебраическим свойствам соответствующего информационного пространства, это позволяет унифицировать и повысить эффективность обновления информации. Это также приводит к различным вариантам распараллеливания для изначально последовательной байесовской процедуры, которые подходят для платформ распределенной обработки данных, таких как MapReduce. Кроме того, мы увидим, как определенная формализация концепции информации и ее алгебраических свойств может возникнуть просто в результате адаптации обработки данных к требованиям больших данных. Разработанные подходы и концепции позволяют повысить эффективность и единообразие обработки данных и представляют системный подход к
3 views
616
204
4 weeks ago 00:01:01 8.4K
Заботливая мама
1 month ago 01:12:17 1K
Сельчанка в Америке .США / Ткань НА ФАРТУКИ .Голубцы с замороженной капусты ! РАСПАКОВКА ПОСЫЛОК ! ХОЗЯЙСТВО В АМЕРИКЕ! (360p)
1 month ago 01:01:25 1.2K
Сельчанка в Америке . Сша / Мечты СБЫВАЮТСЯ. СЕМЕЙНЫЙ ОБЕД и Голубцы в МОРОЗИЛКУ ! . (360p)
1 month ago 00:00:46 427
Домашний шеф: Полезные советы. Голубцы из пекинской капусты
1 month ago 00:03:57 183
Ленивые голубцы в пост.
1 month ago 00:15:06 37.5K
Экономно прожить 3 дня при бюджете в 1200 руб. на 4-х человек. Экономное меню на три дня. Завтраки, обеды, ужины
2 months ago 00:00:47 1
Нет это не ленивые голубцы - это вкуснее!) обязательно попробуйте КОТЛЕТЫ с капустой и морковью
2 months ago 00:01:00 1
Ленивее и вкуснее этих ГОЛУБЦОВ наверное и не встретишь! Честно это мой любимый рецепт уже лет так
2 months ago 00:26:00 33
Звёзды мирового спорта.Пётр Болотников
2 months ago 00:26:22 50
Звёзды мирового спорта. Валерий Брумель
2 months ago 00:21:59 1
Пробуем самое необычное блюдо Турции (впечатлительным и слабонервным НЕ СМОТРЕТЬ!)
2 months ago 00:01:01 507
Премьера спектакля “Душечка“ в Театре “У Никитских ворот“, 11 октября 2024 года
3 months ago 00:31:15 1
трахобард - 8 пост-бард фест в Лампопо
3 months ago 00:07:00 1
Фаршированные перцы - Праздничный рецепт на стол без РИСКА! Вкуснота из фарша!
3 months ago 00:17:00 140
● Толма | Вкусная встреча
3 months ago 00:01:17 2
Добрый папа сытый папа
3 months ago 00:18:07 31
ПЛОВ ИЗ ГРЕЧКИ. СОВЕТУЮ ПОСМОТРЕТЬ И ПРИГОТОВИТЬ! 👍
3 months ago 00:19:49 1
Приезд Золовки из Орегона | Подготовка к Приему Гостей и Повседневные Заботы 
4 months ago 00:06:59 77
Настоящий торт Наполеон с кокосом. Ленивый рецепт на скорую руку.
4 months ago 00:01:15 15.7K
Как голубцы, только в 100 раз лучше!(480p).mp4
4 months ago 00:01:03 9.2K
Готовим вкуснeйшиe голубцы из пeкинской кaпусты.
4 months ago 00:01:06 2.9K
Видео от ГОТОВИМ ДОМА
4 months ago 00:18:54 1
Я узнала в кого Миша влюблён🤦♀️/Не уходите от нас🙏/Развивашка для Мишки👶/Готовлю голубцы