Apache superset: Урок 3

В третьем подходе к Apache superset продолжим работать с данными, которые готовим вне его, и загружаем в базу данных из файлов.

Построим редкую в использовании, но полезную для аналитики структуры потоков - Диаграмму потоков - Sankey diagram.

Что такое потоки? Как их визуализировать? Зачем?

Долго объяснять - давайте рассмотрим погрузку - разгрузку поезда метро. Потоком будут люди, ползучем их поведение.

Посчитаем по станциям где люди в поезд садятся, и где выходят. (Для примера)

Станция-вход

Станция-Выход

Пассажиров

Ховрино-Вход

Войковская

181027

Ховрино-Вход

Динамо

562789

Ховрино-Вход

Белорусская

138414

Войковская-Вход

Белорусская

64045

Войковская-Вход

Динамо

67896

Войковская-Вход

Тверская

123454

Динамо-вход

Ховрино

34565

Динамо-вход

Тверская

43232

Динамо-вход

Войковская

43233

Эту же таблицу возьмем как файл формата CSV и загрузим как таблицу в базу данных суперсета.

Screenshot 2024 03 02 at 21 53 32

При удачной загрузке попадаем в зону создания диаграммы

Screenshot 2024 03 02 at 21 56 17

Выбираем вид диаграммы - Sankey diagram

Указываем поля таблицы Source/Target, метрики - и вуаля!

Screenshot 2024 03 02 at 21 58 32

Применений у этой диаграммы может быть множество, уверен и вы найдете что-то где она будет максимально информативна.

Буду рад посмотреть на ваши варианты - уже с большими данными!

Apache superset: Урок 3
Метки:     

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *