В третьем подходе к Apache superset продолжим работать с данными, которые готовим вне его, и загружаем в базу данных из файлов.
Построим редкую в использовании, но полезную для аналитики структуры потоков - Диаграмму потоков - Sankey diagram.
Что такое потоки? Как их визуализировать? Зачем?
Долго объяснять - давайте рассмотрим погрузку - разгрузку поезда метро. Потоком будут люди, ползучем их поведение.
Посчитаем по станциям где люди в поезд садятся, и где выходят. (Для примера)
Станция-вход |
Станция-Выход |
Пассажиров |
Ховрино-Вход |
Войковская |
181027 |
Ховрино-Вход |
Динамо |
562789 |
Ховрино-Вход |
Белорусская |
138414 |
Войковская-Вход |
Белорусская |
64045 |
Войковская-Вход |
Динамо |
67896 |
Войковская-Вход |
Тверская |
123454 |
Динамо-вход |
Ховрино |
34565 |
Динамо-вход |
Тверская |
43232 |
Динамо-вход |
Войковская |
43233 |
Эту же таблицу возьмем как файл формата CSV и загрузим как таблицу в базу данных суперсета.
При удачной загрузке попадаем в зону создания диаграммы
Выбираем вид диаграммы - Sankey diagram
Указываем поля таблицы Source/Target, метрики - и вуаля!
Применений у этой диаграммы может быть множество, уверен и вы найдете что-то где она будет максимально информативна.
Буду рад посмотреть на ваши варианты - уже с большими данными!