Реальность данных и постановка задачи
Качественная визуализация показывает реальность данных под определённым углом, который интересует наблюдателя. Реальность данных отвечает на вопрос «Что происходит?», а постановка задачи (угол) — на вопрос «Зачем мы исследуем данные?» или, иначе говоря, «Что мы ищем?»
Вернёмся к примеру с маршрутными такси. Реальность данных:
Автобусы перевозят пассажиров по маршрутам общественного транспорта. Маршрут состоит из остановок, за день на маршруте выполняется несколько рейсов. Расписание движения по маршруту для каждого рейса задано временем прибытия на остановку. В каждый момент о каждой «машине» известны координаты, скорость и количество пассажиров на борту, а также какой рейс по какому маршруту она выполняет, и какой водитель за рулём.
Транспортные аналитики хотят выяснить:
Как меняется загруженность автобусов на маршруте в среднем в течение дня?
Как часто и насколько серьёзно нарушается расписание движения?
Где находятся, насколько загружены, как сильно отклоняются от расписания автобусы в данный момент времени?
Реальность данных диктует пространственную структуру: маршрут, разделённый на участки разной длины между остановками. В такой структуре присутсвуют все объекты (остановки, участки между ними, машины на маршруте), к ним легко привязать соответствующие данные: опоздания — к точками остановок, превышения скорости — к фрагментам маршрута, загруженность — к участкам между остановками, на которых она остаётся неизменной. На маршруте можно визуализировать текущее положение и скорости автобусов, статистику рейса, усреднённые данные за часть суток и за календарный период.
«Загруженность автобусов в среднем в течение дня» перестаёт быть абстрактным значением, вычисленным в недрах системы и показанным в таблице. Она раскладывается на «элементарные» загруженности рейсов на разных участках маршрута в разное время.
Покажем средний поток пассажиров, перемещающихся от остановки к остановке по будням утром, днём и вечером, буквально — «потоком». Видим разницу потока в утренние и вечерние часы пик и в спокойные дневные часы.
Задачу о визуализации нарушений на одном из маршрутов я решала в рубрике «Вопрос-ответ». Вот как будет выглядеть сводка по нарушениям на маршруте утром, днём и вечером:
Опоздания по утрам и вечерам концентрируются в разных частях маршрута.
Если мы захотим понять, как нарушения накладываются на загруженные и не очень части маршрута, нам достаточно буквально «наложить» визуализации друг на друга.
Самое большое утреннее опоздание происходит на самой загруженной остановке — проблема вдвойне. Днём полупустой автобус постоянно нарушает скоростной режим и всё равно опаздывает на следующую остановку — возможно, нереалистичное расписание.
Одна реальность данных в зависимости от постановки задачи выражается в разных форматах визуализации. Но в отличие от отчётов, которые отвечают на вопросы «в лоб», визуализации построены на едином фундаменте, «дружат» между собой и легко объединяются в интуитивно понятные связки.
В следующей заметке я расскажу, как использовать реальность данных и постановку задачи при выборе формата визуализации. Если хотите освоить алгоритм работы со сложными данными на практике, приходите на брейнвошинг по визуализации данных, который я проведу в Москве, 23 и 24 апреля.
Следующая теоретическая заметка выйдет 11 апреля.