Реальность данных, примеры
Данные порождает объективная реальность. Например, по маршрутам общественного транспорта ездят автобусы, которые в разное время перевозят разное количество пассажиров, соблюдают расписание или опаздывают, нарушают скоростной режим и правила дорожного движения, сходят с рейса. Датчики собирают данные о местонахождении, скорости и загруженности каждой «машины» в каждый момент времени. После этого данные попадают в базу данных и доступны в виде отчётов (срезов): время посещения остановок и отклонения от расписания на конкретном маршруте, загруженность маршрута в зависимости от времени дня, список нарушений конретного водителя за день/неделю/месяц и т. п.
Как правило, мы получаем доступ к данным и знакомимся с ними именно в виде таких таблиц и отчётов. Вместо полной картины, мы видим (и визуализируем) поля, значения и срезы. Поэтому вместо одной лаконичной визуализации получается десяток разрозненных диаграмм, карт и индикаторов. Чтобы это исправить, я советую начинать работу с описания реальности данных.
Реальность данных — это выжимка объективной реальности, которая касается только конкретной задачи и доступных данных. В описанном выше примере, реальность данных выглядит так. Автобусы перевозят пассажиров по маршрутам общественного транспорта. Маршрут состоит из остановок, за день на маршруте выполняется несколько рейсов. Расписание движения по маршруту для каждого рейса задано временем прибытия на остановку. В каждый момент о каждой «машине» известны координаты, скорость и количество пассажиров на борту, а также какой рейс по какому маршруту она выполняет, и какой водитель за рулём.
Обратите внимание, что в реальности данных нет постановки задачи, только описание объектов, их свойств, связей между ними и процессов. За рамками реальности данных остаются некоторые аспекты объективной реальности, которые имеют отношение к задаче, но неизвестны нам (например, погода или настроение водителя). Формулировка стремится к полному и последовательному описанию, в остальном она может быть свободной. Приведу ещё несколько примеров.
Марафон
Итоговые протоколы забега содержат поля: фамилия и имя, возраст, страна, город и клуб бегуна, номер и занятое им место, принадлежность к возрастной группе, результат на финише (официальный и личный), а также информацию о дате и погоде в день мероприятия.
В реальности данных бегуны разного пола и возраста, из разных городов, стран и клубов, с разной скоростью преодолевают маршрут, проходящий по центру Москвы, со значительными перепадами высот, при определённой погоде.
Тренажёр ПДД
В базе данных результатов тестирования на знание правил ПДД есть таблица ответов и таблица со статистикой по билетам. Таблица ответов содержит поля: ID пользователя, ID вопроса, результат (верный или неверный ответ), дата и время, сам ответ и др. Таблица билетов содержит: ID пользователя, ID билета, сдал/не сдал, количество верных ответов, дата и время, тип тестирования, потраченное на билет время (в секундах).
В реальности данных пользователи отвечают на вопросы экзамена ПДД по билетам или вразнобой, дают правильный ответ или ошибаются. Билет считается сданным, если при тестировании допущено 2 и менее ошибок. Количество попыток неограничено.
Рейтинг школ
В сводной таблице по школам Москвы указаны: название и номер школы, количество учеников, список средних баллов на выпускных экзаменах и ЕГЭ по разным предметам, доли поступлений в ведущие ВУЗы.
В реальности данных выпускники сдают экзамены и ЕГЭ по разным предметам в разных школах Москвы, с разными результатами и поступают в разные ВУЗы.
Важное дополнение: текстовое описание не есть реальность данных, а только удобный способ её зафиксировать. За текстовым описанием всегда стоит многомерная живая картина, описанная в предыдущей заметке.
Описать реальность данных — первый шаг к качественной визуализации. О втором шаге, грамотной постановке задачи, я расскажу в следующей заметке. Если хотите освоить алгоритм работы со сложными данными на практике, приходите на брейнвошинг по визуализации данных, который я проведу в Москве, 23 и 24 апреля.
Следующая теоретическая заметка выйдет 28 марта.