46 заметок с тегом

визуализация данных

Ctrl + ↑ Позднее

Реальность данных и постановка задачи

Качественная визуализация показывает реальность данных под определённым углом, который интересует наблюдателя. Реальность данных отвечает на вопрос «Что происходит?», а постановка задачи (угол) — на вопрос «Зачем мы исследуем данные?» или, иначе говоря, «Что мы ищем?»

Вернёмся к примеру с маршрутными такси. Реальность данных:

Автобусы перевозят пассажиров по маршрутам общественного транспорта. Маршрут состоит из остановок, за день на маршруте выполняется несколько рейсов. Расписание движения по маршруту для каждого рейса задано временем прибытия на остановку. В каждый момент о каждой «машине» известны координаты, скорость и количество пассажиров на борту, а также какой рейс по какому маршруту она выполняет, и какой водитель за рулём.

Транспортные аналитики хотят выяснить:
Как меняется загруженность автобусов на маршруте в среднем в течение дня?
Как часто и насколько серьёзно нарушается расписание движения?
Где находятся, насколько загружены, как сильно отклоняются от расписания автобусы в данный момент времени?

Реальность данных диктует пространственную структуру: маршрут, разделённый на участки разной длины между остановками. В такой структуре присутсвуют все объекты (остановки, участки между ними, машины на маршруте), к ним легко привязать соответствующие данные: опоздания — к точками остановок, превышения скорости — к фрагментам маршрута, загруженность — к участкам между остановками, на которых она остаётся неизменной. На маршруте можно визуализировать текущее положение и скорости автобусов, статистику рейса, усреднённые данные за часть суток и за календарный период.

«Загруженность автобусов в среднем в течение дня» перестаёт быть абстрактным значением, вычисленным в недрах системы и показанным в таблице. Она раскладывается на «элементарные» загруженности рейсов на разных участках маршрута в разное время.

Покажем средний поток пассажиров, перемещающихся от остановки к остановке по будням утром, днём и вечером, буквально — «потоком». Видим разницу потока в утренние и вечерние часы пик и в спокойные дневные часы.

Задачу о визуализации нарушений на одном из маршрутов я решала в рубрике «Вопрос-ответ». Вот как будет выглядеть сводка по нарушениям на маршруте утром, днём и вечером:

Опоздания по утрам и вечерам концентрируются в разных частях маршрута.

Если мы захотим понять, как нарушения накладываются на загруженные и не очень части маршрута, нам достаточно буквально «наложить» визуализации друг на друга.

Самое большое утреннее опоздание происходит на самой загруженной остановке — проблема вдвойне. Днём полупустой автобус постоянно нарушает скоростной режим и всё равно опаздывает на следующую остановку — возможно, нереалистичное расписание.

Одна реальность данных в зависимости от постановки задачи выражается в разных форматах визуализации. Но в отличие от отчётов, которые отвечают на вопросы «в лоб», визуализации построены на едином фундаменте, «дружат» между собой и легко объединяются в интуитивно понятные связки.

В следующей заметке я расскажу, как использовать реальность данных и постановку задачи при выборе формата визуализации. Если хотите освоить алгоритм работы со сложными данными на практике, приходите на брейнвошинг по визуализации данных, который я проведу в Москве, 23 и 24 апреля.

Следующая теоретическая заметка выйдет 11 апреля.

2016   введение   визуализация данных   теория

Реальность данных, примеры

Данные порождает объективная реальность. Например, по маршрутам общественного транспорта ездят автобусы, которые в разное время перевозят разное количество пассажиров, соблюдают расписание или опаздывают, нарушают скоростной режим и правила дорожного движения, сходят с рейса. Датчики собирают данные о местонахождении, скорости и загруженности каждой «машины» в каждый момент времени. После этого данные попадают в базу данных и доступны в виде отчётов (срезов): время посещения остановок и отклонения от расписания на конкретном маршруте, загруженность маршрута в зависимости от времени дня, список нарушений конретного водителя за день/неделю/месяц и т. п.

Как правило, мы получаем доступ к данным и знакомимся с ними именно в виде таких таблиц и отчётов. Вместо полной картины, мы видим (и визуализируем) поля, значения и срезы. Поэтому вместо одной лаконичной визуализации получается десяток разрозненных диаграмм, карт и индикаторов. Чтобы это исправить, я советую начинать работу с описания реальности данных.

Реальность данных — это выжимка объективной реальности, которая касается только конкретной задачи и доступных данных. В описанном выше примере, реальность данных выглядит так. Автобусы перевозят пассажиров по маршрутам общественного транспорта. Маршрут состоит из остановок, за день на маршруте выполняется несколько рейсов. Расписание движения по маршруту для каждого рейса задано временем прибытия на остановку. В каждый момент о каждой «машине» известны координаты, скорость и количество пассажиров на борту, а также какой рейс по какому маршруту она выполняет, и какой водитель за рулём.

Обратите внимание, что в реальности данных нет постановки задачи, только описание объектов, их свойств, связей между ними и процессов. За рамками реальности данных остаются некоторые аспекты объективной реальности, которые имеют отношение к задаче, но неизвестны нам (например, погода или настроение водителя). Формулировка стремится к полному и последовательному описанию, в остальном она может быть свободной. Приведу ещё несколько примеров.

Марафон
Итоговые протоколы забега содержат поля: фамилия и имя, возраст, страна, город и клуб бегуна, номер и занятое им место, принадлежность к возрастной группе, результат на финише (официальный и личный), а также информацию о дате и погоде в день мероприятия.

В реальности данных бегуны разного пола и возраста, из разных городов, стран и клубов, с разной скоростью преодолевают маршрут, проходящий по центру Москвы, со значительными перепадами высот, при определённой погоде.

Тренажёр ПДД
В базе данных результатов тестирования на знание правил ПДД есть таблица ответов и таблица со статистикой по билетам. Таблица ответов содержит поля: ID пользователя, ID вопроса, результат (верный или неверный ответ), дата и время, сам ответ и др. Таблица билетов содержит: ID пользователя, ID билета, сдал/не сдал, количество верных ответов, дата и время, тип тестирования, потраченное на билет время (в секундах).

В реальности данных пользователи отвечают на вопросы экзамена ПДД по билетам или вразнобой, дают правильный ответ или ошибаются. Билет считается сданным, если при тестировании допущено 2 и менее ошибок. Количество попыток неограничено.

Рейтинг школ
В сводной таблице по школам Москвы указаны: название и номер школы, количество учеников, список средних баллов на выпускных экзаменах и ЕГЭ по разным предметам, доли поступлений в ведущие ВУЗы.

В реальности данных выпускники сдают экзамены и ЕГЭ по разным предметам в разных школах Москвы, с разными результатами и поступают в разные ВУЗы.

Важное дополнение: текстовое описание не есть реальность данных, а только удобный способ её зафиксировать. За текстовым описанием всегда стоит многомерная живая картина, описанная в предыдущей заметке.

Описать реальность данных — первый шаг к качественной визуализации. О втором шаге, грамотной постановке задаче, я расскажу в следующей заметке. Если хотите освоить алгоритм работы со сложными данными на практике, приходите на брейнвошинг по визуализации данных, который я проведу в Москве, 23 и 24 апреля.

Следующая теоретическая заметка выйдет 28 марта.

2016   введение   визуализация данных   теория

Реальность данных

Я придумываю визуализации без алгоритмов и правил, по наитию. Знакомлюсь с данными, изучаю их и щёлк… вижу картину, которая впоследствии, проработанная и уточнённая, становится визуализацией. Я могу разобрать результат «по косточкам», объяснить, почему он именно такой и в чём его сила, сформулировать принципы, которые лежат в его основе, но не могу рассказать, как я к нему пришла. Это делает меня никчёмным арт-директором и преподавателем, и я хочу это исправить.

Дважды в месяц я буду публиковать размышления о моём подходе к визуализации данных, чтобы постепенно сформировать теоретическую базу и докопаться до заветных алгоритмов. Забраться в собственный мозг и понять, что происходит в нём в момент «щелчка», непросто. Но я попробую.

Обычно данные хранятся в таблицах и базах, объединяющих множество таблиц. Все таблицы выглядят одинаково, как и круговые диаграммы, построенные на их основе. Все данные — уникальны, они наделены смыслом, подчинены внутренней иерархии, пронизаны связями, содержат закономерности и аномалии. Чтобы проявить сущность данных в визуализации нужно выйти за пределы табличного представления — в реальность данных.

Иллюстрация: Golden Easel Art Print, IF

Данные каждой задачи живут в собственной реальности. Там в нескольких измерениях (пространственных, временных или каких-то совсем иных) существуют и взаимодействуют объекты, текут потоки, меняются характеристики и свойства, случаются события. В этой реальности свои действующие лица, свои законы; данные в ней свободные от ограничений операционной системы, экрана и нашего физического мира.

Мой рецепт качественной визуализации: перенести реальность данных на интерактивную веб-страницу с минимальными потерями (неизбежными из-за ограничений носителя).

В ближайших заметках:
— я попробую объяснить, как заглянуть в реальность данных,
— расскажу о микро- и макро-уровнях этой реальности,
— разберу конкретные примеры.

Буду рада вопросам и комментариям.

Рубрика «вопрос-ответ» временно на паузе, но всё равно присылайте вопросы на почту: data@datalaboratory.ru. Следующая теоретическая заметка выйдет 14 марта.

2016   введение   визуализация данных   теория

О востребованности визуализации данных

Спрашивает Игорь Трафимович:

Я довольно активно слежу за тематическими блогами о визуализации данных и у меня сложилось впечатление, что создание всех этих потрясающих интерактивных работ — не слишком прибыльное занятие, ведь для большинства бизнес-задач достаточно простейших барчартов, которые можно сделать в Excel без участия дизайнера.

Расскажи, востребована ли визуализация данных на рынке и насколько перспективной ты сама видишь эту область?

Я не знаю, как оценить перспективность области. Если 99,9% преступлений в Лондоне раскрывают полицейские Скотленд-ярда, делает ли это работу Шерлока Холмса менее перспективной?

Фото Роберта Вигласки, PA

Визуализация — это сверх-мощный инструмент. Она наглядно показывает огромные объёмы данных, проявляет закономерности, которые никто не надеялся найти, сворачивает 30-страничные отчёты в одну интерактивную картину, экономит время и вычислительные ресурсы. Визуализацией, как любым инструментов, нужно уметь пользоваться, но я верю, что грамотная визуализация способна творить чудеса.

При этом визуализация, как Шерлок, решает очень узкий круг задач — запутанные дела со сложными, многомерными данными, в которых скрываются полезные для бизнеса знания. Такие задачи найдутся далеко не в каждой компании, а если и найдутся, от них необязательно зависит успех бизнеса, и даже когда зависит, лица, принимающие решения, могут не знать о том, что задачу можно решить с помощью визуализации данных. Рынок крошечный, риск остаться без работы велик.

Вот что делаем я и моя команда, чтобы чувствовать себя хорошо.

  • Главное правило, занимаемся только визуализацией данных (сродни правилу балерин зарабатывать только балетом :-)
  • Когда заказов нет, делаем бесплатные прототипы в рамках рубрики «Вопрос-ответ» или сами придумываем себе задачи.
  • Отвечаем на вопросы в блоге.
  • Выступаем на конференциях (в прошлом году был перерыв).
  • Записываем видео-лекции, организуем учебные курсы.
  • Рассказываем о работе всем, кто готов слушать.

Всё это, и немного везения, приводит в лабораторию клиентов мечты с самыми запутанными и интересными задачами. Чем больше задач мы решаем, тем искуснее используем визуализацию данных и тем уверенне чувствуем себя на рынке. Это единственный известный мне путь к востребованности в этой области.

Кстати, мы в Лаборатории данных ищем веб-разработчика. Вакансия открыта до 31 января.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru. Следующая заметка выйдет 1 февраля.

2016   визуализация данных   вопрос-ответ

Интересные визуализации — 2015

Подводя итоги года, мы с лаборантами делимся интерактивными визуализациями, которые в уходящем году показались нам интересными и заслуживающими внимания.

Наш абсолютный фаворит — визуализация потерь во Второй мировой «Fallen.io», автор: Нил Хэлоран (Neil Halloran).

Полная картина потерь складывается из жизней солдат и мирных жителей разных национальностей. Визуализация резонирует с умом и сердцем, глубоко и честно погружает в тему, пробуждает исследовательский интерес и встаёт в один ряд с шедевром Шарля Минара о наступлении Наполеона на Москву. Завидую нынешним школьникам, которые увидят эту войну так.

Схожий по формату интерактивный анализ урбанизации Восточной Азии, автор: Нади Бремер (Nadieh Bremer):

Карта, столбиковые диаграммы, точечные гистограммы и графики интерактивно связаны друг с другом. Полная визуальная картина азиатской демографии в 2000 и 2010 гг. дополнена лаконичными выводами. Анализ, достойный курсовой работы по социологии, поместился на девяти интерактивных слайдах — блестяще!

Газета «Гардиан» опубликовала Тест «Насколько хорошо вы знаете свою страну» с вопросами о демографии:

Интересна визуализация результатов «ответы / факты», а также выводы, в целом и по конкретным вопросам.

Классный трёхмерный график (большая редкость!) появился в «Нью-йорк-таймс» — поверхность доходности короткосрочных и долгосрочных гособлигаций:

Авторы утверждают, что график показывает ценность денег сейчас, в ближайшем будущем и на годы вперёд, но простым смертным, вроде меня, уловить суть прогноза сложновато. Зато я обращаю внимание на минималистичность интерфейса (график сложен сам по себе, чтобы утяжелять его дополнительными элементами), пояснения «для чайников», сопровождаемые поворотом графика под нужным углом, и цветовое кодирование, которое хотя и дублирует значения по вертикальной оси, необходимо для считывания рельефа поверхности.

Там же, примечательная история похудения — 4 года жизни мистера Стива Лочнера, описанные кривой колебаний веса:

На графике задокументированы взлёты и падения, наградные татуировки и поворотные жизненные решения, периоды диет и приступы обжорства, есть даже классические фото «до и после». Можно посмотреть каждый завтрак, обед и перекус, занесённый Стивом в приложение «Loose It», с помощью которого он следил за питанием и весом. В заключении на фоне кривой Лочнера показаны результаты других (менее успешных) пользователей приложения.

«Уолл-стрит-джорнал» порадовал яркой и содержательной визуализацией случаев заражения инфекционными заболеваниями до и после массовой вакцинации во всех 50 штатах:

Обратите внимание на живую стрелочку-указатель в легенде и алфавитный порядок перечисления штатов, который позволяет опустить часть названий.

А вот классные спортивные визуализации.

У нью-йоркского марафона появилась интерактивная визуализация результатов (вроде той, что мы уже третий год подряд делаем для Московского :-)

Изумительная визуализация Питера Кука о пилотах Формулы-1: все победители и призёры на одной диаграмме с сортировкой по возрасту, годам участия и количеству гонок.

Необычное, но одобренной нашим футбольным экспертом Дамиром, представление результатов футбольных матчей, автор: Том Лоуренс (Thom Lawrence). Прямоугольники — атаки, цветом закодирована скорость:

Для сравнения наш вариант визуализации футбольных матчей, предложенный в одном из вопрос-ответов этого года.

Ещё один достойный внимания жанр — визуальные объяснения. В прошлом году Майк Босток опубликовал подробную и очень наглядную статью об алгоритмах сортировки с элементами визуализации:

В этом году появились достойные последователи. Визуальное объяснение принципов машинного обучения от r2d3:

Иллюстрация формулы условной вероятности, автор Виктор Пауэлл (Victor Powell):

И о погоде. Нам приглянулся симпатичный график температуры в Нью-йорке на фоне среднего и рекордных значений:

Лабораторная вариация на тему:

В следующем году мы будем делиться визуализационными находками в твиттере @datalaboratory. Подписывайтесь, если вы ещё не.

С наступающим Новым годом!

2015   2015   визуализации года   визуализация данных   Лаборатория данных

Вопрос-ответ: рынок труда в динамике

Спрашивает Жанна Гугунова из «HeadHunter»:

Мы каждый месяц составляем отчет по рынку труда Москвы, например, вот отчет за ноябрь: http://hh.ru/article/307200. Как можно представить эту статистику за год в динамике?

В статье рынок труда показан стандартными временными графиками (динамика вакансий, резюме и заработных плат) и столбиковыми диаграммами (доли рынка по профессиональным сферам) — итого около 20 иллюстраций. Каждая картинка в отдельности решает узкую задачу, но полную картину рынка за ними разглядеть сложно.

Попробуем отобразить все три параметра на одной интерактивной визуализации. Пусть по оси X будет количество вакансий, по оси Y — количество резюме, а среднюю зарплату покажем размером точки. Рынок труда в Москве в ноябре по топовым профсферам будет выглядеть так:

Масштаб по осям отличается, потому что активных резюме обычно больше, чем вакансий. Чтобы проявить эту особенность на графике, добавим лучи, соответствующие разным уровням конкуренции:

Видим, что самые активные профсферы — «Продажи» и «Начало карьеры», причём в первой конкуренция относительно низкая (3 резюме на вакансию), а во второй — высокая (более 10). Конкуренция в большинстве профсфер превышает 5 резюме на вакансию, нет ни одной профсферы ниже единицы, то есть дефицита кадров не наблюдается нигде.

По средним зарплатам с большим отрывом лидирует «Топ-менеджмент», но и конкуренция там самая большая, более 20 резюме на вакансию. Самые низкие средние зарплаты — в профсферах «Администрация» и, как ни странно, «Банки»; они даже ниже средней зарплаты в «Начале карьеры».

Добавим на график временную динамику. История одной профессиональной области будет выглядеть так:

Движении точки вдоль луча означает рост активности (и работодателей, и соискателей) в данной проф. области. Движение от луча к лучу — рост или падение конкуренции. Зарплата заметно не менялась, поэтому скроем промежуточные значения, чтобы лучше разглядеть хвост:

На графике проявилась форма, похожая на букву «s». Это сезонные рост (весна-лето) и спад (осень-зима) активности на фоне увеличения конкуренции. В «Продажах» активность в ноябре 2015 года осталась на том же уровне, что и в ноябре 2014 года, а вот конкуренция выросла с 2 до 3 резюме на вакансию.

Посмотрим на историю других профобластей:

«Айти» и «маркетинг» демонстрируют форму похожую на «продажи», но не такую симметричную. В 2014 году они делаю два витка активности (промежуточное затишье в мае), конкуренция растёт почти непрерывно, не считая небольшого спада в мае-июне 2015. «Начало карьеры» — ещё более искажённая «s» с быстрым ростом конкуренции (с 7 до 10+ резюме на вакансию) и большими «провалами» в январе и мае — во время студенческих сессий.

Посмотрим на динамику рынка в целом (гифка):

На полной картине сложнее уловить детали по отдельным профсферам, зато бросаются в глаза общие тенденции на рынке. Видно, как в 2014 году активность растёт вместе с конкуренцией, потом — резкий зимний спад, быстрый скачок конкуренции, и снова сезонный полукруг. Профсферы, как синхронные пловчихи, выписывают одни и те же фигуры, слегка отличающиеся исполнением.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru. При участии Кирилла Беляева, Романа Бунина и Дамира Мельникова. Спасибо Службе исследований «Headhunter» за предоставленные данные. Подписи на осях скрыты по просьбе заказчика, поведение профсфер на графике соответствует реальному положению дел.

2015   вакансии   визуализация данных   вопрос-ответ   рынок труда   Хедхантер

Вопрос-ответ: история университета в лицах

Спрашивает Константин Когут:

Составляя инфографику о сотрудниках университета, перерыл немало таблиц по данным за каждый год. Помогите улучшить инфографику. Приму любую критику.

В плавно перетекающем графике потерялась важная составляющая истории: путь каждого отдельного преподавателя, доцента и профессора. Кто-то из них проработал всего несколько лет, другие посвятили университету всю жизнь, прошли путь от преподавателя до профессора и, возможно, даже заняли пост декана факультета и стали ректорами. Сейчас они выглядят безликой массой, «свалены в кучу».

Смотрите, как визуализировали похожую информацию о заключённых тюрьмы в Гуантанамо дизайнеры «13pt», выигравшие с этой работой престижный конкурс «Малофей»:

Каждый заключённый показан отдельной линией, истории персонажей подписаны прямо на графике рядом с линиями. Думаю, служители науки достойны такого же уважительного обращения :-)

Начните с того, что выделите линии жизни в общей массе:

Такое представление позволяет проследить за судьбой каждого преподавателя, видно общее количество преподавателей за год и как оно получилось: сколько ушло, сколько пришло. Легко показать превращения преподавателя в доцента и доцента в профессора (преподавателей лучше расположить на нижнем этаже графика, профессоров — на верхнем):

Сам график я советую вытянуть в ширину, чтобы избавиться от частых резких скачков и приблизиться к тафтианскому правилу «сорока пяти градусов». В освободившемся пространстве над графиком покажите лица и расскажите историю выдающихся деятелей университета:

Визуализация «количества доцентов, профессоров и преподавателей» превратилась в историю университета в лицах. Такое превращение потребует дополнительного исследования, зато изучать результат будет гораздо интереснее, особенно, если он будет интерактивным.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru, ответы публикуются ежемесячно.

2015   визуализация данных   вопрос-ответ   история в лицах   университет

Вопрос-ответ: тендеры в РФ

Спрашивает Алексей Булгаков из компании «Bicotender»:

У нас есть структурированные данные по тендерным закупкам с 2011 года, на основе их мы делаем продукт «Аналитика закупок». Нам интересно визуализировать эти данные: показать суммарные показатели и проявить основные тенденции тендерного рынка.

Главные особенности тендерного рынка, которые проявятся на макроуровне, — это региональность и временная динамика, в т. ч. сезонность. Мы в лаборатории уже сталкивались с похожей задачей, когда визуализировали аномалии оборота наличности. Временная диаграмма и карта, интерактивно связанные между собой, оказались удачным решением для данных такого рода. Возьмём за основу этот формат и адаптируем для тендеров.

Ключевые свойства тендера — стоимость и индустрия. Интересно узнать, какое соотношение тендеров по индустриям, как оно меняется со временем, какие индустрии преобладают в разных регионах. Обозначим индустрию цветом и покрасим регионы на карте цветом главной (по объёму закупок) индустрии, а на диаграмме покажем суммарные объёмы РФ в разбивке по индустриям:

При наведении на месяц видим главные индустрии в этом месяце по регионам; при наведении на регион — временное распределение закупок по индустриям в нём:

Фильтры по индустрии, ценовой категории и региону отсекают потенциально интересные срезы. Например, можно посмотреть только крупные строительные тендеры в Красноярском крае. В этом случае на диаграмме будет показана не только динамика, но и отдельные тендеры:

При наведении на тендер показана подробная информация о нём:

На визуализации показаны только электронные аукционы, завершённые с августа 2014 по июль 2015. Видим, что самые «жирные» индустрии — строительство, медицина, финансы. Строительство преобладает в большинстве регионов, его активность предсказуемо падает в зимние месяцы. В январе самый низкий объём завершённых тендеров по всем индустриям. Что касается регионов, лишь некоторые активно используют систему электронных аукционов: это Москва и Московская область, Санкт-Петербург, Нижний Новгород, Самара, Краснодарский и Краясноярский края, с 2015 года к ним присоединилась Волгоградская область. В других регионах электронные аукционы единичные, касаются одной-двух индустрий, их объёмы незначительны. Во многих регионах (показаны белым цветом) они вообще не проводились.

Живой прототип: http://tenders.datalaboratory.ru/

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru, ответы публикуются ежемесячно. При участии Дамира Мельникова.

2015   визуализация данных   вопрос-ответ   за год   закупки   регионы РФ   тендеры

Вопрос-ответ: оценка ресторана

Спрашивает Паша Омелёхин:

Расскажите, как рисовать графики из псевдокривых, наложенных друг на друга, если на них будут смотреть со смартфонов? Как обойтись без легенды, и какие еще есть нюансы при проектировании инфографики для мобильных устройств?

Чтобы ответить максимально по делу, я уточнила у Паши, о каких графиках идёт речь.

Графики показывают оценки разных качеств заведения, например цены и скорости обслуживания. Люди ставят оценки от 0 до 100 на планшете, который им выдают, если они согласны оценить. Все оценки прилетают в личный кабинет владельца бизнеса, на мобильный телефон.

Я попробовал найти решение сам. Сначала это был график, потом я додумался до точек. Большое скопление покажет среднюю оценку, но редкие и сильные отклонения тоже будут видны. Обычный график их не покажет. Не знаю, насколько хорошо мое решение, поэтому интересно посмотреть на твое и узнать, как лучше делать.

Кирпичик данных — это один ответ. Проявив его, Паша показал откуда берутся средние значения, как ответы распределены по оценкам и во времени. Отличная работа с микроуровнем!

Беда в том, что на новых графиках потерялась самая важная информация. Наш мозг не способен «подсчитать» среднее значение, глядя на визуальное распределение результатов, а именно средние оценки и их динамика интересуют владельца ресторана в первую очередь.

Данные отвечают на вопросы пользователя. Отранжируем вопросы и ответы по важности:

  1. «Что происходит сейчас?» — средняя оценка за неделю по каждому критерию и свежие комментарии.
  2. «Как изменилась ситуация за последнее время?» — динамика средних оценок и история комментариев.
  3. «Что стоит за средними оценками? Насколько они достоверны?» — распределение конкретных ответов.

Исходные графики показываю только динамику (2), пашин вариант даёт доступ к детальным данным (3). Проявим на макроуровне все данные с соответсвующим важности весом — оценку за прошлую неделю крупным числом, динамику ярким графиком, распределение полупрозрачным облаком на фоне:

Вместо батареи переключателей «день | неделя | месяц | год» выберем временные отрезки, близкие к реальности ресторатора, например, средние за неделю, полное распределение по дням и часам. Комментарии предлагаю не прятать, а показать тут же, бесконечно уходящей в прошлое лентой.

Цвет сейчас дублирует вертикальное измерение. Вместо этого предлагаю использовать разные цвета для разных критериев.

На визуализации мгновенно считывается проблемы со скоростью; легко заметить, что сервис хороший, но ухудшается; при желании можно рассмотреть, что оценки последнюю неделю ставили активно, их много, и стоит к ним прислушаться. Сразу видны недавние комментарии гостей с конкретными замечаниями и похвалой.

Такой экран отвечает на большинство вопросов большинства пользователей. Остальные сценарии (динамика за год, фильтрация комментариев, оценки по времени суток) предлагаю реализовать на внутренних экранах приложения.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru, ответы публикуются ежемесячно.

Вопрос-ответ: OEE

Спрашивает Роман Бунин:

Для процессных производств (добыча нефти, пищевая промышленность, химическая промышленность) основными источниками затрат являются сырьё, расходы на энергию и оборудование. Оборудование пытаются загрузить как можно больше, так как оно дорогое и если оно простаивает, то это приводит к упущенной прибыли. Основные причины простоев — поломки, производство брака, мойки оборудования, тех. обслуживание и т. п.

Чтобы отслеживать загрузку оборудования, используется специальный KPI — OEE (Overall equipment effectiveness, или Общая эффективность оборудования). Это комплексный показатель, который состоит из трёх частей: доступность, производительность и качество. Каждый измеряется в процентах, которые при перемножении дают общее значение. Анализируя данные, как в целом, так и по каждой составной части, можно найти основные причины простоев. Данные интересны в разрезе единиц оборудования, причин простоев, времени и смен.

Как визуализировать эти данные и срезы?

На приведённом дашборде индикаторы, графики и диаграммы разрознены, никак не связаны между собой. Попробуем выстроить последовательную картину работы предприятия, которая продемонстрирует эффективность каждой машины в отдельности и производства в целом.

На микроуровне работают машины, которые производят продукт (качественный и бракованный) с определённой скоростью (производительностью), нулевой, если машина недоступна. Кирпичик данных — это результат работы одной машины в единицу времени. А именно, объём фактически произведённой продукции в тоннах (факт), объём качественной продукции в тоннах (факт − брак) и производные относительные характеристики: доступность (время факт / время план), производительность (факт / план), качество (кондиция / факт) и ОЕЕ (Д × П × К). По формулам выходит, что ОЕЕ показывает отношение выпущенной качественной продукции к запланированному максимально возможному объёму.

Покажем произведённую в единицу времени продукцию столбиком из двух частей, кондиции и брака. Над столбиком отметим уровень запланированного максимума:

То же самое в процентах:

Соберём из столбиков картину дневной эффективности, объединим дни в недели на календарной сетке месяца. Абсолютное значение планового объёма может меняться в разные дни и смены, поэтому на графике покажем относительные значения в процентах.

Уровень полных столбцов показывает производительность машины в течение дня, уровень жёлтых столбцов показывает динамику ОЕЕ. Разные оттенки жёлтого, меняющиеся в течение дня, иллюстрируют сменяющие друг друга бригады. Причины простоя показаны разноцветными полосками в дырах на графике.

На таком графике виден не только общий уровень производительности и OEE, но и причины снижения показателей: продолжительное отсутствие сырья, несколько крупных поломок, сопровождающиеся выпуском брака и т. п.

Мы визуализировали эффективность работы одной машины по часам на протяжение месяца. Тот же подход сработает для макроуровней: цеха и завода, а также других временных отрезков, например, целого года. Дополним график таблицей с ключевыми параметрами и интерактивной легендой, которая показывает полный набор параметров при наведении на график.

Живой прототип: http://oee.datalaboratory.ru/

В таблице видно какие цеха и машины снижают общую эффективность, по клику в цех и машину открываются соответсвующие показатели слева и графики справа. Низкая эффективность пресового цеха объясняется плохой работой 1-й жаровни и 2-го пресса. Жаровня простаивает в основном из-за отсутсвия сырья, а также почти на сутки 17-18 июля вышла из строя из-за серьёзной поломки. Пресс в основном простаивает без сырья и заказов. При этом по упущенной прибыли всех опережает цех очистки.

Получившаяся визуализация показывает динамику OEE, объясняет, что значит этот параметр и каковы причины снижения эффективности производства.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru, ответы публикуются ежемесячно. При участии Романа Бунина, Кирилла Беляева и Сергея Долинина.

2015   KPI   визуализация данных   вопрос-ответ   оборудование   производство
Ctrl + ↓ Ранее