о визуализации данных и жизни

Позднее Ctrl + ↑

Реальность данных

Я придумываю визуализации без алгоритмов и правил, по наитию. Знакомлюсь с данными, изучаю их и щёлк… вижу картину, которая впоследствии, проработанная и уточнённая, становится визуализацией. Я могу разобрать результат «по косточкам», объяснить, почему он именно такой и в чём его сила, сформулировать принципы, которые лежат в его основе, но не могу рассказать, как я к нему пришла. Это делает меня никчёмным арт-директором и преподавателем, и я хочу это исправить.

Дважды в месяц я буду публиковать размышления о моём подходе к визуализации данных, чтобы постепенно сформировать теоретическую базу и докопаться до заветных алгоритмов. Забраться в собственный мозг и понять, что происходит в нём в момент «щелчка», непросто. Но я попробую.

Обычно данные хранятся в таблицах и базах, объединяющих множество таблиц. Все таблицы выглядят одинаково, как и круговые диаграммы, построенные на их основе. Все данные — уникальны, они наделены смыслом, подчинены внутренней иерархии, пронизаны связями, содержат закономерности и аномалии. Чтобы проявить сущность данных в визуализации нужно выйти за пределы табличного представления — в реальность данных.

Иллюстрация: Golden Easel Art Print, Imaginary Foundation

Данные каждой задачи живут в собственной реальности. Там в нескольких измерениях (пространственных, временных или каких-то совсем иных) существуют и взаимодействуют объекты, текут потоки, меняются характеристики и свойства, случаются события. В этой реальности свои действующие лица, свои законы; данные в ней свободные от ограничений операционной системы, экрана и нашего физического мира.

Мой рецепт качественной визуализации: перенести реальность данных на интерактивную веб-страницу с минимальными потерями (неизбежными из-за ограничений носителя).

В ближайших заметках:
— я попробую объяснить, как заглянуть в реальность данных,
— расскажу о микро- и макро-уровнях этой реальности,
— разберу конкретные примеры.

Буду рада вопросам и комментариям.

Рубрика «вопрос-ответ» временно на паузе, но всё равно присылайте вопросы на почту: data@datalaboratory.ru. Следующая теоретическая заметка выйдет 14 марта.

О востребованности визуализации данных

Спрашивает Игорь Трафимович:

Я довольно активно слежу за тематическими блогами о визуализации данных и у меня сложилось впечатление, что создание всех этих потрясающих интерактивных работ — не слишком прибыльное занятие, ведь для большинства бизнес-задач достаточно простейших барчартов, которые можно сделать в Excel без участия дизайнера.

Расскажи, востребована ли визуализация данных на рынке и насколько перспективной ты сама видишь эту область?

Я не знаю, как оценить перспективность области. Если 99,9% преступлений в Лондоне раскрывают полицейские Скотленд-ярда, делает ли это работу Шерлока Холмса менее перспективной?

Фото Роберта Вигласки, PA

Визуализация — это сверх-мощный инструмент. Она наглядно показывает огромные объёмы данных, проявляет закономерности, которые никто не надеялся найти, сворачивает 30-страничные отчёты в одну интерактивную картину, экономит время и вычислительные ресурсы. Визуализацией, как любым инструментов, нужно уметь пользоваться, но я верю, что грамотная визуализация способна творить чудеса.

При этом визуализация, как Шерлок, решает очень узкий круг задач — запутанные дела со сложными, многомерными данными, в которых скрываются полезные для бизнеса знания. Такие задачи найдутся далеко не в каждой компании, а если и найдутся, от них необязательно зависит успех бизнеса, и даже когда зависит, лица, принимающие решения, могут не знать о том, что задачу можно решить с помощью визуализации данных. Рынок крошечный, риск остаться без работы велик.

Вот что делаем я и моя команда, чтобы чувствовать себя хорошо.

  • Главное правило, занимаемся только визуализацией данных (сродни правилу балерин зарабатывать только балетом :-)
  • Когда заказов нет, делаем бесплатные прототипы в рамках рубрики «Вопрос-ответ» или сами придумываем себе задачи.
  • Отвечаем на вопросы в блоге.
  • Выступаем на конференциях (в прошлом году был перерыв).
  • Записываем видео-лекции, организуем учебные курсы.
  • Рассказываем о работе всем, кто готов слушать.

Всё это, и немного везения, приводит в лабораторию клиентов мечты с самыми запутанными и интересными задачами. Чем больше задач мы решаем, тем искуснее используем визуализацию данных и тем уверенне чувствуем себя на рынке. Это единственный известный мне путь к востребованности в этой области.

Кстати, мы в Лаборатории данных ищем веб-разработчика. Вакансия открыта до 31 января.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru. Следующая заметка выйдет 1 февраля.

Интересные визуализации — 2015

Подводя итоги года, мы с лаборантами делимся интерактивными визуализациями, которые в уходящем году показались нам интересными и заслуживающими внимания.

Наш абсолютный фаворит — визуализация потерь во Второй мировой «Fallen.io», автор: Нил Хэлоран (Neil Halloran).

Полная картина потерь складывается из жизней солдат и мирных жителей разных национальностей. Визуализация резонирует с умом и сердцем, глубоко и честно погружает в тему, пробуждает исследовательский интерес и встаёт в один ряд с шедевром Шарля Минара о наступлении Наполеона на Москву. Завидую нынешним школьникам, которые увидят эту войну так.

Схожий по формату интерактивный анализ урбанизации Восточной Азии, автор: Нади Бремер (Nadieh Bremer):

Карта, столбиковые диаграммы, точечные гистограммы и графики интерактивно связаны друг с другом. Полная визуальная картина азиатской демографии в 2000 и 2010 гг. дополнена лаконичными выводами. Анализ, достойный курсовой работы по социологии, поместился на девяти интерактивных слайдах — блестяще!

Газета «Гардиан» опубликовала Тест «Насколько хорошо вы знаете свою страну» с вопросами о демографии:

Интересна визуализация результатов «ответы / факты», а также выводы, в целом и по конкретным вопросам.

Классный трёхмерный график (большая редкость!) появился в «Нью-йорк-таймс» — поверхность доходности короткосрочных и долгосрочных гособлигаций:

Авторы утверждают, что график показывает ценность денег сейчас, в ближайшем будущем и на годы вперёд, но простым смертным, вроде меня, уловить суть прогноза сложновато. Зато я обращаю внимание на минималистичность интерфейса (график сложен сам по себе, чтобы утяжелять его дополнительными элементами), пояснения «для чайников», сопровождаемые поворотом графика под нужным углом, и цветовое кодирование, которое хотя и дублирует значения по вертикальной оси, необходимо для считывания рельефа поверхности.

Там же, примечательная история похудения — 4 года жизни мистера Стива Лочнера, описанные кривой колебаний веса:

На графике задокументированы взлёты и падения, наградные татуировки и поворотные жизненные решения, периоды диет и приступы обжорства, есть даже классические фото «до и после». Можно посмотреть каждый завтрак, обед и перекус, занесённый Стивом в приложение «Loose It», с помощью которого он следил за питанием и весом. В заключении на фоне кривой Лочнера показаны результаты других (менее успешных) пользователей приложения.

«Уолл-стрит-джорнал» порадовал яркой и содержательной визуализацией случаев заражения инфекционными заболеваниями до и после массовой вакцинации во всех 50 штатах:

Обратите внимание на живую стрелочку-указатель в легенде и алфавитный порядок перечисления штатов, который позволяет опустить часть названий.

А вот классные спортивные визуализации.

У нью-йоркского марафона появилась интерактивная визуализация результатов (вроде той, что мы уже третий год подряд делаем для Московского :-)

Изумительная визуализация Питера Кука о пилотах Формулы-1: все победители и призёры на одной диаграмме с сортировкой по возрасту, годам участия и количеству гонок.

Необычное, но одобренной нашим футбольным экспертом Дамиром, представление результатов футбольных матчей, автор: Том Лоуренс (Thom Lawrence). Прямоугольники — атаки, цветом закодирована скорость:

Для сравнения наш вариант визуализации футбольных матчей, предложенный в одном из вопрос-ответов этого года.

Ещё один достойный внимания жанр — визуальные объяснения. В прошлом году Майк Босток опубликовал подробную и очень наглядную статью об алгоритмах сортировки с элементами визуализации:

В этом году появились достойные последователи. Визуальное объяснение принципов машинного обучения от r2d3:

Иллюстрация формулы условной вероятности, автор Виктор Пауэлл (Victor Powell):

И о погоде. Нам приглянулся симпатичный график температуры в Нью-йорке на фоне среднего и рекордных значений:

Лабораторная вариация на тему:

В следующем году мы будем делиться визуализационными находками в твиттере @datalaboratory. Подписывайтесь, если вы ещё не.

С наступающим Новым годом!

Вопрос-ответ: рынок труда в динамике

Спрашивает Жанна Гугунова из «HeadHunter»:

Мы каждый месяц составляем отчет по рынку труда Москвы, например, вот отчет за ноябрь: https://hh.ru/article/307200. Как можно представить эту статистику за год в динамике?

В статье рынок труда показан стандартными временными графиками (динамика вакансий, резюме и заработных плат) и столбиковыми диаграммами (доли рынка по профессиональным сферам) — итого около 20 иллюстраций. Каждая картинка в отдельности решает узкую задачу, но полную картину рынка за ними разглядеть сложно.

Попробуем отобразить все три параметра на одной интерактивной визуализации. Пусть по оси X будет количество вакансий, по оси Y — количество резюме, а среднюю зарплату покажем размером точки. Рынок труда в Москве в ноябре по топовым профсферам будет выглядеть так:

Масштаб по осям отличается, потому что активных резюме обычно больше, чем вакансий. Чтобы проявить эту особенность на графике, добавим лучи, соответствующие разным уровням конкуренции:

Видим, что самые активные профсферы — «Продажи» и «Начало карьеры», причём в первой конкуренция относительно низкая (3 резюме на вакансию), а во второй — высокая (более 10). Конкуренция в большинстве профсфер превышает 5 резюме на вакансию, нет ни одной профсферы ниже единицы, то есть дефицита кадров не наблюдается нигде.

По средним зарплатам с большим отрывом лидирует «Топ-менеджмент», но и конкуренция там самая большая, более 20 резюме на вакансию. Самые низкие средние зарплаты — в профсферах «Администрация» и, как ни странно, «Банки»; они даже ниже средней зарплаты в «Начале карьеры».

Добавим на график временную динамику. История одной профессиональной области будет выглядеть так:

Движении точки вдоль луча означает рост активности (и работодателей, и соискателей) в данной проф. области. Движение от луча к лучу — рост или падение конкуренции. Зарплата заметно не менялась, поэтому скроем промежуточные значения, чтобы лучше разглядеть хвост:

На графике проявилась форма, похожая на букву «s». Это сезонные рост (весна-лето) и спад (осень-зима) активности на фоне увеличения конкуренции. В «Продажах» активность в ноябре 2015 года осталась на том же уровне, что и в ноябре 2014 года, а вот конкуренция выросла с 2 до 3 резюме на вакансию.

Посмотрим на историю других профобластей:

«Айти» и «маркетинг» демонстрируют форму похожую на «продажи», но не такую симметричную. В 2014 году они делаю два витка активности (промежуточное затишье в мае), конкуренция растёт почти непрерывно, не считая небольшого спада в мае-июне 2015. «Начало карьеры» — ещё более искажённая «s» с быстрым ростом конкуренции (с 7 до 10+ резюме на вакансию) и большими «провалами» в январе и мае — во время студенческих сессий.

Посмотрим на динамику рынка в целом (гифка):

На полной картине сложнее уловить детали по отдельным профсферам, зато бросаются в глаза общие тенденции на рынке. Видно, как в 2014 году активность растёт вместе с конкуренцией, потом — резкий зимний спад, быстрый скачок конкуренции, и снова сезонный полукруг. Профсферы, как синхронные пловчихи, выписывают одни и те же фигуры, слегка отличающиеся исполнением.

Присылайте вопросы о визуализации данных на почту: data@datalaboratory.ru. При участии Кирилла Беляева, Романа Бунина и Дамира Мельникова. Спасибо Службе исследований «Headhunter» за предоставленные данные. Подписи на осях скрыты по просьбе заказчика, поведение профсфер на графике соответствует реальному положению дел.

Янчик

Яночка — чувствительный, требовательный, неудобный ребёнок. Как и многие другие малыши, она нуждается во внимании постоянно, буквально всё время. В младенчестве она никогда не лежала «кабачком», ждала общения, требовала, чтобы её носили на руках и развлекали. Стоило отвлечься, задуматься, не дай бог, заглянуть в телефон, она разражалась криком, как будто ей грозила опасность. Телефон и ноутбук в её присутствии до сих пор, за редким исключением, — табу. Когда ей что-то не нравится, она яростно протестует; когда чего-то хочет, настойчиво объясняет и требует, пока мы не поймём. Она наотрез отказывается ездить в коляске и автокресле. Она спокойно спит, только когда я рядом.

Я пытаюсь удовлетворить её потребности, и это самая тяжёлая работа в моей жизни.

Яночка-полугодовасик

Малышка обладает надо мной властью, которой ни у кого не было. Она меняет мои привычки, рушит планы, ломает меня. За год после её рождения моя жизнь изменилась сильнее, чем за десять лет до. Никогда раньше я не погружалась в такие бездны усталости и неуверенности в себе. Всё, что я до этого считала сложностями и испытаниями, теперь кажется беззаботными развлечениями. Я попрощалась с перфекционизмом, работой в привычном темпе и профессиональными амбициями, кажется, навсегда. Прощание было болезненным.

Я верю, что дети приходят неслучайно, что они учителя, а не мучители, нужно только разглядеть путь, по которому они ведут. Мне достался строгий и непримиримый наставник. Если бы к нему в придачу не достался самый понимающий, принимающий и, главное, помогающий во всём папа, я бы не справилась.

С мамой в йога-кемпе, 8 месяцев. Фото Виктории Мироновой.
С папой на пляже в Курортном, 10 месяцев

Глаза у Янчика светятся, в них — неиссякаемое любопытство и жажда исследований. Она изучает всё: рассматривает, трогает, тянет в рот; с одинаковым энтузиазмом пробует на зуб новую игрушку, бренчит по гитарным струнам и копается в мусорном пакете. В новом месте её невозможно удержать на руках, она бежит ползёт охотиться за новыми впечатлениями. Она обожает животных и приветствует восторженным писком кошек, собак, свинок, телят и другую соседскую живность (мы с недавних пор живём в деревне :-) Она собирает грецкие орехи, упавшие с растущего во дворике дерева, и колет их большим камнем, подражая папе. У неё чудесные молочные щёки и мягкие золотые завитки на затылке. Когда я её целую, она замирает с закрытыми глазами и полуулыбкой на лице — «млеет». В такие моменты время останавливается. И ещё, когда она смеётся.

С папой во дворике, 11 месяцев

Яночке сегодня исполнился год. Быть её мамой — очень трудное и очень настоящее счастье!

Ранее Ctrl + ↓