51 заметка с тегом

визуализация данных

Рейтинг стран по количеству заболевших коронавирусом

С начала пандемии коронавируса я каждый день прихожу на «Медузу» за свежими данными. «Медуза» публикует данные в таблице, где Россия всегда занимает первую строчку, а затем идут страны в порядке убывания подтверждённых случаев:

С первых дней, когда у нас появились заболевшие, я листала таблицу до похожих на Россию чисел и старалась запомнить соседей. По 10-50-100 случаям сложно судить о темпах роста, сложно рассмотреть стоящую за ними опасность. Эти числа кажутся незначительными, когда в других странах тысячи, десятки и сотни тысяч заболевших. Поэтому я смотрела на страны, в которых зарегистрировано столько же случаев, сколько у нас. Как они ведут себя, как быстро растут? Это был мой способ составить свою картину происходящего.

Картина, которую я наблюдала, меня беспокоила. Из всех соседей только Чили до какого-то момента рос более-менее схожими темпами, но со временем и эта страна от нас безнадёжно отстала. Стало понятно, что глядя в таблицу я многое упускаю, мне захотелось увидеть происходящее более полно и наглядно. Желание было сильным, навязчивым — так ко мне обычно приходят идеи визуализации.

Я подготовила данные, набросала прототип в Табло (спасибо, Рома!) и в начале апреля написала Сергею Кашину. Мы обсудили идею, её пользу и слабые места, и Сергей согласился взять на себя реализацию (огромное спасибо, Сергей!) Вот, что у нас получилось.

Рейтинг стран по количеству заболевших коронавирусом: https://www.cashin.ru/virus/ranks/

На визуализации показано, как со временем меняется место страны в топе по количеству заболевших (от 500 подтверждённых случаев). Цветом показан порядок количества заболевших, вроде изолиний на карте местности. В тот момент, когда страна переходит очередной рубеж — 1000, 5000, 10 000, 50 000, 100 000 и т. д. — её линия пересекает очередную границу цвета.

Само по себе место ни о чём не говорит. Интересно наблюдать именно, как меняется взаимное расположение стран друг относительно друга. Многие страны растут вместе, как, например, Германия и Франция, или Бельгия, Швейцария и Нидерланды:

Переодически страны обгоняют одна другую, но в целом движутся рядом

Горизонтальная линия не означает, что роста нет. Только то, что этот рост не опережает, и не отстаёт от ближайших соседей. Замечу, что такое представление несколько нивелирует расплывчатость параметра «количество заболевших». Мы смотрим не на абсолютный рост, а на то, как две страны-соседки со своими методами измерения либо остаются соседями, либо одна из стран со временем сильно опережает другую. Но это, конечно, при условии, что сам метод регистрации заболевших в стране значительно не менялся — иначе это скажется на поведении страны на графике.

Есть страны, которые засчёт жёстких мер смогли удержать эпидемию. Их цифры почти не растут, а линия на графике шаг за шагом опускается вниз, потому что их обгоняют страны с более быстрым ростом.

Обратите внимание, как Япония практически до конца марта оставалась в рамках 500 и 1000 заболевших. За это время США, которые появились на графике 8 марта, одновременно с Японией, опережая её всего на 16 случаев (502 и 518 соответсвенно) выросли до 500 000:

Кроме США, есть и другие страны, которые обращают на себя внимание взрывным ростом. К сожалению, Росиия в их числе:

Турция в марте росла очень быстро, обгоняя минимум одну страну в день. Но с начала апреля она заняла своё 9-е место между Ираном и европейской тройкой Швейцария-Бельгия-Голландия, и остановилась там. Рост Индии слегка замедлился в начале апреля, с тех пор она прибавляла по 2, 3, а то и 4 позиции каждый день, и сейчас снова затормозилась на 22-м месте. Надолго ли?

Из всех стран топ-50 Россия быстрее и настырнее всех карабкается к верхним строчкам. Вот лишь несколько стран, с которыми Россия соседствовала в тот или иной момент в таблице. Все они сейчас остались далеко позади.

ЮАР, которая 24-го по 27-е марта опережала Россию примерно на 50 случев (1070 против 1036), сейчас на 52-м месте и только-только перешагнула рубеж в 2000 случаев.

По сегодняшним данным Россия опередила Австрию и вплотную подобралась к Португалии. Настанет момент, когда мы займём своё более-менее постоянное место, как это случилось с Турцией. Вопрос в том, каким будет это место.

Мы с Сергеем продолжим работу над визуализацией, есть ещё много идей, которые хочется воплотить. Пока буду рада, если вы поделитесь своими мыслями и наблюдениями.

Рейтинг стран по количеству заболевших коронавирусом: https://www.cashin.ru/virus/ranks/ 

12 апреля   визуализация данных   коронавирус-2020

Коронавирус и визуализация данных

Пандемия коронавируса затронула почти все страны. Человечеству впервые выпадает шанс наблюдать нечто настолько глобальное, при этом касающееся каждого, и держать руку на пульсе с помощью современных технологий. Исследователи строят математические модели, которые учитывают поведение широких масс, и наблюдают в режиме реального времени, как эти прогнозы сбываются. Но что ещё важнее, они показывают свои модели тем самым широким массам, которые самостоятельно делают (или не делают) выводы, меняют (или не меняют) поведение и, как следствие, в какой-то мере определяют сценарий развития ситуации.

Сейчас, как никогда, важно не просто наблюдать процесс, но и доносить наблюдения и выводы учёных до обывателей. От способов представления данных, их прозрачности и наглядности, доверия к ним — от сообщения, вложенного в ту или иную визуализацию, зависит будущее, которое всех нас ждёт.

Поделюсь визуализациями, которые произвели лично на меня самое большое впечатление и сильнее всего повлияли на мои собственные решения.

График количества заболевших из статьи «Особенности и уроки вспышки коронавирусной инфекции — 2019 (COVID-19) в Китае», опубликованной 24 февраля в журнале Американской медицинской ассоциации, чаще всего цитируется в контексте «скрытой угрозы». И не случайно. Это гениальная в своей простоте визуализация показывает, что каждый обнаруженный случай заболевания, особенно в самом начале эпидемии, был диагностирован с задержкой около двух недель. Синие столбики — истинное количество заболевших, жёлтые — поставленные диагнозы. Подробный анализ графика можно почитать в оригинале и по-русски. Отмечу лишь главную мысль за этими данными: «Реального количества заболевших на данный момент не знает никто».

Другой впечатляющий формат — толпа корейцев, прихожан церкви Шинчионджи, самый обширный из корейских кластеров распространения короновируса:

Предположительно, вирус попал в церковное сообщество через единственную женщину, известную как «31-я пациентка», которая дважды посетила церковную службу, уже после появления симптомов и временной госпитализации, но до постановки диагноза. Мы видим каждого человека из 5016 инфицированных (вспомним визуализацию потерь Второй мировой войны). И, зная, что на данный момент 162 человека в Южной Корее погибли, можем представить это не как абстрактную цифру, а как реальные прервавшиеся жизни людей, в лицо которым мы как будто смотрим на этой визуализации. И цифра уже не кажется такой уж незначительной, какой она выглядит на общем трагическом фоне.

О том, как вирус распространился внутри Китая и по миру, обгоняя запаздывающие карантинные меры, лучше всего, на мой взгляд рассказывает Нью-йорк-таймс. Невероятно красивая и достаточно аккуратная визуализация, местами настоящее произведение искусства:

Обратите внимание, что здесь показаны либо статистически предполагаемые случаи, либо достоверно зафиксированные в будущем и отмеченные на карте «задним числом». Это даёт более-менее адекватную картину происходившего, аналогично графику выше. Ключевое слово здесь — происходившего. Картины происходящего прямо сейчас, как я писала выше, мы не знаем.

Отсюда проблемы с таблицами и картами, самыми популярными на данный момент форматами представления данных о текущей ситуации. Поговорим о них.

Университет Джона Хопкинса — один из самых надёжных источников данных о положении дел в мире. Но их карта, как и все остальные карты на сайтах всех новостных площадок, организаций и министерств здравоохранения, не говорит буквально ни о чём. Во-первых, процедуры тестирования в разных странах отличаются, и сравнивать Германию с массовыми тестированиями и Италию, в которой тесты проводят только больным с симптомами, просто бессмысленно. Во-вторых, данные по странам отличаются настолько сильно и меняются так быстро, что заметить важные изменения в формате карты просто невозможно. В-третьих, карта не выполняет свою основную функцию  — она не показывает текущее положение дел. Данные о количестве подтверждённых случаев не отражают ситуацию и могут отличаться от истинного количества заболевших в разы и даже на порядки, в зависимости от процедуры тестирования и карантинных мер в отдельно взятой стране. При этом обычные люди, глядя на карту и изучая цифры с точностью до одного заболевшего, как правило, не отдают себе отчёта в том как сильно эта «текущая ситуация» отличается от истинного положения дел.

Следующий по популярности формат — график роста заболевших/умерших по странам на таймлайне, который показывает изменение ситуации с течением времени. Например, вот такой, созданный командой «Our world in data» (интерактивная версия ↓):



На горизонтальной оси время, но не календарные даты, а дни, начиная с пятой смерти в стране. На вертикальной — логарифмическая шкала смертей. Это редкий случай, когда логарифмическая шкала по-настоящему уместна. Рост заражений и смертей идёт по экспоненте, и числа разных порядков оказываются близкими друг к другу: где вчера было 10 случаев, там через неделю (или раньше) их уже 100. Обратите внимание на пунктирную разметку, которая показывает на графике зоны разных темпов роста (число удваивается каждый день, раз в два дня, раз в три дня и т. д.) Смертельные случаи отражают ситуацию намного точнее, чем количество заболевших.

На этом графике видны страны с самыми высокими темпами роста:

И страны, которые взяли эпидемию под контроль:

Но как насчёт стран, оказавшихся где-то между? Есть ещё один формат, который отлично проявляет текущую ситуацию, а именно, продолжается ли экспоненциальный рост заболевших в стране или эпидемия замедляется. Это график дневного прироста заболевших против суммарного их количества. Больше всего мне нравится реализация, опубликованная на днях Сергеем Кашиным:

На графике можно отследить момент, когда кривая начинает отклоняться от основного направления вниз — это и есть замедление экспоненциального роста. Не всем странам удаётся удержать это движение (см. Иран, который было нырнул вниз, но снова подтянулся к диагонали), но для большинства стран их прогресс из этого графика становится понятен. Большой плюс этого графика в том, что мы смотрим на зависимость величин, которые измерены одинаковым образом, на их соотношение. И это отчасти нивелирует неточность, заложенную в параметре «количество заболевших», о которой я писала выше. Благодаря этому можно делать выводы о странах, в которых количество смертей ещё недостаточно велико, но количество подтверждённых случаев растёт достаточно быстро:

Помимо суммарного количества заболевших и ежедневного прироста, на графике показаны также суммарное количество смертей (размер кружка) и ежедневный прирост смертей (толщина и цвет линии). Визуализация также снабжена временным слайдером, который можно запустить или подвигать вручную. Итого — пять измерений данных на одном графике. Сергей, снимаю шляпу :-)

Ещё один жанр, который не могу обойти вниманием, — интерактивные модели. Вашингтон-пост приводит сильно упрощённую демонстрацию влияния мер разной степени жёсткости на темпы распространения инфекции:

В конце статьи можно сравнить между собой графики всех четырёх процессов:

Модель примитивная, и к ней есть вопросы. Но я лично знаю людей, для которых она оказалась достаточным аргументом, чтобы пересмотреть привычки и взгляд на социальное дистанцирование.

А вот потрясающий калькулятор эпидемии:

Наглядный, быстрый, с большим количеством настроек — настоящий инструмент исследователя. В статье Томаса Пуйо «Молот и танец» показано, как приближая момент и увеличивая степень вмешательства в естественный ход распространения вируса, можно снизить нагрузку на систему здравоохранения с десятков миллионов до десятков тысяч обращений. И как это позволит выиграть время, чтобы встретить врага (коронавирус) во всеоружии.

Кстати, о нагрузке на больницы и медперсонал. На визуализации Нью-йорк-таймс показан риск заражения вирусом для разных профессий:

Неудивительно, что доктора (особенно, дантисты и пульмонологи), медсёстры и врачи скорой помощи оказались в самом рисковом, правом верхнем углу графика:

Кстати, это один из немногих графиков, который соотносит события глобального масштаба и личные тревоги: можно вбить в поиск свою профессию и увидеть свои риски на общем фоне. Мне не хватает визуализаций с таким подходом, не хватает возможности оценить риск для себя и близких с учётом географии, пола, возраста, профессии и других нюансов.

Ну и напоследок, давайте посмотрим врагу в лицо:

Эта иллюстрация вириона SARS-CoV-2 — самое распространённое в сети изображение частицы вируса, который вызывает COVID-19, — создана учёными Центра по контролю и профилактике заболеваний США (CDC).

А вот вирионы снятые через электронный микроскоп. На поверхности частиц видные выступы гликопротеинов, которые напоминают зубцы короны. Отсюда и название всей группы — «коронавирусы»:

На фликре NIAID целый альбом с красочными микрофотографиями вируса на поражённых клетках:

Если не можете устоять перед потоками информации (как я), лучше потратьте время на внимательное изучение всей этой красоты, чем на очередную горячую новость :-)

Оставайтесь дома. Сохраняйте спокойствие. Будьте здоровы.

1 апреля   визуализации года   визуализация данных   коронавирус-2020

Лучшие визуализации — 2018

Начнём с визуализаций, посвящённых горячим новостям и острым темам 2018-го.

Спасательная операция в пещере Тхамлуангнангнон

Визуальные рассказы о спасении двенадцати юных футболистов и их тренера из затопленных пещер в Таиланде, опубликовали многие ведущие мировые СМИ. Мой фаворит — статья «Lucky 13» от Рейтерс. Они единственные показали маршрут спасательной операции на непрерывной схеме от начала и до конца со всеми вызовами и техническими решениями.

Там же есть понятная карта пещер с поперечным сечением в ключевых точках маршрута, включая полость под названием «Паттайя-бич», настолько узкую, что спасатели снимали кислородные баллоны, чтобы её преодолеть.

Другие достойные внимания визуальные истории на эту тему: Нью-йорк-таймс, Гардиан, Саус-чайна-пост.

Природные катастрофы

В мае на самом большом из гавайских островов произошло необычное — газовое или фреатрическое — извержение вулкана Килауэа, а также открылись трещины в жилом районе Леилани-Эстейтс, через которые вытекала лава. Хороший материал об этом — в Вашингтон-пост. Там и изящные карты, и наглядная схема-объяснение механизма извержения, и временная развёртка упавшего уровня лавы в лавовом озере кратера Халемаумау, и захватывающее видео фонтанов лавы, и самая красноречивая, на мой взгляд, визуализация — вот это изображение извергающейся трещины в тихом жилом квартале на пересечении улиц Лауны и Леилани:

В мае Нью-йорк-таймс проанализировало регионы, наиболее подверженные природным катастрофам:

В сентябре они же опубликовали завораживающую визуализацию урагана Флоренс:

А в ноябре — рассказ о лесном пожаре, уничтожившем городок Парадайз в Калифорнии:

На этой визуализации удачно подружились пространственное и временное измерение, и очень эффектно работает скролл (см. оригинал).

Китай

В 2018-м Китай продолжал строить дороги, мосты, дамбы, газо- и нефте-проводовы, тепло-, гидро- и атомные электростанции по всему миру. Нью-йорк-таймс, Гардиан, Блумберг и другие издания визуализируют масштабы строительства, анализируют стратегические цели Китая и проблему «долговой ловушки», в которой оказываются страны-партнёры.

Журналисты Рейтерс опубликовали визуальное расследование вокруг объектов, которые предположительно являются китайскими лагерями для заключённых-мусульман. В статье «Tracking China’s Muslim Gulag» они анализируют снимки со спутника и фотографии объектов и делают выводы об увеличении как количества лагерей, так и их размеров. Выводы подкреплены убедительной и интересной графикой:

Здесь же классный приём — обход периметра по скроллу:

Саус-чайна-морнинг-пост разбавляет китайскую тему материалом о богатых азиатах с серией визуализаций разной степени серьёзности:

Деньги и общество

Гениальная в своей простоте визуализация использования земли в США:

Разбив карту на маленькие квадраты и сгруппировав их по назначению земли внутри самой карты, авторы добились метафоры, понятной любому американскому школьнику. Будь-то леса, пастбища или сельскохозяйственные угодия, все эти территории теперь можно «измерить» в штатах. Интересно было бы взглянуть на аналогичную визуализацию о родных просторах.

Маленькая, да удаленькая визуализация, посвящённая «триллионному» рубежу компании Эппл:

У визуализации очень приятная механика, которую не передать статичными картинками — нечто среднее между тетрисом и «карандашной физикой» (Сrayon Physics). А ещё она очень понравилась Яне. Сидя у меня на коленях, пока я в ночи составляла этот список, она без конца просила: «Включи ту зацию, где вываливаются разноцветные штуки». И я включала, снова и снова :-)

Безумно красивая идея от «Нэшнл-географик» — волны иммиграции показаны как годовые кольца дерева:

Цветные пики по секторам — приток приезжих из той или иной части света. В «увеличительном стекле» показано, что график состоит из атомов — чёрточек, каждая чёрточка — 100 «одноцветных» иммигрантов. Благодаря такой дробности, формат работает и в разбивке по штатам:

Ещё одна визуализация на тему иммиграции опровергает связь между притоком иммигрантов и ростом преступности:

Обратите внимание, как множество графиков работают вместе, не превращаясь в кашу.

Города

Глубокое и необычное исследование названий улиц в немецких городах:

Я читала немецкую статью, переведённую браузером на английский. В английскую версию статьи на сайте большая часть «вкуснятины» не вошла.

Исследование причин задержек в Нью-йоркском метро с анимированными пояснениями и подробной интерактивной моделью наглядно демонстрирует причины транспортного кризиса:

На этой шестой по счёту визуализации от Нью-йорк-таймс скорее всего сработает ограничение на просмотр. Если не планируете оформлять подписку, воспользуйтесь  режимом «Инкогнито». 

Ещё одна эффектная городская визуализация — сейсмоопасные небоскрёбы Сан-Франциско:

Эволюцию метро в городах Китая с 1990 по 2020 годы в формате гиф:

Природа и экология

Изящная карта с первыми листочками показывает раньше или позже приходит весна в разные регионы США по сравнению с данными 50-летней давности:

Замечательный пример буквального кодирования — по всей карте «распускаются» первые листочки. Здесь же картина по годам за последние 35 лет. Видно, что хотя «в среднем по больнице» весна приходит раньше, года между собой отличаются довольно значительно, как в одну, так и в другую сторону:

В той же статье есть и график цветения вишни с точками-лепестками. Интересно, насколько точным оказался прогноз на 2018-й?

Плакат и интерактивная визуализация о загрязнении морей пластиком:

На карте показано три среза данных: страны закрашены тем ярче, чем больше пластиковых отходов производят, светло-жёлтые воронки в устьях рек показывают, сколько пластика приносит река в открытое море, а круги в океане — это плавучие скопления пластикового мусора. Обратите внимание, что отсутствие кругов не означает отсутствие мусора. Области, где исследовательские суда не обнаружили пластика показаны чёрными точками, и их не так уж много по сравнению с подтверждёнными «мусорными кучами».

Трогательные изображения семи исчезающих видов, которых осталось так мало, что все их представители помещаются в вагон метро:

Там, где сухое число скорее всего оставило бы читателя равнодушным, автор нашла понятную, наглядную и близкую большинству метафору и воплотила её в выразительной графической форме.

Любопытный проект «Небесные фигуры», который собрал воедино 28 систем созвездий разных мировых культур:

Все жители Земли во все времена смотрели на одно и то же звёздное небо. Во многих культурах звёзды объединяли в небесные фигуры. На визуализации можно взглянуть на небо глазами арабов, китайцев, египтян, индусов, ацтеков и других народов, а также увидеть созвездия, связанные в разных культурах с одними и теми же звёздами.

Cпорт

Зимняя олимпиада как обычно богата на графику, но примечательных визуализаций мне удалось найти не так уж много.

Самым интересным мне показался сюжет с графическим объяснением сложных трюков фигуристов, лыжников и сноубордистов:

Уже привычный, но от этого не менее захватывающий спортивный формат — раскадровка:

На прошлой олимпиаде Нью-йорк-таймс использовали гениальные живые превьюшки соревнований. В этом году изображения стали более детализированными, сохранив при этом лаконичность исходного формата:

Визуализация, которая раз и навсегда закрыла вопрос о первенстве по медалям, рассчитывает место в общем списке по всевозможным системам от «все медали одинаковы» до «только золото имеет значение»:

Весь чемпионат мира по футболу, начиная с одной восьмой финала:

Очень здорово показано, как в ходе игры менялись шансы на победу команды.

Искусство

Неоднозначный, но занятный анализ летних хитов с 1970-х до 2018-го:

Автор «раскладывает» композиции по выбранным шести характеристикам-векторам и, сравнивая профили между собой, делает вывод о том, что музыкальное разнообразие в 2000-х практически отсутствует. К методологии много вопросов: почему только летние хиты, почему именно эти вектора и именно шесть, насколько субъективны и измеряемы оценки по шкале «акустичности» и «весёлости», но в целом интересная идея и качественная реализация.

Шедевральное полотно с анализом работ Пабло Пикассо:

Создатели визуализации выделили 12 ключевых тем творчества художника, разделили более чем 8000 произведений по темам и подтемам, на большом холсте разметили области, форма которых напоминает стиль художника, а площади пропорциональны количеству работ по теме, и закрасили области масляными красками. Получилась впечатляющая полутораметровая картино-грамма.

Сценические костюмы Дэвида Боуи в формате дополненной реальности:

Экскурсию по сценическим образам музыканта на примере четырёх феерических костюмов, конечно, сложно назвать визуализацией данных в классическом смысле слова. Но такой плотностью информации (форма, крой, материалы, детали, текстура ткани, которую, кажется, можно пощупать), как на этих 3D-моделях, может похвастаться далеко не каждая визуализация.

Вселенная пятидесяти глав манги «Кардкэптор Сакура»:

Я не очень люблю такой закрученный по кругу формат, но здесь много приятных деталей и видно, что визуализация сделана с любовью к теме, а это, пожалуй, самое главное ❤️

В заключение, не могу не поделиться нашей коллаборацией с «Т—Ж»:

На оcнове указаных пожеланий, возможностей и ограничений, калькулятор рассчитывает выгодный для пользователя сценарий покупки квартиры в Москве: снимать и копить или взять ипотеку.

В этом году помимо отдельно стоящих визуализаций было много историй, расследований и просто статей, в которых интерактивная графика встречалась много раз по ходу повествования. При этом в лучших примерах на один материал приходилось сразу несколько уместных, качественных и продуманных визуализаций. Кроме того, активно используются 3D-модели и дополненная реальность, которые из инструментов «вау-эффекта» превращаются в полезных рабочих лошадок. Наблюдать эти изменения приятно.

Для тех, кто интересуется — подборки прошлых лет: 2017, 2016, 2015.

2019   визуализации года   визуализация данных

Лучшие визуализации — 2017

Начнём с визуализаций, которые адресованы читателю, затрагивают разные аспекты его жизни и помогают найти ответы на волнующие его вопросы. В этом году таких примеров особенно много.

Вот «Блумберг» прогнозирует вероятность автоматизации и исчезновения профессий:

График снабжён полем поиска, чтобы найти свою профессию и оценить риск остаться без работы в ближайшем будущем. Кроме того, авторы статьи выделили области наименьшего и наибольшего риска и делятся наблюдениями и выводами прямо на графике.

«Гардиан» предлагает читателю сравнить своё финансовое положения с представителями других поколений:

Для начала читатель указывает свой возраст и выбирает страну — статья становится персональной. После этого он по шагам знакомится с графиками, которые дают ответы на конкретные вопросы «Богаче или беднее были 30-летние в моей стране раньше?», «В каких странах 30-летние богаче или беднее, чем я?», «Соотечественники какого возраста богаче и беднее меня?». Эти ответы помогают разобраться в информационно нагруженной «матрице поколений» по странам. К сожалению, в списке стран нет России.

«Вашингтон-пост» рассчитывает налоговые послабления для граждан, проживающих в разных штатах, с разным доходом, с учётом семейного статуса и налоговых вычетов:

«Нью-йорк-таймс» анализирует пригороды крупных американских городов по соотношению доступности жилья и качества школьного образования:

Городки в правом нижнем углу — лакомый кусочек. Зелёным выделены пригороды, в которых комьют (усреднённый по всем жителям) не превышает получаса. На графике поиском можно найти свой или соседний городок, а также присмотреть новое место жительства.

«Стек-оферфлоу» исследует популярность основных технологий разработки в развитых и развивающихся странах:

Очень интересные исследования в области данных простых людей проводит Натан Йяу у себя на «Flowing Data». Вот пара примеров.

Время жизни взрослого человека, распределённое по активностям (в днях):

Отличие в занятиях у людей без детей и людей с детьми (в часах):

Другая интересная тема — разводы, например, этот срез по профессиям:

К слову о вымирающих профессиях. Используя формат из прошлогодней визуализации «Блумберга» «Кто на ком женится», Натан отображает возможные маршруты смены рода деятельности:

Можно выбрать свою профессию и на что вы хотите её поменять, и посмотреть, как чаще всего такой переход происходит. А там уже решить, хотите ли вы повторить весь маршрут, или пойти напрямик :-)

Хенрик Линдберг визуализировал пики занятия разными видами спорта в течение дня:

Зен Армстронг показал паттерны рождения младенцев, с интересными акцентами и выводами:

Эти визуализации позволяют нам увидеть свою жизнь на большой шкале глобальных трендов и происходящих в мире изменений. Они вовлекают читателя, предостерегают или успокаивают, приносят пользу. Знаете ещё такие примеры?

Отмечу ещё несколько интересных исследований на тему геоданных.

Эссе Джастина О’Бирна, посвящённое новой технологии гугла, AOI (areas of interest) — читается как остросюжетный детектив:

Cистема отслеживания пиков загрузки на немецкой железной дороге (вся магия в скринкасте):

Красивое и содержательное исследование работы московского такси от Александра Кукушкина:

Отображение времени вызова цветом — настоящая находка!

Здания на Манхеттене, которые не были бы построены сегодня:

Другие достойные внимания, вдохновляющие и необычные визуализации.

Жизнь крупных городов, визуализированная чекинами на Форсквере:


Изохроны крупнейших городов Европы:

Интерактивное объяснение, которое в игровой форме рассказывает, как устроено доверие и насколько выигрышными являются различные модели человеческого поведения:

Температура, ветер и снего-дождь на новых погодных картах Яндекса:

«Дыщащая Земля» — симпатичная визуализация сезонных изменений зелёного покрова планеты:

Все солнечные затмения, которые произойдут в течение вашей жизни:

Для любителей живой природы — всё, что вы хотели знать о яйцах в визуализации журнала «Сайнс»:

Дотошное исследование того, как рисуют кружки представители разных культур с анализом прописных букв соответсвующих алфавитов и подробными распределениями результатов:

Сумасшедшей красоты картины машинного обучения:

Высочайшие статуи мира — бок о бок, один из моих любимых форматов:

Анализ результативности бейсбольных ударов в зависимости от угла и скорости мяча:

Все «пробеги» ресивера Нью-йоркских гигантов Оделла Бекхема в этом сезоне Американской футбольной лиги:

Больше вдохновения в твиттере по тегу #Δλlikes. С наступающим Новым годом!

2017   визуализации года   визуализация данных

Интересные визуализации — 2016

Главные события прошлого года в мире визуализации данных: выборы президента США и Олимпиада в Рио.

С огромным количеством данных, прогнозами, трансляцией результатов в режиме реального времени и неожиданным драматичным поворотом событий, с анализом и подведением итогов — выборы стали парадом новых форматов и изящных решений длиной в несколько месяцев.

Дерево возможных путей к победе, NYT:

Управляя явкой и голосами разных слоёв населения на мини-графиках, меняем картину по штатам:

Шансы на победу, которые менялись в режиме реального времени:

Элегантные информативные форматы прямой трансляции в твиттере @nytgraphics:

Изменяющиеся предпочтения по штатам:

Сдвиг голосов на карте:

Анализ экзитполов:

Карты, составленные из мини-графиков:

Изменяющиеся предпочтения по штатам
Изменяющиеся предпочтения по штатам и округам
Результаты голосования по штатам и округам, акцент на «полярность»

Впечатляющая карта, которая проливает свет на принципиально разную поддержку кандидатов:

«Нью-йорк-таймс» выпустил несколько завораживающих визуализаций по результатам Олимпиады в Рио.

Победа Усейна Болта на стометровке в 13 стоп-кадрах:

Обновлённый новыми результатами график отставания бегунов от Усейна:

Падение и победа Мо Фарах на 10-километровой дистанции:

История олимпийских медалей:

Соотношение выигранных медалей среди мужчин и женщин в разных странах:

Много внимания досталось юной звезде спортивной гимнастики, Симоне Байлз. Интерактивный рассказ о спортсменке:

Фото-визуализация (frame by frame) её победных упражнений:

График сложности элементов, выполняемый Симоной:

Гениальная визуализация результатов забегов и заплывов гифками в твиттере:

Другие достойные внимания, вдохновляющие и необычные визуализации. Интерактивный рассказ и карта движения кораблей, красота на микро- и макро-уровнях:

Необычный способ визуализации связей на диаграмме «Кто на ком женат»:

Культурные различия в США на основе популярности сериалов — безумно интересно изучать:

Визуализация берлинского марафона:

Наша визуализация Московского марафона, которая в этом году получила бронзовую медаль на Малофее:

Исчерпывающая статистика по игрокам NBA, все графики интерактивно связаны между собой:

Детальные сценарии развития событий на Евро—2016:

Симпатичная визуализация цитируемости научных статей в стиле обложки альбома Unknown Pleasures, Joy Division:

Ураганы в окрестностях Флориды — визуализация крупных (именованных) ураганов, которые «аттаковали» Флориду или проходили поблизости, за последние 100 лет:

Повышение температуры океанов с 1900 года:

Риск наводнений, ураганов и землетрясений в разных странах, ознакомьтесь перед путешествием :-)

Трогательная до слёз визуализация первого полёта человека в космос. Сочетание голоса, расшифровки переговоров, жизненных показателей и карты создаёт мощный эффект погружения, как будто стоишь за спиной первого человека, взглянувшего на «реки и складки местности» из космоса:

Фотографии небесных тел с сортировкой и фильтром по планете:

Интерактивный плакат об акулах от National Geographic; ныряльщик для масштаба, зубы в натуральную величину:

2016   2016   визуализации года   визуализация данных

Алгоритм Δλ: реальность данных и каркас визуализации

На качественной визуализации оба экранных измерения работают, образуя один или несколько каркасов для массы данных. О типах осей и образованных ими каркасах мы поговорили в предыдущей заметке. Сегодня обсудим, как выбрать из множества измерений реальности данных те, что станут хорошим каркасом.

У этой задачи две степени сложности. В простом случае выбор каркаса очевиден. Это случай, когда измерений не слишком много, и сразу понятно, какие из них наиболее значимы и станут основой визуализации. В простом случае после того, как мы нашли частицу данных, сформировали массу из этих частиц и выделили эту массу в реальности данных, у нас остаётся этакий «остов», жёсткий статичный ландшафт, который и послужит каркасом визуализации. Этот ландшафт может быть плоским, тогда он просто становится каркасом визуализации. Например, мировая карта в истории землетрясений:

Временная ось, вдоль которой раскрываются траты из личного бюджета:

История голосования разных штатов — не самый очевидный на первый взгляд формат. На деле, простая комбинация из визуальных атомов — линий-штатов, на каркасе временой оси и оси процентного преимущества победившего кандидата:

Ландшафт может быть многомерным, тогда нужно придумать, как его свернуть в плоскую картину. Например, схема маршрута и временной слайдер на визуализации Московского марафона:

Схема линии и временные интервалы на диаграмме загруженности Московского метро:

Результаты забега на стометровке — время финиша трансформировано в отставание (в метрах) от последнего мирового рекорда:

Если вы без труда выбрали осмысленные оси для обоих экранных измерений и получили интересный результат — ура, вам повезло! Подумайте, чем дополнить основной каркас и какие интересные измерения остались за кадром.

Например, визуализация Московского марафона дополнена интерактивной картой высот (оси— координата на дистанции и высота над уровнем моря) и диаграммой финишей (бегуны вдоль оси времени):

Траты личного бюджета можно перегруппировать по категориям или по времени суток/дню недели:

В истории землетрясений тоже интересно было бы взглянуть на временную развёртку, чтобы отследить отличившиеся по количеству и силе землетрясений года.

В сложных случаях я комбинирую оси с важными параметрами более-менее случайным образом, формулирую, на какой вопрос отвечает то или иное сочетание осей, выбираю самые удачные сочетания. Интересные картины получаются на стыке предположительно зависимых параметров данных:

И из распределения частиц данных вдоль разных осей:

При сочетании простых и удачных каркасов между собой получаются по-настоящему мощные визуализации. Например, исходная диаграмма активности и отдыха жителей разных городов:

Может быть дополнена сводными данными, усреднёнными по городам и показаными на одном графике:

И диаграммой среднестатистических недель по городам:

Объединим эти каркасы с помощью интерактивной связи в одну визуализацию и увидим множество срезов данных как на ладони:

Другие примеры комбинированных каркасов. Таймлайн + карта:

Карта + хитмеп:

Несколько однотипных графиков:

И даже последовательности однотипных графиков:

http://www.nytimes.com/interactive/2012/11/30/us/tax-burden.html?_r=0 http://www.nytimes.com/interactive/2012/11/30/us/tax-burden.html?_r=0

Выбор каркаса (или нескольких) — последний, самый трудный шаг, когда от массы данных и списка измерений мы переходим к визуализации в её окончательном виде. Признаюсь, я пока не до конца сформулировала все хитрости и подводные камни этого перехода, и ещё буду о нём писать. Надеюсь, что в этой заметке мне удалось ответить на вопросы Дениса и Ивана. Буду рада новым вопросам читателей.

Чтобы познакомиться с нашим алгоритмом «из первых рук» и научиться его применять, приходите на курс по визуализации данных, который я проведу в Москве, 8 и 9 октября.

Следующая теоретическая заметка выйдет 28 ноября.

2016   алгоритм Δλ   визуализация данных   теория

Алгоритм Δλ: каркас визуализации и виды осей

Интерактивная визуализация живёт в двух измерениях плоскости экрана. Именно эти два измерения придают массе данных «жёсткость», систематизируют визуальные атомы и служат каркасом визуализации. От того, как использованы эти два измерения, зависит насколько интересной, информативной и полезной получится визуализация.

На хорошей визуализации каждому измерению соответсвует ось, которая выражает значимый параметр данных. В этой заметке поговорим о видах осей.

Непрерывная ось
На такой оси значения параметра откладываются вдоль одного из экранных измерений. При этом каждой точке на оси соответсвует своё значение параметра, а двум разным значениям параметра (даже близким) соответствуют разные точки на оси. Непрерывная ось подходит только для отображения количественных параметров.

С непрерывными осями мы знакомимся в школе, когда строим параболы:

Вообще, под графиком обычно понимают именно такой каркас — из двух непрерывных осей. Зачастую график показывает зависимость одной величины от другой, в таком случае по сложившейся традиции независимая величина откладывается по горизонтали, а предположительно зависимая — по вертикали:

График из двух непрерывных осей с точками-объектами:

Иногда на осях отмечают средние значения, и график делится на осмысленные квадранты («дорогие результативные игроки», «дешёвые результативные» и т. д.):

Также на графике можно провести лучи, они покажут соотношение параметров, отложенных по осям, которое само по себе может оказаться значимым параметром (в данном случае, конкуренция в отрасли):

Для наглядного отображения параметра с большим разбросом значений используют ось с логарифмической шкалой:

Оси пространства и времени
Важный частный случай непрерывных осей — оси пространства и времени, например, географическая координата или линия времени.

Карта, вид футбольного поля или баскетбольной площадки, схема производства — примеры комбинации двух пространственных осей.

Основой визуализации бывает одна непрерывная пространственная ось, например, погружение вглубь океана, в недра Земли или подъем в высоту:

Ещё один пример логарифмической оси

Графики с временной осью — первые абстрактные графики, которые положили начало визуализации данных:

И с успехом применяются до сих пор:

Ещё один способ показать временное измерение — дополнить пространственную картину слайдером:

В исключительных случаях пространство и время получается совместить на плоской карте или вдоль одной оси:

Карта наступления Наполеона на Москву в 1812 году
Диаграмма экспедиций Амундсена и Скотта

Интервальная ось
Интервальная ось разделена на отрезки (равные или неравные), которым ставится в соответствие значение параметра по определённым правилам. Интервальная ось подходит как для качественных, так и для количественных параметров.

Хитмеп — классический пример комбинации двух интервальных осей. Например, количество случаев заболевания по штатам и годам, показанных на соответствующем каркасе:

Название штата — чисто качественный параметр, каждому штату соответствует один шаг по вертикали. Год — непрерывное временное измерение, редуцированное до годовых интервалов. Каждому году соответствует один шаг по горизонтали.

Интервальные оси с мелким шагом (дни года по горизонтали, часы суток по вертикали) дают очень подробную, почти «непрерывную» картину:

Две интервальные оси не обязаны превращаться в хитмеп:

Интервальная ось может комбинироваться с непрерывной. Например, на этой визуализации наследия Пикассо по горизонтали отложены годовые интервалы, а по вертикали — непрерывная ось количества работ:

Другой пример комбинации интервальной и непрерывной осей — диаграмма найма «Хантфлоу». По горизонтали отложены этапы собеседования (качественный параметр), по вертикали — количество кандидатов на этапе:

Слоистая ось
В одно экранное измерение можно уложить сразу несколько осей (непрерывных и интервальных). Чаще всего этот приём работает с таймланами, когда на одну временную ось накладываются слои с данными, текстами и графикой:

Вырожденная ось
Иногда визуализации требуется ось, к которой не привязан конкретный параметр, либо на которой показано всего два значения. Чаще всего такое случается, когда визуализация иллюстрирует связи — чтобы проявить связь, необходимо пространство между объектами.

В комиксе о высоте Вселенной горизонтальное измерение также вырожденное.

Данные формата «было-стало» чаще всего требуют вырожденной оси:

Но она не обязательно «съедает» экранное измерение:

Вырожденная ось допустима, если проявляет важные особенности данных и таким образом «окупает» потерю целого экранного измерения. Но использовать её стоит только в крайнем случае. К сожалению, в эффектных популярных форматах инфографики часто вырождена одна или даже обе экранных оси.

Равномерная сетка
Ещё один способ использовать пространство экрана — заполненить его последовательными блоками по сетке. Объекты внутри сетки упорядочены линейно, например, по алфавиту:

По размеру города:

Или по номеру билета:

Сетка подстраивается под размер экрана и не имеет ярко выраженной горизонтальной и вертикальной направляющих.

В большинстве случаев каркас визуализации складывается из перечисленных выше осей. Редким исключением являются трёхмерные визуализации, ещё более редким — удачные их примеры. Встречаются также комбинированные визуализации, например, в которых график совмещён с хитмепом или картой. О комбинированных каркасах мы поговорим отдельно.

В следующий заметке я расскажу, как выбрать из множества измерений реальности данных те, что станут хорошим каркасом и отвечу на вопросы Дениса и Ивана.

Чтобы познакомиться с нашим алгоритмом «из первых рук» и научиться его применять, приходите на курс по визуализации данных, который я проведу в Москве, 8 и 9 октября.

Следующая теоретическая заметка выйдет 26 сентября.

2016   алгоритм Δλ   визуализация данных   теория

Алгоритм Δλ: ответы на вопросы

Вопросы из зала разделю на три группы: об элементарных частицах, о каркасе и общие вопросы по алгоритму.

Элементарные частицы и визуальные атомы
Спрашивает Юлия Торгашова:

Я ломаюсь на элементарных частицах. Не могу экстраполировать на разные виды «частиц». Например, вот визуализация бюджета города, что в ней «элементарная частица» — деньги? учреждения? мероприятия? Про визуальные атомы при этом понятно.

Чтобы найти элементарную частицу нужно понимать, что искать. Элементарная частица данных — сущность достаточно крупная, чтобы обладать характерными свойствами данных, и при этом достаточно мелкая, чтобы все данные можно было разобрать на частицы и собрать заново, в том же или ином порядке.

Поиск элементарной частицы начинайте снизу вверх: ищите разные потенциальные частицы и примеряйте их к данным. «Деньги?» — хорошее начало, единица измерения бюджета, рубль, но слишком универсальная. Подойдёт, если не найдём чего-то более характерного для городского бюджет. «Мероприятия» не подходят, потому что не все бюджетные траты связаны с мероприятиями, есть и другие расходы, а элементарная частица должна описать всю массу данных. «Учреждения?» — с одной стороны, да, все бюджетные деньги можно разбить на отчисления тому или иному бюджетному учреждению. С другой стороны, это уже слишком крупная единица, ведь внутри учреждения может быть несколько транзакций, в том числе периодических. Если мы возьмём учреждение в качестве элементарной частицы, то будем оперировать только общим бюджетом этого учреждение и потеряем временной срез, а также возможный срез по целевому назначению средств.

В моих рассуждениях уже несколько раз промелькнула элементарная частица — отчисление, однократное перечисление бюджетных средств в определённом размере (те самые рубли) в определённую организацию на определённые цели (например, на мероприятия), привязанное ко времени. Отчисления бывают периодические и нерегулярные, цель может состоять из нескольких уровней иерархии: на мероприятие → на организацию концерта → гонорар исполнителя. Из отчислений состоит вся расходная статья городского бюджета, при этом отчисления можно складывать между собой, сравнивать, отслеживать динамику. Если нужно визуализировать приход бюджета, используйте частицу-близнеца — поступление. Из поступлений можно составить картину формирования городского бюджета так же, как из отчислений — картину его использования.

Попробуйте начать с низов (с единиц измерения), примеряйте на роль частицы данных всё более крупные сущности и рассуждайте, почему та или иная сущность подходит или не подходит. В рассуждениях непременно проявятся новые сущности и намёки на частицу данных. Для найденной частицы обязательно выберите подходящее слово или термин, так легче в дальнейшем думать о ней и решать задачу. Юля, пожалуйста, напишите, стало ли понятнее, и какие остались вопросы.

Спрашивает Иван Печищев:

Как соотносятся визуальная частица и частица данных? Может ли у одной частицы данных несколько воплощений в визуальных частицах? Скорее всего, да. Как они соотносятся?

В публикациях вы подробно описали визуальную сторону (пиксель, прямоугольник и т. д.). Но какой логикой я из числа (количества, расстояния и пр.) дойду до визуальной частицы? Может, элементарные частицы ввести в таблицу? Как таблица Менделеева? Чтобы было видно их отличия и схожесть. Читаешь в отдельности — понятно, сравниваешь — много похожего.

Визуальный атом — это воплощение частицы данных на экране. Одна частица данных может выражаться разными атомами. Например, путь кандидата на диаграмме «Хантфлоу» показан линией:

Мы могли бы дополнить диаграмму возрастным распределением, на котором кандидаты показаны точками:

При этом цвет частицы мы сохраняем, и разные визуальные атомы представляют одну и ту же частицу с разных точек зрения. Идея о таблице визуальных частиц — отличная, спасибо! Подумаю, как её реализовать.

Спрашивает Антон:

Я сломался после столбиковых диаграмм. Там начинается какой-то ад. Диаграмму с детскими садами вообще не понял — кажется, она прямо противоречит написанному. Либо я тупой, либо эти атомы лучше использовать с большой осторожностью :—)

В статье речь не о формате «столбиковая диаграмма», а о прямоугольнике, как способе представления данных. У прямоугольника два линейных измерения + площадь, их производная + цвет. Прямоугольники состоят из пикселей.

На диаграмме садиков, пиксель — это ребёнок. Группируем детей (пиксели) по возрастам, получаются прямоугольные области разного размера. Чем больше детей в возрастной группе, тем больше площадь прямоугольника. Если сделать все прямоугольники одной высоты, то их ширина отразит разницу в размерах возрастных групп. Представьте детей на площадке, пусть они станут рядом с ровесниками. Получится подобие вот такой диаграммы:

Пока за кадром остался ещё один параметр (ради которого и затевается визуализация) — доступность садиков для каждого возраста. Если мы соберём всех детей в большой прямоугольник и разделим его на слои по возрастам (чем больше детей в возрастной группе, тем толще слой), то внутри каждого слоя можно будет провести границу между детьми, попавшими и не попавшими в сад. Внутри каждого слоя появится прямоугольник попавших в сад детей, высота которого пропорциональна размеру возрастной группы, а ширина — доступности садиков для этой группы, буквально, доле попавших в сад детей.

Закрашенные столбики на диаграмме — и есть прямоугольники, попавших в сад детей разных возрастов. Можно сравнить не только доступность садов для разных групп (ширину), но и количество детей попавших/не попавших в сад (площадь). Цветовое кодирование дублирует доступность, привлекая внимание к проблемам — крупным ярким пятнам.

Ландшафт и каркас
Спрашивает Денис Балуев:

Мне, как давнему читателю, понятны почти все пункты. Кроме седьмого. Перестаю понимать отличия ландшафта от каркаса. Возможно, здесь помогли бы примеры.

Спрашивает Иван Печищев:

Очень интересен процесс «схлопывания ландшафта». Тут тоже может быть разная логика и методы. Скажем, есть технический чертёж, а есть живопись или детский рисунок.

Тему ландшафта реальности данных и каркаса визуализации я раскрою в следующей заметке, там же отвечу на вопросы.

Общие вопросы по алгоритму
Комментирует Михаил Калыгин (привожу только вопросы):

У алгоритма есть жестко заданный выход — определенного вида ответы на интересующие нас вопросы по задаче, решение задачи. В зависимости от подхода к решению вход алгоритма может быть разным. С чего здесь начинать? Какие данные нам нужны для ответа? Как определять формат этих данных? Что делать, если данных нет?

Не затронут важный шаг алгоритма — предобработка данных. Так или иначе, мы не можем работать напрямую с реальностью данных. Мы можем теоретически описать эту реальность данных. Мы можем также описать элементарные частицы. Но на практике мы имеем лишь срезы реальности, гиперплоскости, грязные данные (те же таблицы). Какие из этих грязных данных нас интересуют и могут помочь нам в ответе на вопросы задачи? Как их нужно преобразовать, чтобы нам было удобно с ними работать? Какие упрощения и допущения мы можем себе позволить в рамках этой конкретной задачи? Нужно как-то грязные данные сделать чистыми и связать с элементарными частицами и визуальными атомами. Как?

В моём понимании цель алгоритма: визуализировать конкретный набор данных с максимально пользой для зрителя. Первичный сбор данных остаётся за кадром, у нас на входе всегда есть данные. Если нет данных, то и задачи по визуализации данных нет.

Данные, с которых мы начинаем работу, — это всего лишь отправная точка. После знакомства с ними, мы представляем породившую их реальность, где данных гораздо больше. В реальности данных, без оглядки на первоначальный набор мы выбираем данные, из которых могли бы сделать максимально полную и полезную для зрителя визуализацию.

Каким будет этот набор данных для «идеальной» визуализации — зависит от сценария использования и смекалки инфодизайнера. На этом шаге лучше взять больше, чем что-то упустить. В большинстве задач уже на этом шаге вырисовывается если не вид, то основная идея визуализации.

Следующий шаг — сравнить «идеальный» набор данных с тем, что мы имеем и понять, какие из первичных данных нам понадобятся, какие — нет, и какие необходимо добыть.

«Добыть» может означать найти, собрать или вычислить на основе имеющихся данных. Скорее всего доступными окажутся далеко не все данные «идеального» набора.

Эти данные мы и будем визуализировать. Таким образом на визуализации окажется максимально полезный из всех доступных слепок с реальности данных, а не разрозненный набор параметров.

Поясню на своём любимом примере — визуализации Московского марафона. На входе у нас финишные протоколы: имя, пол и возраст участника, номер, время финиша. В реальности данных толпа бегунов, каждый со своей скоростью преодолевает марафонскую дистанцию по улицам Москвы под палящим солнцем или в дождь. Мы хотим показать процесс, как бегут люди, идеальным будет набор данных с положением каждого бегуна, его скоростью, пульсом на всём протяжении забега, изменением высоты трассы и поминутно меняющейся погодой. Подробных данных о бегунах у нас нет и в ближайшее время не будет. Есть время финиша и прохождения 3-4 промежуточных точек на дистанции. По этим точкам можно аппроксимировать положение бегунов, пишем формулы, получаем координаты и скорость бегунов в каждый момент времени. Мы допускаем такую аппроксимацию, так как на больших отрезках марафонской дистанции движение плюс-минус равномерное, то есть порядок бегунов на трассе, за редким исключением, будет рассчитан правильно. Высоту подтягиваем с картографического сервиса, погоду и ветер берём из открытых источников. Собрав все эти данные воедино, начинаем колдовать над визуализацией.

Выходит, что ответ на большинство вопросов — здравый смысл. «Какие из этих грязных данных нас интересуют и могут помочь нам в ответе на вопросы задачи?» — те, что будут полезны для зрителя и помогут ему ответить на его вопросы. «Как их нужно преобразовать, чтобы нам было удобно с ними работать?» — так, чтобы было удобно работать. «Какие упрощения и допущения мы можем себе позволить в рамках этой конкретной задачи?» — те допущения, которые не нарушают общей картины и допустимы для решения этой задачи. «Как грязные данные сделать чистыми и связать с элементарными частицами и визуальными атомами?» — преобразовать, так чтобы было удобно работать, и визуализировать наиболее близкими по смыслу визуальными средствами. На последний вопрос как раз и отвечает алгоритм.

Как и обещала, три самых вдумчивых комментатора: Иван Печищев, Юлия Торгашова и Михаил Калыгин — получают скидку 5 тыс. руб. на осенний курс по визуализации данных. Огромное спасибо всем, кто отозвался!

Следующая теоретическая заметка выйдет 19 сентября.

2016   алгоритм Δλ   визуализация данных   теория

Алгоритм Δλ: помощь зала

Алгоритм визуализации, который я описываю, рождается на ходу. Я начала писать теоретические заметки в феврале, не подозревая, куда этот процесс меня приведёт. С тех пор появилось 8 заметок, и каждая из них меняла мой взгляд на описанные ранее вещи. Пришло время сделать паузу, выстроить мысли в последовательную историю, обозначить белые пятна и прислушаться к читателям.

Итак, вот как я вижу процесс создания визуализации от начала до конца.

  1. Таблицы и базы ≠ данные. Таблицы однообразны. Данные каждой задачи уникальны и живут в собственной реальности данных. Эту реальность нужно вообразить: 1, 2, 3.
  2. Данные состоят из элементарных частиц, в одном наборе данных бывают частицы одного или нескольких видов. Каждая частица характеризуется набором свойств. Важно представлять, каков «физический смысл» этих свойств в реальности данных и как они связаны между собой.
  3. На экране частицы данных выражены визуальными атомами (1, 2, 3), у каждого атома свой набор измерений и свойств. Визуальные атомы подбираются таким образом, чтобы полно и наглядно раскрывать свойства частицы данных. Чем ближе визуальное воплощение к физическому смыслу атрибута, тем лучше.
  4. Множество элементарных частиц образует массу данных: сыпучую, пластичную, меняющуюся. Массой данных можно управлять: взглянуть на неё с разных сторон, разделить на подмножества так и эдак, сравнивать эти подмножества между собой. Подмножества состоят из тех же частиц данных, что и целое, ими можно так же управлять.
  5. На экране масса данных выражена визуальной массой. Бывает, что в визуальной массе различимы отдельные атомы, в других случая они усредняются и складываются. О визуальном сложении и усреднении я ещё напишу.
  6. Помимо массы данных, в реальности данных есть набор измерений, ландшафт, в котором живут данные.
  7. На экране ландшафт схлопывается в одно-два-три измерения и становится каркасом визуализации. Гибкая визуальная масса легко «облепляет» жёсткий каркас, раскрываясь под определённым углом. Сложный ландшафт потребует двух и более каркасов. О видах каркасов ещё напишу.
  8. Визуализацию дополняют интерфейсом для управления массой данных (например, выборки и поиск) и каркасом (например, настройка осей). Об интерфейсной обёртке визуализации ещё напишу.

Я боюсь, что мои рассуждения слишком абстрактны и непонятны даже тем, кто искренне интересуется темой. Я хочу сделать заметки полезнее, но мне сложно взглянуть на результат со стороны, поэтому я прошу помощи читателей. Напишите, что вам непонятно, где вы теряете нить, с чем не согласны. В следующей заметке я разберу все комментарии и отвечу на ваши вопросы. Коллективный разум, отзовись!

Иллюстрация Йоко Д’олбачи

Следующая теоретическая заметка выйдет 5 сентября.

2016   алгоритм Δλ   визуализация данных   теория

Алгоритм Δλ: визуальные атомы, часть 3

Заключительная заметка о визуальных атомах (первая и вторая части). Сегодня поговорим о мини-графиках и картографических атомах.

Мини-графики
Иногда смысловой частицей данных, которую мы изучаем и сравниваем, является не единичное значние, а набор или серия значений. На прошедшем в апреле учебном курсе один из студентов визуализировал показания датчиков, контролирующих производственные процессы. Десятки датчиков измеряли различные величины иногда с частотой раз в секунду. В такой ситуации формально квантом информации является отдельное измерение, но осмысленной частицей данных будет «поток», то есть последовательность значений с каждого датчика. Потоки визуализируются мини-графиками, из которых складывается общая картина и которые можно сравнивать между собой. Вот грубая иллюстрация на примере схемы Регуляра — реальное расположение приборов и визуализация:

Вид мини-графика зависит от измеряемой величины, можно отметить минимумы, максимумы и допустимый диапазон

На визуализации занятости жителей Миннесоты хорошо видна сезонность в одних отраслях, рост и спад в других:

Видно появление и исчезновение таинственной отрасли Animal Aquaculture и космической программы — Space Research and Technology, в полной версии на сайте

Для удобства чтения все графики имеют одинаковую высоту в максимальной точке, соответсвенно разный масштаб. Конкретные значения показаны при наведении.

Частота употребления слов в официальных обращениях американских политиков:

Резкие пики сопровождаются пояснениями редакции

Климат разных городов на визуализации температурных рекордов, сравниваем толщину (разброс температур) и окраску (конкретные значения относительно нуля):

Активность у своих и чужих ворот, слабые и сильные стороны команд на визуализации голевых моментов:

Мини-графики хороши для больших наборов значений со стройной иерархией внутри. Осмелившись показать все значения, не усредняя и не обедняя выборку, вы получите информационно насыщенную, интересную для изучения визуализацию.

Географические атомы: точка, объект, область, маршрут

Визуальные атомы на карте могут быть точечными (точки, круги, объекты), площадными (области) и протяжёнными (линии).

Точки на карте — это места, события и объекты с конкретными координатами. В зависимости от масштаба карты точка может быть квартирой в доме на конкретной улице или целым городом.

Например, квартиры, сдающиеся через «Эйрбнб»:

Уже знакомые нам землетрясения:

И полезные/вредные приёмы пищи, слившиеся в облака:

Сложенные стопками смертельные случаи заболевания холерой на знаменитой карте Джона Сноу:

Дома Москвы, родом из разных эпох:

Достопримечательности на карте-путеводителе:

Точечные объекты на карте передают информацию своим положением, цветом, размером, а также засчёт подписей и картинок. Если данных для каждого объекта слишком много, располагать их на карте будет не лучшим решением. Карта диктует жёсткую топологию, и экранное пространство используется неэффективно. В таком случае я советую показать данные в виде мини-графиков, а карту использовать как дополнительный справочный элемент:

При наведении на мини-график город на карте подсвечивается красным.

Площадные объекты — это области на карте: городские кварталы, районы, округа, страны и другие государственные территориальные единицы, а также геологические и географические регионы. Площадные объекты передают сводную информацию по территории, чаще всего с помощью цветной заливки.

Однотонная показывает один параметр, например, высоту застройки или стоимость земли на Манхэттене:

Двухцветная — близость к полюсам шкалы:

Заливка полупрозрачными слоями делает акцент на пересечении накладывающихся друг на друга областей:

Границы районов Бостона, как их видят жители

На карте затопления Венеции площадная заливка улиц и площадей сочетается с точечной окраской пострадавших от наводнений зданий:

Карта может быть настоящим произведением искусства, с большим количеством цветов и оттенков:

Геологическая карта Пенсильвании

На «карте здоровья» части света покрыты паттерном человеческих тканей и клеток, поражаемых самой распространённой там болезнью:

Северная Америка покрыта жировой тканью, Европа — мозговыми нейронами (слабоумие), Африка — кровяными тельцами (малярия и СПИД), на страдающей от бесплодия Гренландии изображены сперматозоиды

Вместо заливки иногда используются изолинии, как на этой карте запахов Эдинбурга:

Протяжённые объекты на карте — это путевые сети, маршруты, границы, а также реки и горные цепи. Связанные с ними данные визуализируются линиями и змейками разной толщины, цвета и яркости.

Классическая карта Шарля Минара показывает объёмы экспорта угля Англией:

Поток делится на крупные рукава, потом на более мелкие — в соответствии с морскими путями доставки угля

Суточное движение швейцарских поездов:

Цветом линии показана скорость поездов, толщиной — их загруженность

Ветра в Токио в режиме реального времени:

Чем длиннее линии, тем сильнее дует

Воздушные пути на разной высоте над городами мира:

Высота полёта закодирована цветом

Поток беженцев из разных стран:

Чем больше поток, тем ярче луч

Вся пресная вода земного шара, как на ладони:

Сразу видно, где густо, а где пусто

При визуалиции геоданных важно учитывать характер данных и выбирать соответсвующие визуальные атомы. Привязывать точечные данные к областям, а сводные параметры по целым регионам или протяжённым объектам отображать точками, на мой взгляд, грубая ошибка.

Следующая теоретическая заметка выйдет 8 августа.

2016   алгоритм Δλ   визуализация данных   визуальные атомы   теория
Ранее Ctrl + ↓