52 заметки с тегом

визуализация данных

Позднее Ctrl + ↑

Вопрос-ответ: о засухе в Калифорнии

Спрашивает Дмитрий Ачкасов:

Как тебе такой подход к свёртке по одному из направлений?

Думаю, это спорный компромисс. С одной стороны, визуализация учитывает особенности задачи — это признак «умной» работы с данными. С другой стороны, такое отображение редуцирует целое измерение «запад-восток» и подходит только для параметров, которые слабо зависят от долготы. Для засухи — возможно, для осадков — совсем нет.

Чтобы показать подобные данные без потерь хороши микрографики (small multiples):

Засуха в США с 1895 по 2012, визуализация Майка Бостока

Ещё круче дополнить визуализацию показателями, которые демонстрируют последствия засухи, например, для сельского хозяйства:

Засуха убивает урожай, инфографика «Нью-Йорк таймс»

Присылайте вопросы о визуализации данных, организации времени, рабочем процессе, спорте и путешествиях на почту: mail@infotanka.ru. Ответы публикуются по понедельникам.

2014   визуализация данных   вопрос-ответ   засуха   микро-график

Вопрос-ответ: ритм городской жизни

Команда «Джобоун» ведёт классный блог, в котором публикует визуализацию собранных браслетами данных. Недавний пример — ритм жизни разных городов мира, на основе сна и перемещений жителей. Как сделать визуализацию ещё интереснее?

Текущий подход позволяет в деталях изучить годовую историю каждого города — так называемый микроуровень, но не показывает общей макро-картины. Погрузившись с головой в детали, мы упускаем из виду много интересного.

Для начала, посмотрим, как связаны средняя подвижность жителей и количество сна:

Разместив города на простом двумерном графике, мы увидим, что привычки жителей заметно отличаются между собой. Сразу бросается в глаза Токио, который в среднем спит почти на час меньше других городов. Мельбурнцы, напротив, самые большие сони. Самые малоподвижные люди живут в Сан-Паулу и Дубае, самые мобильные — в Стокгольме, Лондоне и Нью-Йорке (при этом все три города довольно долго спят). Очень близки по ритму Берлин, Рим и Сан-Франциско, а также Милан и Цюрих: на графике они буквально «слиплись».

Сравним теперь узор будней и выходных в разных городах, вычислив среднегодовую неделю:

На диаграмме выделяются бизнес-центры с чёткой границей будней-выходных (Бостон, Нью-Йорк, Вашингтон) и города-курорты (Остин, Лас-Вегас, Майами), где все дни похожи друг на друга. Заметно «скачут» горизонтальные уровни: пробуждение, обед, конец рабочего дня. Видно, что стокгольмцы освобождаются с работы раньше всех, а жители Сан-Паулу на выходных любят поспать до обеда.

Попробуем объединить эти способы отображения с исходной диаграммой и добавить интерактивную связь. Теперь наведение на город управляет диаграммой, мы можем быстро переключать годовые истории: не только изучать каждую в отдельности, но и сравнивать их между собой. Плавно переключаясь между городами, мы видим глобальные изменения и самые тонкие отличия в узорах городских ритмов.

Живой прототип: http://jawbone.datalaboratory.ru/

Микроуровень интересен сам по себе, но лишён основы для всеобъемлющего изучения данных. Авторы исходной визуализации решают эту проблему текстовыми пояснениями и подсказками. Добавив макроуровень, мы увидели полную картину и получили инструмент для исчерпывающего анализа.

Присылайте вопросы о визуализации данных, организации времени, рабочем процессе, спорте и путешествиях на почту: mail@infotanka.ru. Ответы публикуются по понедельникам.

2014   Jawbone   визуализация данных   вопрос-ответ   образ жизни

Вопрос-ответ: о визуализации аномалий

Спрашивают сотрудники Института проблем безопасности и анализа информации:

Мы анализируем финансовые потоки на территории РФ, в основном нас интересует отображение аномалий. Ключевые параметры операции: тип, получатель, место (регион) и время.

Как наглядно представить такую информацию, чтобы видеть общую картину и с лёгкостью уточнять детали?

Таблица затягивает в водоворт количественной информации. Но как заметил автор вопроса, самое интересное в данных — это не конкретные значения, а аномалии. Попробуем для начала дать определение аномалии для прозвольного среза.

В Тюменской области и Ненецком автономном округе суммарный оборот наличных колеблется в разумных рамках от среднего, в Челябинской и Костромской областях наблюдаются заметные скачки — аномалии. Возьмём за меру «аномальности» относительное отклонение значения из определённого среза от среднегодового по данному срезу, при этом аномалией будем считать только превышение среднего. В реальном анализе могут использоваться более сложные подходы и формулы, но для демонстрации нам достаточно и этой примитивной метрики.

Закодируем каждое значение цветом по шкале аномальности:

Усреднив аномальные отклонения в регионе за год, создадим карту аномалий:

Яркое пятно Челябинской области и относительно бледные Тюменская область и Ненецкий АО

Таким образом, мы получили статичную картину, которая даёт представление о ситуации в целом. Чтобы превратить её в гибкий и удобный инструмент аналитика, объединим график и карту, добавив интерактивность:

Живой прототип: https://cashflow.datalaboratory.ru/

При наведении курсора на столбцы диаграммы, общая карта аномалий меняется на карту месяца. Переключая фильтры, можно сравнивать ситуации по внесению (!) и выдаче, юридическим и физическим (!) лицам, резидентам и нерезидентам (!!!). Управляя фильтрами, мы можем выяснить, что летние пики в Челябинской области обусловленны выдачей наличных физическим лицам, резидентам РФ.

Первый шаг на пути решения сложной задачи — отбросить лишнее и показать самое важное, в нашем случае, аномалии. Лаконичная идея и грамотное использование интерактивности превращает привычные форматы в мощный аналитический инструмент.

Спасибо Серёже Долинину и Диме Бибикову за помощь в работе над визуализацией.

Присылайте вопросы о визуализации данных, организации времени, рабочем процессе, спорте и путешествиях на почту: mail@infotanka.ru. Ответы публикуются по понедельникам.

Вопрос-ответ: о метаморфозах формата

Спрашивает Энжи Сказка:

Есть проблема: методы визуализации подходят для одного количества данных и не подходят, когда данных делается сильно больше или, наоборот, вдруг всего одно измерение. Идея состоит в том, чтобы плавно превращать одни методы визуализации в другие, в зависимости от объёма данных.

Мне не удалось найти похожие решения. Кто-то так уже делал?

Способ визуализации решает конкретную задачу, которая скорее всего не зависит от количества данных. Поэтому я бы скорее говорила о гибкой подстройке формата под исходный массив, чем о резкой замене одного метода отображения другим.

В данном случае визуализация демонстрирует взаимосвязь между параметрами — эту задачу идеально решают параллельные координаты. Для одного экземляра данных построим шкалу с учётом известных минмимумов и максимумов, чтобы подчеркнуть отклонение параметров от нормы:

С увеличением количества точек, цифрам становится тесно — заменим их на точки и приглушим соединительные линии:

Когда точки начинают накладываться друг на друга, добавим прозрачность, приглушим линии ещё сильнее. Заранее расставленные минимумы и максимумы можно заменить реальными значениями из выборки:

В твоём прототипе непонятно, почему переход от одного формата к другому происходит на 6 объектах, а не на 10. У меня метаморфозы оправданы, их легко формализовать (если точки накладываются, то добавляем прозрачность).

Идея о кардинальной смене формата интересная, но я советую найти более красноречивый пример её применения. На мой взгляд, здесь она притянута за уши.

Присылайте вопросы о визуализации данных, организации времени, рабочем процессе, спорте и путешествиях на почту: mail@infotanka.ru. Ответы публикуются по понедельникам.

2014   визуализация данных   вопрос-ответ

Вопрос-ответ: Как визуализировать изменение веса?

Спрашивает Александр Омельницкий:

Делаю приложение для себя по контролю веса. Как будет лучше визуализировать изменение веса, при условии, что от записи к записи он может изменяться незначительно и как лучше показать норму?

Честно признаюсь, что не вижу смысла в приложениях по контролю весу, которые демонстрируют вес. Похудел-поправился, ну и что?

Гораздо круче собрать в одном месте параметры, которые потенциально влияют на вес и помогут объяснить негативные и позитивные изменения. Моя мечта — приложение, которое проанализирует качество питания в Eatery, активность в Moves, отдых в слип-трекере; в котором можно наблюдать, как спорт влияет на диету, вечерние передания ухудшают качество сна, недосып «отзывается» поеданием сладостей, и как всё это в конечном итоге сказывается на массе тела.

В идеале хочется добавлять произвольные параметры и наблюдать за зависимостями времени пробуждения и настроения, потребляемой жидкости и спортивных успехов, питания и медитации, и прочее, и прочее.

Наглядная закономерность будет лучшим аргументом для отказа от вредных привычек и развития полезных.

Присылайте вопросы о визуализации данных, организации времени, рабочем процессе, спорте и путешествиях на почту: mail@infotanka.ru. Ответы публикуются по понедельникам.

2014   визуализация данных   вопрос-ответ   еда   зож
Ранее Ctrl + ↓