12 заметок с тегом

алгоритм Δλ

Позднее Ctrl + ↑

Алгоритм Δλ: элементарные частицы данных

Физика выводит законы макромира и свойства материи, изучая элементарные частицы, их характеристики и способы взаимодействия. Физики издавна ставили эксперименты и фиксировали закономерности, но только знания о молекулах, атомах, субатомных частицах, фермионах и бозонах позволили докопаться до сути наблюдаемых явлений.

Визуализация показывает и объясняет реальность данных так же, как физика описывает реальность нашего мира. Чем глубже визуализация погружает зрителя в данные, тем лучше он понимает суть происходящего.

Вот типичный интерактивный бизнес-отчёт:

Визуализация нескольких усреднённых параметров показывает положение дел, но не объясняет почему эти цифры таковы, что на них влияет и что можно улучшить. В приведённом примере нет живой массы данных, только застывшие, расчитанные внутри системы срезы. Попробуем взглянуть на задачу иначе: представим реальность данных, в которой завод выпускает продукцию. Каждый день производство отгружает тонны масла и сопутсвующих продуктов с некоторой долей брака, бригады сменяют друг друга, машины простаивают из-за отсутствия сырья, ломаются, проходят плановое техобслуживание. Данных и сущностей так много, что кажется, что показать их все на одной визуализации невозможно.

Последуем примеру физиков и постараемся выстроить общую картину из элементарных частиц. Частицей будет тонна продукции, выпущенная конкретной машиной, расположенной в конкретном цеху, во время работы конкретной бригады. Выделенная частица сама подсказывает своё визуальное воплощение: тонну продукции закодируем чёрточкой единичной толщины, её цветом — качество «норма/брак». Из частиц соберём следующую осмысленную визуальную единицу: результат работы за час, смену, сутки и т. д.

Во временной развёртке появляется ещё один тип частиц: часы простоя. Их суть и визуальное обозначение — дыра в производительности. Разные причины простоя закодируем цветом «дыры». Вот как выглядит результат дневной работы одной из машин:

Утром машина начала выдавать брак и пришлось потратить несколько часов на ремонт, ещё час она выходила на рабочий режим, после чего её производительность стала отличной. Эффективность за день получилась всего 22% из-за плохого старта.

Суммируя элементарные частицы получаем картину производительности машины, бригады, целого цеха и даже всего производства (при условии, что тонны суммируются с тоннами, а не с погонными метрами — в данном случае это так). Цветные дыры превращаются на общей статистике в мини-график простоев:

На визуализации видна общая эффективность предприятия, а также изменение эффективности во времени и разбивка по цехам (в поисках слабого звена можно спуститься по иерархии до машин и бригад). Такая визуализация выявляет проблемы и помогает повысить эффективность, а не просто констатирует факт.

Этот пример демонстрирует, как элементарные частицы делают визуализацию мощнее и глубже, и как визуальное воплощение элементарных частиц следует из их свойств и предполагаемых способов «суммирования» с другими частицами. О том, как выбирать визуальное кодирование элементарных частиц и суммировать их в общую картину я расскажу в следующих заметках.

Следующая теоретическая заметка выйдет 30 мая.

2016   алгоритм Δλ   визуализация данных   теория

Алгоритм Δλ: главная идея и шаги

Визуализацию можно разделить на две независимые составляющие: массу данных и каркас. Каркас жёсткий, он состоит из осей, направляющих, областей. Каркас организует пространство пустого экрана, он передаёт структуру данных и не зависит от конкретных величин. Масса данных — концентрат информации, она состоит из элементарных частиц данных. Благодаря этому она пластична и «облепляет» любой заданный каркас. Масса данных без каркаса — бесформенная груда, каркас без массы данных — голый скелет.

В примере с Московским марафоном, элементарная частица данных — это бегун, масса — толпа бегунов. Каркас основной визуализации составляет карта с маршрутом забега и временным слайдером.

Та же масса на каркасе, образованном осью времени, даёт диаграмму финишей:

В примере с автобусами встречаются элементарные частицы трёх типов: пассажиры (формирующие пассажиропоток) и нарушения, в свою очередь состоящие из опозданий и превышений скорости. Каркасом в обоих случая служит маршрут с остановками, горизонтальное измерение которого может быть дополненно вертикальными этажами временных отрезков, разных маршрутов, разных водителей и т. п.

Другие примеры частиц данных:
— солдат и мирный житель в визуализация потерь «Fallen.io»,
— землетрясение в истории землетрясений,
— час активности или сна на диаграмме о ритме жизни городов,
— гол и голевой момент в футбольной аналитике,
— попытка ответа на вопрос в статистике тренажёра ПДД,
— танк в сравнении характеристик танков WoT,
— трата в анализе личных расходов,
— доллар на логарифмической мани-грамме.

Каркас формирует общую картину (макроуровень) из мельчайших частиц данных (микроуровень). Какой бы каркас мы не выбрали, частицы данных заполнят его и раскроются в соответсвующих измерениях. Как бы не изменились данные, каркас останется неизменным и отобразит их особенности.

Создание визуализации сводится к следующим шагам:

  • Описание реальности данных, из которой будут выделены масса данных и каркас, и постановка задачи.
  • Поиск элементарных частиц, которые сформируют массу данных.
  • Построение каркаса для решения поставленной задачи.
  • Выбор способа визуального кодирования частиц на заданном каркасе.
  • Добавление интерфейсной обёртки, которая управляет массой данных.
  • О реальности данных и постановке задачи я писала в предыдущих заметках. Поиск элементарных частиц подразумевает выбор правильного слова или даже изобретения специального термина. При построении каркаса важно использовать естественные измерения и создавать оси сравнения. Визуальное кодирование элементарных частиц должно быть наглядным, различимым и аддитивным. При наложении массы данных на каркас нужно правильно складывать и усреднять визуальные слои. Каждый шаг имеет свои особенности и заслуживает отдельной заметки.

    Вместе шаги составляют алгоритм визуализации, который я сформулировала на основе собственного опыта и лабораторных проектов. Я нигде не встречала подобного подхода, поэтому скромно назову его алгоритмом Лаборатории данных :-)

    Чтобы познакомиться с нашим алгоритмом «из первых рук» и научиться его применять, приходите на брейнвошинг по визуализации данных, который я проведу в Москве, 23 и 24 апреля.

    Следующая теоретическая заметка выйдет 16 мая.

    2016   алгоритм Δλ   визуализация данных   теория