Блог

Сторітелінг від Коул Нафлік: Крок 1й

Максим Обрізан

Авторка бестселера «Storytelling with Data: A Data Visualization Guide for Business Professionals» Коул Нафлік (Cole Nussbaumer Knaflic) демонструє, як ефективно розказати історію та візуалізувати складну інформацію за допомогою даних. Коул Нафлік визначає 6 кроків оптимального сторітелінгу, які змінили передачу інформації в еру великих даних порівняно з впливовими попередниками, такими як Джин Желязни.  

В цій статті ми розглянемо Крок 1й – про важливість контексту, який обумовлюється трьома основними питаннями: (і) перед ким ми виступаємо; (іі) що хочемо отримати від слухачів і (ііі) як комунікувати з нашою аудиторією. Розглянемо ці питання на типовому прикладі, коли менеджер має представити квартальний звіт за результатами роботи компанії.

Питання № 1. Перед ким ми виступаємо?

Зрозуміло, що презентація для занадто різношерстої аудиторії може виявитися неефективною, тому краще підготувати різні варіанти доповіді і провести декілька окремих презентацій. Наприклад, презентація для керівництва (фокус на прибутковості і стійкості компанії) може суттєво відрізнятися від презентації для робітників (фокус на зарплаті і соціальній сфері). Якщо Ви виступаєте перед новою аудиторією, то треба визначити чи сприймають Вас як експерта, чи експертність ще потрібно довести.

Питання № 2. Що ми хочемо отримати від аудиторії?

Як буде виглядати успішний результат Вашої презентації квартального звіту за результатами роботи компанії? Чи необхідно збільшити продуктивність, змінити застарілі практики, скоротити видатки чи навпаки збільшити інвестиції? Перш за все, необхідно з’ясувати, чому для аудиторії важлива Ваша доповідь. Зрозуміло, що в кожної аудиторії є певні упередження, наприклад високий прибуток в для керівництва може означати потребу в збільшенні інвестицій, а для робітників – очікування підвищення зарплати. Відповідно інформацію при фінансовий результат у попередньому кварталі треба подавати по-різному для цих аудиторій. Якщо Вам некомфортно пропонувати конкретні дії, то запропонуйте учасникам обговорити наступні кроки.

Питання № 3: Як комунікувати з аудиторією?

Під час презентації ми повністю контролюємо те, що бачить аудиторія, проте менше фокусуємося на деталях (в імейлі – навпаки), тому в наступних кроках Коул визначає основні принципи сторітелінгу за допомогою даних, наприклад, важливість дизайну при виборі візуалізації. Для комунікацї з аудиторією необхідно використати дані, які підтримують Вашу позицію. Звісно тут не йдеться про маніпуляцію даними, а лише про необхідність поділитися тими перлинами аналізу, які сформували Ваше розуміння проблеми і способи її усунення.

Отже, відповідаючи на ці три питання, Ви зможете краще розібратися в контексті наступного разу, коли будете готувати презентацію. В наступній статті ми розглянемо, як сформулювати головну думку, яку має почути і запам’ятати наша аудиторія.

Найкращий тип візуалізації за Желязни

Максим Обрізан

Найкращий тип візуалізації за Желязни

В цій статті ми розглянемо процес вибору найкращого типу візуалізації за методологією Джина Желязни, що широко використовується практиками з моменту виходу першого англомовного видання книги «Скажи це за допомогою діаграм» в 2001 році.

Кожному з п’яти типів порівнянь даних за Желязни відповідає 1-2 найкращих типи діаграм: секторна, звичайна гістограма (стовпчики по горизонталі), стовпчаста (стовпчики по вертикалі), лінійчата та точкова. 

В українських конторах та міжнародних офісах сформувалися потужні секти прихильників секторних діаграм, які використовують цей тип візуалізації без упину. Хоча вже 20 років тому (!) Желязни підкреслював, що така популярність абсолютно невиправдана і секторні діаграми мають використовуватися лише для покомпонентного порівняння (до 5% діаграм).

Новіші дослідження взагалі рекомендують відмовлятися від секторної діаграми, а гуру візуалізації Едвард Тафт навіть стверджує, що єдина гірша візуалізація, ніж секторна діаграма, це декілька секторних діаграм. Секторні діаграми популярні, тому що кожен розуміє, що вони мають передати (різні частини цілого), але людському оку набагато складніше порівняти сектори (особливо, коли скибочки стають дуже тонкими), ніж порівняти довжину або висоту стовпчиків.

Для позиційного порівняння найкраще підходить звичайна гістограма, де можна розміщувати елементи у потрібній послідовності (за алфавітом, за зростанням тощо), додавати шкалу або цифри на кінцях, а для підкреслення ключового елементу можна виділити його кольором або додати одну цифру в кінці. На жаль, звичайна гістограма застосовується мало, хоча це найгнучкіший тип і має включати до 25% діаграм.

Для порівняння в часі використовують стовпчасту (коли спостережень небагато) або лінійчату (коли спостережень багато) діаграму. На думку Желязни, стовпчаста і лінійчата діаграми мають використовуватися у половині всіх випадків. Стовпчаста діаграма більше підходить для точного відображення окремих значень, в той час як лінійчата краще показує загальну тенденцію. Лінійчата діаграма є однією з найпоширеніших, оскільки компактно показує як змінювався параметр в часі. Але не включайте забагато рядів в одну лінійчату діаграму, щоб не отримати «спагетті-діаграму». Краще побудувати декілька окремих графіків, щоб порівняти ключовий ряд. Точкові діаграми можуть складати до 10% випадків, а решта візуалізацій можуть бути комбінації декількох типів.

Частотне порівняння показує скільки значень певного параметру потрапляє в послідовні діапазони (у 25% випадків вантажі доставляються за 3 і менше днів) або ймовірність (з ймовірністю 20% вік співробітника буде 20-30 років). Для частотного порівняння використовують тип діаграми, який в україномовній версії Excel чомусь називається стовпчастою діаграмою, хоча з точки зору статистики ми будуємо гістограму, сума елементів якої дорівнює 100%. Такі «справжні» гістограми можна побудувати для великих масивів даних, використовуючи зведені таблиці або Пакет аналізу.

Для кореляційного порівняння використовують точкову діаграму для визначення потенційної залежності між двома змінними між значеннями по горизонталі і вертикалі. Наприклад, при наявності позитивної лінійної залежності точки концентрувалися б вздовж лінії, що йде від лівого нижнього до правого верхнього кута. За відсутності залежності точки були б розпорошені без певної тенденції.

Ви можете попрактикуватися у виборі типу порівняння та багатьох інших прикладах застосування сучасної візуалізації даних, прослухавши мій короткий та інформативний курс, та отримати міжнародній сертифікат UDEMY.

П’ять типів порівнянь даних за Желязни

Максим Обрізан

Класифікація типів порівнянь даних є одним з найважливіших внесків Джина Желязни до процесу створення діаграм і широко використовується з моменту виходу першого англомовного видання книги «Скажи це за допомогою діаграм» в 2001 році.

Уявіть, що Вам потрібно продемонструвати потенційний зв’язок між кількістю патентів у компанії і її прибутковістю. Після певного аналізу Ви розумієте, що йдеться про кореляційне порівняння – виявлення залежності між двома факторами. Досвідчені практики можуть майже автоматично визначати найкращий тип порівняння, але Желязни значно пришвидшує процес вибору, оскільки виділяє п’ять типів порівняння даних: покомпонентне, позиційне, часове, частотне і кореляційне. Чому це корисно? Тому що кожному типу порівняння відповідають певні типи діаграм, які ми розглянемо в наступних матеріалах. В результаті такий структурований процес створення діаграм спрощує візуалізацію вашої ідеї і дозволяє уникнути помилок.

Давайте визначимо п’ять типів порівняння за Желязни і проілюструємо їх на прикладах.

Покомпонентне порівняння показує частку кожного компонента від якогось цілого, наприклад:

  • У березні іноземні позики склали найбільшу частку в загальному обсязі запозичень
  • Частка відновлюваних джерел енергії становить менше 10% від загального виробництва
  • Акциз дає майже чверть податкових надходжень
    Якщо порівняння включає слова «частка», «відсотки від цілого», «складає Х %», то Ви маєте справу з покомпонентним порівнянням.

При позиційному порівнянні ми визначаємо, як об’єкти співвідносяться один з одним – однакові, більше чи менше:

  • У травні надходження від податку на прибуток перевищили надходження від акцизу
  • Центральний регіон знаходиться на четвертому місці за прибутковістю
  • Плинність кадрів в підрозділах нашої компанії приблизно однакова

Порівняння в часі є одним з найпоширеніших видів порівнянь, яке показує, що відбувається з показниками впродовж тижнів, місяців, кварталів, років. Зокрема, чи вони зростають, знижуються, коливаються або залишаються незмінними, наприклад:

  • Патентні відрахування коливалися протягом останніх чотирьох місяців
  • Державний борг зростав у цьому році

Частотне порівняння допомагає визначити, скільки об’єктів потрапляє в певні діапазони числових значень. Наприклад, частотне порівняння показує скільки працівників заробляє менш ніж 10 тис. грн., скільки заробляє 10-30 тис. і т.д.

  • Єдиний податок, сплачений ФОПами третьої групи переважно був в діапазоні від 1200 до 35000 грн
  • Більша частина вантажів була отримана за 2-5 днів
  • Віковий розподіл співробітників міністерства не відрізняється від розподілу в приватному секторі
    Тому для цього виду порівняння характерні слова «в діапазоні від х до у», «концентрація», «частота», «розподіл».

Кореляційне порівняння показує наявність (або відсутність) залежності між двома змінними, наприклад:

  • Діаграма демонструє відсутність взаємозв’язку між об’ємом продажів і прибутком
  • Зарплата виконавчих директорів зростає з розміром компанії
  • Страхова сума зростає при зростанні доходів застрахованих осіб
    Індикаторами такого порівняння виступають слова «відноситься до», «зростає в разі», «(не) змінюється при». Звичайно, треба пам’ятати, що кореляція не означає причинно-наслідковий зв’язок, бо інакше можна повірити в те, що збільшення споживання лимонаду влітку викликає спеку.

Ви можете попрактикуватися у виборі типу порівняння та багатьох інших прикладах застосування сучасної візуалізації даних, прослухавши мій короткий та інформативний курс, та отримати міжнародній сертифікат UDEMY.

Методологія CRISP-DM - класика, яка не застаріває

Максим Обрізан

Міжгалузевий стандартний процес обміну даними (Cross-Industry Standard Process for Data Mining) представляє собою добре структурований підхід до проектів з аналізу даних. Процедура CRISP-DM включає 6 кроків плюс дані, які пов’язані між собою ітеративним процесом.

Розуміння бізнесу – на цьому етапі визначте результати проекту, оцініть поточну ситуацію, складіть план проекту

Розуміння даних – опишіть і вивчіть дані, перевірте якість даних, бо часто з’ясовується, що дані неправильно або неповністю збережені в хмарі чи базі даних

Підготовка даних – виберіть дані, очистіть дані (замініть пропущені значення, видаліть нетипові спостереження тощо), об’єднайте декілька наборів даних та/або отримайте агреговані значення

Моделювання – оберіть техніку моделювання (регресія, нейронна мережа тощо), розділіть дані на набори даних для побудови моделей (набір train включає 75% даних для побудови моделей) і тестування (набір test включає 25% даних для вибору найкращої моделі або ансамблю моделей), побудуйте модель, оцініть ефективність моделі

Оцінювання – оцінка результатів (на нових даних протягом 2-3 місяців), перегляд та затвердження моделей

Деплоймент (розгортання) – результати моделей стають частиною щоденної ділової активності

Діаграма процесу підкреслює той факт, що ітерація – це радше правило, а не виняток. Іншими словами, один раз пройти процес, не вирішивши проблему, є нормою. Наприклад, на етапі моделювання може з’ясуватися, що бракує розуміння певного аспекту бізнесу, який доцільно обговорити з власником процесу або іншим ключовим стейкхолдером.

Багато експертів зі Штучного Інтелекту (ШІ) вважають, що стандарт CRISP-DM (винайдений наприкінці 1990-х років) застарілий в сучасному світі ШІ, наприклад послідовність кроків може бути іншою, або взагалі всі кроки можуть виконуватися майже одночасно. Але, схоже, що загально прийнятої альтернативи наразі немає.

На думку експерта Білла Ворхіеса, хоча наука даних і перейшла за межі прогнозного моделювання та рекомендацій, навіть сучасні нелінійні проекти все одно починаються з розуміння бізнесу, починаються з даних, які необхідно зібрати, дослідити та певним чином підготувати. Потім ці проекти застосовують набір алгоритмів науки даних до проблеми і потребують оцінки їх здатності до узагальнення в реальному світі. Тому на думку Білла Ворхіеса CRISP-DM надає чіткі вказівки навіть для найсучаснішої сьогоднішньої діяльності з інформатики.

Три кроки для створення ефективних діаграм за Желязни

Максим Обрізан

Інноваційний підхід Джина Желязни до створення діаграм набув широкої популярності з моменту виходу першого англомовного видання книги «Скажи це за допомогою діаграм» в 2001 році. Хоча деякі з матеріалів книги (наприклад, наївні приклади інфографіки з 90-х) зараз здаються кумедно застарілими, як дідусевий програвач VHS відео, багато класичних рекомендацій Желязни залишається актуальними навіть 20 років потому.

Зокрема, Желязни пропонує простий і добре структурований підхід до створення ефективних діаграм, який складається з трьох кроків:

Крок 1: Формулювання ідеї (Від даних до ідеї)
Ефективна презентація даних вимагає значної підготовчої роботи, зокрема щодо формулювання ідеї, яку Ви хочете донести до аудиторії. Сьогодні навіть школяр може швидко створити графік в MS Excel або Tableau, але спочатку треба продумати про що цей графік, а потім його будувати, а не навпаки.

Крок 2: Визначення типу порівняння даних (Від ідеї до порівняння)
Ваша ідея буде відповідати одному з п’яти типів порівняння даних: покомпонентне, позиційне, часове, частотне і кореляційне. В подальших статтях ми розглянемо цю зручну класифікацію, яка покриває майже всі типи порівнянь даних.

Крок 3: Вибір типу діаграми (Від порівняння до діаграми)
І, нарешті, кожному типу порівняння відповідає декілька основних типів діаграм. Наприклад, кореляційне порівняння («Більший досвід асоціюється з вищою оплатою») найкраще показати за допомогою точкової діаграми, а для порівняння в часі («Державний борг зростає з 2014 року») скористайтеся лінійчатою діаграмою.

Насправді, розуміння цих кроків дозволяє економити час за рахунок продуманого алгоритму побудови візуалізацій: сформулюйте ідею, визначте тип порівняння і оберіть відповідну діаграму. Що може бути простішим? Сучасні експерти, такі, як Коул Нафлік, визначають 6 кроків оптимального сторітелінгу, що звичайно розширює розуміння процесу візуалізації за рахунок важливості контексту, дизайну та історії. Але класичний підхід Желязни залишається актуальним, оскільки фокусується на головному.

Окреме значення Желязни надає заголовку діаграми. І дійсно, як часто ми можемо зрозуміти головну ідею із заголовку? Як правило, діаграми мають тематичний заголовок («Продажі за минулий квартал», «Прибутки за регіонами», «Структура населення»), що не дуже допомагає сфокусувати увагу. Желязни зі свого боку рекомендує використати головну ідею в якості заголовка діаграми. Замість неінформативного тематичного заголовка, краще використати інформативний заголовок, що передає головну думку («Продажі в минулому кварталі продовжували зростати», «Центральний регіон дає більше половини прибутку», «В столиці проживає 11% населення»).

Ця рекомендація добре співвідноситься з сучасними поглядами на важливість «5-ти секундного тесту» – користувачі Ваших візуалізацій мають за 5 секунд зрозуміти, про що йдеться. Коротка продумана назва графіку дозволяє вхопити головну думку без втрат дорогоцінного часу на безконечне розглядання гламурної інфографіки.