Нещодавно в моїй стрічці з'явився мем, який змусив мене посміхнутися, а потім серйозно замислитися. На ньому зображено, як різні технології штучного інтелекту працюють з неякісними даними (представленими у вигляді емодзі купки лайна 💩).

Прості алгоритми машинного навчання повертають те саме, що отримали на вході. Просунутіший АІ додає до результату «блиск» та «зірочки». Далі генеративний АІ перетворює їх на веселкового «єдинорога». І нарешті, агентний АІ створює цілу колекцію різноманітних варіацій. Але суть залишається незмінною – всі ці результати, незалежно від технологій їх отримання, все одно походять від неякісних даних і в результаті на виході те саме лайно, тільки з «прикрасами».
Цей мем добре ілюструє один з фундаментальних принципів роботи з даними – «garbage in, garbage out» (сміття на вході – сміття на виході). Цей принцип з'явився ще на зорі комп'ютерної ери та залишається актуальним досі. Як би не розвивалися технології обробки даних, які б складні алгоритми ми не використовували, якість результату завжди буде обмежена якістю вхідних даних.
Саме тому деякі наші проєкти бувають такими довгими, бо ми разом з клієнтами намагаємося максимально покращити якість даних перед їх використанням. Часто клієнти не розуміють, чому не можна «просто взяти дані й навчити нейронну мережу». Але наш досвід показує, що інвестиції в якість даних на початковому етапі економлять значно більше часу та ресурсів у майбутньому.
Наприклад, в одному з проєктів клієнт хотів швидко впровадити систему персональних рекомендацій для інтернет-магазину. Але коли ми почали досліджувати дані, виявилося, що:
- історія покупок клієнтів містить багато аномалій;
- інформація про перегляди товарів відсутня;
- характеристики товарів заповнені не повністю;
- в базі клієнтів є велика кількість дублів.
Замість того, щоб одразу навчати рекомендаційну систему на неякісних даних, ми спочатку: впровадили систему відстеження поведінки користувачів; розробили процес збагачення карток товарів; створили єдиний профіль клієнта; налаштували процеси перевірки даних.
В результаті проєкт зайняв більше часу, ніж планувалося спочатку, але клієнт отримав рекомендаційну систему, яка дійсно підвищує продажі, а не просто показує випадкові товари.
На іншому проєкті з прогнозування продажів для мережі магазинів ми зіткнулися з типовою ситуацією – клієнт хотів одразу отримати точні прогнози, але виявилося, що:
- дані про продажі містять некоректні значення;
- промоакції та маркетингові активності не ведуться коректно в системах;
- відсутня інформація про Out-of-Stock і планові поповнення складів;
- не фіксуються зовнішні фактори впливу (погода, події).
Тож довелося спочатку налагодити процеси збору якісних даних, створити систему фіксації всіх важливих подій та факторів, і лише потім переходити до навчання моделей прогнозування. Зараз система дає точність прогнозу понад 90%, але цього б не вдалося досягти без якісних вхідних даних.
Ці приклади підтверджують: до неякісних даних немає сенсу застосовувати навіть найсучасніші алгоритми машинного навчання. Краще витратити час на побудову правильних процесів роботи з даними – це інвестиція, яка завжди окупається в точності та надійності прогнозів.
У сучасному світі, де штучний інтелект стає все більш поширеним, багато компаній захоплюються новими технологіями та забувають про цей базовий принцип. Вони інвестують величезні кошти в найновіші AI-рішення, але отримують розчарування замість очікуваних результатів. Це як намагатися приготувати вишукану страву з зіпсованих продуктів – навіть найкращий шеф-кухар не зможе зробити її смачною.
Тому, перш ніж говорити про використання передових технологій штучного інтелекту, варто задати собі просте запитання: «А чи достатньо якісні мої дані для цього?»
Метрики якості даних: як оцінити те, що не можна побачити

Пʼять вимірів якості даних
Коли я почав глибше вивчати тему якості даних, я зрозумів, що це як діагностика здоров'я – потрібно перевірити багато параметрів, щоб зрозуміти загальний стан. Ось ключові метрики, які я виділив:
1. Точність даних
«Чи відповідають дані реальності?» – це перше питання, яке ми маємо поставити. Наприклад, якщо в базі даних вказано, що клієнту 253 роки – це явно помилка. А що якщо вказано 53 роки? Це виглядає правдоподібно, але чи відповідає дійсності? Точність даних – це міра відповідності даних реальному світу.
2. Повнота даних
Уявіть, що ви збираєте пазл, але частина елементів загублена. Так само з даними – відсутність важливої інформації може зробити весь набір даних марним. Якщо у вас є база клієнтів, але у половини записів відсутні контактні дані, наскільки ефективною буде ваша маркетингова кампанія?
3. Своєчасність
Дані, як і новини, мають термін придатності. Торішній прогноз погоди вже нікому не цікавий, так само як і застарілі дані про ринкові ціни або складські запаси. Своєчасність – це міра актуальності даних на момент їх використання.
4. Консистентність
Це як координація між відділами в компанії – всі мають говорити однією мовою. Якщо в одній системі температура зберігається в Цельсіях, а в іншій – у Фаренгейтах, без належної обробки це призведе до плутанини. Консистентність забезпечує узгодженість даних між різними системами та процесами.
5. Інтегрованість
Сучасний бізнес – це складний механізм, де дані мають вільно переміщуватися між різними системами. Інтегрованість показує, наскільки добре ваші дані можуть «спілкуватися» з різними системами та процесами.
Як вимірювати якість даних
Для кожної метрики існують свої методи вимірювання:
Точність: порівняння з еталонними джерелами, перевірка на відповідність бізнес-правилам (наприклад, вік не може бути від'ємним);
Повнота: відсоток заповнених полів, аналіз пропущених значень;
Своєчасність: час від останнього оновлення, відповідність графіку оновлень;
Консистентність: порівняння даних між різними системами, пошук суперечностей;
Інтегрованість: успішність обміну даними між системами, кількість помилок при інтеграції.
І пам'ятайте, якість даних – це не одноразова акція, а постійний процес. Як і у випадку з нашим мемом, навіть найсучасніші технології не допоможуть, якщо базові метрики якості даних не відповідають необхідному рівню.
Як ви оцінюєте якість даних у своїх проєктах? Можливо, є ще метрики, які варто додати до цього списку?
Команда та процеси: хто і як забезпечує якість даних
Ключові ролі у керуванні якістю даних
Я часто бачу, як компанії намагаються розв'язувати проблеми з якістю даних технічними засобами, забуваючи про людський фактор. Але без правильної організації процесів та розподілу відповідальності навіть найкращі інструменти не допоможуть. Ось ключові ролі, які мають бути в компанії:
Data Steward (Куратор даних) – відповідає за якість даних у конкретній предметній області; визначає та контролює дотримання стандартів; виступає «містком» між бізнесом та технічними спеціалістами; знає «життєвий цикл» даних від створення до архівації.
Data Engineer (Інженер даних) – розробляє та підтримує процеси обробки даних; впроваджує технічні рішення для контролю якості; автоматизує процеси перевірки та очищення даних; забезпечує технічну інтеграцію різних джерел даних.
Business Analyst (Бізнес-аналітик) – визначає бізнес-вимоги до якості даних; оцінює вплив проблем з якістю на бізнес-процеси; розраховує бізнес-ефект від покращення якості даних; формує KPI для оцінки якості даних.
Data Quality Manager (Менеджер з якості даних) – розробляє стратегію управління якістю даних; координує роботу всіх залучених спеціалістів; відстежує прогрес та звітує керівництву; ініціює проєкти з покращення якості даних.
Взаємодія між ролями
Успішне управління якістю даних базується на ефективній взаємодії між усіма ролями. Data Owner приймає стратегічні рішення та виділяє ресурси. Data Steward втілює ці рішення на практичному рівні. Data Quality Manager координує процеси. Data Engineer забезпечує технічну реалізацію. Business Analyst оцінює результати та формує вимоги.
Наприклад, у великих компаніях розподіл власників даних часто виглядає так: Дані про клієнтів → Директор з продажів або маркетингу; Фінансові дані → Фінансовий директор; Дані про персонал → HR-директор.
Ключові процеси
Для забезпечення якості даних потрібно налагодити такі процеси:
1. Профілювання даних (Регулярний аналіз стану даних, виявлення аномалій та відхилень, оцінка відповідності бізнес-правилам, моніторинг трендів якості даних).
2. Стандартизація (Розробка єдиних форматів даних, визначення правил введення даних, створення довідників та класифікаторів, документування вимог до якості).
3. Очищення даних (Виправлення помилок, видалення дублікатів, обробка відсутніх значень, узгодження суперечливих даних).
4. Контроль змін (Відстеження джерел змін у даних, перевірка якості нових даних, оцінка впливу змін на пов'язані системи, документування історії змін, інструменти та автоматизація).
Важливо розуміти, що управління якістю даних – це не ручний процес. Необхідно використовувати спеціалізовані інструменти – системи профілювання даних, інструменти очищення та стандартизації, платформи управління метаданими та системи моніторингу якості даних.
Масштабування ролей та процесів
Важливо розуміти, що реалізація ролей та процесів управління якістю даних може суттєво відрізнятися залежно від розміру організації та специфіки її даних.
Малий бізнес (до 50 співробітників). Одна людина може поєднувати декілька ролей. Data Owner часто є власник бізнесу або CEO. Функції Data Steward можуть виконувати керівники відділів. Технічні функції (Data Engineer) можуть бути на аутсорсі. Базові процеси якості даних вбудовані в щоденні операції. Фокус на простих, але ефективних інструментах.
Середній бізнес (50-250 співробітників). З'являються виділені ролі для управління даними. Data Owner-и на рівні керівників департаментів. Можлива поява окремої позиції Data Steward. Є внутрішній технічний персонал. Впроваджені базові процеси управління якістю. Використання спеціалізованих інструментів.
Великий бізнес (250+ співробітників). Повноцінна реалізація всіх ролей. Можлива наявність кількох кураторів даних для різних доменів. Окремий підрозділ для управління даними. Складна система процесів та контролю. Інвестиції в комплексні платформи управління даними. Розвинена система метрик та звітності.
Корпорації та холдинги. Складна ієрархія власників даних. Команди Data Steward-ів для кожного значного домену даних. Центр компетенцій з управління даними. Глобальні політики та стандарти якості даних. Крос-функціональні команди для управління якістю. Enterprise-рішення для управління даними.
При цьому обсяг та різноманітність даних також впливають на організацію процесів. Великі обсяги однотипних даних потребують автоматизації та оптимізації процесів. Різноманітні дані вимагають більше експертизи та спеціалізованих інструментів. Критичність даних для бізнесу визначає рівень контролю та інвестицій. Швидкість оновлення даних впливає на організацію процесів моніторингу.
Головне правило – структура управління якістю даних має відповідати реальним потребам організації та масштабуватися разом з її ростом. Не варто впроваджувати занадто складні процеси в малому бізнесі, але також небезпечно нехтувати якістю даних при збільшенні їх обсягів та важливості для бізнесу.
**
Повертаючись до нашого мему – якість даних не виникає сама по собі. Це результат злагодженої роботи команди професіоналів та правильно налаштованих процесів. Без активної участі всіх ролей, особливо власників даних, складно забезпечити належний рівень якості даних. Якщо ви хочете, щоб ваші інвестиції в AI та аналітику принесли результат, починайте з побудови міцного фундаменту у вигляді процесів забезпечення якості даних та правильного розподілу відповідальності в команді.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS