Переворот у видобутку знань з інформаційного сміття

2 май, 2026 - 15:30Володимир Грегуль

За вікном — четверта промислова революція: масове впровадження штучного інтелекту (АІ), інтернету речей (IoT) та кіберфізичних систем, що інтегрують обчислювальні ресурси з фізичними об’єктами. Основою цих процесів є аналітика великих даних - збір і всебічна обробка інформації з численних джерел.

Втім, як уже не перший рік зазначає статистика Gartner, від 80 до 90% корпоративних даних залишаються неструктурованими. Даних багато, але у «в топку революції» підкинути нічого.

У космології і теоретичній фізиці існує поняття «темної матерії» - яка не взаємодіє з електромагнітним випромінюванням. У data science є близький за змістом термін - «темні дані»: великі обсяги недослідженої необробленої інформації, доступної підприємствам. Такі дані можуть бути неструктурованими, генеруватися без урахування внутрішніх процесів компанії, а їхні джерела нерідко ігноруються через неадекватну стратегію роботи з ними або недостатню обізнаність про них. За оцінками Splunk, близько 55% корпоративних даних належать до «темних». Агностицизм чистої води.

Але ж те, про що довго говорили, нарешті сталося: LLM і RAG-конвеєри зробили значну частину цих даних придатною для практичного використання.

Три типи даних: що з ними робити

Переворот у видобутку знань з інформаційного сміття

Структуровані дані усім зрозумілі: наперед визначені поля, рядки та стовпці зустрічаються скрізь - від простих Excel-файлів обліку витрат до реляційних баз даних і транзакційних систем рівня ERP та CRM. Такі дані завжди відповідають заздалегідь визначеному формату, моделі або схемі даних. Основним інструментом роботи з ними є мова SQL, хоча застосовуються й інші підходи - візуалізація, моделювання, програмні перетворення та машинне навчання.
Неструктуровані дані не підпорядковуються наперед визначеній схемі. Вони існують у вигляді тексту, зображень, аудіо, відео або документів і залишаються в початковому вигляді, доки їх не буде оброблено. Електронні листи, PDF-файли, скановані контракти, презентації, записи дзвінків, історія чатів - саме такі дані становлять значну частину інформаційного потоку в організаціях.
Напівструктуровані дані - продукт цифрових платформ та інтернету речей, які генерують безперервні потоки подій. Відповіді API, потоки телеметрії, JSON і XML-документи, журнали подій, рядкові формати на кшталт Avro і колонкові Parquet – все це різноманіття можливе і створювалося для переміщення між API та робочими службами хмарних середовищ. Але вони також є цінним джерелом для аналітики. За даними Spotify, ще у 2019 році платформа генерувала близько 70 ТБ таких даних.

Якщо коротко, то структуровані дані допомагають відповісти на питання що сталося, напівструктуровані - де і коли, а неструктуровані дозволяють зрозуміти чому це сталося.

Чому неструктуровані дані важливі

Складнощі, що виникають під час роботи зі структурованими даними, можна вважати незначними порівняно з обробкою неструктурованих. Це пояснюється тим, що сучасні сучасні комп'ютери, структури даних та мови програмування краще пристосовані саме до табличних даних та заздалегідь визначених форматів. Щоб аналізувати неструктуровані дані та керувати ними, комп’ютерні системи змушені спершу розбивати їх на фрагменти, придатні для обробки й «розуміння».

Структуровані дані добре підходять, якщо вже відомо, які саме відповіді потрібно отримати. Але щойно постає завдання не просто зрозуміти подію та її динаміку, а розібратися, чому щось сталося, реляційні таблиці починають показувати свої обмеження.

Робота з неструктурованими даними зазвичай пов’язана з двома основними складнощами:

зберігання - обсяг таких даних, як правило, суттєво більший, ніж у структурованих;
аналіз - його складність завжди вища порівняно зі структурованими даними.

Для аналізу можуть застосовуватися й традиційні методи - наприклад, пошук за ключовими словами або зіставлення шаблонів. Але частіше використовуються технології машинного навчання: розпізнавання зображень, аналіз настроїв, видобування сутностей та інші підходи.

Коли точне запитання заздалегідь невідоме, коли потрібно глибше зануритися в деталі та знайти сенс, прихований у великому обсязі текстового або мультимедійного контенту, виникає необхідність працювати з неструктурованими даними - і саме тут проявляється вся складність цього процесу.

Напівструктуровані дані, у свою чергу, дозволяють досить точно визначити, де саме стався збій у процесі, а також відстежити зміни між станами системи. Саме тому вони є особливо корисними для моніторингу, виявлення шахрайства, аналізу продуктів і усунення неполадок.

Для ухвалення рішень потрібна повнота інформації, і всі три категорії даних є важливими. Дані з реляційних баз показують, що щось змінилося, тоді як неструктуровані та напівструктуровані дані пояснюють, що саме змінилося і чому.

Неструктуровані дані та конвеєри штучного інтелекту

Великі мовні моделі (LLM) вразили світ своїми безпрецедентними можливостями розуміння та генерації відповідей, наближених до людських. Їхній чат-інтерфейс забезпечує швидку та природну взаємодію між людиною і великими масивами даних. Наприклад, вони можуть узагальнювати інформацію та виділяти ключові моменти з даних або замінювати складні запити, зокрема SQL-запити, природною мовою.

Було б наївно вважати, що такі моделі можуть приносити комерційну цінність без додаткових зусиль. На щастя, все, що потрібно підприємствам для отримання практичної користі від LLM, - це доповнити модель власними даними. І тут на сцену виходить RAG – генерація з доповненим пошуком.

Що таке RAG

RAG (Retrieval-Augmented Generation) - це технологія доповненої генерації, при якій нейромережа (LLM) бере знання не тільки зі своєї «пам'яті», але й використовує зовнішню базу даних як актуальний довідник, за схемою: Запит → Пошук у базі знань → Контекст (додавання знайденої інформації до запиту) → Відповідь LLM (з посиланнями на джерела).

Стандартна модель не знає внутрішніх регламентів компанії, свіжих тикетів, електронних листів, контрактів, корпоративних політик або ранкових відгуків клієнтів.

RAG вирішує ці проблеми:

Актуальність: немає потреби щоразу донавчати модель при зміні одного абзацу в інструкції, достатньо оновити файл в базі знань.
Достовірність: суттєво знижується ризик «галюцинацій»: модель змушена спиратися на наданий текст.
Прозорість: відповідь легко перевірити - система завжди може вказати джерело (документ, сторінку або фрагмент тексту).
Економічність: це значно дешевше й швидше, ніж донавчання моделі.

Окремий плюс RAG - у сприянні роботі з конфіденційною інформацією. Не обов'язково «згодовувати» моделі все поспіль - можна обмежити доступ лише тими документами та джерелами, які потрібні для конкретного завдання. Дані залишаються у власній інфраструктурі, а модель отримує до них доступ лише в момент запиту, що зменшує ризики витоку інформації. Для бізнесу це часто не менш важливе, ніж якість відповіді.

Системи RAG стають новою нормою, а неструктуровані дані стрімко переходять із периферії до ядра стратегії роботи з даними.

Як працює RAG

Переворот у видобутку знань з інформаційного сміття

Прискорений конвеєр RAG, який можна зібрати та розгорнути у репозиторії GitHub /NVIDIA/GenerativeAIExamples

1. Завантаження документів

Спочатку в систему RAG завантажуються необроблені дані з різних джерел, таких як бази даних, документи або потоки даних у реальному часі.

Для попередньої обробки LangChain надає велику кількість завантажувачів документів, які дозволяють отримувати дані з різних форматів і джерел. Термін «завантажувач документів» у цьому контексті використовується у широкому значенні: вихідні дані не обов’язково мають бути стандартними PDF- або текстовими файлами. Наприклад, LangChain підтримує завантаження даних із Confluence, CSV-файлів, електронної пошти Outlook та багатьох інших джерел. Аналогічні можливості також надає LlamaIndex через екосистему LlamaHub.

2. Попередня обробка документа

Після завантаження документи зазвичай проходять етап трансформації. Один із найпоширеніших підходів - розбиття тексту на менші фрагменти (chunking). Це необхідно для того, щоб текст краще поміщався в контекстне вікно моделі та ефективніше індексувався.

Хоча сам процес поділу виглядає простим, на практиці він доволі складний: якщо фрагменти занадто малі - втрачається зміст, якщо занадто великі - знижується якість пошуку та точність відповіді.

3. Генерація ембедингів

Після обробки дані необхідно перевести у формат, придатний для обчислювального аналізу. Для цього використовується генерація ембедингів - перетворення тексту у багатовимірні векторні представлення, які відображають його семантичний зміст у числовій формі.

4. Зберігання у векторній базі даних

Оброблені дані та їхні векторні представлення зберігаються у спеціалізованих системах - векторних базах даних. Вони оптимізовані для швидкого семантичного пошуку та видобутку релевантної інформації.

Зберігання даних у векторних базах із прискоренням RAPIDS RAFT, таких як Milvus, забезпечує високу швидкість доступу до інформації та ефективний пошук у режимі реального часу.

5. LLM

LLM-моделі є основним генеративним компонентом RAG-конвеєра. Вони навчаються на великих масивах даних, що дозволяє їм розуміти та генерувати текст, близький до людської мови.

У контексті RAG LLM потрібні для формування повноцінної відповіді на основі запиту користувача та додаткового контексту, отриманого з бази знань під час виконання запиту.

6. Запити

Коли користувач надсилає запит, система RAG використовує індексовані дані та векторні представлення для пошуку. Вона порівнює вектор запиту з векторами, що зберігаються у базі даних, знаходить найбільш релевантну інформацію, після чого LLM формує відповідь на основі запиту та отриманого контексту.

Замість висновку

Коли точне запитання заздалегідь невідоме, особливо важливо вміти працювати не лише з цифрами в таблицях, а й із тим, що зазвичай залишається в тіні - електронними листами, документами, логами, чатами та іншими неструктурованими даними. Саме тут LLM і RAG-конвеєри роблять те, що ще нещодавно виглядало майже як магія: перетворюють хаос на відповідь.