Комбинированный метод анализа текста облегчит поиск в миллионах документов

24 декабря 2019 г., 15:45

На конференции по нейронным системам обработки информации доцент MIT, Джастин Соломон (Justin Solomon), представил созданную совместно с Watson AI Lab компании IBM методику ускоренной сортировки огромных массивов текстовой информации. Она объединяет три популярных инструмента текстового анализа — моделирование тем, вложение слов и оптимальный транспорт — благодаря чему показывает в популярных тестах на классификацию документов лучшие результаты, чем конкурирующие методы.

Подсчитывая частоту появления частоупотребимых слов в текстах, алгоритм делит каждую книгу/статью/документ на 5–15 наиболее важных тем и оценивает насколько каждая тема характеризует книгу в целом. Для сравнения книг исследователи применяли внедрение слов — техника, которая превращает слова в списки чисел, чтобы отразить их сходство в популярном использовании; и оптимальный транспорт — рассчитывает самый эффективный путь перемещения объектов (или точек данных) для измерения того, насколько пересекаются распространённые темы во всей коллекции и в каждой паре книг.

Данная техника особенно хорошо работает при сканировании больших коллекций книг и длинных документов. Моделирование книг по их характерным темам, а не по отдельным словам, делает возможным сравнение на высоком (концептуальном) уровне. При этом, нужный результат, как показали испытания, получается очень быстро. На то, чтобы сопоставить 1720 пар книг из библиотеки Проекта Гутенберг исследователи потратили всего одну секунду — это в 800 раз быстрее, чем при использовании лучшей альтернативной методики.

Новый алгоритм превосходит все предшествующие и по точности сортировки, например, кластеризации книг по авторам или спортивных новостей по видам спорта. Авторы продемонстрировали это в серии визуализаций.

В дополнение к быстродействию и точности, этот метод полезен тем, что пользователи могут следить за процессом принятия решений, видя по появляющемуся списку тем, почему модель рекомендует тот или иной документ.

Стратегія охолодження ЦОД для епохи AI