Нейросеть применили для извлечения научных данных из иллюстраций к статьям

10 августа 2020 г., 12:35

В поисках способов автоматического извлечения важных данных из научных статей, компьютерные учёные Национального института стандартов и технологий (NIST) разработали методику точного обнаружения небольших геометрических объектов (окружностей, треугольников, квадратов) на плотных низкокачественных графиках, например, содержащихся на цифровых сканах журнальных страниц.

В качестве исходного массива для тренировки нейронной сети были взяты научные статьи из базы данных Центра термодинамических исследований (TRC) NIST. В работах, ряд из которых датируются началом прошлого века, результаты часто представлены только в виде графиков, иногда нарисованных от руки и дополнительно искаженных сканированием или ксерокопированием.

Исследователи поставили перед ИИ-алгоритмом задачу научиться извлекать местоположение маркеров на графиках для восстановления исходных, необработанных данные с целью дальнейшего анализа. До сих пор это приходилось делать вручную, и от автоматической методики требовалась по крайней мере сопоставимая точность — с ошибкой позиционирования не более 5 пикселей.

Как объясняется в новой статье, опубликованной 4 августа в Международном журнале искусственного интеллекта и приложений, исследователи NIST применили сетевую архитектуру под названием U-Net, первоначально разработанную немецкими учёными для анализа биомедицинских изображений. Сначала размеры изображения сокращались для уменьшения пространственной информации, а затем добавлялись слои объектной и контекстной информации для получения точных результатов с высоким разрешением.

Чтобы помочь обучить сеть классифицировать формы маркеров и определить местонахождение их центров, исследователи экспериментировали с четырьмя способами маркировки тренировочных данных с помощью масок, используя разные размеры меток центров и толщину контуров для каждого геометрического объекта.

Они установили, что добавление к маскам дополнительной информации, например, более толстых контуров, повышает точность классификации формы объектов, но снижает точность определения их местоположения на графиках. В итоге исследователи объединили лучшие аспекты нескольких моделей, чтобы добиться лучшей классификации при наименьших ошибках местоположения. Изменение масок оказалось лучшим способом повысить производительность сети, более эффективным, чем другие подходы, такие как небольшие изменения в конце сети.

Лучшая производительность сети — точность определения центров объектов 97% — оказалась достижима только для подкласса изображений, на которых точки графика изначально представлены очень четкими кругами, треугольниками и квадратами. Этого вполне достаточно, чтобы эффективно использовать такую нейросеть для восстановления данных из графиков в новых журнальных статьях.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365