Перший анотований GEC-корпус української мови від Grammarly у відкритому доступі

1 февраль, 2021 - 13:05

Перший анотований GEC-корпус української мови від Grammarly у відкритому доступі

Компанія Grammarly, що розробляє онлайн-сервіс на основі штучного інтелекту для допомоги в написанні текстів англійською мовою, анонсує створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови.

Що таке GEC-корпус? Цю абревіатуру розшифровують як Grammatical Error Correction – виправлення граматичних помилок, а мовний корпус – сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали (проанотували – позначили помилки і вказали відповідні виправлення). Призначення корпусу – наукове та практичне вивчення мови.

Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 тис. речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону.

Ці дані будуть корисні тим, хто цікавиться лінгвістикою, – від студента-науковця до приватної компанії – і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо.

Завантажити корпус можна за посиланням.

Перший анотований GEC-корпус української мови від Grammarly у відкритому доступі