0 |
Компанія Grammarly, що розробляє онлайн-сервіс на основі штучного інтелекту для допомоги в написанні текстів англійською мовою, анонсує створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови.
Що таке GEC-корпус? Цю абревіатуру розшифровують як Grammatical Error Correction – виправлення граматичних помилок, а мовний корпус – сукупність текстів, авторами яких є звичайні люди. Професійні українські лінгвісти ці тексти потім опрацювали (проанотували – позначили помилки і вказали відповідні виправлення). Призначення корпусу – наукове та практичне вивчення мови.
Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.
Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 тис. речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону.
Ці дані будуть корисні тим, хто цікавиться лінгвістикою, – від студента-науковця до приватної компанії – і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо.
Завантажити корпус можна за посиланням.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
0 |