Долгие годы наиболее успешными направлениями разработчиков программного обеспечения, работающих в области прикладной лингвистики, были электронные словари и системы машинного перевода. Различные продукты, разработанные в рамках обоих этих направлений, помогли множеству людей и заслуженно популярны у множества пользователей.

Значительно менее широкому кругу пользователей были известны системы полнотекстового поиска с морфологическим разбором слов. Такие системы также известны достаточно давно, хотя и используются в узких сегментах рынка – в системах мониторинга прессы, ECM системах, ESS системах. Но в последние годы стали появляться системы, обеспечивающие удивительные возможности для пользователей.

Прежде всего, это системы автоматической классификации документов на основе анализа содержания. Такие системы могут автоматически, без вмешательства человека, определить к какой области знаний относится документ. Например, система может безошибочно выделять из потока документов, те из них, которые относятся к тематике «противовоздушная оборона» и к тематике «самолет-истребитель».

Во-вторых, это системы интеллектуального поиска, в состоянии искать не просто по словам, а с применением «здравого смысла». Например, при выполнении поиска информации, относящейся к банку «XYZ» система сможет найти не только все упоминания слов «банк «XYZ», но и распознать его в предложениях с косвенным описанием, например «крупнейший инвестиционный банк страны», «банк, принадлежащий к группе ….» и т.д.

Дальше идут системы автоматического аннотирования и реферирования, позволяющие автоматически составлять короткие аннотации по документам большого объема с сохранением основного содержания.

Не менее интересны системы позволяющие распознать «оттенок высказывания» о том или ином объекте. С помощью таких систем, можно отделить документы с позитивными высказываниями об объекте от документов с негативными высказываниями.

Все авторы таких систем, уверены что в ближайщие 10 лет системы прикладной лингвистики изменят наш способ усвоения информации. Насколько такие прогнозы объективны – покажет будущее.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

Напечатать Отправить другу

Читайте также

Інтернет може досягти квантової швидкості
[19 апреля] – Леонід Бараш
Ефективність сонячних елементів може бути збільшена на 190%
[13 апреля] – Леонід Бараш
Мемристори революціонізують обчислювання
[5 апреля] – Леонід Бараш
GenAI – наразі швидше розвага для молоді
[29 марта] – Євген Куліков
Дивна етичність AI
[20 марта] – Sergey Petrenko

Михаил Бейрак - все записи блога
Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

Андрій Загоровський | 5 сентября 2010 г., 12:17 | ссылка

Якщо система підказуватиме людині, що насправді написане в тексті - це трохи лякає.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Бейрак | 5 сентября 2010 г., 14:15 | ссылка

Все дело в "мере подсказывания". Если она незначительная - то это неоценимая помощь. Если навязывает поступки - то действительно пугает.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Сергій Ляшенко | 5 сентября 2010 г., 14:17 | ссылка

Невозможно структурировать - то в чем нет смысла или явно нарушена логика. Для примера достаточно привести наши законы - запрограммировать их логику во многих случаях невозможно - там в основном исключения, а не правила. А что говорить о других сферах - не столь важных. Большая часть существующих на сегодня текстов, (в том числе представляющих знания) противоречивы, непоследовательны, неполны и даже бредовы. Врядли есть смысл проводить над этим хламом операции анализа. Лучше и проще создать новые, но уже в соответствии с логикой понятной "копьютерным программам". Ведь чтобы построить документ, правильнее вначале сделать анотацию, классификацию и тому подобное, а не придумывать это потом. Я сейчас изучаю английский по Драгункину и считаю его методику фактически рациональным универсальным алгоритмом любой работы с языками вообще (последовательно, полно, логично (даже дважды логично - по словам Драгункина - одни правила подкрепляют другие)). Советую ознакомиться ...

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Бейрак | 5 сентября 2010 г., 14:36 | ссылка

От количества информации, содержащейся в каждом документе действительно зависит результат "свертывания". Например, к законам вполне можно подготовить аннотации к каждой из частей. В такой аннотации может быть описано к какой области дейтельности относится описываемая часть закона, какими терминами. Сейчас такие аннотаци готовят вручную, что делает их дорогими и небыстрыми.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Сергій Ляшенко | 5 сентября 2010 г., 17:57 | ссылка

И какая часть таких аннотаций получится корректная? И как определить насколько она корректна?

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Бейрак | 6 сентября 2010 г., 9:15 | ссылка

Как и во многих других случаях качественной оценки, оценку проводят эксперты. Вначале они проверяют 100% аннотированых материалов, затем постепенно снижают уровень проверки до выборочной. И тут все зависит от качества системы ....

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Сергій Ляшенко | 5 сентября 2010 г., 17:58 | ссылка

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Вячеслав Тихонов | 5 сентября 2010 г., 16:37 | ссылка

Абсолютно не согласен, что в текстах нарушена логика, и поэтому их нельзя сжать.

Все сжимается, нужно лишь найти закономерности и использовать правильные метрики. Особенно хорошо сворачиваются новости - фактически до 140 символов, то есть - twitter-формата.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Сергій Ляшенко | 5 сентября 2010 г., 17:54 | ссылка

И закономерностей будет столько-же сколько и текстов :). Может лучше в начале сформировать закономерности, а затем по ним всем строить тексты?

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Alexei Malyshenko | 6 сентября 2010 г., 12:36 | ссылка

Скоро с помощью такого лингвистического инструмента мы сможем фильтровать анкдоты на смешные и не очень ...

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Бейрак | 6 сентября 2010 г., 18:16 | ссылка

Реализации такого сценария на сегодняшний день мешает большой объем настроек - ведь понятие "смешное" у каждого свое :)

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Вовк Квантовий | 10 сентября 2010 г., 0:40 | ссылка

Михайле, дякую за статтю.

Чи не могли б Ви згадати, які з систем на компаній, які Ви аналізували, готуючи статтю, Вам запам'яталися і чим? Що Ви думаєте про ринок (сегментація) та тенденції? Чи використовує КО, як видавець, продукти даного класу?

І чи можна надіятися на спецвипуск КО на цю тематику? :)

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Михаил Бейрак | 10 сентября 2010 г., 10:12 | ссылка

Спасибо за комментарий!
Мое мнение сформулировано на основе общения с технологическими руководителями ряда компаний. Прежде всего, это одни из лидеров рынка ПО в области прикладной лингвистики, активно работающий в области семантического анализа. Незабываемая встреча была с независимым разработчиком ПО из Израиля, специализирующимся в области автореферирования текстов. Любопытным оказалось узнать мнение, одно из мировых лидеров в области ПО для ECM -они вобще считают что в ближайшие 5 лет технологии семантического анализа серьезно измнят лицо ECM систем.

По поводу спецвыпуска КО - это вопрос к редакции этого уважаемого еженедельника.