`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Михаил Бейрак

Какая польза от прикладной лингвистики?

+88
голосов

Долгие годы наиболее успешными направлениями разработчиков программного обеспечения,  работающих в области прикладной лингвистики, были электронные словари и системы машинного перевода. Различные продукты, разработанные в рамках обоих этих направлений, помогли множеству людей и заслуженно популярны у множества пользователей.

Значительно менее широкому кругу пользователей были известны системы полнотекстового поиска с морфологическим разбором слов. Такие системы также известны достаточно давно, хотя и используются в узких сегментах рынка – в системах мониторинга прессы, ECM системах, ESS системах. Но в последние годы стали появляться системы, обеспечивающие удивительные возможности для пользователей.

Прежде всего, это системы автоматической классификации документов на основе анализа содержания. Такие системы могут автоматически, без вмешательства человека, определить к какой области знаний относится документ. Например, система может безошибочно выделять из потока документов, те из них, которые относятся к тематике «противовоздушная оборона» и к тематике «самолет-истребитель».

Во-вторых, это системы интеллектуального поиска, в состоянии искать не просто по словам, а с применением «здравого смысла». Например, при выполнении поиска информации, относящейся к банку «XYZ» система сможет найти не только все упоминания слов «банк  «XYZ», но и распознать его в предложениях с косвенным описанием, например «крупнейший инвестиционный банк страны», «банк, принадлежащий к группе ….» и т.д.

Дальше идут системы автоматического аннотирования и реферирования, позволяющие автоматически составлять короткие аннотации по документам большого объема с сохранением основного содержания.

Не менее интересны системы позволяющие распознать «оттенок высказывания» о том или ином объекте. С помощью таких систем, можно отделить документы с позитивными высказываниями об объекте от документов с негативными высказываниями.

Все авторы таких систем, уверены что в  ближайщие 10 лет системы прикладной лингвистики изменят наш способ усвоения информации. Насколько такие прогнозы объективны – покажет будущее. 

+88
голосов

Напечатать Отправить другу

Читайте также

Якщо система підказуватиме людині, що насправді написане в тексті - це трохи лякає.

Все дело в "мере подсказывания". Если она незначительная - то это неоценимая помощь. Если навязывает поступки - то действительно пугает.

Невозможно структурировать - то в чем нет смысла или явно нарушена логика. Для примера достаточно привести наши законы - запрограммировать их логику во многих случаях невозможно - там в основном исключения, а не правила. А что говорить о других сферах - не столь важных. Большая часть существующих на сегодня текстов, (в том числе представляющих знания) противоречивы, непоследовательны, неполны и даже бредовы. Врядли есть смысл проводить над этим хламом операции анализа. Лучше и проще создать новые, но уже в соответствии с логикой понятной "копьютерным программам". Ведь чтобы построить документ, правильнее вначале сделать анотацию, классификацию и тому подобное, а не придумывать это потом. Я сейчас изучаю английский по Драгункину и считаю его методику фактически рациональным универсальным алгоритмом любой работы с языками вообще (последовательно, полно, логично (даже дважды логично - по словам Драгункина - одни правила подкрепляют другие)). Советую ознакомиться ...

От количества информации, содержащейся в каждом документе действительно зависит результат "свертывания". Например, к законам вполне можно подготовить аннотации к каждой из частей. В такой аннотации может быть описано к какой области дейтельности относится описываемая часть закона, какими терминами. Сейчас такие аннотаци готовят вручную, что делает их дорогими и небыстрыми.

И какая часть таких аннотаций получится корректная? И как определить насколько она корректна?

Как и во многих других случаях качественной оценки, оценку проводят эксперты. Вначале они проверяют 100% аннотированых материалов, затем постепенно снижают уровень проверки до выборочной. И тут все зависит от качества системы ....

-

Абсолютно не согласен, что в текстах нарушена логика, и поэтому их нельзя сжать.

Все сжимается, нужно лишь найти закономерности и использовать правильные метрики. Особенно хорошо сворачиваются новости - фактически до 140 символов, то есть - twitter-формата.

И закономерностей будет столько-же сколько и текстов :). Может лучше в начале сформировать закономерности, а затем по ним всем строить тексты?

Скоро с помощью такого лингвистического инструмента мы сможем фильтровать анкдоты на смешные и не очень ...

Реализации такого сценария на сегодняшний день мешает большой объем настроек - ведь понятие "смешное" у каждого свое :)

Михайле, дякую за статтю.

Чи не могли б Ви згадати, які з систем на компаній, які Ви аналізували, готуючи статтю, Вам запам'яталися і чим? Що Ви думаєте про ринок (сегментація) та тенденції? Чи використовує КО, як видавець, продукти даного класу?

І чи можна надіятися на спецвипуск КО на цю тематику? :)

Спасибо за комментарий!
Мое мнение сформулировано на основе общения с технологическими руководителями ряда компаний. Прежде всего, это одни из лидеров рынка ПО в области прикладной лингвистики, активно работающий в области семантического анализа. Незабываемая встреча была с независимым разработчиком ПО из Израиля, специализирующимся в области автореферирования текстов. Любопытным оказалось узнать мнение, одно из мировых лидеров в области ПО для ECM -они вобще считают что в ближайшие 5 лет технологии семантического анализа серьезно измнят лицо ECM систем.

По поводу спецвыпуска КО - это вопрос к редакции этого уважаемого еженедельника.

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT