+88 голосов |
Долгие годы наиболее успешными направлениями разработчиков программного обеспечения, работающих в области прикладной лингвистики, были электронные словари и системы машинного перевода. Различные продукты, разработанные в рамках обоих этих направлений, помогли множеству людей и заслуженно популярны у множества пользователей.
Значительно менее широкому кругу пользователей были известны системы полнотекстового поиска с морфологическим разбором слов. Такие системы также известны достаточно давно, хотя и используются в узких сегментах рынка – в системах мониторинга прессы, ECM системах, ESS системах. Но в последние годы стали появляться системы, обеспечивающие удивительные возможности для пользователей.
Прежде всего, это системы автоматической классификации документов на основе анализа содержания. Такие системы могут автоматически, без вмешательства человека, определить к какой области знаний относится документ. Например, система может безошибочно выделять из потока документов, те из них, которые относятся к тематике «противовоздушная оборона» и к тематике «самолет-истребитель».
Во-вторых, это системы интеллектуального поиска, в состоянии искать не просто по словам, а с применением «здравого смысла». Например, при выполнении поиска информации, относящейся к банку «XYZ» система сможет найти не только все упоминания слов «банк «XYZ», но и распознать его в предложениях с косвенным описанием, например «крупнейший инвестиционный банк страны», «банк, принадлежащий к группе ….» и т.д.
Дальше идут системы автоматического аннотирования и реферирования, позволяющие автоматически составлять короткие аннотации по документам большого объема с сохранением основного содержания.
Не менее интересны системы позволяющие распознать «оттенок высказывания» о том или ином объекте. С помощью таких систем, можно отделить документы с позитивными высказываниями об объекте от документов с негативными высказываниями.
Все авторы таких систем, уверены что в ближайщие 10 лет системы прикладной лингвистики изменят наш способ усвоения информации. Насколько такие прогнозы объективны – покажет будущее.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
+88 голосов |
Якщо система підказуватиме людині, що насправді написане в тексті - це трохи лякає.
Все дело в "мере подсказывания". Если она незначительная - то это неоценимая помощь. Если навязывает поступки - то действительно пугает.
Невозможно структурировать - то в чем нет смысла или явно нарушена логика. Для примера достаточно привести наши законы - запрограммировать их логику во многих случаях невозможно - там в основном исключения, а не правила. А что говорить о других сферах - не столь важных. Большая часть существующих на сегодня текстов, (в том числе представляющих знания) противоречивы, непоследовательны, неполны и даже бредовы. Врядли есть смысл проводить над этим хламом операции анализа. Лучше и проще создать новые, но уже в соответствии с логикой понятной "копьютерным программам". Ведь чтобы построить документ, правильнее вначале сделать анотацию, классификацию и тому подобное, а не придумывать это потом. Я сейчас изучаю английский по Драгункину и считаю его методику фактически рациональным универсальным алгоритмом любой работы с языками вообще (последовательно, полно, логично (даже дважды логично - по словам Драгункина - одни правила подкрепляют другие)). Советую ознакомиться ...
От количества информации, содержащейся в каждом документе действительно зависит результат "свертывания". Например, к законам вполне можно подготовить аннотации к каждой из частей. В такой аннотации может быть описано к какой области дейтельности относится описываемая часть закона, какими терминами. Сейчас такие аннотаци готовят вручную, что делает их дорогими и небыстрыми.
И какая часть таких аннотаций получится корректная? И как определить насколько она корректна?
Как и во многих других случаях качественной оценки, оценку проводят эксперты. Вначале они проверяют 100% аннотированых материалов, затем постепенно снижают уровень проверки до выборочной. И тут все зависит от качества системы ....
-
Абсолютно не согласен, что в текстах нарушена логика, и поэтому их нельзя сжать.
Все сжимается, нужно лишь найти закономерности и использовать правильные метрики. Особенно хорошо сворачиваются новости - фактически до 140 символов, то есть - twitter-формата.
И закономерностей будет столько-же сколько и текстов :). Может лучше в начале сформировать закономерности, а затем по ним всем строить тексты?
Скоро с помощью такого лингвистического инструмента мы сможем фильтровать анкдоты на смешные и не очень ...
Реализации такого сценария на сегодняшний день мешает большой объем настроек - ведь понятие "смешное" у каждого свое :)
Михайле, дякую за статтю.
Чи не могли б Ви згадати, які з систем на компаній, які Ви аналізували, готуючи статтю, Вам запам'яталися і чим? Що Ви думаєте про ринок (сегментація) та тенденції? Чи використовує КО, як видавець, продукти даного класу?
І чи можна надіятися на спецвипуск КО на цю тематику? :)
Спасибо за комментарий!
Мое мнение сформулировано на основе общения с технологическими руководителями ряда компаний. Прежде всего, это одни из лидеров рынка ПО в области прикладной лингвистики, активно работающий в области семантического анализа. Незабываемая встреча была с независимым разработчиком ПО из Израиля, специализирующимся в области автореферирования текстов. Любопытным оказалось узнать мнение, одно из мировых лидеров в области ПО для ECM -они вобще считают что в ближайшие 5 лет технологии семантического анализа серьезно измнят лицо ECM систем.
По поводу спецвыпуска КО - это вопрос к редакции этого уважаемого еженедельника.