AWS анонсировала доступность ИИ-сервиса извлечения текста из документов

30 май, 2019 - 12:55

Amazon Web Services вчера сделала общедоступным полностью управляемый сервис Textract, который использует машинное обучения для автоматического извлечения текста и данных из документов, в том числе из таблиц и анкет.

Textract это один из многих интеллектуальных инструментов и служб, которые были представлены на прошлогодней конференции AWS re:Invent. Компания заверяет, что пользоваться Textract можно, не обладая квалификацией и опытом работы с технологиями ИИ.

Обычно для извлечения текста и данных из контрактов, налоговых деклараций или медицинских карт применяются программы оптического распознавания символов (OCR), однако они плохо справляются с распознаванием анкет и таблиц.

AWS называет Textract службой «OCR++». Прикладной интерфейс Textract поддерживает многочисленные форматы изображений, включая сканы, PDF и фотографии. Клиенты могут использовать его вместе с сервисами баз данных и аналитики, такими как Amazon Elasticsearch Service, Amazon DynamoDB и Amazon Athena, и с прочими службами машинного обучения — Amazon Comprehend, Comprehend Medical, Amazon Translate или Amazon SageMaker.

Из клиентов AWS сервисом Textract уже пользуются PwC, Healthfirst, UiPath, Teradact, Ripcord, BluePrism, Alfresco и другие.

В настоящее время Textract предлагается в регионах US East (Огайо), US East (Северная Виргиния), US West (Орегон) и EU (Ирландия). Дополнительные регионы будут подключены в следующем году.