30 мая 2019 г., 13:55
Amazon Web Services вчера сделала общедоступным полностью управляемый сервис Textract, который использует машинное обучения для автоматического извлечения текста и данных из документов, в том числе из таблиц и анкет.
Textract это один из многих интеллектуальных инструментов и служб, которые были представлены на прошлогодней конференции AWS re:Invent. Компания заверяет, что пользоваться Textract можно, не обладая квалификацией и опытом работы с технологиями ИИ.
Обычно для извлечения текста и данных из контрактов, налоговых деклараций или медицинских карт применяются программы оптического распознавания символов (OCR), однако они плохо справляются с распознаванием анкет и таблиц.
AWS называет Textract службой «OCR++». Прикладной интерфейс Textract поддерживает многочисленные форматы изображений, включая сканы, PDF и фотографии. Клиенты могут использовать его вместе с сервисами баз данных и аналитики, такими как Amazon Elasticsearch Service, Amazon DynamoDB и Amazon Athena, и с прочими службами машинного обучения — Amazon Comprehend, Comprehend Medical, Amazon Translate или Amazon SageMaker.
Из клиентов AWS сервисом Textract уже пользуются PwC, Healthfirst, UiPath, Teradact, Ripcord, BluePrism, Alfresco и другие.
В настоящее время Textract предлагается в регионах US East (Огайо), US East (Северная Виргиния), US West (Орегон) и EU (Ирландия). Дополнительные регионы будут подключены в следующем году.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365