Amazon запускает облачный сервис для распознавания документов

02.06.2019 23:39

Вам нужно быстро и автоматически извлечь информацию из множества документов? А они, к тому же, хранятся в виде сканов или фотографий? Вам повезло, если вы являетесь клиентом Amazon Web Services (AWS). Amazon объявила об открытии доступа к Textract, облачного и полностью управляемого сервиса, который использует машинное обучение для анализа таблиц, текстовых форм и целых страниц текста в популярных электронных форматах. Пока что он будет доступен только в некоторых регионах AWS, в частности в восточной части США (Огайо и Северная Вирджиния), на западе США (в штате Орегон) и в ЕС (Ирландия), а в следующем году Textract станет доступен для всех желающих.
Textract — новый сервис от AWS, который позволит клиентам Amazon эффективно распознавать и систематизировать коллекции документов.
Как утверждает Amazon, Textract значительно более эффективен, чем обычные оптические системы распознавания символов. Из файлов, хранящихся в корзине Amazon S3, он может извлечь содержимое полей и таблиц с учётом контекста, в котором представлена эта информация, например, система автоматически выделяет имена и номера социального страхования в налоговых формах или итоговые суммы по сфотографированным квитанциям. Как отмечает Amazon в пресс-релизе, Textract поддерживает такие форматы изображений, как сканы, PDF-файлы и фотографии, а также эффективно работает с контекстом в документах специфичных для финансовых услуг, страхования и здравоохранения.
Textract сохраняет результаты в формате JSON, снабженного аннотациями с номерами страниц, разделами, метками форм и типами данных, и при желании интегрируется с сервисами баз данных и аналитики, такими как Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Athena, и продуктами для машинного обучения, такими как Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate и Amazon SageMaker, для постобработки. В качестве альтернативы извлеченные данные могут быть переданы непосредственно в сторонние облачные сервисы для целей обеспечения соответствия в бухгалтерском учёте и аудите или для поддержки интеллектуального поиска в архивах документов. Как утверждает Amazon, Textract может «точно» обработать миллионы страниц разных документов за «всего несколько часов».
Множество клиентов AWS уже используют Textract, включая Globe and Mail, национальную метеорологическую службу Великобритании, PricewaterhouseCoopers, некоммерческую организацию управляемой медицинской помощи Healthfirst и компании по автоматизации роботизированных процессов UiPath, Ripcord и Blue Prism. Candor, стартап, целью которого является привнести прозрачность в ипотечную отрасль, использует Textract, чтобы извлекать данные из таких документов, как банковские выписки, платежные квитанции и различные налоговые документы, чтобы ускорить процесс одобрения кредита для своих клиентов.
«Мощь Amazon Textract заключается в том, что он точно извлекает текстовые и структурированные данные практически из любого документа без необходимости предварительного машинного обучения», — рассказывает вице-президент Amazon Machine Learning Свами Сивасубраманян (Swami Sivasubramanian). «В дополнение к интеграции с другими сервисами AWS, большое сообщество, развивающееся вокруг Amazon Textract, позволяет нашим клиентам получать реальную пользу от своих коллекций файлов, работать более эффективно, улучшать соответствие требованиям безопасности, автоматизировать ввод данных и ускорять принятие бизнес-решений».
Ниже вы можете посмотреть презентацию Textract на конференции re:Invent 2018 на английском языке.

Источник