- Likes
- Friends
С помощью нового алгоритма российских программистов можно значительно повысить качество и скорость обработки цифровых документов, создавая массивы информации — библиотеки, базы данных.
Патент: 2721189
Авторы: Cтанислав Семенов
Патентообладатель: Аби Продакшн
Развитие электронного документооборота, перевод бумажных носителей в цифровые форматы — тренд последних лет, который только ускорился на фоне пандемии. В цифровые форматы переводятся не только документы последнего времени, но и многочисленные архивные документы. Каждый из документов содержит стандартные поля с информацией определённого вида.
Как правило, набор постоянных полей или разделов, которые заполняются подателями документов, имеют одинаковую структуру, определяемую набором правил. Например, адрес или название продукта. Или классы МПК/МКТУ в заявках, которые отправляются в Роспатент. Соответственно, автор документа заполняет их, используя предсказуемый набор символов и их порядок. Для адреса, в частности, это индекс из шести цифровых символов, типичные сокращения «г.», «ул.», «б-р», «наб.», «кв.» или «оф.» и тому подобное.
На этих алгоритмах «пользовательского поведения» и построена новая разработка известной во всем мире российской компании ABBYY. Способ, который защищен патентом, основан на использовании при обработке текстов документов обучающихся нейронных сетей, иными словами — искусственного интеллекта. Распознавая документы, нейронная сеть изучает характерные способы заполнения одинаковых полей в документах.
Затем обученная нейронная сеть используется при проведении автоматического анализа цифрового документа, например, сравнения его с другим или вычленения из него нужной информации. Благодаря этому снижается вероятность ошибок при анализе неструктурированного текста цифрового документа, а также растет число возможностей по структурированию информации внутри больших массивов, что расширяет арсенал возможных аналитических построений или статистики.
Подробности способа распознавания документов с помощью искусственного интеллекта — в опубликованном патенте.
Эта публикация на сайте Роспатента