Сервис «Поиск по архивам» Яндекса расшифровал рукописные архивы Подмосковья на 300 тысяч страниц

Нейросети распознают архивные документы от середины XVIII до начала XX веков
Нейросети Яндекса расшифровали метрические книги из Центрального государственного архива Подмосковья на 300 тысяч страниц. Это документы XVIII – начала XX столетий, сообщает пресс-служба IT-компании «Яндекс».
Соглашение с «Яндексом» в рамках проекта по оцифровке архивов заключило правительство Подмосковья. Документы обрабатывались алгоритмом на базе системы оптического распознавания символов. С его помощью рукописи преобразовывают в печатный текст, в базе можно находить упоминания фамилий и населенных пунктов.
На сервисе Яндекса «Поиск по архивам» можно не только просматривать рукописные записи, но и искать информацию, как в интернете. Нейросети распознают архивные документы от середины XVIII до начала прошлого столетий.
Со времени запуска сервиса «Поиск по архивам» в январе этого года количество расшифрованных нейросетями страниц увеличилось до 5 млн с 2,5 млн, то есть в два раза. В базу сервиса, кроме прочего, вошли материалы из Главархива Москвы – 700 тысяч страниц. Также в базе есть описи из архива Республики Мордовия, они опубликованы в открытом доступе впервые.