Особенности распознавания казахских документов
Шаблонные международные OCR часто спотыкаются на документах Казахстана. Причина — в языке и местной специфике. Разберём, что важно учитывать.
Два языка в одном документе
Казахстанские документы регулярно сочетают казахский и русский — на удостоверениях, полисах, справках и бланках. Если система заточена под один язык, при переключении она теряет или искажает поля. Поддержка обоих языков одновременно — базовое требование к распознаванию местных документов.
ИИН, БИН и местные форматы
ИИН, БИН, форматы дат и номеров документов в РК имеют свою структуру. Распознавание, которое понимает эти форматы, может проверять их корректность — например, контрольный разряд ИИН — и не пропускать опечатки в критичных полях.
Местные бланки и вёрстка
Удостоверения РК, водительские права, полисы отечественных страховых, справки и накладные местных компаний имеют свою вёрстку. Решение, обученное на местных документах, точнее находит нужные поля, чем универсальный движок «под весь мир».
Реальные условия
Клиенты фотографируют документы на телефон — под углом, при бликах, иногда мятые. Распознавание казахстанских документов должно быть рассчитано именно на такие фото, а не только на идеальные сканы.