Kaj je OCR?
Optično prepoznavanje znakov (OCR) se nanaša na postopek pretvorbe besedilnih slik v strojno berljivo besedilno obliko. Če na primer skenirate obrazec ali potrdilo, računalnik shrani optično prebrano kot slikovno datoteko. Z urejevalnikom besedil ne morete urejati, iskati ali šteti besedila v slikovni datoteki. Vendar pa lahko uporabite OCR za pretvorbo slik v besedilne dokumente in shranjevanje vsebine kot besedilnih podatkov.

Zakaj je OCR tako pomemben?
Večina poslovnih tokov dela vključuje dostop do informacij prek tiskanih medijev. Papirnati obrazci, računi, skenirani pravni dokumenti in natisnjene pogodbe so del poslovnega procesa. Shranjevanje in upravljanje teh ogromnih dokumentov zahteva veliko časa in prostora. Kljub trendu brezpapirnega upravljanja dokumentov je skeniranje dokumentov v slike še vedno izziv. Postopek zahteva človeško posredovanje, je okoren in počasen.
Poleg tega lahko digitalizacija vsebine dokumenta vodi do slikovnih datotek s skritim besedilom. Urejevalniki besedil ne morejo obdelati besedila v slikah na enak način kot besedilni dokumenti. OCR rešuje to težavo s pretvorbo besedilnih slik v besedilne podatke, ki jih lahko analizira druga komercialna programska oprema. Nato lahko podatke uporabite za analizo, izboljšanje delovanja, avtomatizacijo procesov in povečanje produktivnosti.

Kako deluje OCR?
Pridobivanje slik
Skenerji berejo dokumente in jih pretvorijo v binarne podatke. Programska oprema OCR analizira optično prebrano sliko in razvrsti svetla področja kot ozadje, temna področja pa kot besedilo.
predprocesiranje
Program OCR najprej očisti sliko in odstrani napake v pripravi za branje. Tukaj je nekaj tehnik čiščenja, ki se uporabljajo za to:
Rahel popravek odmika ali poševnost skeniranih dokumentov med skeniranjem za odpravo težav s poravnavo.
Odstranite šum, odstranite pike z digitalnih slik ali zgladite robove besedilnih slik.
Počistite robove in črte na sliki.
Prepoznavanje skripta z večjezično tehnologijo OCR
Prepoznavanje besedila
Dve glavni vrsti algoritmov OCR ali programskih procesov, ki ju programska oprema OCR uporablja za prepoznavanje besedila, sta ujemanje vzorcev in ekstrakcija funkcij.
Ujemanje vzorcev
Ujemanje vzorcev loči sliko znaka (imenovano glif) in jo primerja s shranjenimi podobnimi glifi. Ujemanje vzorcev deluje le, če ima shranjeni glif podobno pisavo in velikost kot vhodni glif. Ta metoda dobro deluje pri skeniranih slikah dokumentov, vnesenih v znanih pisavah.
Ekstrakcija funkcij
Ekstrakcija funkcij segmentira ali razgradi glife v funkcije, kot so črte, zaprte zanke, usmerjenost črte in fokus črte. Nato uporabi te funkcije, da poišče najboljše ali najbližje ujemanje med različnimi shranjenimi glifi.
Naknadna obdelava
Po analizi sistem izvlečene besedilne podatke pretvori v računalniške datoteke. Nekateri sistemi OCR lahko ustvarijo označene datoteke PDF, ki vsebujejo različice skeniranih dokumentov pred in po skeniranju.


