Selv om det er enkelt å ta et dokument på datamaskinen og få en fysisk kopi med en skriver, er det generelt vanskeligere å gå den andre veien. Selv om det finnes skannere og kan lagre skannede dokumenter som et bilde, er dette ikke spesielt nyttig hvis du ønsker å redigere dokumentet. For å kunne redigere et dokument vil du bruke en teknologi som heter Optical Character Recognition eller OCR.
Hvordan fungerer optisk tegngjenkjenning?
OCR bruker en rekke teknikker for å lese dokumenter nøyaktig. OCR-programvare justerer dokumentet, og potensielt til og med individuelle ord slik at de er riktig justert. Bildet konverteres til et rent svart-hvitt-format, da det er lettere enn å skille mellom gråtoner. Analyse utføres også for å identifisere og fjerne eventuelle ikke-tekstelementer.
To hovedtyper OCR-algoritmer brukes, matrisematching og funksjonsekstraksjon. Matrisematching tar et bilde av et enkelt tegn og sammenligner det deretter med algoritmene konfigurerte fonter piksel for piksel. Denne teknikken krever at tegnet er korrekt isolert fra alt annet innhold, og at skriften er inkludert i OCR-programvaren. Denne typen OCR fungerer heller ikke for å gjenkjenne håndskrift.
Funksjonsutvinningsalgoritmer deler hvert tegn ned i funksjoner, for eksempel linjer, kurver og linjeskjæringspunkter. Denne teknikken reduserer avhengigheten av at algoritmen trenes med kjente fonter betydelig. Funksjonsutvinning er i stand til å gjenkjenne nye fonter og transkribere dem, i tillegg til noe håndskrift, selv om nøyaktigheten ikke er like god som for kjente fonter.
Noe mer avansert programvare bruker konteksten til de omkringliggende bokstavene for å identifisere bokstaver som ikke er like klare. For eksempel, hvis ordet "hund" skrives ut og OCR-algoritmen ikke kan si sikkert om "o" er en "a" eller en "o", kan den bruke en ordbok for å se om en kombinasjon av potensielle tegn lager et kjent ord. I dette tilfellet vil OCR-algoritmen utelukke muligheten for "a", ettersom "dag" ikke er et ord, mens "hund" er det.
Hvor brukes OCR?
En av hovedbrukene til OCR er i postsystemet. OCR brukes til automatisk å identifisere adressen til brev og pakker, en oppgave den kan gjøre betydelig raskere enn folk kunne. I tilfeller der OCR-systemet ikke er i stand til å lese adressen til etiketten, vil den bli skilt ut for et menneske å behandle manuelt i stedet.
OCR er nyttig som et tilgjengelighetsverktøy for personer med synshemninger når det kombineres med et tekst-til-tale-verktøy. Google translate implementerer også OCR som en del av prosessen med å oversette teksten i bilder.