Hur bild-till-text fungerar (aka optisk teckenigenkänning)

Att dra ut text ur bilder har aldrig varit enklare än idag, tack vare optisk teckenigenkänning (OCR) -teknologi. Men vad är OCR? Och hur fungerar OCR?

Att dra ut text ur bilder har aldrig varit enklare än idag, tack vare optisk teckenigenkänning (OCR) -teknologi.  Men vad är OCR?  Och hur fungerar OCR?
Annons

Att dra ut text ur bilder har aldrig varit enklare än idag, tack vare optisk teckenigenkänning (OCR) -teknologi.

OCR tillåter oss att göra alla typer av användbara saker, som att söka efter bilder med hjälp av textfrågor, reproducera dokument utan att skriva ut dem manuellt och även konvertera handskriven text till digital text. Hur konverterar man en bild med handskrift till text med hjälp av OCR. Hur konverterar man en bild med handskrift till text med hjälp av OCR För att konvertera en bild av handskriven text till digital text som du kan redigera och söka, behöver du ett OCR-verktyg (optisk teckenigenkänning). Prova ett av dessa OCR-verktyg för att digitalisera handskrift. Läs mer .

Men vad är optiskt teckenigenkänning? Hur fungerar det egentligen? Det kan tyckas som svart magi till dig, men i slutet av den här artikeln har du en gedigen förståelse för hur datorer kan känna igen bokstäver och ord.

Hur Optisk teckenigenkänning fungerar

För att förstå hur text blir extraherad från en bild måste vi först förstå vilka bilder som finns och hur de lagras på datorer.

En pixel är en enda punkt med en viss färg. En bild är i huvudsak en samling pixlar. Ju fler pixlar i en bild desto högre är dess upplösning. En dator vet inte att en bild av en skylt verkligen är en skylt, det vet bara att den första pixeln är den här färgen, nästa pixel är den färgen och visar alla dess pixlar för att du ska kunna se.

Det betyder att text och icke-text inte skiljer sig från en dator, och det är därför optiskt teckenigenkänning är så svårt. Med det i åtanke är det här hur det fungerar.

Steg 1: Förbehandling av bilden

Innan text kan dras måste bilden masseras på vissa sätt för att göra utvinning enklare och mer sannolikt att lyckas. Detta kallas förbehandling, och olika mjukvarulösningar använder olika kombinationer av tekniker.

De vanligaste förbehandlingsteknikerna innefattar:

binärisering
Varje pixel i bilden konverteras till antingen svart eller vitt. Målet är att klargöra vilka pixlar som hör till text och vilka pixlar som hör till bakgrunden, vilket påskyndar den faktiska OCR-processen.

Binarisering för optisk teckenigenkänning

snedhetskorrigering
Eftersom dokument sällan skannas med perfekt anpassning, kan tecknen hamna snett eller till och med upp och ner. Målet är att identifiera horisontella textlinjer och rotera sedan bilden så att de här linjerna faktiskt är horisontella.

Ta bort fläckar
Oavsett om bilden har binariserats eller inte, kan det finnas ljud som kan störa identifieringen av tecken. Despeckling blir av med det bruset och försöker släpa ut bilden.

Linjeavlägsnande
Identifierar alla rader och markeringar som sannolikt inte är tecken, så tar de bort så att den faktiska OCR-processen inte blir förvirrad. Det är särskilt viktigt när du skannar dokument med tabeller och lådor.

Zonindelning
Skiljer bilden i olika bitar av text, till exempel identifierande kolumner i dokument med flera kolumner.

Zonering för optisk teckenigenkänning
Bildkredit: WayneRay / Wikimedia

Steg 2: Bearbetar bilden

Först och främst försöker OCR-processen att fastställa baslinjen för varje textlinje i bilden (eller om den zonades i förbehandlingen, kommer den att fungera genom varje zon en i taget). Varje identifierad rad av tecken hanteras en efter en.

För varje rad av tecken identifierar OCR-mjukvaran avståndet mellan tecken genom att leta efter vertikala linjer av icke-textpixlar (vilket bör vara uppenbart med korrekt binärisering). Varje bit av pixlar mellan dessa icke-textlinjer är märkt som en "token" som representerar ett tecken. Därför kallas detta steg tokenisering .

Bildbehandling för optisk teckenigenkänning

När alla potentiella tecken i bilden är tokenized kan OCR-mjukvaran använda två olika tekniker för att identifiera vilka tecken dessa tokens egentligen är:

Mönsterigenkänning
Varje token jämförs pixel-till-pixel mot en hel uppsättning kända glyfer inklusive tal, skiljetecken och andra speciella symboler - och närmaste matchning väljs. Denna teknik är också känd som matris matchning.

Det finns flera nackdelar här. Först måste token och glyphen vara av samma storlek, annars kommer ingen av dem att matcha. För det andra måste tokena vara i en liknande typsnitt som glyphs, som reglerar handskrift. Men om symbolens teckensnitt är känt kan mönsterigenkänning vara snabbt och korrekt.

Särdragsextraktion
Varje token jämförs med olika regler som beskriver vilken typ av karaktär det kan vara. Till exempel är två vertikala linjer med samma höjd som är kopplade till en enda horisontell linje sannolikt en huvudstad H.

Denna teknik är användbar eftersom den inte är begränsad till vissa teckensnitt eller storlekar. Det kan också bli mer nyanserat när man känner igen de subtila skillnaderna mellan en kapital I, en liten bokstav L och numret 1. Nackdelen? Programmering av reglerna är mycket mer komplicerat än att bara jämföra pixlarna i en token till pixlarna i en glyph.

Steg 3: Efterbehandling av bilden

När alla token matchning är klar, kan OCR-programmet bara kalla det en dag och presentera resultaten för dig. Men oftast lite mer fudging behöver göras för att se till att du inte rullar dina ögon på gibberish resultat.

Lexical Restriction
Alla ord jämförs med ett lexikon med godkända ord, och alla som inte matchar ersätts med det närmaste passande ordet. En ordlista är ett exempel på ett lexikon. Detta kan hjälpa till att rätta till ord med felaktiga tecken, som "torn" istället för "th0rn".

Applikationsspecifika optimeringar
När OCR används i nischinställningar, till exempel för medicinska eller juridiska dokument, kan en särskild typ av OCR användas som är speciellt utformad för den inställningen. I dessa fall kan OCR-mjukvaran leta efter matematiska ekvationer, branschspecifika termer etc.

Naturligt språk
Denna avancerade teknik korrigerar meningar genom att använda en språkmodell som beskriver hur sannolikt vissa ord ska följas av andra ord. Det liknar den teknik som förutsäger vilket ord du vill skriva nästa på ett mobiltangentbord.

När det är klart kan det leda till text som är anmärkningsvärt läsbar.

Rekommenderade verktyg för optisk teckenigenkänning

Nu när du vet hur OCR fungerar, ska det vara lätt att se att inte alla OCR-verktyg är gjorda lika. Noggrannheten i dina resultat beror mycket på hur bra programvaran genomför de olika OCR-tekniker som diskuteras i den här artikeln.

Vi rekommenderar starkt OneNote för detta, vilket är bara en anledning till att det slår Evernote för notering Evernote vs OneNote: Vilken noteringsapplikation är rätt för dig? Evernote vs OneNote: Vilken noteringsapplikation är rätt för dig? Evernote och OneNote är fantastiska noterbara appar. Det är svårt att välja mellan de två. Vi jämförde allt från gränssnitt till anteckningsorganisation för att hjälpa dig att välja. Vad fungerar bäst för dig? Läs mer . Om du är villig att betala för en premiumlösning, överväga OmniPage. Se vår jämförelse av OneNote vs OmniPage för OCR Free vs Betalad OCR-programvara: Microsoft OneNote och Nuance OmniPage Jämfört gratis vs Betald OCR-programvara: Microsoft OneNote och Nuance OmniPage Jämfört OCR-skannerprogramvaran låter dig konvertera text i bilder eller PDF-filer till redigerbar text dokument. Är ett gratis OCR-verktyg som OneNote tillräckligt bra? Låt oss ta reda på! Läs mer . För mobila dokument kan du kolla in dessa OCR-appar för Android-enheter 6 Bästa Android OCR-apper för extraherande av text från bilder 6 Bästa Android OCR-apper för att extrahera text från bilder Behöver du digitalisera vilken tryckt text som helst så att du kan behålla en mjuk kopia av det? Om så är fallet behöver du bara ett verktyg för optisk teckenigenkänning (OCR). Läs mer .

Hur använder du OCR? Har du några favorit OCR-verktyg som vi inte nämnde? Låt oss veta i kommentarerna nedan!

In this article