Hoe Image-to-Text werkt (ook bekend als Optical Character Recognition)

Hoe Image-to-Text werkt (ook bekend als Optical Character Recognition) / Technologie uitgelegd

Tekst uit afbeeldingen halen is nog nooit zo eenvoudig geweest als nu dankzij optische-tekenherkenningstechnologie (OCR).

Met OCR kunnen we allerlei nuttige dingen doen, zoals zoeken naar afbeeldingen met tekstquery's, documenten reproduceren zonder ze handmatig uit te typen en zelfs handgeschreven tekst converteren naar digitale tekst. Een afbeelding converteren met handschrift naar tekst OCR gebruiken Hoe converteren een afbeelding met handschrift naar tekst OCR gebruiken Om een ​​afbeelding van handgeschreven tekst om te zetten in digitale tekst die u kunt bewerken en zoeken, hebt u een OCR-tool (Optical Character Recognition) nodig. Probeer een van deze OCR-tools om handschrift te digitaliseren. Lees verder .

Maar wat is optische karakterherkenning? Hoe werkt het eigenlijk? Het lijkt misschien zwarte magie voor je, maar aan het einde van dit artikel zul je een goed begrip hebben van hoe computers letters en woorden kunnen herkennen.

Hoe Optical Character Recognition werkt

Om te begrijpen hoe tekst wordt geëxtraheerd uit een afbeelding, moeten we eerst begrijpen welke afbeeldingen zijn en hoe ze worden opgeslagen op computers.

EEN pixel is een enkele punt van een bepaalde kleur. Een beeld is in wezen een verzameling pixels. Hoe meer pixels in een afbeelding, hoe hoger de resolutie. Een computer weet niet dat een afbeelding van een wegwijzer eigenlijk een wegwijzer is - het weet gewoon dat de eerste pixel deze kleur is, de volgende pixel die kleur is en alle pixels weergeeft die je kunt zien.

Dit betekent dat tekst en niet-tekst niet verschillen van een computer en dat is de reden waarom optische tekenherkenning zo moeilijk is. Met dat in gedachten, hier is hoe het werkt.

Stap 1: Pre-processing van de afbeelding

Voordat tekst kan worden getrokken, moet de afbeelding op bepaalde manieren worden gemasseerd om het uittrekken gemakkelijker te maken en meer kans van slagen te hebben. Dit wordt pre-processing genoemd en verschillende software-oplossingen gebruiken verschillende combinaties van technieken.

De meer gebruikelijke pre-processingtechnieken zijn onder meer:

binarisatiemiddelen
Elke afzonderlijke pixel in de afbeelding wordt geconverteerd naar zwart of wit. Het doel is om duidelijk te maken welke pixels bij de tekst horen en welke pixels bij de achtergrond horen, waardoor het eigenlijke OCR-proces wordt versneld.

rechtzetten
Aangezien documenten zelden worden gescand met een perfecte uitlijning, kunnen tekens schuin of zelfs ondersteboven eindigen. Het doel is hier om horizontale tekstregels te identificeren en vervolgens de afbeelding te roteren zodat die lijnen daadwerkelijk horizontaal zijn.

Ontvlekken
Of de afbeelding nu gebinariseerd is of niet, er kan ruis zijn die de identificatie van tekens kan verstoren. Door het ruisen wordt dat geluid weggehaald en wordt geprobeerd het beeld glad te strijken.

Lijn verwijderen
Identificeert alle regels en markeringen die waarschijnlijk geen tekens zijn en verwijdert ze vervolgens zodat het eigenlijke OCR-proces niet in de war raakt. Het is vooral belangrijk bij het scannen van documenten met tabellen en vakken.

Zonering
Scheidt de afbeelding in verschillende stukjes tekst, zoals het identificeren van kolommen in documenten met meerdere kolommen.

Afbeelding: WayneRay / Wikimedia

Stap 2: De afbeelding verwerken

Eerst en vooral probeert het OCR-proces de basislijn vast te stellen voor elke regel tekst in de afbeelding (of als het in de voorbewerking was gezoneerd, zal het elke zone een voor een doorlopen). Elke geïdentificeerde rij tekens wordt één voor één afgehandeld.

Voor elke rij tekens identificeert de OCR-software de spatiëring tussen tekens door te zoeken naar verticale lijnen van niet-tekstpixels (wat duidelijk moet zijn met de juiste binarisatie). Elk stuk pixels tussen deze niet-tekstregels is gemarkeerd als a “blijk” dat staat voor één karakter. Vandaar dat deze stap wordt genoemd tokenization.

Nadat alle potentiële tekens in de afbeelding zijn getokeniseerd, kan de OCR-software twee verschillende technieken gebruiken om te bepalen welke tekens die tokens zijn:

Patroonherkenning
Elk token wordt pixel-tot-pixel vergeleken met een hele reeks bekende glyphs, inclusief getallen, interpunctie en andere speciale symbolen, en de beste overeenkomst wordt gekozen. Deze techniek staat ook bekend als matrix-matching.

Er zijn verschillende nadelen. Ten eerste moeten de tokens en glyphs van dezelfde grootte zijn, anders komt geen enkele overeen. Ten tweede moeten de tokens in een vergelijkbaar lettertype zijn als de glyphs, wat handschrift uitsluit. Maar als het lettertype van het token bekend is, kan patroonherkenning snel en nauwkeurig zijn.

Functie extractie
Elk token wordt vergeleken met verschillende regels die beschrijven wat voor soort personage het kan zijn. Twee verticale lijnen met gelijke hoogte, verbonden door een enkele horizontale lijn, zijn bijvoorbeeld waarschijnlijk een hoofdletter H.

Deze techniek is nuttig omdat deze niet beperkt is tot bepaalde lettertypen of formaten. Het kan ook genuanceerder zijn in het herkennen van de subtiele verschillen tussen een hoofdletter I, kleine letter L en nummer 1. Het nadeel? Het programmeren van de regels is veel complexer dan alleen het vergelijken van de pixels in een token met de pixels in een glyph.

Stap 3: De afbeelding nabewerken

Zodra alle token-matching is voltooid, kan de OCR-software het gewoon een dag noemen en de resultaten aan u presenteren. Maar meestal moet er een beetje meer fudging gedaan worden om ervoor te zorgen dat je je ogen niet wentelt op wrede resultaten.

Lexicale beperking
Alle woorden worden vergeleken met een lexicon van goedgekeurde woorden, en alle woorden die niet overeenkomen, worden vervangen door het woord dat het dichtst in de buurt komt. Een woordenboek is een voorbeeld van een lexicon. Dit kan helpen bij het corrigeren van woorden met foutieve tekens, zoals “doorn” in plaats van “th0rn”.

Applicatie-specifieke optimalisaties
Wanneer OCR wordt gebruikt in nisinstellingen, zoals voor medische of wettelijke documenten, kan een speciaal soort OCR worden gebruikt dat speciaal voor die instelling is ontworpen. In deze gevallen kan de OCR-software zoeken naar wiskundige vergelijkingen, branchespecifieke voorwaarden, enz.

Natuurlijke taal
Deze geavanceerde techniek corrigeert zinnen door een taalmodel te gebruiken dat beschrijft hoe waarschijnlijk bepaalde woorden door andere woorden moeten worden gevolgd. Het is vergelijkbaar met de technologie die voorspelt welk woord u vervolgens op een mobiel toetsenbord wilt typen.

Als het goed is gedaan, kan dit resulteren in tekst die opmerkelijk leesbaar is.

Aanbevolen hulpmiddelen voor optische tekenherkenning

Nu u weet hoe OCR werkt, zou het gemakkelijk moeten zijn om te zien dat niet alle OCR-tools gelijk worden gemaakt. De nauwkeurigheid van uw resultaten zal sterk afhangen van hoe goed de software de verschillende OCR-technieken implementeert die in dit artikel worden besproken.

We bevelen OneNote hiervoor ten zeerste aan, wat slechts één reden is waarom Evernote het meest geschikt is voor het maken van notities: Evernote vs. OneNote: welke app voor notities maken is geschikt voor u? Evernote versus OneNote: welke app voor het maken van aantekeningen past bij u? Evernote en OneNote zijn geweldige notitie-apps. Het is moeilijk om tussen de twee te kiezen. We hebben alles vergeleken van interface tot organisatie van notities om u te helpen bij het kiezen. Wat werkt het beste voor jou? Lees verder . Als u bereid bent te betalen voor een premiumoplossing, kunt u OmniPage overwegen. Bekijk onze vergelijking van OneNote vs. OmniPage voor OCR Gratis versus betaalde OCR-software: Microsoft OneNote en Nuance OmniPage vergeleken Gratis versus betaalde OCR-software: Microsoft OneNote en Nuance OmniPage vergeleken OCR-scannersoftware kunt u tekst in afbeeldingen of PDF's converteren naar bewerkbare tekst documenten. Is een gratis OCR-tool zoals OneNote goed genoeg? Laten wij het uitzoeken! Lees verder . Voor mobiele documenten wilt u deze OCR-apps voor Android-apparaten bekijken 6 Beste Android OCR-apps voor het extraheren van tekst uit afbeeldingen 6 Beste OCR-apps voor Android voor het extraheren van tekst uit afbeeldingen Wilt u gedrukte tekst digitaliseren zodat u deze kunt behouden? een zachte kopie ervan? Als dat het geval is, is alles wat u nodig hebt een hulpmiddel voor optische tekenherkenning (OCR). Lees verder .

Hoe gebruik je OCR? Heb je favoriete OCR-tools die we niet noemden? Laat het ons weten in de comments hieronder!

Ontdek meer over: Image Converter, OCR.