Wat is het beste gratis OCR- of ICR-programma voor transcriptie van het manuscript?

Wat is het beste gratis OCR- of ICR-programma voor transcriptie van het manuscript? / Vraag de experts

Javier vraagt:

Ik ben een schrijver van korte verhalen en verhalen. Ik ben op zoek naar een gratis Optical Character Recognition (OCR) of Intelligent Character Recognition (ICR) -programma om mijn oude manuscripten te scannen van afbeeldingen of foto's, zodat ik ze kan converteren naar Microsoft Word-bestanden.

Zijn er gratis en nauwkeurige programma's die dit kunnen doen? Helaas heb ik geen scanner, maar ik heb wel toegang tot een digitale camera met een resolutie van 20 megapixels.

Kannon's antwoord:

Zoals u al hebt vermeld, zijn er verschillende soorten technologieën voor tekenherkenning die handgeschreven of getypte schrijven automatisch in digitale tekens kunnen converteren. Het nauwkeurigheidsniveau van dit soort software varieert sterk tussen verschillende implementaties. Sommigen zetten letter-voor-letter om en anderen kunnen hele woorden omzetten. Er zijn drie algemene categorieën van deze software:

  • Optical Character Recognition (OCR)
  • Intelligente karakterherkenning (ICR)
  • Intelligente woordherkenning (IWR)

Optische karakter erkenning

In werkelijkheid is OCR een generieke term en vaak worden alle methoden die in dit artikel worden beschreven aangeduid als OCR - Wikipedia geeft OCR echter zijn eigen classificatie, maar moderne implementaties hebben de neiging meerdere methoden samen te voegen. Dus wat doet het? OCR converteert individueel-getypte of handgeschreven letters naar digitale tekens. Dus de software kijkt naar een document en probeert het vervolgens om te zetten in platte tekst door te raden wat elk personage is.

De software is niet perfect. OCR-software kan individuele tekens met vergelijkbare verschijningsvormen verkeerd interpreteren, wat resulteert in verkeerd gespelde woorden en onnauwkeurige resultaten. Meestal kunnen gebruikers de tekst die is gegenereerd door een OCR-programma kopiëren naar een tekstverwerker en de spelfouten automatisch corrigeren. Vaak verschijnen fouten als gelijkaardige tekens. Bijvoorbeeld de brief “d” kan worden weergegeven als “cl”.

Maar als het gaat om handgeschreven teksten, doet OCR het niet erg goed. Tenminste, de meerderheid van de gratis implementaties zijn tragisch slecht. Er zijn enkele commerciële producten die dat kunnen werkelijk spijker met de hand geschreven transcriptie, maar hun prijzen plaatsen ze volledig onbereikbaar voor het grote publiek. Er is bijvoorbeeld de ReadSoft OCR-software van Lexmark. Deze software kost alleen voor bedrijven duizenden van dollars.

Intelligente karakterherkenning

ICR is een subset van OCR die is gespecialiseerd in het converteren van handgeschreven tekst naar individuele digitale tekens. Aangezien uw aantekeningen en manuscripten met de hand zijn geschreven, is een ICR-programma het nuttigst. Ik weet echter niet precies hoe nauwkeurig teksten kunnen worden geconverteerd die in een vreemde taal zijn geschreven, bijvoorbeeld in het Spaans. Net als bij OCR kunnen gebruikers de kwaliteit van de uitgevoerde teksten verbeteren door ze in een tekstverwerker te kopiëren met spellingcorrectie ingeschakeld en vervolgens handmatig te corrigeren.

Intelligente woordherkenning

De nieuwste evolutie van OCR en ICR is Intelligent Word Recognition-software. In plaats van individuele karakters te herkennen, probeert het hele handgeschreven woorden te vertalen. Net als OCR en ICR worden woorden vaak verkeerd vertaald in Intelligente woordherkenning en moet de gebruiker fouten handmatig corrigeren.

Wat is de beste gratis OCR-software?

Tesseract

Er zijn veel opties beschikbaar. Tesseract is waarschijnlijk de beste open source (en gratis) OCR-software die er zijn. Bij mijn weten kijkt het alleen naar individuele karakters en niet naar volledige woorden.

Omdat u Microsoft Word gebruikt (die de beste, meest aanpasbare spellingcontrole heeft. Hoe spelling- en grammaticacontrole in Microsoft Word Hoe te spellen en grammatica Controleer in Microsoft Word U kunt de ingebouwde spelling- en grammaticacontrolehulpmiddelen van Microsoft Word aanpassen om te voldoen aan Je kunt zelfs AutoCorrectie gebruiken om het typen te versnellen. Lees Meer in de bedrijven), je kunt de hele tekst gewoon in Word kopiëren en dan een spellingscontrole uitvoeren om spelfouten op te ruimen.

Tesseract is eigenlijk een OCR-engine die wordt uitgevoerd vanaf de opdrachtregel. Tenzij u bereid bent om de moeilijkheid van het hanteren van een commandoregeltool aan te pakken, wilt u waarschijnlijk iets gebruikersvriendelijkers installeren. Er is een downloadbaar “voorkant” (of een grafische gebruikersinterface) waarmee u Tesseract kunt gebruiken als hulpmiddel voor slepen en neerzetten: PDF OCR X. Installeer eerst het softwarepakket en voer het vervolgens uit. Je ziet dan een venster:

Vervolgens sleept u het afbeeldingsbestand gewoon naar het venster. Nadat de afbeelding is geladen, voert u de OCR-transcriptiesoftware uit. Het kan een minuutje duren.

Helaas bleek dit volledig ontoereikend te zijn voor het verwerken van uw tekst. Zo ziet het eruit na het uitpakken van tekst uit het document:

Microsoft OneNote

Omdat het erop lijkt dat u Microsoft Office al gebruikt, is de beste optie waarschijnlijk ook van Microsoft. Ik ga raden dat je een exemplaar van Microsoft Office bezit, inclusief OneNote. Deze is uitgerust met redelijk geavanceerde OCR-technologie.

Op zowel iOS als Android is er ook de volledig gratis Microsoft Office-lens, waarmee JPEG (en andere afbeeldingsindelingen) rechtstreeks in tekst kunnen worden omgezet. Wat de mobiele versies zo geweldig maakt, is dat je een afbeelding kunt schieten, deze kunt uploaden naar het cloud computing-systeem van Microsoft en de tekstextractie van OneNote op een bureaublad kunt uitvoeren.

Het proces is vrij eenvoudig. Maak eerst een foto van uw tekst. Als u hebt besloten om de OneNote-app te gebruiken, hoeft u het bestand alleen op te slaan in uw OneDrive-account. Stuur anders de afbeelding over naar uw computer en plaats deze op OneNote.

Klik vervolgens met de rechtermuisknop op de afbeelding en selecteer Kopiëren Tekst van afbeelding vanuit het contextmenu.

Klik vervolgens met de rechtermuisknop op een leeg gedeelte van OneNote (of in een toepassing voor het lezen van tekst) en plak de tekst erin. De uitgevoerde tekst uit uw document ziet er als volgt uit:

Helaas doen de resultaten van OneNote dat niet overal in de buurt van een goede baan, het produceren van volslagen onzin. Dit kan worden veroorzaakt door een combinatie van factoren, zoals een vertekend beeld of schrijven dat niet in een rechte lijn wordt gedaan, of simpelweg omdat de software niet goed genoeg is.

Google Keep

Op dit moment heeft de beste oplossing voor OCR op handgeschreven documenten betrekking op machine learning: specifiek, diep leren. Deep-learning is een geavanceerde methode om een ​​computer te trainen om taken uit te voeren waar voorheen alleen de mens uitstekend in was, zoals gezichtsherkenning (Picasa doet gezichtsherkenning Gezichtsherkenning gebruiken in Picasa Webalbums Gezichtsherkenning gebruiken in Picasa Webalbums Lees Meer , geloof het of niet). Google kocht onlangs DeepMind, dat diepgaande leertechnologie ontwikkelt Coole onderzoeksprojecten die de toekomst kunnen veranderen Coole onderzoeksprojecten die de toekomst kunnen veranderen Mega-ondernemingen zoals Google, Microsoft, IBM en Intel zullen toekomstige generaties de wereld geven die we kunnen alleen voorstellen nu? Deze spannende onderzoeksprojecten zeggen dat het een belofte is die ze zullen houden. Lees verder . Deze belangrijke acquisitie had een groot effect: Microsoft verliest aan Google in OCR Microsoft vs Google - Who Leads the Artificial Intelligence Race? Microsoft vs Google - Wie leidt de kunstmatige-intelligentie-race? Kunstmatige intelligentieonderzoekers boeken tastbare vooruitgang en mensen beginnen weer serieus over AI te praten. De twee titanen die de artificiële intelligentierace leiden zijn Google en Microsoft. Lees verder . Op dit moment biedt Google een van de meest geavanceerde (en gratis) methoden: Google Keep.

Google Keep (die we voor het eerst in 2013 hebben besproken. Eenvoudige notities onderweg: Google Keep For Android Beoordeeld Simple Notes On The Go: Google Keep For Android Beoordeeld Er zijn een aantal fantastische notitie-apps die er zijn, maar hier is er een die een nadere blik verdient : Google Keep, een boekhouder met zowel een mooie Android-app als een handige webapp Lees meer) biedt ook een mobiele versie van hun app voor Android. Net als bij OneNote kunt u de afbeelding opnemen en deze rechtstreeks overbrengen naar de cloud van Google. Sleep de afbeelding naar het Google Keep-venster. Klik vervolgens op de menuknop (drie verticale stippen) en selecteer Grijp afbeeldingstekst vanuit het contextmenu.

Zo ziet het eruit na het uitpakken van de tekst:

Google Keep wint

Zoals u kunt zien, domineert Google Keep de concurrentie. De resultaten kunnen nog verder worden verbeterd met behulp van een hulpmiddel voor het bewerken van afbeeldingen. 10 Gratis bewerkingshulpmiddelen voor foto's om het maximale uit uw foto's te halen 10 gratis foto-editorhulpmiddelen om uw foto's optimaal te maken Wat er ook is gebeurd met alle foto's die u in het verleden hebt gemaakt ? Als je plannen en ideeën hebt, zijn hier een paar geweldige Windows en een aantal platformonafhankelijke tools om ze mee te verwerken. Meer lezen om het contrast te verhogen en de afbeelding recht te trekken.

Hopelijk helpen die opties. Als je meer OCR-opties nodig hebt, bekijk dan de 5 beste OCR-hulpmiddelen De 5 beste OCR-hulpmiddelen voor het extraheren van tekst uit afbeeldingen De 5 beste OCR-hulpmiddelen voor het extraheren van tekst uit afbeeldingen Als je een stapel papier hebt, hoe krijg je dat allemaal afgedrukt tekst omgezet in iets dat een digitaal programma kan herkennen en indexeren? Houd een goede OCR-software in de buurt. Lees meer voor meer informatie.

Ontdek meer over: OCR, transcriptie.