Tekstherkenning. Digitalisering van archiefmateriaal met geïmproviseerde middelen

Gratis programma Voor automatische herkenning gescande tekst. Het programma ziet er niet uit als karamel, maar kent zijn vak.

De computer is al vol vertrouwen het leven van de gemiddelde burger binnengetreden. Wanneer u een relatief kleine hoeveelheid afgedrukte informatie nodig heeft, is de eenvoudigste manier om deze tekst handmatig te typen met behulp van een teksteditor.

Soms moet je echter een heel boek ‘herschrijven’. In dergelijke gevallen is het het meest rationeel om een ​​scanner te gebruiken. Maar de scanner zelf maakt alleen een fotokopie van de tekst, die op geen enkele manier kan worden bewerkt. Om de informatie in de resulterende afbeelding te wijzigen, moet u documentherkenning uitvoeren.

De onbetwiste leider in deze kwestie is het OCR-systeem (optische karakterherkenning) van Abbyy - FineReader. Maar het is vrij duur en niet iedereen kan het zich veroorloven zo'n tool in zijn arsenaal te hebben. Vandaag maken we kennis met gratis alternatief Fine Reader - programma CuneiForm. Ik breng je vergelijkingstabel kenmerken van beide pakketten:

Vergelijking van tekstherkenningsengine CuneiForm met zijn betaalde analoge FineReader

Zoals je ziet, zul je, als je tekst gratis wilt herkennen, ergens voor moeten toegeven. Het eerste waar u rekening mee moet houden is het onvermogen van CuneiForm om met sommige scanners (vooral MFP-scanners) te werken. Daarom moet u het document scannen met behulp van standaard kenmerken Ramen. Ten tweede moet u de scanresolutie controleren.

Dit komt omdat CuneiForm dit niet aankan grote bestanden(meer dan 100 KB), en hoe hoger de resolutie, hoe groter formaat scanbestand. Maar de kwaliteit van de tekstherkenning in het programma is veel hoger dan die van een betaalde concurrent, en dus de beste optie scanparameters zullen 200 dpi zijn (meer is mogelijk, maar dan bestaat de kans dat het programma gewoon vastloopt).

Het aantal talen is ook klein, maar de belangrijkste zijn er. Bovendien heeft CuneiForm, hoewel het onmogelijk is om talen te combineren, een gemengde Engels-Russische herkenningsmodus! Dit is waar de nadelen eindigen :). U kunt beginnen met de installatie.

CuneiForm installeren

Er zijn hier geen problemen, omdat het installatieprogramma u zal helpen. Gewoon rennen installatiebestand en volg de instructies. Na de installatie wordt het Startmenu weergegeven nieuwe sectie. Open het en start CuneiForm.

Programma-interface

De interface van CuneiForm is veel eenvoudiger dan die van Fine Reader en vereist vrijwel geen configuratie. Het programma is volledig te bedienen dankzij de knoppen op de werkbalk. Laten we ze in meer detail bekijken:

Het programma kan werken in de wizardmodus, die wordt geactiveerd door de eerste knop. Maar als CuneiForm uw scanner niet ondersteunt, moet u deze modus verlaten. De volgende knop start het scanproces (opnieuw, als er scannerondersteuning is). Mogelijk ziet u kleine pijlen op deze en de volgende knoppen. Door erop te klikken, krijgen we toegang tot enkele extra functies.

Werken met CuneiForm

Laten we nu CuneiForm in de praktijk proberen. Als het programma uw scanner ondersteunt, is de eerste knop waarop u moet klikken 'Get Image'. Mocht dit niet mogelijk zijn, dan openen wij een kant-en-klare scan (support JPG-formaten, GIF, BMP, PNG (niet altijd correct), evenals TIF (in de volle omvang)).

Nu moet je de markeringen maken. Het helpt bij het identificeren van de blokken waaruit een pagina bestaat. Herkenning van blokken in de vorm van tekst (blauw kader), afbeeldingen (groen kader) of tabellen (oranje kader) wordt ondersteund (automatische markering kan handmatig worden aangepast met contextmenu blok).

Wanneer de tekst is gemarkeerd, is het tijd om de herkenning uit te voeren. Om dit te doen, klikt u op de knop Volgende. Aan het einde van het herkenningsproces wordt tekst weergegeven in het werkvenster, dat kan worden bewerkt in een kleine ingebouwde teksteditor, vergelijkbaar met Microsoft Word. Tegelijkertijd kunt u onmiddellijk de woorden zien waarvan het programma “niet zeker” is (blauwe markering) en waarin een fout zit (twijfelachtige letter - roze).

En tot slot kunt u, na succesvolle bewerking, het resultaat van ons werk opslaan. Klik op de laatste knop op de werkbalk en sla de tekst op als RTF-, HTML- of TXT-bestand.

Als u meer wilt, kunt u door op de pijl aan de zijkant te klikken de exportopties selecteren naar een van de voorgestelde programma's (Microsoft Word, Excel of Eufraat).

Kijk naar de vorige schermafbeelding. Dat heb je vast gemerkt in extra menu's knoppen, beginnend met “Markup” en eindigend met “Opslaan”, er is een item “Automatisch” aan het einde. Als u deze optie activeert, hoeft u niet meer op de geselecteerde knop te drukken. Dat wil zeggen dat u het scanverwerkingsproces kunt automatiseren tot het punt dat u het alleen nog maar kunt openen nieuw document. CuneiForm doet de rest zelf!

Algemene CuneiForm-instellingen

Het programma is in eerste instantie op de meest optimale manier geconfigureerd, maar als u iets wilt wijzigen, gaat u gewoon naar het menu "Bestand" en selecteert u de optie " Algemene instellingen" Dit kan handig zijn voor het wijzigen van de taal en enkele andere parameters voor het herkennen, opmaken en scannen van teksten.

Batchherkenning

We hadden hier kunnen eindigen als het CuneiForm-pakket geen ander hulpprogramma bevatte. Open opnieuw "Start" en in de programmamap vindt u een andere applicatie - "Batchherkenning". Stel je voor dat je een heel boek scant! en nu moeten we het herkennen!!! Als u elk scanbestand afzonderlijk opent, kost dit veel tijd, maar in de batchmodus kunt u dit opgeven benodigde bestanden, en het programma zorgt voor de rest zelf.

Eerst moet je creëren nieuw pakket bestanden. Klik op de juiste knop en volg de aanwijzingen van de gestarte wizard:

Zodra de herkenning is voltooid, kunt u alle herkende documenten in het hoofdvenster zien. Als de herkenning succesvol was, vindt u in het linkerzijpaneel slechts twee actieve lijsten: "Origineel" en "Verwerkt". Als er bestanden zijn die niet konden worden herkend, vinden we deze in de sectie ‘Fouten’.

Conclusies

CuneiForm heeft duidelijk een goed potentieel, maar de ontwikkeling verloopt nogal traag. Ondanks de openheid broncode, het bedrijf Cognitive is blijkbaar erg veeleisend van ontwikkelaars, aangezien de vooruitgang niet zo lang duurt. We kunnen alleen maar hopen dat het vooruit gaat en het programma nog beter wordt, maar voorlopig zijn we met weinig tevreden. Maar is het werkelijk zo klein... De keuze is aan jou!

abonneer je op nieuwe videolessen!

Mijn hoofdactiviteit houdt al jaren verband met fotografie, dus als ik op internet surf, besteed ik meer aandacht aan de vormgeving en illustraties dan aan de tekst. Toen ik op internet foto's tegenkwam van explosies in Medeo tijdens de bouw van een dam, leek het mij dat de kwaliteit van de foto's beter kon. Ook het zoeken naar afbeeldingen leverde geen bevredigend resultaat op: er werden nog een aantal foto's gevonden, maar die waren misschien verre van ideaal leuke foto's Er zijn er enkele op internet, maar ze zijn zo slecht gedocumenteerd dat de zoekmachine ze niet kan vinden. Toen besloot ik te proberen te digitaliseren en te posten wat er in het archief van mijn vader stond. Dit is allereerst een A3-album met daarin geplakte kleurenfoto's en diverse artikelen met vrijwel dezelfde, maar zwart-witfoto's in offset gedrukt. Toegegeven, er is weinig kleur over op de foto's uit 1967, en ik ben er niet zeker van dat de kleuren erop oorspronkelijk ideaal waren.

Maar de poging is geen marteling, en daarom werd de taak gesteld om foto's te digitaliseren, tekst te digitaliseren en te herkennen, en begeleidende tekst in fotobestanden in te voegen. Ik was niet van plan om mee te werken grote volumes materialen en gebruik hiervoor professionele apparatuur en programma’s. Ik wilde er gewoon achter komen of het mogelijk was om deze taak met geïmproviseerde middelen uit te voeren en welke apparatuur en programma's daarvoor het meest geschikt waren.

Het gebruik van geïmproviseerde middelen betekende dat ik alleen een scanner bij de hand had Samsung MFP SCX 4200. Dit is een scanner van het CIS-type. Ik heb herhaaldelijk geschreven over de nadelen van dit type scanner, bijvoorbeeld. Bovendien heeft het monochrome linialen en wordt het kleurenscannen uitgevoerd door de kleur van de achtergrondverlichting opeenvolgend te veranderen, en ten slotte is het alleen A4 en is het glas iets lager verzonken buitenste frame

, waardoor het moeilijk is om een ​​A3-foto stevig op het glas te drukken. Voor het werken met teksten is dit uiteraard ruim voldoende. Als alternatief had ik veel digitale camera's, maar het opnieuw maken van glanzende foto's is ook niet eenvoudig - het probleem is verblinding. Voor de verwerking was er een computer en een laptop, beide met Slackware OS. In het eerste geval met versie 13.37 en in het tweede geval met 14.0. Om met de MFP te communiceren zijn respectievelijk Samsung Unified Driver 3.00.19 en 4.00.31 geïnstalleerd. Ik besloot te beginnen met scannen en besloot dat er meer zou zijn eenvoudige oplossing . Eerst scannen we delen in, daarna naaien we ze aan elkaar in het knuffelprogramma. Bij het aan elkaar plakken van gescande delen hoeven we geen optische vervormingen te corrigeren, dus als er gevraagd wordt naar de brandpuntsafstand van de lens stellen we maximale waarde
. Ik heb hem ingesteld op 1000 mm. Het bleek echter dat voor vervaagde foto's het aantal tonen dat deze scanner kan verzenden duidelijk niet voldoende is. Ondanks het feit dat beide helften in dezelfde modi door het xSane-programma werden gescand, verergerde het stiksel de situatie en de strepen op vloeiende overgangen trok mijn aandacht. Dynamisch bereik

Door in raw-formaat te fotograferen kun je het aantal gradaties aanzienlijk vergroten, daarom werd de volgende poging gedaan met een Sony NEX-5 camera met een 16 mm lens. Omdat op de foto's alleen het formaat indrukwekkend was, en niet de details van de foto's, heb ik niet geprobeerd het hele gebied van de matrix volledig te benutten en, om verblinding te voorkomen, fotografeerde ik op een kleine hoek met de loodlijn. Voor de conversie vanuit RAW, primaire kleurcorrectie en correctie van perspectiefvervormingen werd gebruik gemaakt van het programma DarkTable.

Voor raster zwart-wit foto's scannen met een resolutie van 300 dpi en xSane de-screening was ruim voldoende.

Voor herkenning zeker het beste programma vandaag de dag is er de FineReader Engine, maar 150 euro voor een licentie voor 12.000 erkenningen per jaar is duidelijk geen optie die geïmproviseerd kan worden genoemd. Daarom moest ik me tot de concurrenten uit de jaren 90 van de vorige eeuw wenden en kijken hoe ze zich vandaag de dag voelen.

Optisch herkenningssysteem teksten CuneiForm is sinds 1993 ontwikkeld door het Russische bedrijf Cognitive Technologies. Inbegrepen in het pakket Corel Draw. In 1996 werden voor het eerst ter wereld adaptieve herkenningsalgoritmen gebruikt. Het ontwikkelde zich tot 1999 en als we alleen naar optische herkenningsalgoritmen kijken zonder voorafgaande beeldverwerking en uiteindelijke taalkundige verwerking, was het misschien wel de beste en is het nog steeds behoorlijk goed. In 2008 werd de broncode voor OCR Cuneiform gepubliceerd onder een BSD-licentie. Nieuwste versie Linux-poort van Cuneiform 1.1.0 werd uitgebracht op 19-04-2011. Het project lijkt te zijn verlaten.

Tesseract is ontwikkeld door Hewlett-Packard van 1985 tot 1998 en vervolgens verlaten tot 2006, toen Google het kocht en de broncode opende onder de Apache 2.0-licentie. In de jaren 90 was het voor ons niet interessant, hoewel het vaak werd geleverd met scanners, omdat de Russische taal niet werd ondersteund, vandaag is alles in orde met de taal en gaat het niet erg snel, maar het ontwikkelt zich. De huidige stabiele versie is 3.02 van 23-10-2012 en op 4 februari 2014 werd de release van V3.03 (rc1) aangekondigd.

Hoewel beide programma's alleen een console-interface hebben, is deze voor hen ontwikkeld externe ontwikkelaars verschillende grafische interfaces. Ik heb geprobeerd met twee van hen te werken: YAGF en . Het bleek dat grafische interfaces de mogelijkheden van console-interfaces anders en niet volledig gebruiken. Daarom hangt het resultaat niet alleen af ​​van het herkenningsprogramma, maar ook van de grafische interface. Het is duidelijk te zeggen welke combinatie geeft beste resultaat

, dat kan ik niet.

De voordelen van YAGF zijn onder meer de mogelijkheid om een ​​geladen pagina te roteren en met de scanner te werken via xSane, wat flexibelere scaninstellingen biedt.

OCRFeeder werkt via Sane en laat u niet toe om met scaninstellingen te knoeien.

Het kan de gescande afbeelding echter verbeteren met behulp van de Unpaper-module. Met beide GUI's kunt u licht geroteerde pagina's uitlijnen.

Een van de nadelen van YAGF is dat blokken niet automatisch correct worden geselecteerd, waardoor lijnen die in de marges uitsteken worden afgesneden. (Dit effect werd niet opgemerkt in OCRFeeder. Beide interfaces hebben de mogelijkheid om handmatig blokken toe te wijzen). Paragrafen worden alleen gemarkeerd bij het schrijven van het resultaat in HTML, en alleen bij herkenning via CuneiForm; bij het werken met Tesseract werden geen paragrafen maar regels gemarkeerd. Koppeltekens worden alleen verwijderd als u met CuneiForm werkt en in tekstmodus opneemt. OCRFeeder ging beter om met alinea's en koppeltekens, ongeacht het herkenningsprogramma, en legde het resultaat vast in een ODT-bestand.

Ik kon niet omgaan met tabellen in welke combinatie van programma's en grafische interfaces dan ook. Herkenningsprogramma's stellen iets andere eisen aan de scanmodi. Die. beste herkenning

ze komen voor bij verschillende contrasten en scanresoluties. Voor CuneiForm verbetert het verhogen van de resolutie boven 200 dpi de kwaliteit van de herkenning niet. Bij scans van hoge kwaliteit liggen de resultaten dicht bij elkaar, ook al worden ze mogelijk niet herkend. verschillende symbolen Grafische interfaces kunt u verschillende herkenningsprogramma's toepassen aparte paragrafen

De foto's en de tekst ervoor zijn dus gedigitaliseerd, nu is het de taak om deze gegevens te combineren, zodat het later, zelfs als de foto uit de context van het artikel wordt gehaald, mogelijk is om te bepalen wat erin wordt afgebeeld. De mogelijkheid om handtekeningen aan een fotobestand toe te voegen bestaat al heel lang. Maar er is een groot risico dat deze handtekening alleen wordt gelezen door het programma dat hem heeft gemaakt. Maar niets duurt eeuwig en het is zeer waarschijnlijk dat de foto dit programma en de OC waaronder hij zou kunnen werken, zal overleven. Bovendien zijn er te veel coderingen voor de Russische taal uitgevonden en is het risico op scheuren erg groot. Nu de situatie wat beter is geworden, lijkt het erop dat UTF-8 voor iedereen de belangrijkste standaard aan het worden is. Ook is er meer consistentie met de invulvelden. Er zijn drie hoofdstandaarden: EXIF, IPTC, XMP.

EXIF (Exchangeable Image File Format) is een standaard waarmee u bestanden kunt toevoegen aanvullende informatie(metadata), commentaar geven op dit bestand, de voorwaarden en methoden beschrijven om het te verkrijgen, auteurschap, enz.

IPTC (International Press Telecommunications Council) is een metadatastandaard voor digitale afbeeldingen waarmee een annotatie kan worden opgeslagen die de inhoud beschrijft. Aanvankelijk was het de bedoeling om alleen het Latijnse alfabet te gebruiken, en hoewel je in veel programma's nu tekst in IPTC-velden kunt schrijven, is de kans dat het Cyrillische alfabet door alle programma's correct wordt gelezen bij verschillende coderingen vrij klein.

Adobe XMP (eXtensible Metadata Platform) is een technologie van Adobe waarmee de gebruiker aanvullende informatie aan een bestand kan toevoegen.

Als u in al deze standaarden een handtekening maakt, is de kans groot dat deze het meest kan worden bekeken verschillende programma's, neemt sterk toe. Het is raadzaam om alle gegevens met één programma in te voeren, omdat als u dit op verschillende manieren doet, de kans groot is dat oude gegevens worden vernietigd. Ik beschouw het meest geschikte programma voor dit doel.

Om gegevens vast te leggen, opent u het menu Beschrijving/opmerking bewerken.

Intelligent systeem Optical Character Recognition (OCR) Spijkerschrift is actief in Microsoft-omgeving Windows 3.1 of hoger latere versie. Contextgevoelig hulp systeem CuneiForm ondersteund standaard systeem Windows-hulp. Het systeem heeft de volgende technologische mogelijkheden:

  • ondersteunt een breed scala aan desktopscanners;
  • herkent een gescande pagina (inclusief tekst met meerdere kolommen en tekst met een complex ontwerp);
  • stelt u in staat een afbeelding te scannen en op te nemen als TIFF, en de herkenning later uit te voeren (dit maakt het handig om een ​​stapel documenten te scannen);
  • heeft een assortiment aan bestandsopnamemogelijkheden waarmee u een reeks pagina's kunt scannen, en het programma voert automatische opname uit, waarbij opeenvolgende namen aan de afbeeldingen worden toegewezen (Pagina1, Pagina2, enz.);
  • kan afbeeldingen lezen die zijn gescand door andere programma's en faxen in de modi Fijn en Normaal;
  • scheidt tekst van afbeeldingen en converteert deze van een afbeelding naar een tekstbestand voor een van de volgende tekstverwerkers, databanken of spreadsheets;
  • heeft de functie "Herkenningsgebied definiëren", die selectieve herkenning in geselecteerde delen van de pagina mogelijk maakt;
  • herkent letters van het Russische en Engelse alfabet, met uitzondering van gestileerde lettertypen zoals gotische letters;
  • herkent alle veelgebruikte lettertypen (inclusief vet, cursief en onderstreept) die op een pagina door elkaar kunnen voorkomen, zelfs binnen een alinea of ​​woord;
  • kan documenten verwerken die typografisch zijn afgedrukt op LQ- en NLQ-dotmatrixprinters, inkjetprinters, laserprinters, op een typemachine (zowel monospace als proportioneel afdrukken zijn acceptabel);
  • kan de originele opmaak en tabellering behouden en de inspringing en uitlijning aanpassen;
  • heeft een interne teksteditor en woordenboekcontrole, waarmee u de kwaliteit van de herkenning kunt controleren en tekst kunt bewerken. Om dit te doen, geeft het ingebouwde editorvenster de herkende tekst weer, waarbij dubieuze tekens en woorden worden gemarkeerd die niet in het woordenboek voorkomen. In het aangrenzende uitbreidingsvenster ziet u een vergrote afbeelding van de gescande tekst, zodat u deze kunt bewerken zonder erin te kijken origineel document;
  • herkent het niet handgeschreven tekst.

Het Suneiform-scherm bevat vier hoofdonderdelen, aangegeven in de figuur.

Basisacties(procedures) bij het werken in het systeem zijn de volgende:

Paneelknop Functie uitgevoerd
Scannen en herkennen De knop "Scannen en herkennen" zal handig zijn als u er zeker van bent dat het ontwerp van het document vrij eenvoudig is en de tekstherkenning niet bemoeilijkt (voor complexere fragmentatie is de bewerking "Scannen en weergeven" nuttig). Wanneer u op een knop in het paneel klikt snelle toegang(of door de opdracht ActionScanning and Recognition aan te roepen), verschijnt er een berichtvenster waarin u wordt geïnformeerd dat het scannen bezig is. Vervolgens toont het veld Voortgangsindicator de huidige tekenherkenningsfase, evenals het totale percentage voltooide tekenherkenning. Het indrukken van de knop komt overeen met het uitvoeren van de opdrachten “Scannen en weergeven” en vervolgens “Herkenning”.
Afbeelding openen Hiermee kunt u een afbeelding laden vanuit een bestaand grafisch bestand (met behulp van de knop of het FileOpen-afbeeldingscommando). In het venster dat verschijnt, moet u de map- en bestandsnamen selecteren.
Scannen en laten zien Hiermee kunt u een document scannen en bekijken (met behulp van de knop Actie scannen en bekijken) zonder tekenherkenning uit te voeren. Het scannen begint onmiddellijk en het gescande beeldvenster verschijnt aan de rechterkant van het scherm.
Herkenning Wordt gebruikt bij het starten (met behulp van de knop of het ActionRecognition-commando) van tekenherkenning na het uitvoeren van de actie “Scannen en kijken” of na het laden van een bestand.
Helderheid Hiermee kunt u installeren optimaal niveau helderheid voor het scannen van een document (met behulp van de knop of de opdracht Actie Helderheid). CuneiForm biedt 256 helderheidsniveaus (0-255). De standaardwaarde is 127. Als er veel fouten optreden bij de herkenning omdat de gescande afbeelding te licht is, moet u de helderheid op een lagere waarde instellen en het document opnieuw scannen. Als het beeld te donker is, moet u dit instellen grotere helderheid. Het helderheidsniveau kan als volgt worden gewijzigd: a) verplaats de schuifregelaar op de schaal naar rechts en links; b) automatisch instellen van de helderheidswaarde. Om dit te doen, klikt u op de knop "Automatisch" in het veld "Helderheidsinstellingen". Er verschijnt een klein dialoogvenster waarin u wordt gevraagd "Selecteren linker knop muis om de helderheid te selecteren of klik op Annuleren." Terwijl u de cursor over de afbeelding beweegt, heeft deze de vorm van een gloeilamp met een draadkruis ernaast. Vervolgens moet u het draadkruis verplaatsen naar dat deel van de afbeelding dat gemiddelde tekendichtheid of -donkerheid en klik vervolgens op de muisknop Functie automatische helderheid onderzoekt het gebied rond het door de operator geselecteerde punt om dit te bepalen algemene installatie helderheid Vervolgens wordt u gevraagd de pagina indien gewenst opnieuw te scannen met de nieuwe helderheidswaarde. Als u "Ja" selecteert, wordt het document opnieuw gescand. Dit zou de nauwkeurigheid moeten verbeteren wanneer de herkenning opnieuw wordt uitgevoerd. U kunt het venster Helderheidsaanpassing ook openen door Helderheid te selecteren in het menu Actie. Het maakt niet uit waar het is geïnstalleerd, huidige niveau helderheid wordt altijd weergegeven aan de linkerkant van de statusbalk onder aan het scherm.
Vorige afbeelding De actie wordt uitgevoerd door op een knop te klikken of door de opdracht FileRestore te gebruiken vorige afbeelding om het laatste beeld terug te geven dat tijdens deze sessie op het scherm stond.
Een pagina lijmen Wordt gebruikt als er moet worden gescand met een handscanner (die een vastlegvenster heeft dat kleiner is dan het paginaformaat) volledig blad. Door op een knop te drukken of de opdracht ActionGlue-pagina's te gebruiken, wordt het verwerkingsproces van de juiste of bovenste delen pagina's volgens de gekozen lijmmethode. Eerst wordt het TWAIN-dialoogvenster voor het werken met de scanner opgeroepen en het overeenkomstige deel van de pagina gescand, waarna het herkenningsproces begint. De hele reeks acties wordt automatisch herhaald voor het volgende deel van de pagina. De volgende stap is het samenvoegen van deze twee herkende delen tot één tekst.

Statusregel kan de volgende hoofdelementen bevatten die in het hoofdmenu zijn geïnstalleerd: (zie afbeelding).



Extensies venster ontworpen om een ​​deel van de gescande afbeelding weer te geven wanneer hogere vergroting. Dit venster verschijnt op het scherm wanneer het nodig is een fragment nauwkeuriger te bekijken. Het venster wordt opgeroepen in het ViewExtension-menu. De vergroting in het uitbreidingsvenster wordt geregeld door het menu Beeld te selecteren Eén op één, 200% of 400% vergroting. De locatie waar het venster Extensies op het scherm verschijnt, is afhankelijk van de actie die ervoor zorgde dat het verscheen:

  • als het wordt aangeroepen door de cursorlocatie na het gebruik van “Scan and Show” of na het openen van een bestand, zal het linksonder in het scherm verschijnen;
  • als het na herkenning samen met het venster "Editor" verschijnt, hangt de positie ervan af van het schermontwerp dat is geselecteerd in het menu "Venster";
  • Het uitbreidingsvenster kan over het scherm worden verplaatst door het naar binnen te verplaatsen Sleep en Druppel.

Handmatig fragmentatievenster gebruikt wanneer het document dat wordt herkend, dit heeft gedaan complexe structuur, bestaande uit meer dan één kolom met tekst en/of afbeeldingen.

IN normale modus Na het scannen fragmenteert en ontleedt CuneiForm de afbeelding automatisch in blokken, die worden behandeld als verbonden, betekenisvolle stukjes tekst en worden omgeven door stippellijnen wanneer ze worden weergegeven in de fragmentatiemodus. Een tekstblok is echter eenvoudigweg een reeks tekens en vormt niet altijd een volledig semantisch fragment.

Omdat het programma zijn indeling baseert op spatiëring in plaats van contextuele informatie te analyseren, kan het niet perfect beoordelen welke tekst verband houdt. Het venster Handmatige fragmentatie biedt verschillende opties extra creatie blokkeert wanneer automatische fragmentatie onnauwkeurig is.

De “Fragmentatie”-modus bestaat juist om fouten te corrigeren die zijn gemaakt tijdens het automatische fragmentatieproces vóór herkenning. Selecteer in dit geval het menu OptiesFragmentatie. Tegelijkertijd het woord ‘Fragm’. verschijnt aan de rechterkant van de statusregel. Het venster Handmatig tegelen verschijnt later, nadat u het document hebt gescand of vanuit een grafisch bestand hebt opgeroepen.

Naast de automatisch gelabelde blokken bevat het venster een kolom met knoppen aan de linkerkant:

Knop Functie uitgevoerd
Uitvoeren Biedt de overgang naar het uitvoeren van herkenning daarna noodzakelijke acties door fragmentatie
Terug Herhalen Hiermee kunt u één stap teruggaan en de laatst uitgevoerde actie opnieuw uitvoeren
Tekst Hiermee kunt u een blok selecteren dat bijvoorbeeld alle delen van een tabel bevat, zodat deze samenvloeien tot één fragment. Om dit te doen, moet u, nadat u op de knop hebt gedrukt, met de cursor een rechthoek rond het geselecteerde gebied markeren. Als gevolg hiervan wordt het gecreëerd nieuw blok, dat bij de herkenning als één geheel wordt beschouwd
Horizon Vert. Hiermee kunt u aanvullende fragmentatie horizontaal of verticaal aanwijzen. Om dit te doen, plaatst u, net nadat u de knop hebt geselecteerd, de cursor op de gewenste plaats en markeert u in de sleepmodus de fragmentatiegrens respectievelijk horizontaal of verticaal.
Lijm Hiermee kunt u fragmenten "lijmen" die zijn gemaakt met de "Horizontale" knoppen. en "Vert." Om dit te doen, markeert u eenvoudigweg de te lijmen fragmenten met de cursor en selecteert u de knop "Lijmen".
Verwijderen Hiermee kunt u fragmenten die zijn gemarkeerd met de knop Tekst uit het herkenningsproces verwijderen
Vergroten Hiermee kunt u een stuk tekst vergroten in het venster Handmatig tegelen. Om dit te doen, plaatst u, net nadat u de knop hebt geselecteerd, de cursor op de gewenste plaats in de tekst en klikt u op de muisknop
Heeft mij niet meegenomen. Hiermee kunt u een vergroot tekstfragment weergeven initiële staat. Om dit te doen, plaatst u, net nadat u de knop hebt geselecteerd, de cursor op de geselecteerde plaats en klikt u op de linkermuisknop
Tekening Hiermee kunt u creëren nieuwe foto
Hulp Hiermee kunt u weergeven achtergrondinformatie over het gebruik van de knoppen voor handmatige fragmentatiecontrole

Extra opties voor het corrigeren van foutieve blokkering in het venster Handmatige fragmentatie:

  • horizontale verdeling;
  • verticale verdeling;
  • lijmen.

Stel dat er twee kolommen tekst in het document staan, maar CuneiForm ‘ziet’ dit niet. In plaats daarvan worden twee kolommen samengevoegd tot één blok. Omdat dit verder tot herkenningsproblemen kan leiden, is het noodzakelijk om de kolommen in blokken te verdelen:

  • druk op "Vert." in het linkergedeelte van het venster “Fragmentatie”;
  • plaats de cursor op de plek waar u de deling wilt starten;
  • terwijl u de muisknop ingedrukt houdt, sleept u de cursor naar de plek waar de scheiding moet eindigen;
  • laat de knop los.

CuneiForm zal het blok verticaal in tweeën splitsen tekstfragmenten(de functie “Horizontaal splitsen” voert dezelfde acties uit op tekst die horizontaal moet worden verdeeld).

In sommige gevallen kan CuneiForm een ​​samengevoegd stuk tekst automatisch in fragmenten splitsen. Om deze partitie te corrigeren, moet u met de cursor op elk van de fragmenten klikken en op de knop "Lijm" klikken. De twee fragmenten worden samengevoegd tot één blok.

In het Editor-venster bovenaan bevindt zich een eenvoudig menu met vijf knoppen: "Afsluiten", "Opslaan als...", "Toevoegen aan...", "Volgende." twijfelachtig" en "Voeg een woord toe." Met hun hulp is het handig om een ​​aantal procedures uit te voeren bij het gebruik van het bewerkingsvenster.

Het venster “Editor” bevat het herkenningsresultaat. Na herkenning bedekt het bewerkingsvenster de afbeelding in het afbeeldingsvenster. De tekst die door de gebruiker in het bewerkingsvenster is geselecteerd, wordt gesynchroniseerd met de afbeelding in het extensievenster. Wanneer u de cursor in het bewerkingsvenster verplaatst, wordt de afbeelding in het uitbreidingsvenster verschoven volgens de nieuwe cursorpositie en wordt het geselecteerde teken gemarkeerd

Fouten die tijdens het herkenningsproces worden gemaakt, kunnen later worden bewerkt in een van de tekstverwerkers of via het menu “Editor” en de knoppen in het bewerkingsvenster. In het laatste geval kunt u via het menu ViewSettings de grootte van de tekens selecteren die op het scherm worden weergegeven, zodat u deze gemakkelijker kunt bewerken.

Voor het bewerken zijn een aantal extra voorzieningen beschikbaar:

  • gelegenheid tot uitvoering geautomatiseerde controle spelling na het selecteren van het OptiesWoordenschatcontrolemenu (in dit geval worden de zogenaamde twijfelachtige woorden, d.w.z. woorden die ontbreken in het woordenboek, op het scherm weergegeven);
  • snel reizen tijdens de woordenschatcontrole met behulp van de knop “Volgende”. twijfels." naar een ander woord dat ontbreekt in het woordenboek;
  • de mogelijkheid om een ​​gebruikerswoordenboek te openen en te gebruiken dat is geïmporteerd in het FileDynamic Dictionary Load... of Import...-menu;
  • de mogelijkheid om aan het woordenboek van de gebruiker een woord toe te voegen dat tijdens de verificatie is gemarkeerd, maar correct is, door op de knop ‘Woord toevoegen’ te klikken;
  • de mogelijkheid om een ​​aangepast woordenboek te exporteren naar het menu FileDynamic DictionaryUpload... of Export... nadat u het hebt gebruikt of eraan hebt toegevoegd.

Menu, opdracht Uit te voeren actie
BESTAND
Afbeelding openen afbeelding uit bestand lezen volgende formaten: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Vorige herstellen afbeelding ontvang een gescande en opgeslagen afbeelding ter selectie nieuw gebied erkenning (indien nodig)
Onthoud het beeld beeld opnemen in TIFF 5.0-formaat
ED-bestand openen open een bestand met eerder herkende tekst
Opslaan in tekst schrijf herkende tekst in bestanden van een bepaald formaat, bijvoorbeeld ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Lijm met tekst voeg herkende tekst toe aan het einde van de bestaande tekst tekstbestand
Selecteer uit de TWAIN-lijst selecteer een scanner die u wilt gebruiken onder de TWAIN-interface
Zorg voor een TWAIN-image gebruik beeldtoegang via TWAIN
Dynamisch woordenboek gebruik gebruikerswoordenboek
Herkenningsmodule herkenningsmodule laden/lossen
Uitgang verlaat Spijkerschrift
EDITOR
Spoor. twijfelachtig ga naar het volgende twijfelachtige woord
Vorige twijfelachtig ga naar het vorige twijfelachtige woord
Markeer twijfelachtige woorden aan/uit modus voor het markeren van twijfelachtige woorden
Zoekopdracht zoeken naar tekenreeksen in herkende tekst
Spoor zoeken herhaal de zoekopdracht
Voeg een woord toe legaliseer het woord en voeg het toe aan de lijst
Annuleer het toevoegen maak een woord twijfelachtig en verwijder het uit de lijst

Het is ook mogelijk om het controlepaneel bovenaan het bewerkingsvenster te gebruiken, dat uit verschillende knoppen bestaat: Afsluiten, Opslaan als..., Toevoegen aan..., Volgende. twijfels en Woord toevoegen/

SuneiForm-opdrachtmenu

- intelligent systeem tekstherkenning. Biedt een snelle en hoogwaardige conversie van papieren documenten en elektronische documenten grafische bestanden in de bewerkte tekst zodat u er later mee kunt werken kantoorprogramma's En teksteditors. Resultaten kunnen in populaire formaten worden opgeslagen en in de volledige tekst worden doorzocht.
MogelijkhedenCuneiForm :
Tijdens de herkenning blijven de structuur van het document en de opmaak ervan behouden.
Herkent tabellen van elke structuur en complexiteit, inclusief tabellen zonder tabelrasterlijnen.
Alle gedrukte lettertypen worden herkend: boeken, kranten, tijdschriften, afdrukken van laser- en matrixprinters, teksten van typemachines, enz.
Met optische herkenningsalgoritmen (OCR, Optical Character Recognition) die in het programma zijn ingebouwd, kunt u tekst herkennen dot-matrixprinter, slechte fotokopieën en faxen.
Herkenning van documenten in meer dan 20 talen: Russisch, Engels, Oekraïens, Duits, Frans, Spaans, Italiaans en andere.
Om de kwaliteit van de herkenning te verbeteren, maakt het programma gebruik van woordenboekcontrole. Tegelijkertijd kan het standaardwoordenboek worden uitgebreid door nieuwe woorden uit tekstbestanden te importeren.
Er is een website om de werkzaamheden aan het project te coördineren OpenOCR.org met Russischtalig forum.
Programmastatus: Vrij
Besturingssysteem: Windows 7, Vista, XP
Interface:Engels, Russisch
Ontwikkelaar:Cognitieve technologieën
Grootte: 33,3 MB
DOWNLOAD OCR CuneiForm V.12
DOWNLOAD Cognitieve OpenOCR (Russisch)
DOWNLOAD Cognitieve OpenOCR (Engels)
Een kleine handleiding over hoe te werken:
Na de installatie heeft u twee snelkoppelingen:

Batchherkenning - verwerking van hele mappen.
CuneiForm - verwerking van documenten van een scanner of individuele bestanden.
Laten we het programma starten. Naar mijn mening is de tweede optie om het programma te starten voor de meesten geschikt. In het geopende venster selecteert u het pictogram met de toverstaf (pijl).


Het venster Herkenningswizard wordt geopend. Een bron selecteren bronbestand(harde schijf of scanner). Ik heb bijvoorbeeld een bestand op mijn harde schijf geselecteerd.


Klik op "Volgende". De taalselectiepagina wordt geopend, waar we (uiteraard) de taal selecteren (pijl 1) en het symbool waarmee de niet-herkende letters worden vervangen (pijl 2).


Opnieuw "Volgende". Selecteer de parameters van de herkende tekst. Omdat ik een gescande handgeschreven tekst had, selecteerde ik "Woordenschat" en "Fax".


En omdat bron bevatte geen tabellen en afbeeldingen, verwijderde de overeenkomstige punten bij het volgende instellingsitem.


Opnieuw "Volgende". En het programma begon de tekst te verwerken.


Hier is het resultaat. Het originele fragment en na verwerking door het programma.

Dit zijn de resultaten van het verwerken van een handgeschreven fragment.
En hier zijn de resultaten van het verwerken van de gescande getypte tekst(bronparameters zijn op hetzelfde ingesteld):

Zoals u kunt zien, is het resultaat rechtstreeks afhankelijk van de bron. Bij het verwerken van handgeschreven deeg, slechte kwaliteit Het is logischer om het meteen handmatig te typen dan het met een programma te verwerken en vervolgens te bewerken.
Daarom moet je niet op een wonder hopen. Na tekstherkenning blijft er nog behoorlijk nauwgezet werk over om fouten te corrigeren..
Samengesteld op basis van materiaal van computer-vsem.ru, cognitieveforms.com, softportal.com
Compilatie van tekst en koppelingen