Arhiivimaterjalide digiteerimine improviseeritud vahenditega. Tekstituvastusprogramm CuneiForm, mis ei ole skannerisõbralik

Tasuta programm Sest automaatne äratundmine skannitud tekst. Programm ei näe välja nagu karamell, kuid tunneb oma asju.

Arvuti on juba enesekindlalt tavakodaniku ellu sisenenud. Kui teil on vaja hankida suhteliselt väike kogus trükitud teavet, on lihtsaim viis see tekst tekstiredaktoriga käsitsi tippida.

Mõnikord peate siiski terve raamatu "ümber kirjutama". Sellistel juhtudel on kõige ratsionaalsem kasutada skannerit. Kuid skanner ise teeb tekstist vaid valguskoopia, mida ei saa kuidagi toimetada. Saadud pildil oleva teabe muutmiseks peate teostama dokumendituvastuse.

Vaieldamatu liider selles küsimuses on OCR (optiline märgituvastus) süsteem firmalt Abbyy – FineReader. Kuid see on üsna kallis ja mitte igaüks ei saa endale lubada sellist tööriista oma arsenalis. Täna saame tuttavaks tasuta alternatiiv Fine Reader – programm Kiilvorm. ma toon sulle võrdlustabel Mõlema paketi omadused:

Tekstituvastusmootori CuneiForm võrdlus selle tasulise analoogi FineReaderiga

Nagu näete, kui soovite teksti tasuta ära tunda, peate milleski järele andma. Esimene asi, millega peate leppima, on CuneiFormi suutmatus töötada mõne skanneriga (eriti MFP skanneritega). Seetõttu peate dokumendi skannima standardset kasutades Windowsi funktsioonid. Teiseks peate jälgima skannimise eraldusvõimet.

Seda seetõttu, et CuneiForm ei saa hakkama suured failid(üle 100 KB) ja mida kõrgem on eraldusvõime, seda suurem suurus skannimisfail. Kuid tekstituvastuse kvaliteet programmis on palju kõrgem kui tasulisel konkurendil ja seetõttu parim variant skannimisparameetrid on 200 dpi (võimalik on rohkemgi, kuid siis on võimalus, et programm lihtsalt hangub).

Keelte arv on samuti väike, kuid peamised on olemas. Pealegi, kuigi keeli on võimatu kombineerida, on CuneiFormil inglise-vene segatuvastusrežiim! Siin lõpevad miinused :). Saate alustada installimist.

CuneiFormi installimine

Siin pole raskusi, kuna paigaldaja aitab teid. Lihtsalt jookse installifail ja järgige juhiseid. Pärast installimist kuvatakse menüü Start uus jaotis. Avage see ja käivitage CuneiForm.

Programmi liides

CuneiFormi liides on palju lihtsam kui Fine Reader ja ei vaja peaaegu mingit konfigureerimist. Programmi saab täielikult juhtida tänu tööriistariba nuppudele. Vaatame neid üksikasjalikumalt:

Programm võib töötada viisardi režiimis, mis aktiveeritakse esimese nupuga. Kuid kui CuneiForm teie skannerit ei toeta, peaksite sellest režiimist loobuma. Järgmine nupp käivitab skannimisprotsessi (taas juhul, kui skanneri tugi on olemas). Sellel ja järgmistel nuppudel võite märgata väikseid nooli. Neil klõpsates pääseme juurde mõnele lisafunktsioonile.

CuneiFormiga töötamine

Nüüd proovime CuneiFormi praktikas. Kui programm toetab teie skannerit, on esimene nupp, millele peaksite klõpsama, "Hangi pilt". Kui see pole võimalik, avame valmis skannimise (toetatud JPG formaadid, GIF, BMP, PNG (ei ole alati õige), samuti TIF (täielikult)).

Nüüd peate tegema märgised. See aitab tuvastada lehe moodustavad plokid. Toetatakse plokkide tuvastamist teksti (sinine raam), piltide (roheline raam) või tabelina (oranž raam) kujul (automaatset märgistamist saab käsitsi muuta kontekstimenüü plokk).

Kui tekst on märgitud, on aeg see ära tunda. Selleks klõpsake nuppu Järgmine. Tuvastamisprotsessi lõpus kuvatakse tööaknas tekst, mida saab redigeerida väikeses sisseehitatud tekstiredaktoris, mis sarnaneb Microsoft Word. Samal ajal näete kohe neid sõnu, milles programm pole kindel (sinine esiletõst) ja milles on viga (kahtlane täht - roosa).

Ja lõpuks, pärast edukat redigeerimist, saate meie töö tulemuse salvestada. Klõpsake tööriistariba viimast nuppu ja salvestage tekst RTF-, HTML- või TXT-failina.

Kui soovite rohkem, saate küljel asuvale noolele klõpsates valida ekspordisuvandid ühte pakutud programmidest (Microsoft Word, Excel või Euphrates).

Vaadake eelmist ekraanipilti. Kindlasti märkasite seda sisse lisamenüüd nuppude, alustades "Märgista" ja lõpetades "Salvesta", lõpus on üksus "Automaatne". Selle valiku aktiveerimine vabastab teid valitud nupu vajutamisest. See tähendab, et saate skannimisprotsessi automatiseerida nii kaugele, et te ainult avate uus dokument. CuneiForm teeb ülejäänu ise!

CuneiFormi üldised sätted

Programm on algselt konfigureeritud kõige optimaalsemal viisil, kuid kui soovite midagi muuta, minge lihtsalt menüüsse "Fail" ja valige " Ühised parameetrid" See võib olla kasulik keele ja mõne muu teksti tuvastamise, vormindamise ja skannimise parameetri muutmisel.

Partiituvastus

Oleksime võinud siin lõpetada, kui CuneiFormi pakett ei sisaldaks muud utiliiti. Avage uuesti "Start" ja programmi kaustast leiate teise rakenduse - "Pakituvastus". Kujutage ette, et skannite tervet raamatut! ja nüüd peame selle ära tundma!!! Kui avate iga skannimisfaili eraldi, võtab see palju aega, kuid pakettrežiim võimaldab teil täpsustada vajalikud failid ja programm hoolitseb ülejäänu eest ise.

Kõigepealt peate looma uus pakett failid. Klõpsake vastavat nuppu ja järgige käivitatud viisardi juhiseid:

Kui tuvastamine on lõpetatud, näete peaaknas kõiki tuvastatud dokumente. Kui tuvastamine õnnestus, näete vasakpoolsel paneelil ainult kaks aktiivset loendit: "Original" ja "Processed". Kui on faile, mida ei õnnestunud tuvastada, leiame need jaotisest „Vead”.

järeldused

CuneiFormil on selgelt hea potentsiaal, kuid areng on üsna aeglane. Vaatamata avatud allikas, on Cognitive ettevõte ilmselt arendajate suhtes väga nõudlik, kuna edusamme ei paista nii kaua. Jääb vaid loota, et asjad liiguvad edasi ja programm muutub veelgi paremaks, kuid praegu oleme rahul vähesega. Aga kas see on tõesti nii väike... Valik on sinu!

tellige uued videotunnid!

Arukas süsteem Optical Character Recognition (OCR) kiilkiri töötab keskkonnas Microsoft Windows 3.1 või rohkem hilisem versioon. Kontekstitundlik võrdlussüsteem Toetatud CuneiForm standardne süsteem Windowsi abi. Süsteemil on järgmised tehnoloogilised võimalused:

  • toetab laia valikut lauaskannereid;
  • tunneb ära skannitud lehe (sh mitmeveerulise teksti ja keeruka kujundusega teksti);
  • võimaldab skannida ja salvestada pilti TIFF-vormingus ning käivitada hiljem tuvastamise (see muudab dokumendivirna skannimise mugavaks);
  • sellel on lai valik failide salvestamise võimalusi, mis võimaldab teil skannida lehekülgede seeriat ja programm teostab automaatset salvestamist, määrates piltidele järjestikused nimed (Lehekülg1, Lehekülg2 jne);
  • oskab lugeda teiste programmidega skannitud pilte ja fakse režiimides Fine ja Normal;
  • eraldab teksti graafikast ja teisendab selle graafikast tekstifailiks ühe jaoks tekstitöötlusprogrammid, andmebaasid või arvutustabelid;
  • omab funktsiooni "Tuvastamisala määratlemine", mis võimaldab valikuliselt tuvastada lehe valitud osades;
  • tunneb ära vene ja inglise tähestiku tähed, välja arvatud stiliseeritud kirjatüübid, nagu gooti tähed;
  • tunneb ära kõik sagedamini kasutatavad fondid (sealhulgas paksus kirjas, kaldkirjas ja allakriipsutatud kirjas), mida võib lehel segada, isegi lõigu või sõna sees;
  • saab töödelda tüpograafiliselt trükitud dokumente LQ ja NLQ maatriksprinteritel, tindiprinteritel, laserprinterid, kirjutusmasinal (lubatud on nii üheruumiline kui ka proportsionaalne trükkimine);
  • oskab säilitada algset vormingut ja tabelit ning reguleerida taanet ja joondamist;
  • omab sisemist tekstiredaktorit ja sõnastiku juhtelementi, mille abil saate kontrollida tuvastamise kvaliteeti ja redigeerida teksti. Selleks kuvab sisseehitatud redaktori aken tuvastatud teksti, tuues esile kahtlased märgid ja sõnad, mida sõnastikus pole. Kõrvalolevas laiendusaknas näete skannitud teksti suurendatud pilti, mis võimaldab teil redigeerida ilma originaaldokument;
  • ei tunne ära käsitsi kirjutatud tekst.

Ekraan Сuneiform sisaldab nelja põhiosa, mis on märgitud joonisel.

Peamised toimingud(protseduurid) süsteemis töötamisel on järgmised:

Paneeli nupp Funktsioon teostatud
Skaneerimine ja tuvastamine Nupp "Skanni ja tuvasta" on kasulik, kui olete kindel, et dokumendi kujundus on üsna lihtne ega raskenda tekstituvastust (keerulisema killustamise korral on kasulik toiming "Skanni ja kuva"). Kui klõpsate paneelil nuppu kiire juurdepääs(või kutsudes välja käsu ActionScanning and Recognition), kuvatakse teateaken, mis annab teile teada, et skannimine on pooleli. Järgmisena kuvatakse väljal Edenemisnäidik praegune märgituvastuse etapp ja märgituvastuse kogu protsent. Nupu vajutamine võrdub käskude „Skanni ja näita” ning seejärel „Tuvastamine” täitmisega.
Ava pilt Võimaldab laadida pilti olemasolevast graafilisest failist (kasutades nuppu või käsku FileOpen image). Ilmuvas aknas peate valima kataloogi ja failinimed.
Skaneeri ja näita Võimaldab skannida dokumenti ja seda vaadata (kasutades nuppu Scan and View Action või käsku) ilma märgituvastust käivitamata. Skannimine algab kohe ja ekraani paremasse serva ilmub skannitud pildi aken.
Tunnustamine Kasutatakse märgituvastuse käivitamisel (nupu või käsu ActionRecognition abil) pärast toimingu „Skanni ja vaata” sooritamist või faili laadimist.
Heledus Võimaldab installida optimaalne tase eredus dokumendi skannimiseks (kasutades nuppu või käsku Action Brightness). CuneiForm pakub 256 heledustaset (0-255). Vaikimisi on selle väärtus 127. Kui skannitud kujutise liiga heleduse tõttu tekib palju tuvastusvigu, peate heleduse määrama madalamale ja skannima dokumendi uuesti. Kui pilt on liiga tume, peate seadistama suurem heledus. Heleduse taset saab muuta järgmiselt: a) liigutades skaalal liugurit paremale ja vasakule; b) heleduse väärtuse automaatne seadistamine. Selleks klõpsake väljal "Brightness settings" nuppu "Automaatne". Ilmub väike dialoogiboks, mis palub teil valida "Vali vasak nupp hiirt, et valida heledus, või klõpsake nuppu Tühista." Kui liigutate kursorit pildi kohal, muutub see lambipirniks, mille kõrval on rist. Järgmiseks peate nihutama juukseristi pildi sellele osale, millel on keskmine tähemärkide tihedus või tumedus ja seejärel klõpsake hiirenuppu Funktsioon automaatne heledus uurib operaatori valitud punkti ümbrust, et määrata üldine paigaldus heledus. Järgmisena palutakse teil leht uuesti skannida, kasutades soovi korral uut heleduse väärtust. Kui valite "Jah", skannitakse dokument uuesti. See peaks parandama täpsust, kui tuvastamist korratakse. Samuti saate avada akna Brightness Adjustment, valides menüüst Toiming suvandi Brightness. Pole tähtis, kuhu see on paigaldatud, praegune tase heledus kuvatakse alati ekraani allosas olekuriba vasakus otsas.
Eelmine pilt Toiming sooritatakse nupule klõpsates või käsuga FileRestore eelmine pilt et tagastada viimane pilt, mis selle seansi ajal ekraanil oli.
Lehtede liimimine Kasutatakse siis, kui on vaja skannida käeshoitava skanneriga (mille võtteaken on lehe suurusest väiksem) täis leht. Vajutades nuppu või käsku ActionGlueing pages, töötlemisprotsess paremal või ülemised osad lehed vastavalt valitud liimimismeetodile. Kõigepealt avatakse skanneriga töötamiseks mõeldud TWAIN-dialoog ja skannitakse vastav lehe osa ning seejärel algab tuvastamisprotsess. Kogu toimingute ahel kordub automaatselt lehe järgmise osa jaoks. Järgmine samm on nende kahe äratuntud osa liimimine üheks tekstiks.

Olekurida võib sisaldada järgmisi peamenüüsse paigaldatud põhielemente: (vt pilti).



Laienduste aken mõeldud skannitud kujutise osa kuvamiseks, kui suurem suurendus. See aken ilmub ekraanile, kui on vaja mõnda fragmenti hoolikamalt vaadata. Aken avatakse menüüs ViewExtension. Laiendusaknas olevat suurendust juhitakse, valides menüü Vaade Üks kuni üks, 200% või 400% suurendus. Laienduste akna asukoht sõltub toimingust, mis selle ilmumise põhjustas.

  • kui seda kutsutakse kursori asukoha järgi pärast “Skanni ja näita” kasutamist või pärast faili avamist, ilmub see ekraani vasakpoolsesse alaossa;
  • kui see ilmub pärast tuvastamist koos aknaga "Redaktor", sõltub selle asukoht menüüst "Aken" valitud ekraanikujundusest;
  • Laiendusakent saab ekraanil liigutada, libistades selle sisse Lohistage ja Langetage.

Käsitsi killustamise aken kasutatakse siis, kui tuvastataval dokumendil on keeruline struktuur, mis koosneb rohkem kui ühest teksti ja/või graafika veerust.

IN tavaline mood Pärast skannimist killustab CuneiForm pildi automaatselt ja jagab plokkideks, mida käsitletakse ühendatud tähenduslike tekstiosadena ja mida ümbritsevad killustamisrežiimis kuvamisel punktiirjooned. Tekstiplokk on aga lihtsalt märkide kogum ega moodusta alati täielikku semantilist fragmenti.

Kuna programm lähtub oma jaotuses pigem tühikutest kui kontekstuaalse teabe analüüsimisest, ei saa ta täpselt hinnata, milline tekst on seotud. Käsitsi killustamise aken pakub mitmeid valikuid täiendav looming blokeerib, kui automaatne killustatus on ebatäpne.

Režiim "Killustamine" on olemas just selleks, et parandada enne tuvastamist automaatse killustamise protsessi käigus tehtud vigu. Sel juhul valige menüü Options Fragmentation. Samal ajal sõna "Fragm". kuvatakse olekurea paremal küljel. Aken Manual Tile ilmub hiljem, pärast dokumendi skannimist või graafilisest failist helistamist.

Lisaks automaatselt märgistatud plokkidele sisaldab aken vasakpoolses servas rivistatud nuppude veergu:

Nupp Funktsioon teostatud
Käivitage Tagab ülemineku tuvastamise teostamisele pärast vajalikud toimingud killustatuse teel
Tagasi Korda Võimaldab minna ühe sammu tagasi ja korrata viimati tehtud toimingut
Tekst Võimaldab valida ploki, mis sisaldab näiteks kõiki tabeli osi, nii et need liidetakse üheks fragmendiks. Selleks tuleb peale nupu vajutamist kursoriga märkida valitud ala ümber ristkülik. Selle tulemusena luuakse see uus plokk, mida tunnustamise ajal käsitletakse üheks tervikuks
Horisont Vert. Võimaldab määrata täiendavat killustumist horisontaalselt või vertikaalselt. Selleks viige kohe pärast nupu valimist kursor soovitud kohta ja märkige lohistamisrežiimis killustumise piir vastavalt horisontaalselt või vertikaalselt.
Liim Võimaldab "Horisontaalne" nuppude abil loodud fragmente "liimida". ja "Vert". Selleks märgi lihtsalt kursoriga liimitavad killud ja vali nupp “Liimi”.
Kustuta Võimaldab eemaldada tuvastusprotsessist nupuga Text abil märgitud killud
Suurendage Võimaldab teil käsitsi paani aknas tekstiosa suurendada. Selleks fikseerige kursor kohe pärast nupu valimist tekstis soovitud kohta ja klõpsake hiirenuppu
Ei viinud mind ära. Võimaldab tagastada suurendatud tekstifragmendi algseisund. Selleks fikseerige kursor kohe pärast nupu valimist valitud kohta ja klõpsake hiire vasakut nuppu
Joonistamine Võimaldab luua uus pilt
Abi Võimaldab kuvada taustainfo käsitsi killustamise juhtnuppude kasutamise kohta

Täiendavad võimalused vigase blokeerimise parandamiseks aknas Manual Fragmentation:

  • horisontaalne jaotus;
  • vertikaalne jaotus;
  • liimimine.

Olgu dokumendis kaks veergu teksti, kuid CuneiForm "ei näe" seda. Selle asemel liidab see kaks veergu üheks plokiks. Kuna see võib veelgi põhjustada tuvastamisprobleeme, on vaja veerud jagada plokkideks:

  • vajutage "Vert". akna "Killustamine" vasakpoolses osas;
  • aseta kursor kohta, kus kavatsed jagamist alustada;
  • Hiire nuppu all hoides lohistage kursor kohta, kus jaotus peaks lõppema;
  • vabastage nupp.

CuneiForm jagab ploki vertikaalselt kaheks teksti killud(funktsioon „Horisontaalselt poolitamine” teeb samu toiminguid tekstiga, mis tuleks jagada horisontaalselt).

Mõnel juhul võib CuneiForm ühendatud tekstilõigu automaatselt fragmentideks jagada. Selle partitsiooni parandamiseks peate klõpsama kursoriga igal fragmendil ja klõpsama nuppu "Liim". Kaks fragmenti ühendatakse üheks plokiks.

Ülaosas asuvas redaktori aknas on lihtne viie nupuga menüü: "Välju", "Salvesta kui...", "Manusta...", "Järgmine". küsitav" ja "Lisa sõna". Nende abiga on redigeerimisakna kasutamisel mugav teha mitmeid protseduure.

Aken "Redaktor" sisaldab tuvastamise tulemust. Pärast tuvastamist katab redigeerimisaken pildi pildiaknas. Kasutaja poolt redigeerimisaknas valitud tekst sünkroonitakse laiendusaknas oleva pildiga. Kui liigutate kursorit redigeerimisaknas, nihutatakse laiendusaknas olev pilt vastavalt kursori uuele asukohale ja valitud märk tõstetakse esile

Tuvastamisprotsessi käigus tehtud vigu saab hiljem redigeerida ühes tekstitöötlusprogrammis või kasutades menüüd “Redaktor” ja redigeerimisakna nuppe. Viimasel juhul saate menüü ViewSettings abil redigeerimise hõlbustamiseks valida ekraanil kuvatavate märkide suuruse.

Redigeerimiseks pakutakse mitmeid lisavõimalusi:

  • võimalus rakendada automatiseeritud kontrollõigekirja pärast menüü ValikudSõnavara juhtmenüü valimist (sel juhul kuvatakse ekraanile nn küsitavad sõnad, s.t sõnastikust puuduvad sõnad);
  • kiire reisimine sõnavara juhtimise ajal, kasutades nuppu "Järgmine". kahtlused." teisele sõnastikust puuduvale sõnale;
  • võimalus avada ja kasutada menüüsse FileDynamic Dictionary Load... või Import... imporditud kasutajasõnastikku;
  • võimalus lisada kasutaja sõnastikku kontrollimisel esile tõstetud, kuid õige sõna, klõpsates nuppu "Lisa sõna";
  • võimalus eksportida kohandatud sõnastik pärast selle kasutamist või lisamist menüüsse FileDynamic DictionaryUpload... või Export....

Menüü, käsk Toiming, mis tuleb läbi viia
FAIL
Ava pilt lugege failist pilti järgmised vormingud: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Taasta eelmine pilt saada skannitud ja salvestatud pilt valimiseks uus piirkond tunnustamine (vajadusel)
Jäta pilt meelde salvestage pilt TIFF 5.0 formaadis
Avage ED-fail avage varem tuvastatud tekstiga fail
Salvesta tekstiks kirjutage tuvastatud tekst teatud vormingus failidesse, näiteks ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Liimi tekstiga lisage olemasoleva teksti lõppu äratuntav tekst tekstifail
Valige loendist TWAIN valige TWAIN-liidese all kasutatav skanner
Hankige TWAIN-pilt kasutage TWAIN-i kaudu pildile juurdepääsu
Dünaamiline sõnastik kasuta kasutaja sõnastikku
Tunnustamise moodul laadimise/mahalaadimise tuvastusmoodul
Välju välju Kiilkiri
TOIMETAJA
Rada. kahtlane liikuge järgmise küsitava sõna juurde
Eelmine kahtlane minge eelmise küsitava sõna juurde
Märgistage küsitavad sõnad sisse välja. režiim kahtlaste sõnade esiletõstmiseks
Otsing tuvastatud tekstist märgijadade otsimine
Otsingujälg korrata otsingut
Lisage sõna legaliseerige sõna ja lisage see loendisse
Tühista lisamine muuta sõna kahtlaseks ja eemaldada see loendist

Samuti on võimalik kasutada redigeerimisakna ülaosas asuvat juhtpaneeli, mis koosneb mitmest nupust: Välju, Salvesta kui..., Manusta..., Edasi. kahtlusi ja lisa sõna/

SuneiFormi käsumenüü

- intelligentne süsteem tekstituvastus. Tagab paberdokumentide ja elektrooniliste dokumentide kiire ja kvaliteetse teisendamise graafilised failid redigeeritud teksti sisse, et sellega edasi töötada kontoriprogrammid Ja tekstiredaktorid. Tulemusi saab salvestada populaarsetes vormingutes ja otsida täisteksti.
VõimalusiKiilvorm :
Tuvastamisel säilib dokumendi struktuur ja vormistus.
Tuvastab mis tahes struktuuri ja keerukusega tabeleid, sealhulgas neid, kus tabeli ruudustiku jooni ei kuvata.
Tuvastatakse kõik trükitud fondid: raamatud, ajalehed, ajakirjad, laser- ja maatriksprinterite väljatrükid, kirjutusmasinate tekstid jne.
Programmi sisseehitatud optilised tuvastusalgoritmid (OCR, Optical Character Recognition) võimaldavad teksti ära tunda maatriksprinter, kehvad koopiad ja faksid.
Dokumentide äratundmine enam kui 20 keeles: vene, inglise, ukraina, saksa, prantsuse, hispaania, itaalia jt.
Tuvastamise kvaliteedi parandamiseks kasutab programm sõnastiku kontrollimist. Samal ajal saab standardset sõnastikku laiendada, importides tekstifailidest uusi sõnu.
Projekti töö koordineerimiseks on olemas veebisait OpenOCR.org venekeelse foorumiga.
Programmi olek: Tasuta
OS: Windows 7, Vista, XP
Liides:Inglise vene
Arendaja:Kognitiivsed tehnoloogiad
Suurus: 33,3 Mb
Laadi alla OCR CuneiForm V.12
Laadi alla Kognitiivne OpenOCR (vene keel)
Laadi alla Kognitiivne OpenOCR (inglise keel)
Väike tööjuhend:
Pärast installimist on teil kaks otseteed:

Partiituvastus – tervete kaustade töötlemine.
CuneiForm - dokumentide töötlemine skannerist või üksikutest failidest.
Käivitame programmi. Minu arvates sobib enamikule programmi käivitamise teine ​​variant. Avanevas aknas valige võlukepiga ikoon (nool).


Avaneb tuvastusviisardi aken. Allika valimine lähtefail(kõvaketas või skanner). Näiteks valisin faili kõvakettal.


Klõpsake nuppu "Järgmine". Avaneb keelevaliku leht, kus valime (loomulikult) keele (nool 1) ja sümboli, millega tuvastamata tähed asendatakse (nool 2).


Jälle "Järgmine". Valige tuvastatud teksti parameetrid. Kuna mul oli skaneeritud käsitsi kirjutatud tekst, siis valisin "Sõnavara" ja "Faks".


Ja sellepärast algtekst ei sisaldanud tabeleid ja pilte, eemaldasin järgmises seadistuspunktis vastavad punktid.


Jälle "Järgmine". Ja programm hakkas teksti töötlema.


Siin on tulemus. Algne fragment ja pärast töötlemist programmiga.

Need on käsitsi kirjutatud fragmendi töötlemise tulemused.
Ja siin on skannitud masinakirja teksti töötlemise tulemused(allika parameetrid on seatud samaks):

Nagu näete, sõltub tulemus otseselt allikast. Käsitsi kirjutatud taigna töötlemisel Halb kvaliteet Mõttekam on see kohe käsitsi tippida, kui programmiga töödelda ja siis redigeerida.
Seetõttu ei tasu imele loota. Pärast tekstituvastust jääb vigade parandamiseks üsna vaevarikas töö..
Koostatud arvuti-vsem.ru, cognitiveforms.com, softportal.com materjalide põhjal
Teksti koostamine ja lingid

Minu põhitegevus on aastaid olnud seotud fotograafiaga, seega pööran internetis surfates rohkem tähelepanu kujundusele ja illustratsioonidele kui tekstile. Kui sattusin Internetis fotodele plahvatuste kohta Medeos tammi ehitamise ajal, tundus mulle, et fotode kvaliteet võiks olla parem. Ka pildiotsing ei andnud rahuldavat tulemust: leiti veel mitu fotot, kuid need polnud kaugeltki ideaalsed, võib-olla kenad fotod Internetis on neid, kuid need on nii halvasti dokumenteeritud, et otsingumootor neid ei leia. Siis otsustasin proovida isa arhiivis leidu digiteerida ja postitada. See on ennekõike A3 album, kuhu on kleebitud värvifotod ja mitu artiklit, millel on peaaegu samad, kuid mustvalged fotod ofsettrükis. Tõsi, 1967. aasta fotodel on värvist vähe alles ja ma pole kindel, et värvid olid neil algselt ideaalsed.

Kuid katse ei ole piinamine ja seega seati ülesandeks fotode digiteerimine, teksti digiteerimine ja äratundmine ning saateteksti lisamine fotofailidesse. Ma ei kavatsenud sellega koostööd teha suured mahud materjale ning kasutada selleks professionaalseid seadmeid ja programme. Tahtsin lihtsalt välja mõelda, kas seda ülesannet on võimalik improviseeritud vahenditega täita ning millised seadmed ja programmid selleks kõige paremini sobivad.

Improviseeritud vahendite kasutamine tähendas, et mul oli MFP-s ainult skanner Samsung SCX 4200. Tegemist on CIS tüüpi skanneriga Olen korduvalt kirjutanud seda tüüpi skanneri puudustest, näiteks . Lisaks on sellel ühevärvilised joonlauad ja värviline skannimine toimub taustvalgustuse värvi järjestikuse muutmise teel ning lõpuks on see ainult A4 ja klaas on veidi madalamale süvistatud. välimine raam, mis muudab A3-formaadis foto tihedalt klaasile vajutamise keeruliseks. Loomulikult on see tekstidega töötamiseks enam kui piisav. Alternatiivina oli mul palju digikaameraid, kuid ka läikivate fotode uuesti tegemine pole lihtne – probleemiks on pimestamine. Töötlemiseks oli arvuti ja sülearvuti, mõlemad Slackware OS-iga. Esimesel juhul versiooniga 13.37 ja teisel 14.0. MFP-ga suhtlemiseks installiti vastavalt Samsung Unified Driver 3.00.19 ja 4.00.31.

Otsustasin alustada skaneerimisega, otsustades, et neid on rohkem lihtne lahendus. Kõigepealt skaneerime osade kaupa, seejärel programmis huginõmbleme. Skaneeritud osade kokkuõmblemisel ei pea me optilisi moonutusi parandama, nii et kui küsitakse objektiivi fookuskauguse kohta maksimaalne väärtus. Seadsin selle 1000 mm peale.
Siiski selgus, et pleekinud fotode puhul ei piisa selgelt selle skanneri edastamisvõimelise toonide arvust. Vaatamata asjaolule, et mõlemad pooled skanniti programmiga xSane samades režiimides, halvendas õmblemine olukorda ja triibud. sujuvad üleminekud jäi mulle silma. Dünaamiline ulatus pleekinud fotode valik oli väga puudulik.

Toores formaadis pildistamine võimaldab oluliselt suurendada gradatsioonide arvu, nii et järgmine katse tehti kaameraga Sony NEX-5 16 mm objektiiviga. Kuna fotodel oli muljetavaldav ainult formaat, mitte fotode detailsus, ei püüdnud ma kogu maatriksi ala täielikult ära kasutada ja pimestamise vältimiseks pildistasin väike nurk risti suhtes. Programmi DarkTable kasutati RAW-vormingust teisendamiseks, põhivärvide korrigeerimiseks ja perspektiivi moonutuste korrigeerimiseks.

Rastri jaoks mustvalged fotod 300 dpi eraldusvõimega skannimine ja xSane de-screening oli täiesti piisav.

Tunnustuseks kindlasti parim programm täna on FineReader Engine, aga 150 eurot litsentsi eest 12 000 tunnustuse eest aastas ei ole ilmselgelt valik, mida võiks nimetada improviseeritud vahenditeks. Seetõttu pidin pöörduma eelmise sajandi 90ndate konkurentide poole ja vaatama, kuidas nemad end tänapäeval tunnevad.

Optilist tekstituvastussüsteemi CuneiForm on alates 1993. aastast välja töötanud Venemaa ettevõte Cognitive Technologies. Pakendis kaasas Corel Draw. 1996. aastal võeti maailmas esimest korda kasutusele adaptiivsed tuvastusalgoritmid. See arenes kuni 1999. aastani ja kui arvestada ainult optilisi tuvastusalgoritme ilma eelneva pilditöötluseta ja lõpliku keelelise töötluseta, oli see võib-olla parim ja on siiani üsna hea. 2008. aastal avaldati need lähtetekstid OCR Cuneiform on litsentsitud BSD alusel. Uusim versioon Cuneiform 1.1.0 Linuxi port vabastati 19.04.11. Näib, et projektist on loobutud.

Tesseracti töötas välja Hewlett-Packard aastatel 1985–1998 ja seejärel loobuti sellest kuni 2006. aastani, mil Google selle ostis ja Apache 2.0 litsentsi all lähtekoodi avas. 90ndatel polnud see meile huvitav, kuigi sageli varustati seda skanneritega, kuna vene keelt ei toetatud, siis täna on keelega kõik korras ja see pole väga kiire, kuid see areneb. Praegune stabiilne versioon on 3.02 alates 23.10.2012 ja 4. veebruaril 2014 teatati V3.03 (rc1) väljalasest.

Kuigi mõlemal programmil on ainult konsooli liides, on see nende jaoks välja töötatud kolmanda osapoole arendajad mitu graafilist liidest. Proovisin töötada neist kahega: YAGF ja . Selgus, et graafilised liidesed kasutavad konsooliliideste võimalusi erinevalt ja mitte täielikult. Seetõttu ei sõltu tulemus mitte ainult tuvastusprogrammist, vaid ka graafilisest liidesest. Selge on öelda, milline kombinatsioon annab parim tulemus, ma ei saa.

YAGF-i eelised hõlmavad võimalust pöörata laetud lehte ja töötada skanneriga xSane'i kaudu, mis annab paindlikumad skannimisseaded.

OCRFeeder töötab Sane'i kaudu ja ei luba skannimisseadeid rikkuda.

Kuid see võib skannitud pilti mooduli Unpaper abil täiustada. Mõlemad GUI-d võimaldavad teil joondada veidi pööratud lehti.

YAGFi üks puudusi on see, et see ei valinud automaatselt plokke õigesti, lõigates ära veeristesse ulatuvad jooned. (Seda efekti OCRFeederis ei märganud. Mõlemal liidesel on võimalus plokke käsitsi eraldada.) Lõigud tõstetakse esile ainult tulemuse kirjutamisel HTML-is ja ainult CuneiFormi kaudu tuvastamisel Tesseractiga töötades ei tõstetud esile mitte lõigud, vaid read. Sidekriipsud eemaldatakse ainult CuneiFormiga töötamisel ja tekstirežiimis salvestamisel. OCRFeeder käsitles lõike ja sidekriipse paremini olenemata tuvastusprogrammist ning salvestas tulemuse ODT-faili.

Ma ei saanud tabelitega hakkama üheski programmide ja graafiliste liideste kombinatsioonis.

Tuvastamisprogrammidel on skannimisrežiimidele veidi erinevad nõuded. Need. parim tunnustus need esinevad erineva kontrasti ja skaneerimise eraldusvõimega. CuneiFormi puhul ei paranda eraldusvõime suurendamine üle 200 dpi tuvastamise kvaliteeti.

Kvaliteetsete skannimiste puhul on tulemused lähedased, kuigi neid ei pruugita tuvastada erinevad sümbolid. Graafilised liidesed võimaldab teil rakendada erinevaid tuvastusprogramme eraldi lõigud ja määrake ka keel. CuneiForm saab töötada vene-inglise segatekstiga, kuid Tesseract mitte, kuigi viimane toetab nüüd rohkem keeli.

Seega on fotod ja neile mõeldud tekst digiteeritud, nüüd on ülesandeks need andmed kombineerida, et hiljem, isegi kui foto artikli kontekstist välja tõmmata, oleks võimalik kindlaks teha, mida sellel kujutatakse. Võimalus fotofailile allkirju lisada on eksisteerinud väga pikka aega. Kuid on suur oht, et seda allkirja loeb ainult see programm, mis selle tegi. Kuid miski ei kesta igavesti ja on väga tõenäoline, et foto elab üle selle programmi ja OC, mille alusel see võiks töötada. Lisaks on vene keele jaoks leiutatud liiga palju kodeeringuid ning oht mõrasid näha on väga suur. Nüüd on olukord mõnevõrra paremaks muutunud, tundub, et UTF-8 on muutumas kõigi jaoks peamiseks standardiks. Samuti on rohkem ühtsust kirjete väljadega. Seal on kolm peamist standardit: EXIF, IPTC, XMP.

EXIF (Exchangeable Image File Format) on standard, mis võimaldab teil lisada Lisainformatsioon(metaandmed), kommenteerides seda faili, kirjeldades selle hankimise tingimusi ja meetodeid, autorsust jne.

IPTC (International Press Telecommunications Council) on digipiltide metaandmete standard, mis võimaldab salvestada sisu kirjeldava annotatsiooni. Algselt taheti kasutada ainult ladina tähestikku ja kuigi paljud programmid võimaldavad nüüd IPTC väljadele teksti kirjutada, on erinevate kodeeringutega tõenäosus, et kõik programmid kirillitsat õigesti loevad, üsna väike.

Adobe XMP (eXtensible Metadata Platform) on Adobe loodud tehnoloogia, mis võimaldab kasutajal failile lisateavet lisada.

Kui loote allkirja kõigis nendes standardites, on tõenäoline, et seda saab kõige rohkem vaadata erinevaid programme, suureneb järsult. Soovitatav on teha kõik kanded ühe programmiga, sest kui teete seda erineval viisil, on suur oht, et vanad kirjed hävivad. Pean selleks otstarbeks sobivaimaks programmi.

Andmete salvestamiseks avage menüü Redigeeri kirjeldust/kommentaari.