Pdf-dokumentide äratundmine. Skannimine ja tekstituvastus. Vigade kontrollimine ja töötulemuste salvestamine

Optiline tekstituvastusprogramm. ABBYY FineReader tunneb ära skannitud paberdokumentide, PDF-failide ja digikaameraga jäädvustatud dokumentide teksti. Programmi poolt tuvastatud tekstidokumente saab rakenduste abil edasi redigeerida Microsoft Office. Vajadusel säilitatakse tekstituvastuse käigus kogu dokumendikujunduse struktuur. FineReader töötab kõigiga populaarsed mudelid kaasaegsed skannerid Ja multifunktsionaalsed seadmed(MFP). Kui kasutajal on vaja skannida ja tuvastada suur hulk tekstilehekülgi, pakub programm seda erirežiim automaatskanneritega töötamiseks (automaatse paberisööturiga skanner). Programm tunneb failides teksti ära järgmine formaat: PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG, DjVu, vajadusel teostatakse töötlemine digitaalsed pildid optilise tekstituvastuse kvaliteedi parandamiseks (pilti saab kärpida, ebavajalikest elementidest puhastada, ebatäpsusi, joonte moonutusi kõrvaldada, pöörata või peegeldada).

Programm on terviklik rakendus tekstidokumentidega töötamiseks. Selle peamine eesmärk on optiline märgituvastus. Programmi looja on Venemaa ettevõte ABBYY Software (maailma liider tuvastussüsteemide vallas). Rakendus tõlgib skannitud dokumendid kiiresti ja täpselt redigeeritavasse vormingusse, säilitades kõik algallika üksikasjad. FineReader tunneb ära PDF-failid, digifotod ja paberdokumendid. Programm taasesitab täpselt algallika välimuse, toetab tekstituvastust 186 keeles ja ekspordib otse Microsofti rakendused kontor.

Rakenduse abil saate teha selliseid ülesandeid nagu loomine ja redigeerimine elektroonilised dokumendid paberallikate põhjal tõlkimine redigeeritavasse dokumendivormingusse halb kvaliteet, dokumentide töötlemine koos keeruline struktuur sisu, sh tabelid, illustratsioonid, diagrammid jne, mis tahes vormingus teksti otsimine ja redigeerimine. Enamiku ekspertide arvates on programm oma ala parim.

Kui me räägime selle programmi kasutamise praktikast Runetis, siis paljud kasutajad on seda programmi Fine Reader (nime venekeelne tõlge) juba ammu tundnud, mille põhieesmärk on nn optiline tekstituvastus. Lihtsamalt öeldes saab selle programmi abil paberile trükitud teksti teisendada üheks elektroonilised vormingud. Uusim versioon programmi ei värskendata mitte ainult ja palju muud kasutajasõbralik liides, vaid ka täiustatud funktsionaalsust.

Tegelikult saab kõiki põhitoiminguid teha ühe hiireklõpsuga, mis valib programmi käivitamisel ühe pakutavatest toimingutest. Nende hulgas on võimalus skaneerida dokumente .doc-vormingusse, teisendada fotosid, skaneerida Excelisse, salvestada pilte ja neid skaneerida, pildituvastus jne. Programmi kasutatavuse parandamiseks on tööala suurendatud ja nupud, mis käivitavad selle või teise toimingu, on nüüd külgribal.

Et kasutajat mitte segadusse ajada, tuvastatakse vaikimisi kõik tema avatavad failid automaatselt. Kui vajalik, edasijõudnud kasutaja saab täita sügavad seaded FineReaderi funktsionaalsus. Ja piltidega töötamine on tänu uuele dialoogile oluliselt lihtsustatud. Rakenduse kasutamine võimaldab tuvastada rohkem kui ühes keeles kirjutatud dokumente, teisendada PDF-faile, tuvastada vöötkoode ja teha morfoloogilisi otsinguid. Ja kuigi see pole kaugeltki täielik nimekiri selle võimalused, ainuüksi see võib julgustada paljusid kasutajaid oma seadmesse installima alaline alus Fine Reader ja kasutage seda vastavalt vajadusele.

Ja ülaltoodu kokkuvõtteks võime lühidalt kirjeldada järgmist: funktsionaalsust: seda programmi kasutatakse erinevate tekstidokumentide optiliseks tuvastamiseks. Teksti tuvastamisel säilitab programm dokumendi algse vormingu ja kujunduse (värviline tekst, tekst piltide taustal, erinevad kirjastiilid, teksti mähis piltide ümber, tabelid jne). FineReader saab töötada skannitud paberdokumentidega (toetatud on peaaegu kõigi populaarsete skannerite ja multifunktsionaalsete seadmete mudelitega töötamine), jäädvustatud dokumentidega digikaamerad, tunneb ära teksti ja graafika PDF-failidest. Samuti ekspordib see populaarsetesse tekstituvastuse tulemused kontorirakendused: Word, Excel, PowerPoint, Lotus Word Pro, Corel WordPerfect, OpenOffice. Äratuntud teksti saab salvestada erinevaid formaate: PDF, PDF/A, DOCX, XLSX, RTF, DOC, XLS, CSV, TXT, HTML, Unicode TXT, Word ML, LIT, DBF.

OCR-tarkvara võimaldab teisendada pildistatud või skannitud dokumendid otse lauseteks.

Fakt on see, et pildi tekst on esitatud rastri, punktide komplektina. Nimetatud tarkvara teisendab punktide komplekti täisväärtuslikuks tekstiks, mida saab redigeerida ja salvestada.

Kirjatuvastus on loodud trükitud või käsitsi kirjutatud raamatute ja dokumentide digiteerimise protsessi optimeerimiseks.

See digiteerimismeetod on suurusjärgus kiirem kui käsitsi valimine pildilt. Laialdaselt kasutatav raamatukogude ja arhiivide digiteerimisel. Järgmisena kaaluge perekonna viit parimat esindajat sarnased programmid.

ABBYY FineReader 10

FineReader on kõigi piltidel teksti ära tundvate programmide seas vaieldamatu liider. Eelkõige puudub tarkvara, mis töötleks kirillitsa tähestikku selgemalt. Üldiselt on FineReaderil 179 keelt, mille teksti tuvastatakse ülimalt edukalt.

Ainus, mis võib kasutajatele pettumust valmistada, on see, et programm on tasuline. Tasuta on saadaval ainult 15-päevane prooviversioon. Selle aja jooksul on lubatud skaneerida 50 lehekülge.

Seejärel peate programmi kasutamise eest maksma. FineReader lihtsalt "sööb" rohkem või vähem kvaliteetne pilt. Allikas on täiesti ebaoluline. Olgu selleks siis foto, lehe skaneering või mis tahes tähtedega pilt.

Eelised:

  • täpne äratundmine;
  • suur hulk lugemiskeeli;
  • tolerantsus lähtepildi kvaliteedi suhtes.

Viga:

  • prooviversioon 15 päevaks.

OCR kiilvorm

Tasuta lugeja tarkvara tekstiteave piltidelt. Tuvastamise täpsus on suurusjärgu võrra väiksem kui eelmisel vaatlusalusel programmil. Aga kuidas tasuta utiliit, funktsionaalsus on endiselt suurepärane.

Huvitav! CuneiForm tunneb ära tekstiplokid, graafika ja isegi erinevad tabelid. Pealegi saab lugeda isegi voodrita tabeleid.

Täpsuse tagamiseks on tuvastusprotsessiga ühendatud spetsiaalsed sõnastikud, mis täiendavad sõnavara skaneeritud dokumentidest.

Eelised:

  • tasuta levitamine;
  • sõnaraamatute kasutamine teksti õigsuse kontrollimiseks;
  • teksti skannimine koopiatest Halb kvaliteet.

Puudused:

  • suhteliselt madal täpsus;
  • väike arv toetatud keeli.

WinScan2PDF

See pole isegi mitte täisväärtuslik programm, vaid utiliit. Installimine pole vajalik ja käivitatav fail kaalub vaid paar kilobaiti. Tuvastamisprotsess toimub väga kiiresti, kuigi saadud dokumendid salvestatakse eranditult PDF-vormingus.

Tegelikult toimub kogu protsess kolme nupu vajutamisega: allika, sihtkoha valimine ja tegelikult programmi käivitamine.

Utiliit on loodud kiiresti partii töötlemine palju faile. Kasutajate mugavuse huvides on saadaval suur liidese keelepakett.

Eelised:

Puudused:

LihtneOCR

Suurepärane väike programm piltidelt tekstide äratundmiseks. See toetab isegi käsikirjade lugemist. Probleem on selles, et vene keel pole liidese keelepaketis ega tuvastamiseks toetatud keelte loendis.

Kui aga on vaja skaneerida inglise, taani või prantsuse keelt, siis parim tasuta variant ei leia.

Oma valdkonnas pakub programm täpset fontide dekodeerimist, müra eemaldamist ja ekstraheerimist graafilised pildid. Lisaks on programmiliides sisseehitatud tekstiredaktor, peaaegu identne WordPadiga, mis suurendab oluliselt programmi kasutatavust.

Eelised:

  • täpne tekstituvastus;
  • mugav tekstiredaktor;
  • pildilt müra eemaldamine.

Puudused:

Tasuta rohkem OCR

Programm võimaldab teil kiiresti piltidelt teksti ja graafikat eraldada. Tarkvara toetab töötamist mitme skanneriga ilma jõudlust kaotamata. Väljatõmmatud teksti saab vormingus salvestada tekstidokument või MS Office'i dokumenti.

Lisaks on saadaval mitme lehekülje tuvastusfunktsioon.

Freemore OCR levitatakse tasuta, kuid liides on ainult inglise keeles. Kuid see asjaolu ei mõjuta kuidagi kasutusmugavust, sest juhtnupud on korraldatud intuitiivselt.

Eelised:

  • tasuta levitamine;
  • võime töötada mitme skanneriga;
  • tuvastamise täpsus on korralik.

Puudused

  • Vene keele puudumine liideses;
  • Vajadus alla laadida vene keel keelepakett tunnustuse eest.

Tekstituvastus on väga mugav võimalus. Te ei pea enam suuri raamatuid ja artikleid ümber tippima. Õpetajatele, üliõpilastele ja teadlastele selline tarkvararakendused- tõeline kingitus. Mõelgem erinevaid rakendusi ja määrake, milline programm pildilt teksti äratundmiseks on parim.

Kuidas see töötab

Optiline märgituvastus (OCR) on võime teisendada teksti graafiline vaade(foto, skaneering, pdf) tavalises vormingus. Teisendatud teksti saab redigeerida.
Iga rasterkujutis koosneb punktidest. Tuvastamistarkvara tuvastab pildil olevad tähed ja teisendab need tekstiks. Analüüsitakse dokumendi struktuuri. Tekstiplokid on esile tõstetud. Seejärel tõmmatakse jooned, mis jagunevad sõnadeks ja seejärel sümboliteks. Iga tegelast võrreldakse mustritega. Pärast seda püstitatakse hüpoteesid, missuguse sümboliga on tegemist. Nende põhjal tarkvara analüüsib erinevad variandid ridade jagamine sõnadeks ja sõnad tähemärkideks. Selliste hüpoteeside arv on tohutu. Lõpuks teeb programm otsuse ja väljastab teksti.

Tarkvara ülevaade

Tavaliselt võib kõik rakendused jagada kolme kategooriasse:

Vaatame iga jaotise mitut võimalust.

Tasulised ja tasuta programmid

OCR kiilvorm

Tasuta programm skannitud teksti äratundmiseks, mille saab alla laadida siit.

Rakenduse töötas välja 1993. aastal Cognitive Technologies. Üks selle peamisi omadusi oli sel ajal oskus ära tunda segu vene ja inglise keeled. 2009. aastal lisati haru, mis võimaldab ära tunda ka teiste keelte segu. Tarkvaratoode tarniti juhtivate tootjate skannerite ja MFP-dega: Hewlet-Pachard, Epson, Xerox jne. Viimane versioon ilmus 2009. aastal.
Pärast allalaadimist ja installimist proovime teksti ära tunda. Võtame selle artikli näitena.

Programmi liides on lihtne, menüü on vene keeles.


Klõpsake kausta ikooni ja laadige pilt üles. Vajutage tuvastusnuppu.


Tulemus pole muljetavaldav. Mitmevärvilist teksti ei tuvastata.


Vaatamata erinevate sõnaraamatute väidetavale kasutamisele tunnustati ka inglise keelt halvasti.


Üldiselt saab ideaalse foto tõlkida sümboliteks, kuid mida madalam on originaalpildi kvaliteet, seda madalam on tulemuse kvaliteet.
Tuleb märkida, et see on ainus skannimiseks mõeldud venestatud tekstituvastusprogramm, mis laaditi seaduslikult tasuta alla. Kõik teised sisse parimal juhul on tasuta prooviperiood.

RiDoc

Programm teksti tuvastamiseks fotolt või skannerist koos vaba periood 30 päeva jooksul. Saate selle siit alla laadida.

Rakendusel on hea funktsionaalsus ja juurdepääsetav liides. Pildi laadimiseks klõpsake nuppu "Ava".


Järgmine on nupp "Tuvasta".


Selle tulemusena saame valmis tulemuse. Seda saab avada Wordis või OpenOffice'is.


Siin on tulemus.


Samuti mitte ideaalne, kuid palju rohkem kui eelmisel juhul.
Samuti saate lisada vesimärgi või liita mitu pilti.

Loe Iris

Tasuline tarkvara 100-leheküljelise või 10-päevase prooviversiooniga. Tekstituvastuse skanneriprogrammi saate alla laadida ametlikult veebisaidilt siit.

Arendajaks on Belgia ettevõte IRIS, mis loodi 1986. aastal. Peamine spetsialiseerumine on tehnoloogiad ja tooted intelligentseks dokumendituvastuseks.

Programm teisendab pildi, PDF-fail või skannitud dokument täielikult redigeeritavaks tekstifail. Eraldab teksti teie dokumentidest, säilitades samas paigutuse lähtefail. Sellel on järgmised omadused:

  • teisendada Wordi failid, Excel ja PowerPointi indekseeritud PDF-failidele;
  • dokumentide teisendamine kasutades kontekstimenüü;
  • imporditud dokumentide kvaliteedinäitaja;
  • skannerite automaatne tuvastamine;
  • perspektiivi korrigeerimise moodul.

Programmi liides on venestatud (näidatud installimisel) ja üsna lihtne.


Klõpsake nuppu "Failist" ja valige meie pilt. Programm jagas selle automaatselt kaheks plokiks.


Tuvastamiseks klõpsake nuppu "Ava" ja määrake pildi tee. Vorming on näidatud ülaltoodud real.


Tulemus ületas kõik ootused. Isegi piirjoon on säilinud.


Saate dokumendi saata posti teel või pilve. Selleks klõpsake ülaltoodud loendil ja valige. Vaikimisi salvestatakse see faili.


See programm maksab umbes 6000 rubla.

ABBYY FineReader

Kõige kuulsam ja reklaamitud programm. Prooviversiooni saate alla laadida siit.

Tasulised kulud 6990 rubla. Venemaa areng 1993, peetakse siiani üheks maailma parimaks. Põhijooned:

Programmil on palju funktsioone. Liides on venestatud ja juurdepääsetav.


Pärast nupu “Ava” klõpsamist ja pildi valimist algab selle automaatne jagamine plokkideks.


Protsessi alustamiseks klõpsake vastavat nuppu.


Jääb vaid valida, millises vormingus salvestada ja määrata kaust, kuhu dokument salvestada.


Avame tulemuse. Nagu näha, läks tunnustus suurepäraselt.


Võrrelge uuesti ReadIrisega.


Esimene valik (Finereader) täidetakse veatult. Seetõttu anname võib-olla sellele programmile peopesa. Need on hinna poolest võrreldavad, nii et 600-700 rubla erinevus ei mängi erilist rolli.

Tekstituvastus fotodest võrgus

IMGonline

Internetis pilditöötlusteenus. Sait pakub tööriistu:

  • Pakkige pilt kokku ja muutke selle suurust
  • Kärpimine, kärpimine
  • Manustatud metaandmete töötlemine
  • Efektid
  • Täiustused
  • Värvipaleti piltide määratlus
  • Tausta hankimine
  • Sarnasusprotsendi määramine jne.

Mugav sait, mis pakub palju võimalusi pilditöötluseks. Liides on lihtne ja selge.


Pakub kahte programmi. Võrdleme. Laadige fail üles ja klõpsake nuppu OK.


Järgmisena klõpsake lingil.


Tulemus ei ole julgustav.


Proovime teist programmi.


Samuti kahtlane.


Eksponeerime lisakeel.


Kontrollime tulemust.

Natuke parem, kuid kaugel täiuslikkusest.

img2txt

Internetis fotodelt teksti tuvastamise programm ei võimalda skannimist.

Sait on tegutsenud alates 2014. aastast. Muid teenuseid arendajad peale praeguse teenuse ei plaani.


Valige fail ja klõpsake nuppu "Laadi üles". Seejärel klõpsake nuppu "Alusta tuvastamist".

Ka tulemus pole kaugeltki täiuslik.

Сconvertio

Üsna suur tasuline portaal, kus saate kasutada järgmisi funktsioone:

Tööpõhimõte on absoluutselt sarnane, kuid seadeid on rohkem. Pilte saab lohistada.


Saate määrata mitu keelt ja dokumendi tüübi, kuhu tulemus salvestatakse.


Registreerimata kasutajatel on tuvastamiseks juurdepääs vaid 10 lehele.
Pärast captcha klõpsamist valige "Teisenda".


Klõpsake allalaadimist.


Tulemus ületas kõik ootused.


Selgub, et lihtsad teenused Internetis on võimalik kvaliteetset tunnustamist. Seega kuulutatakse Convertio selle kategooria selgeks võitjaks. Kuid nagu iga suurepärane toode, on sellel oma hind.

Nii et me vaatasime erinevaid instrumente tekstituvastus. Selgus, et tasuta võivad aidata, kuid kvaliteet ei ole tasemel. Seega, kui teil on pidevalt vaja teksti tõlkida trükitud vorm elektroonilisel kujul, peate rohkem välja otsima.

Head päeva!

Tere päevast.

Tõenäoliselt on igaüks meist seisnud silmitsi ülesandega teisendada paberdokument elektrooniline vaade. Eriti sageli on see vajalik neile, kes õpivad, tegelevad dokumentatsiooniga, tõlgivad tekste elektrooniliste sõnaraamatute abil jne.

Kõik ei saa ühest asjast kohe aru. Pärast skannimist (kõikide lehtede sobitamist skannerisse) on teil pildid BMP-, JPG-, PNG-, GIF-vormingus (võib olla ka teisi vorminguid). Seega peate sellelt pildilt teksti saama – seda protseduuri nimetatakse äratundmiseks. Järgnev esitatakse selles järjekorras.

1. Mida on vaja skaneerimiseks ja tuvastamiseks?

1) Skanner

Prinditud dokumentide tekstivormingusse teisendamiseks vajate esmalt skannerit ja vastavalt sellega kaasasolevaid "natiivseid" programme ja draivereid. Nende abil saate dokumendi skannida ja salvestada edasiseks töötlemiseks.

Võite kasutada ka teisi analooge, kuid skanneriga kaasas olnud tarkvara töötab tavaliselt kiiremini ja sellel on rohkem võimalusi.

Sõltuvalt teie skanneri tüübist võib töökiirus oluliselt erineda. On skannereid, mis saavad pildi lehelt 10 sekundiga, ja teisi, mis saavad selle vastu 30 sekundiga. Kui skannite 200–300-lehelist raamatut, pole minu arvates keeruline arvutada, mitu korda ajavahe on?

2) Tunnustusprogramm

Meie artiklis näitan teile tööd ühes neist parimad programmid absoluutselt kõigi dokumentide skannimiseks ja tuvastamiseks – ABBYY FineReader. Sest programm on tasuline, siis annan teile kohe lingi teisele - selle tasuta analoog. Tõsi, ma ei võrdleks neid, kuna FineReader võidab igas mõttes, soovitan siiski proovida.

ABBYY FineReader 11

Üks parimaid omataolisi programme. See on loodud pildil oleva teksti äratundmiseks. Paljud valikud ja funktsioonid on sisseehitatud. See suudab sõeluda hulga fonte ja toetab isegi käsitsi kirjutatud versioone (kuigi ma pole seda isiklikult proovinud, arvan, et tõenäoliselt ei tunne see käsitsi kirjutatud versiooni hästi ära, kui teil pole täiuslikku kalligraafilist käekirja). Sellega töötamist kirjeldatakse üksikasjalikumalt allpool. Siinkohal märgime, et artikkel räägib programmi versioonis 11 töötamisest.

Tavaliselt, erinevad versioonid ABBYY FineReader ei erine üksteisest kuigi palju. Saate hõlpsasti teha sama teises. Peamised erinevused võivad olla programmi mugavuses, kiiruses ja selle võimalustes. Näiteks rohkem varased versioonid PDF ja DJVU keelduvad avamast...

3) Skannitavad dokumendid

Jah, just nii otsustasin panna dokumendid eraldi veergu. Enamasti skannivad nad mõningaid õpikuid, ajalehti, artikleid, ajakirju jne. See on. need raamatud ja kirjandus, mille järele on nõudlus. Kuhu ma sellega juhin? Alates isiklik kogemus Võin öelda, et suur osa sellest, mida soovite skannida, on tõenäoliselt juba Internetis! Mitu korda olen isiklikult aega säästnud, kui leidsin konkreetse raamatu juba võrgust skannituna. Mul tuli vaid tekst dokumenti kopeerida ja sellega edasi töötada.

See on lihtne nõuanne – enne millegi skannimist kontrollige, kas keegi on selle juba skanninud ja te ei pea oma aega raiskama.

2. Teksti skannimise valikud

Siin ma ei räägi teie skanneri draiveritest, sellega kaasas olnud programmidest, sest kõik skanneri mudelid on erinevad, ka tarkvara on igal pool erinev ja seda on ebareaalne oletada, rääkimata selgelt näitamisest, kuidas toimingut teha.

Kuid kõigil skanneritel on samad sätted, mis võivad oluliselt mõjutada teie töö kiirust ja kvaliteeti. Just sellest me siin räägimegi. Loetlen need järjekorras.

1) Skannimise kvaliteet – DPI

Esiteks määrake suvandites skannimise kvaliteediks vähemalt 300 DPI. Soovitav on võimalusel isegi rohkem sättida. Mida kõrgem on DPI, seda selgem on teie pilt ja seega kiirem on edasine töötlemine. Lisaks, mida kõrgem on skannimise kvaliteet, seda vähem peate hiljem vigu parandama.

Optimaalne valik pakub tavaliselt 300-400 DPI.

2) Värv

See parameeter mõjutab suuresti skannimisaega (muide, ka DPI mõjutab seda, kuid ainult nii palju ja ainult siis, kui kasutaja määrab kõrged väärtused).

Tavaliselt on kolm režiimi:

Must-valge (suurepärane lihtsa teksti jaoks);

Hall (sobib tabelite ja piltidega teksti jaoks);

Värv (värviliste ajakirjade, raamatute, üldiselt dokumentide jaoks, kus värv on oluline).

Tavaliselt sõltub skannimisaeg värvivalikust. Lõppude lõpuks, kui teie dokument on suur, annab isegi 5-10 lisasekundit lehel tervikuna korralik aeg...

3) Fotod

Dokumendi saab kätte mitte ainult skaneerides, vaid ka pildistades. Reeglina on sel juhul mõned muud probleemid: pildi moonutamine, udusus. Seetõttu võib tekkida vajadus teksti pikema edasise redigeerimise ja töötlemise järele. Isiklikult ei soovita ma selles asjas kaameraid kasutada.

Oluline on märkida, et iga sellist dokumenti ei saa ära tunda, sest selle skannimise kvaliteet võib olla väga madal...

3. Dokumendi tekstituvastus

Pärast pildi avamist ABBYY FineReaderis hakkab programm reeglina automaatselt alasid esile tõstma ja neid ära tundma. Kuid mõnikord ei tee ta seda õigesti. Sel eesmärgil kaalume vajalike alade käsitsi valimist.

Tähtis! Mitte igaüks ei saa kohe aru, et pärast dokumendi avamist programmis kuvatakse algdokument aknas vasakul, kus valite erinevad alad. Pärast nupu “tuvastus” klõpsamist kuvab programm parempoolses aknas valmis teksti. Muide, pärast äratundmist on soovitatav kontrollida teksti vigade suhtes samas FineReaderis.

3.1 Tekst

Seda ala kasutatakse teksti esiletõstmiseks. Pildid ja tabelid tuleks sellest välja jätta. Haruldased ja ebatavalised fondid tuleb käsitsi sisestada...

Tekstiala esiletõstmiseks vaadake FineReaderi ülaosas olevat riba. Seal on nupp "T" (vt allpool olevat ekraanipilti, hiirekursor asub sellel nupul). Klõpsake sellel, seejärel valige alloleval pildil korralik ristkülikukujuline ala, milles tekst asub. Muide, mõnel juhul peate looma tekstiplokke 2-3 ja mõnikord 10-12 lehekülje kohta, sest... Teksti vorming võib olla erinev ja üks ristkülik ei saa kogu ala esile tõsta.

Oluline on märkida, et tekstialasse ei tohiks lisada pilte! See säästab tulevikus palju aega...

3.2 Pildid

Kasutatakse piltide ja nende alade esiletõstmiseks, mida on halva kvaliteedi või ebatavalise fondi tõttu raske ära tunda.

Alloleval ekraanipildil on hiirekursor nupul, mida kasutatakse pildiala esiletõstmiseks. Muide, sellel alal saab valida absoluutselt suvalise lehe osa ja FineReader sisestab selle siis tavapildina dokumenti. Need. lihtsalt "rumalalt" koopiad...

Tavaliselt kasutatakse seda ala halvasti skannitud tabelite esiletõstmiseks, mittestandardse teksti ja fondi ning isegi piltide esiletõstmiseks.

3.3 Tabelid

Alloleval ekraanipildil on tabelite esiletõstmise nupp. Üldiselt kasutan isiklikult seda äärmiselt harva. Asi on selles, et peate üsna rutiinselt joonistama (peaaegu) iga tabeli joone ja näitama, mida ja kuidas programmeerida. Kui laud on väike ja mitte väga hea kvaliteet, soovitan neil eesmärkidel kasutada "pildi" ala. Nii säästate palju aega ja saate seejärel kiiresti pildi põhjal Wordis tabeli luua.

3.4 Mittevajalikud elemendid

Oluline on märkida. Mõnikord on lehel mittevajalikud elemendid, mis segavad tekstituvastust või isegi takistavad valimist soovitud ala. Neid saab kustutuskummiga täielikult eemaldada.

Selleks minge pilditöötlusrežiimi.

Valige kustutuskumm ja valige mittevajalik ala. See kustutatakse ja selle asemele on valge paberileht.

Muide, soovitan seda võimalust kasutada nii sageli kui võimalik. Proovige kõiki valitud tekstialasid, kus te tekstiosa ei vaja või neid on mittevajalikud punktid, udusus, moonutus - eemaldage kustutuskummiga. Tänu sellele on äratundmine kiirem!

4. PDF/DJVU failituvastus

Üldjuhul ei erine see tuvastusformaat teistest millegi poolest – s.t. Sellega saab töötada samamoodi nagu piltidega. Ainus asi on see, et programm ei tohiks olla liiga vana versioon, kui PDF/DJVU-failid teie jaoks ei avane, värskendage versiooni versioonile 11.

Väike nõuanne. Pärast FineReaderis dokumendi avamist hakkab see dokumenti automaatselt ära tundma. Sageli ei ole PDF-/DJVU-failides teatud lehe osa kogu dokumendis vaja! Sellise ala eemaldamiseks kõigilt lehtedelt tehke järgmist.

1. Minge pilditöötluse jaotisesse.

2. Lülitage sisse valik "kärpimine".

3. Valige kõigil lehtedel vajalik ala.

4. Klõpsake nuppu Rakenda kõikidele lehtedele ja kärpige.

5. Vigade kontrollimine ja töötulemuste salvestamine

Näib, mis probleeme veel võiks olla, kui kõik valdkonnad esile tõsteti, siis ära tunti - võta ja salvesta... Aga nii see ei olnud!

Esiteks peate dokumenti kontrollima!

Selle lubamiseks on pärast tuvastamist parempoolses aknas nupp "kontrolli", vaadake allolevat ekraanipilti. Pärast sellel klõpsamist näitab programm FineReader teile automaatselt neid piirkondi, kus programmis esines vigu ja mis ei suutnud konkreetset märki usaldusväärselt tuvastada. Peate vaid valima, kas nõustute programmi arvamusega või sisestate oma sümboli.

Muide, umbes pooltel juhtudel pakub programm teile valmis õige sõna - peate vaid valima hiirega soovitud valiku.

Teiseks peate pärast kontrollimist valima vormingu, milles oma töö tulemuse salvestate.

Siin annab FineReader teile ülevaate täiega: saate teabe lihtsalt Wordi üks-ühele üle kanda või salvestada ühes kümnetest vormingutest. Kuid tahaksin esile tõsta veel üht oluline aspekt. Ükskõik millise vormingu valite, on olulisem valida koopia tüüp! Vaatame kõige huvitavamaid võimalusi ...

Täpne koopia

Kõik alad, mille valisite tuvastatud dokumendi lehel, vastavad täpselt originaaldokumendile. Väga mugav variant, kui teie jaoks on oluline mitte kaotada teksti vormingut. Muide, ka fondid on originaaliga väga sarnased. Selle valikuga soovitan dokumendi Wordi üle kanda, et seal edasist tööd jätkata.

Redigeeritav koopia

See valik on hea, kuna saate teksti juba vormindatud versiooni. Need. Te ei leia taandeid "kilomeetriga", mis võisid olla originaaldokumendis. Kasulik variant, kui muudate teavet oluliselt.

Tõsi, te ei tohiks valida, kas teie jaoks on oluline kujundusstiili, fontide ja taande säilitamine. Mõnikord, kui tuvastamine ei õnnestu, võib teie dokument muutuda vormingu muutmise tõttu viltu. Sel juhul on soovitav valida täpne koopia.

Lihtne tekst

Valik neile, kes vajavad lihtsalt teksti lehelt ilma kõige muuta. Sobib ilma piltide ja tabeliteta dokumentidele.

Sellega lõpeb artikkel dokumentide skannimise ja tuvastamise kohta. Loodan, et nende abiga lihtsaid näpunäiteid saate oma probleeme lahendada ...

Optiline tekstituvastus on protsess, mille käigus toimub pildistatud või skannitud tekst eriprogramm, on tõlgitud dokumendivormingusse.

See tähendab, et pildi asemel on teil standardne trükitud tekst, mida saab redigeerida.

IN seda materjali arutame, milline tekstituvastusprogramm on parem (TOP 7 utiliiti on toodud allpool).

Valik

Kuidas valida kõige rohkem sobiv programm, ja millised põhifunktsioonid sellisel tarkvaral on?

See võib erineda erinevate näitajate poolest – äratundmise täpsus, oskus töötada konkreetse keelega, oskus säilitada teksti algne struktuur jne.

Sellist tarkvara saab levitada tasu eest või tasuta ning seda saab rakendada nii veebis (eriteenuste kujul) kui ka eelinstallitud programmide kujul.

Töö algoritm seisneb selles, et iga tähestiku tähe jaoks koostatakse andmebaas valikute kohta, kuidas see fotol välja näeb, selle peamised elemendid tõstetakse esile ja salvestatakse. Niipea, kui sellised elemendid fotol tuvastatakse, tunneb programm ära vastava tähe. Olenevalt sellest, kui hästi ja detailselt selline andmebaas koostati, sõltub materjali äratundmise kvaliteet lõpuks.

Seetõttu on oluline, et tarkvara oleks loodud töötama spetsiaalselt vene keelega (mõned programmid võivad töötada korraga kahes keeles kirjutatud tekstiga, teised mitte).

Lisaks suudavad mõned utiliidid ja teenused säilitada isegi teksti algse struktuuri (, loendid), selle kujunduse tüübi (taanded jne) ja isegi.

Millistel juhtudel on selline tarkvara vajalik?

  • Dokumentide loomisel, kui saadaval on ainult trükitud versioon;
  • Referaatide, aruannete koostamisel ja vajadus tsiteerida suurt tekstikatket raamatust;
  • Toimetuse tööks, kui tekst on saadaval ainult fotoformaadis jne.

Tegelikult on tarkvara kasutusala väga lai ning õige valiku korral võib see muuta tekstiga töötamise lihtsamaks ja kiiremaks.

Tehnilised andmed

Tarkvara erineb mitmel viisil: juurutamisviis (võrgus või utiliidi kujul), kasutuslitsents (tasuline või tasuta), tunnustatud keelte loend, tuvastamise kvaliteet ja palju muud.

Selleks, et kasutaja saaks teha õige valik nii kiiresti kui võimalik, on allolevas tabelis näidatud selliste programmide peamised omadused.

Pealkirjad Litsents Skaneerimine Õigekirjakontroll Tõlge Teksti töötlemine redaktoris Töötama koos käsitsi kirjutatud tekst Töötamine halva kvaliteediga piltidega
Abbyy peen lugeja Tasuline, tasuta katseaeg 10 päevaks Jah Jah Jah osaliselt osaliselt Jah
OCR Cunei vorm Tasuta Jah Jah Ei Jah Ei Jah
Readiris Pro Ei Jah Ei Jah Jah Jah
OCR Freemore Tasuta Jah Ei Ei Jah Ei Jah
Abbyy ekraanipildi lugeja Tasuline, 14-päevane tasuta prooviperiood Ei Jah Jah Ei Ei osaliselt
Adobe Acrobat Tasuline, 7-päevase tasuta prooviperioodiga Jah Ei Ei osaliselt Ei osaliselt
Tasuta võrgus OCR Tasuta Ei Ei Ei Ei osaliselt Jah

Kõiki allolevas tabelis loetletud kommunaalteenuseid kirjeldatakse üksikasjalikult ja need on paigutatud TOP-järjekorras parimast halvimani.

Abbyy peen lugeja

See on selle TOPi kõrgeima kvaliteediga ja multifunktsionaalne tarkvara. Ta on teistsugune kõrge täpsus tunnustust ja sellel on mitmeid eeliseid, jagatakse tasu eest.

Programm töötab edukalt paljude keeltega tuvastamise ajal suudab säilitada teksti struktuuri ja vormingu tüübi.

See on mõeldud professionaalidele, seetõttu on enamiku kasutajate sõnul see raha väärt.

  • Suur hulk toetatud keeli;
  • Võimalus üsna täpselt säilitada dokumendi vormindusstiili ja struktuuriomadusi;
  • Saadavus tasuta prooviversioon 10 päevaks;
  • Töökvaliteedi langust ei toimu isegi suured mahud tekst (mida sageli täheldatakse teistes programmides, mis tunnevad teksti iga järgmise üleslaaditud fotoga aina halvemini ära ja probleem lahendatakse alles pärast taaskäivitamist).

Arvustused umbes see tarkvara erinev: " Hea programm, aitab tööl palju”, “Pole raha väärt – on ka tasuta programmid sama äratundmiskvaliteediga."

OCR Cunei vorm

OCR Cunei vorm on ehk üks funktsionaalsemaid ja mugavad programmid, tasuta jagatavate hulgas.

Pakub üsna kõrget tuvastuskvaliteeti ja töötab isegi halva kvaliteediga fotodega.

Programm võimaldab fotot sellega töötamise ajal otse töödelda ning tunneb fondid ja struktuurid üsna hästi ära (kuigi käsitsi kirjutatud tekstiga see ei tööta).

Võimalus neid otse toimetajale saata tekstivorm.

Sellel on üsna rahuldav töökiirus.

  • Sisseehitatud tõlkija puudumine;
  • Õigekirjakontrolli kvaliteet puudub;
  • Käsitsi kirjutatud tekstiga töötamise oskuse puudumine.

Kasutajate ülevaated selle programmi kohta on järgmised: "Hea tarkvara", "Arvestades, et programm on tasuta, töötab see suurepäraselt."

Readiris Pro

Readiris Pro on veel üks tasuline tarkvara, mis pakub üsna mitmekesist ja stabiilne töö testi tuvastamise ja redigeerimise kohta.