Pengiktirafan dokumen pdf. Pengimbasan dan pengecaman teks. Menyemak ralat dan menyimpan hasil kerja

Program pengecaman teks optik. ABBYY FineReader boleh mengecam teks daripada dokumen kertas yang diimbas, fail PDF dan dokumen yang ditangkap dengan kamera digital. Dokumen teks yang diiktiraf oleh program boleh diedit selanjutnya menggunakan aplikasi Microsoft Office. Jika perlu, keseluruhan struktur reka bentuk dokumen akan dipelihara semasa pengecaman teks. FineReader berfungsi dengan semua orang model popular pengimbas moden Dan peranti pelbagai fungsi(MFP). Jika pengguna perlu mengimbas dan mengenali sejumlah besar halaman teks, maka program menyediakan mod khas untuk bekerja dengan pengimbas automatik (pengimbas dengan penyuap kertas automatik). Program ini boleh mengecam teks dalam fail format berikut: PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG, DjVu, pemprosesan akan dijalankan jika perlu imej digital untuk meningkatkan kualiti pengecaman teks optik (imej boleh dipangkas, dibersihkan daripada unsur-unsur yang tidak perlu, dihapuskan ketidaktepatan, herotan garisan, diputar atau dicerminkan).

Program ini adalah aplikasi komprehensif untuk bekerja dengan dokumen teks. Tujuan utamanya ialah pengecaman aksara optik. Pencipta program itu ialah syarikat Rusia ABBYY Software (pemimpin dunia dalam bidang sistem pengiktirafan). Aplikasi ini dengan cepat dan tepat menterjemah dokumen yang diimbas ke dalam format yang boleh diedit, mengekalkan semua butiran sumber asal. FineReader boleh mengenali fail PDF, foto digital dan dokumen kertas. Program ini dengan tepat menghasilkan semula rupa sumber asal, menyokong pengecaman teks dalam 186 bahasa dan mengeksport terus ke aplikasi Microsoft Pejabat.

Menggunakan aplikasi, tugasan seperti: mencipta dan menyunting dokumen elektronik berdasarkan sumber kertas, terjemahan ke dalam format dokumen yang boleh diedit berkualiti rendah, pemprosesan dokumen dengan struktur kompleks kandungan, termasuk jadual, ilustrasi, gambar rajah, dsb., mencari dan mengedit teks dalam sebarang format. Menurut kebanyakan pakar, program ini adalah yang terbaik dalam bidangnya.

Jika kita bercakap tentang amalan menggunakan program ini di Runet, maka ramai pengguna telah lama mengetahui program ini Fine Reader (terjemahan bahasa Rusia nama), tujuan utamanya adalah untuk melakukan apa yang dipanggil pengecaman teks optik. Ringkasnya, dengan bantuan program ini, sebarang teks yang dicetak di atas kertas boleh ditukar menjadi salah satu daripadanya format elektronik. Versi terkini program bukan sahaja dikemas kini dan banyak lagi antara muka mesra pengguna, tetapi juga meningkatkan fungsi.

Malah, semua tindakan asas boleh dilakukan dengan satu klik tetikus, yang memilih salah satu tindakan yang ditawarkan semasa memulakan program. Antaranya ialah keupayaan untuk mengimbas dokumen ke dalam format .doc, menukar foto, mengimbas ke Excel, menyimpan imej dan mengimbasnya, pengecaman imej, dsb. Untuk meningkatkan kebolehgunaan program, kawasan kerja telah diperbesarkan, dan butang yang mencetuskan tindakan ini atau itu telah dikembangkan. kini berada di bar sisi.

Untuk tidak mengelirukan pengguna, secara lalai semua fail yang dibukanya diiktiraf secara automatik. Jika perlu, pengguna mahir boleh penuhi tetapan mendalam Fungsi FineReader. Dan bekerja dengan imej telah sangat dipermudahkan terima kasih kepada dialog baharu. Menggunakan aplikasi membolehkan anda mengenali dokumen yang ditulis dalam lebih daripada satu bahasa, menukar fail PDF, mengenali kod bar dan menjalankan carian morfologi. Dan walaupun ini jauh dari senarai penuh keupayaannya, ini sahaja boleh menggalakkan ramai pengguna untuk memasang pada mereka asas kekal Fine Reader dan gunakannya mengikut keperluan.

Dan untuk meringkaskan perkara di atas, kita boleh menggariskan secara ringkas ini: kefungsian: Program ini digunakan untuk pengecaman optik pelbagai dokumen teks. Apabila mengecam teks, program ini mengekalkan pemformatan dan reka bentuk asal dokumen (teks berwarna, teks dengan latar belakang gambar, gaya fon yang berbeza, teks yang membalut gambar, jadual, dll.). FineReader boleh berfungsi dengan dokumen kertas yang diimbas (berfungsi dengan hampir semua model pengimbas popular dan peranti pelbagai fungsi disokong), dengan dokumen yang ditangkap kamera digital, mengenali teks dan grafik daripada fail PDF. Ia juga mengeksport hasil pengecaman teks optik kepada popular permohonan pejabat: Word, Excel, PowerPoint, Lotus Word Pro, Corel WordPerfect, OpenOffice. Teks yang dikenali boleh disimpan ke pelbagai format: PDF, PDF/A, DOCX, XLSX, RTF, DOC, XLS, CSV, TXT, HTML, Unicode TXT, Word ML, LIT, DBF.

Perisian OCR membolehkan anda menukar dokumen yang difoto atau diimbas terus kepada ayat.

Hakikatnya ialah teks dalam imej dibentangkan dalam bentuk raster, satu set titik. Perisian yang disebutkan menukar satu set titik kepada teks lengkap, tersedia untuk diedit dan disimpan.

Pengecaman huruf direka untuk mengoptimumkan proses pendigitan buku dan dokumen bercetak atau tulisan tangan.

Kaedah pendigitalan ini adalah urutan magnitud lebih cepat daripada kelajuan pendailan manual daripada imej. Digunakan secara meluas dalam pendigitalan perpustakaan dan arkib. Seterusnya, pertimbangkan lima wakil terbaik keluarga program yang serupa.

ABBYY FineReader 10

FineReader ialah peneraju yang tidak dipertikaikan antara semua program yang mengenali teks dalam imej. Khususnya, tiada perisian yang memproses abjad Cyrillic dengan lebih jelas. Secara umum, FineReader mempunyai 179 bahasa, teks yang diiktiraf dengan sangat berjaya.

Satu-satunya perkara yang mungkin mengecewakan pengguna ialah program ini dibayar. Hanya versi percubaan 15 hari tersedia secara percuma. Dalam tempoh ini, pengimbasan 50 muka surat dibenarkan.

Anda kemudiannya perlu membayar untuk menggunakan program ini. FineReader dengan mudah "makan" lebih kurang imej berkualiti tinggi. Sumbernya sama sekali tidak penting. Sama ada gambar, imbasan halaman atau mana-mana gambar dengan huruf.

Kelebihan:

  • pengiktirafan yang tepat;
  • sejumlah besar bahasa bacaan;
  • toleransi terhadap kualiti imej sumber.

Cacat:

  • versi percubaan selama 15 hari.

OCR CuneiForm

Perisian pembaca percuma maklumat teks daripada imej. Ketepatan pengecaman adalah susunan magnitud yang lebih rendah daripada program sebelumnya yang sedang dipertimbangkan. Tetapi bagaimana untuk utiliti percuma, fungsinya masih cemerlang.

Menarik! CuneiForm mengenali blok teks, grafik, dan juga pelbagai jadual. Lebih-lebih lagi, jadual tidak bergaris pun boleh dibaca.

Untuk memastikan ketepatan, kamus khas disambungkan kepada proses pengecaman, yang menambah perbendaharaan kata daripada dokumen yang diimbas.

Kelebihan:

  • pengedaran percuma;
  • menggunakan kamus untuk menyemak ketepatan teks;
  • mengimbas teks daripada salinan fotokopi Kualiti teruk.

Kelemahan:

  • ketepatan yang agak rendah;
  • sebilangan kecil bahasa yang disokong.

WinScan2PDF

Ia tidak sekata program penuh, tetapi utiliti. Tiada pemasangan diperlukan dan fail boleh laku hanya berat beberapa kilobait. Proses pengecaman berlaku dengan sangat cepat, walaupun dokumen yang terhasil disimpan secara eksklusif dalam Format PDF.

Malah, keseluruhan proses dilakukan dengan menekan tiga butang: memilih sumber, destinasi dan, sebenarnya, melancarkan program.

Utiliti ini direka untuk dengan cepat pemprosesan kelompok banyak fail. Untuk kemudahan pengguna, pakej bahasa antara muka yang besar disediakan.

Kelebihan:

Kelemahan:

SimpleOCR

Program kecil yang sangat baik untuk mengenali teks daripada imej. Malah menyokong membaca manuskrip. Masalahnya ialah bahasa Rusia tidak termasuk dalam pek bahasa antara muka mahupun dalam senarai bahasa yang disokong untuk pengiktirafan.

Walau bagaimanapun, jika anda perlu mengimbas bahasa Inggeris, Denmark atau Perancis, maka yang terbaik pilihan percuma tidak dapat ditemui.

Dalam bidangnya, program ini menyediakan penyahkodan fon yang tepat, penyingkiran bunyi dan pengekstrakan imej grafik. Di samping itu, antara muka program mempunyai terbina dalam penyunting teks, hampir sama dengan WordPad, yang meningkatkan kebolehgunaan program dengan ketara.

Kelebihan:

  • pengecaman teks yang tepat;
  • editor teks yang mudah;
  • mengeluarkan bunyi daripada imej.

Kelemahan:

Freemore OCR

Program ini membolehkan anda mengekstrak teks dan grafik dengan cepat daripada imej. Perisian ini menyokong bekerja dengan berbilang pengimbas tanpa kehilangan prestasi. Teks yang diekstrak boleh disimpan dalam format dokumen teks atau dokumen MS Office.

Di samping itu, fungsi pengecaman berbilang halaman disediakan.

Freemore OCR diedarkan secara percuma, walau bagaimanapun, antara muka hanya dalam bahasa Inggeris. Tetapi keadaan ini tidak sama sekali menjejaskan kemudahan penggunaan, kerana kawalan diatur dengan cara yang intuitif.

Kelebihan:

  • pengedaran percuma;
  • keupayaan untuk bekerja dengan pelbagai pengimbas;
  • ketepatan pengecaman adalah baik.

Kecacatan

  • Kekurangan bahasa Rusia dalam antara muka;
  • Keperluan untuk memuat turun bahasa Rusia pek bahasa untuk pengiktirafan.

Pengecaman teks sangat peluang yang selesa. Anda tidak perlu lagi menaip semula jilid besar daripada buku dan artikel. Bagi guru, pelajar dan penyelidik seperti aplikasi perisian- hadiah sebenar. Mari kita pertimbangkan aplikasi yang berbeza dan tentukan program untuk mengecam teks daripada gambar yang terbaik.

Bagaimana ia berfungsi

Pengecaman Aksara Optik (OCR) ialah keupayaan untuk menukar teks daripada paparan grafik(foto, imbasan, pdf) dalam format biasa. Teks yang ditukar boleh diedit.
Mana-mana imej raster terdiri daripada titik. Perisian pengecaman mengenal pasti huruf dalam gambar dan menukarnya menjadi teks. Struktur dokumen dianalisis. Blok teks diserlahkan. Kemudian garisan dilukis, yang dibahagikan kepada perkataan, dan kemudian menjadi simbol. Setiap watak dibandingkan dengan corak. Selepas itu hipotesis dibuat tentang jenis simbol itu. Berdasarkan mereka, perisian menganalisis varian yang berbeza membelah baris menjadi perkataan dan perkataan menjadi aksara. Bilangan hipotesis sedemikian adalah sangat besar. Akhirnya program membuat keputusan dan mengeluarkan teks.

Gambaran keseluruhan perisian

Secara konvensional, semua aplikasi boleh dibahagikan kepada tiga kategori:

Mari lihat beberapa pilihan daripada setiap bahagian.

Program berbayar dan percuma

OCR CuneiForm

Program percuma untuk mengenali teks yang diimbas, yang boleh dimuat turun di sini.

Aplikasi ini dibangunkan pada tahun 1993 oleh Cognitive Technologies. Salah satu ciri utamanya pada masa itu ialah keupayaan untuk mengenali campuran bahasa Rusia dan bahasa Inggeris. Pada tahun 2009, cawangan telah ditambah yang membolehkan pengiktirafan campuran bahasa lain. Produk perisian telah dibekalkan dengan pengimbas dan MFP daripada pengeluar terkemuka: Hewlet-Pachard, Epson, Xerox, dsb. Versi terbaru dikeluarkan pada tahun 2009.
Selepas memuat turun dan memasang, kami cuba mengenali teks. Mari kita ambil artikel ini sebagai contoh.

Antara muka program adalah mudah, menu dalam bahasa Rusia.


Klik ikon folder dan muat naik imej. Tekan butang pengecaman.


Hasilnya tidak mengagumkan. Teks berbilang warna tidak dikenali.


Walaupun terdapat penggunaan kamus yang berbeza, bahasa Inggeris juga kurang diiktiraf.


Secara umum, foto yang ideal boleh diterjemahkan ke dalam simbol, tetapi semakin rendah kualiti imej asal, semakin rendah kualiti hasilnya.
Perlu diingat bahawa ini adalah satu-satunya program pengecaman teks Russified untuk pengimbasan yang dimuat turun secara percuma dengan cara yang sah. Orang lain masuk senario kes terbaik mempunyai tempoh percubaan percuma.

RiDoc

Program untuk mengecam teks daripada foto atau daripada pengimbas dengan masa lapang dalam 30 hari. Anda boleh memuat turunnya di sini.

Aplikasi ini mempunyai fungsi yang baik dan antara muka yang boleh diakses. Untuk memuatkan imej, klik butang "Buka".


Seterusnya ialah butang "Kenali".


Hasilnya, kami mendapat hasil yang telah selesai. Ia boleh dibuka dalam Word atau OpenOffice.


Inilah hasilnya.


Juga tidak sesuai, tetapi lebih daripada dalam kes sebelumnya.
Anda juga boleh menambah tera air atau menggabungkan beberapa imej.

BacaIris

Dibayar perisian dengan versi percubaan 100 halaman atau 10 hari. Anda boleh memuat turun program pengimbas untuk pengecaman teks dari laman web rasmi di sini.

Pemajunya ialah syarikat Belgium IRIS, yang dicipta pada tahun 1986. Pengkhususan utama ialah teknologi dan produk untuk pengecaman dokumen pintar.

Program ini menukar imej, fail PDF atau dokumen yang diimbas menjadi boleh diedit sepenuhnya fail teks. Mengekstrak teks daripada dokumen anda sambil mengekalkan reka letak fail sumber. Mempunyai ciri-ciri berikut:

  • menukar Fail perkataan, Excel dan PowerPoint kepada fail PDF yang diindeks;
  • menukar dokumen menggunakan menu konteks;
  • penunjuk kualiti untuk dokumen yang diimport;
  • pengesanan automatik pengimbas;
  • modul pembetulan perspektif.

Antara muka program adalah Russified (ditunjukkan semasa pemasangan) dan agak mudah.


Klik butang "Dari Fail" dan pilih imej kami. Program ini secara automatik membahagikannya kepada dua blok.


Untuk pengecaman, klik butang "Buka" dan tentukan laluan untuk imej. Format ditunjukkan dalam baris di atas.


Hasilnya melebihi semua jangkaan. Malah garis besar telah dipelihara.


Anda boleh menghantar dokumen melalui mel atau ke awan. Untuk melakukan ini, klik pada senarai di atas dan pilih. Secara lalai ia disimpan ke fail.


Program ini berharga kira-kira 6,000 rubel.

ABBYY FineReader

Program yang paling terkenal dan dipromosikan. Anda boleh memuat turun versi percubaan di sini.

Dibayar kos 6990 rubel. pembangunan Rusia 1993, masih dianggap antara yang terbaik di dunia. Ciri-ciri utama:

Program ini mempunyai banyak ciri. Antara muka adalah Russified dan boleh diakses.


Selepas mengklik butang "Buka" dan memilih gambar, pembahagian automatiknya kepada blok bermula.


Untuk memulakan proses, klik butang yang sesuai.


Apa yang tinggal ialah memilih format yang hendak disimpan dan tentukan folder untuk menyimpan dokumen.


Mari kita buka hasilnya. Seperti yang anda lihat, pengiktirafan berjalan dengan sempurna.


Bandingkan dengan ReadIris sekali lagi.


Pilihan pertama (Finereader) dilaksanakan dengan sempurna. Oleh itu, mungkin, kami memberikan tapak tangan kepada program ini. Mereka adalah setanding dengan harga, jadi perbezaan 600-700 rubel tidak memainkan peranan khas.

Pengecaman teks daripada foto dalam talian

IMGonline

Perkhidmatan pemprosesan imej dalam talian. Laman web ini menyediakan alat:

  • Mampatkan dan ubah saiz gambar
  • Pemangkasan, pemangkasan
  • Memproses metadata terbenam
  • Kesan
  • Penambahbaikan
  • Definisi gambar palet warna
  • Mendapat latar belakang
  • Menentukan peratusan persamaan, dsb.

Tapak mudah yang menyediakan banyak kemungkinan untuk pemprosesan imej. Antara muka adalah mudah dan jelas.


Menawarkan dua program. Jom bandingkan. Muat naik fail dan klik OK.


Seterusnya, klik pada pautan.


Hasilnya tidak memberangsangkan.


Jom cuba program kedua.


Juga ragu-ragu.


Kami akan mempamerkan bahasa tambahan.


Jom semak hasilnya.

Sedikit lebih baik, tetapi jauh dari sempurna.

img2txt

Program untuk mengenali teks daripada foto dalam talian tidak membenarkan pengimbasan.

Tapak ini telah beroperasi sejak 2014. Pembangun tidak merancang sebarang perkhidmatan lain selain perkhidmatan semasa.


Pilih fail dan klik "Muat naik". Kemudian klik "Mulakan pengecaman".

Hasilnya juga jauh dari sempurna.

Сonvertio

Portal berbayar yang agak besar di mana anda boleh memanfaatkan ciri berikut:

Prinsip operasi sama sekali, tetapi terdapat lebih banyak tetapan. Gambar boleh diseret dan digugurkan.


Anda boleh menentukan beberapa bahasa dan jenis dokumen tempat hasilnya disimpan.


Pengguna tidak berdaftar mempunyai akses kepada hanya 10 halaman untuk pengiktirafan.
Selepas mengklik pada captcha, pilih "Tukar".


Klik muat turun.


Hasilnya melebihi semua jangkaan.


Ternyata begitu perkhidmatan yang mudah dalam talian terdapat kemungkinan pengiktirafan berkualiti tinggi. Jadi Convertio diisytiharkan sebagai pemenang jelas dalam kategori ini. Tetapi seperti mana-mana produk hebat, ia datang pada kos.

Jadi kami telah melihat pelbagai instrumen pengecaman teks. Ternyata yang percuma boleh membantu, tetapi kualitinya tetap tidak setanding. Jadi, jika anda sentiasa perlu menterjemah teks daripada borang bercetak dalam bentuk elektronik, anda perlu mengeluarkan lebih banyak lagi.

Selamat hari raya!

Selamat petang.

Mungkin, setiap daripada kita telah menghadapi tugas untuk menukar dokumen kertas menjadi pandangan elektronik. Ini amat diperlukan bagi mereka yang belajar, bekerja dengan dokumentasi, menterjemah teks menggunakan kamus elektronik, dsb.

Tidak semua orang segera memahami satu perkara. Selepas mengimbas (memasang semua helaian pada pengimbas), anda akan mempunyai gambar dalam format BMP, JPG, PNG, GIF (mungkin terdapat format lain). Jadi anda perlu mendapatkan teks daripada gambar ini - prosedur ini dipanggil pengecaman. Perkara berikut akan dibentangkan dalam susunan ini.

1. Apakah yang diperlukan untuk pengimbasan dan pengecaman?

1) Pengimbas

Untuk menukar dokumen bercetak ke dalam bentuk teks, anda memerlukan pengimbas terlebih dahulu dan, oleh itu, program dan pemacu "asli" yang disertakan bersamanya. Menggunakannya, anda boleh mengimbas dokumen dan menyimpannya untuk pemprosesan selanjutnya.

Anda boleh menggunakan analog lain, tetapi perisian yang disertakan dengan pengimbas biasanya berfungsi lebih pantas dan mempunyai lebih banyak pilihan.

Bergantung pada jenis pengimbas yang anda miliki, kelajuan operasi boleh berbeza dengan ketara. Terdapat pengimbas yang boleh menerima imej daripada helaian dalam masa 10 saat, dan yang lain akan menerimanya dalam masa 30 saat. Jika anda mengimbas buku 200-300 helaian, saya rasa tidak sukar untuk mengira berapa kali perbezaan masa itu?

2) Program pengiktirafan

Dalam artikel kami, saya akan menunjukkan kepada anda bekerja di salah satu daripada program terbaik untuk mengimbas dan mengenal pasti sebarang dokumen - ABBYY FineReader. Kerana program itu dibayar, maka saya akan segera memberi anda pautan ke satu lagi - itu analog percuma. Benar, saya tidak akan membandingkannya, kerana FineReader menang dalam semua aspek, saya masih mengesyorkan mencubanya.

ABBYY FineReader 11

Salah satu program terbaik seumpamanya. Ia direka untuk mengenali teks dalam gambar. Banyak pilihan dan fungsi terbina dalam. Ia boleh menghuraikan sekumpulan fon, malah menyokong versi tulisan tangan (walaupun saya belum mencubanya secara peribadi, saya fikir ia tidak mungkin mengenali versi tulisan tangan dengan baik melainkan anda mempunyai tulisan kaligrafi yang sempurna). Bekerja dengannya akan diterangkan dengan lebih terperinci di bawah. Di sini kami perhatikan bahawa artikel itu akan bercakap tentang bekerja dalam versi 11 program.

Biasanya, versi berbeza ABBYY FineReader tidak begitu berbeza antara satu sama lain. Anda boleh melakukan perkara yang sama dengan mudah di tempat lain. Perbezaan utama mungkin dalam kemudahan, kelajuan program dan keupayaannya. Sebagai contoh, lebih banyak lagi versi awal PDF dan DJVU enggan membuka...

3) Dokumen untuk diimbas

Ya, begitu sahaja, saya memutuskan untuk meletakkan dokumen dalam ruangan yang berasingan. Dalam kebanyakan kes, mereka mengimbas beberapa buku teks, surat khabar, artikel, majalah, dll. Iaitu. buku dan sastera yang diminati. Di manakah saya membawa ini? daripada pengalaman peribadi Saya boleh katakan bahawa banyak perkara yang anda ingin imbas mungkin sudah ada di Internet! Berapa kali saya secara peribadi telah menjimatkan masa apabila saya mendapati buku tertentu telah diimbas dalam talian. Apa yang saya perlu lakukan ialah menyalin teks ke dalam dokumen dan terus bekerja dengannya.

Ini adalah nasihat mudah - sebelum anda mengimbas sesuatu, semak sama ada seseorang telah mengimbasnya dan anda tidak perlu membuang masa anda.

2. Pilihan pengimbasan teks

Di sini saya tidak akan bercakap tentang pemandu anda untuk pengimbas, program yang disertakan dengannya, kerana semua model pengimbas adalah berbeza, perisian juga berbeza di mana-mana, dan tidak realistik untuk meneka, apatah lagi menunjukkan dengan jelas cara melaksanakan operasi.

Tetapi semua pengimbas mempunyai tetapan yang sama, yang boleh menjejaskan kelajuan dan kualiti kerja anda. Itulah yang akan kita bincangkan di sini. Saya akan menyenaraikannya mengikut urutan.

1) Kualiti imbasan - DPI

Pertama, tetapkan kualiti pengimbasan dalam pilihan kepada sekurang-kurangnya 300 DPI. Adalah dinasihatkan untuk menetapkan lebih banyak, jika boleh. Semakin tinggi DPI, semakin jelas imej anda, dan dengan itu, semakin pantas pemprosesan selanjutnya. Di samping itu, semakin tinggi kualiti pengimbasan, semakin sedikit ralat yang perlu anda betulkan kemudian.

Pilihan optimum biasanya menyediakan 300-400 DPI.

2) Warna

Parameter ini sangat mempengaruhi masa pengimbasan (dengan cara ini, DPI juga mempengaruhi, tetapi hanya begitu banyak, dan hanya apabila pengguna menetapkan nilai tinggi).

Biasanya terdapat tiga mod:

Hitam dan putih (bagus untuk teks ringkas);

Kelabu (sesuai untuk teks dengan jadual dan gambar);

Warna (untuk majalah warna, buku, secara umum, dokumen yang warna adalah penting).

Biasanya, masa pengimbasan bergantung pada pilihan warna. Lagipun, jika dokumen anda besar, maka 5-10 saat tambahan pada halaman secara keseluruhan akan menghasilkan masa yang baik...

3) Foto

Anda boleh menerima dokumen bukan sahaja dengan mengimbas, tetapi juga dengan memotretnya. Sebagai peraturan, dalam kes ini anda akan menghadapi beberapa masalah lain: herotan gambar, kekaburan. Oleh sebab itu, penyuntingan dan pemprosesan lanjut yang lebih lama bagi teks yang dihasilkan mungkin diperlukan. Secara peribadi, saya tidak mengesyorkan menggunakan kamera untuk perkara ini.

Adalah penting untuk ambil perhatian bahawa tidak setiap dokumen sedemikian boleh diiktiraf, kerana kualiti pengimbasannya boleh menjadi sangat rendah...

3. Pengecaman teks dokumen

Selepas membuka gambar dalam ABBYY FineReader, program, sebagai peraturan, secara automatik mula menyerlahkan kawasan dan mengenalinya. Tetapi kadang-kadang dia tidak melakukannya dengan betul. Untuk tujuan ini, kami akan mempertimbangkan untuk memilih kawasan yang diperlukan secara manual.

Penting! Tidak semua orang segera memahami bahawa selepas membuka dokumen dalam program, dokumen asal dipaparkan di sebelah kiri dalam tetingkap, di mana anda memilih pelbagai kawasan. Selepas mengklik pada butang "pengiktirafan", program akan memaparkan teks siap dalam tetingkap di sebelah kanan. Selepas pengiktirafan, dengan cara ini, adalah dinasihatkan untuk menyemak teks untuk ralat dalam FineReader yang sama.

3.1 Teks

Kawasan ini digunakan untuk menyerlahkan teks. Gambar dan jadual hendaklah dikecualikan daripadanya. Fon yang jarang dan luar biasa perlu dimasukkan secara manual...

Untuk menyerlahkan kawasan teks, lihat bar di bahagian atas FineReader. Terdapat butang "T" (lihat tangkapan skrin di bawah, penunjuk tetikus berada tepat pada butang ini). Klik padanya, kemudian dalam gambar di bawah pilih kawasan segi empat tepat yang kemas di mana teks terletak. Dengan cara ini, dalam beberapa kes anda perlu membuat blok teks 2-3, dan kadang-kadang 10-12 setiap halaman, kerana... Pemformatan teks mungkin berbeza dan satu segi empat tepat tidak boleh menyerlahkan keseluruhan kawasan.

Adalah penting untuk ambil perhatian bahawa imej tidak boleh dimasukkan ke dalam kawasan teks! Ini akan menjimatkan banyak masa anda pada masa hadapan...

3.2 Gambar

Digunakan untuk menyerlahkan gambar dan kawasan yang sukar dikenali kerana kualiti yang kurang baik atau fon luar biasa.

Dalam tangkapan skrin di bawah, penuding tetikus berada pada butang yang digunakan untuk menyerlahkan kawasan "gambar". Ngomong-ngomong, anda boleh memilih mana-mana bahagian halaman dalam kawasan ini, dan FineReader kemudiannya akan memasukkannya ke dalam dokumen sebagai gambar biasa. Itu. hanya salinan "bodoh" ...

Biasanya, kawasan ini digunakan untuk menyerlahkan jadual yang diimbas dengan buruk, untuk menyerlahkan teks dan fon bukan standard, dan juga gambar.

3.3 Jadual

Tangkapan skrin di bawah menunjukkan butang untuk menyerlahkan jadual. Secara umum, saya secara peribadi menggunakannya sangat jarang. Intinya ialah anda perlu melukis secara rutin (hampir) setiap baris di atas meja dan menunjukkan apa dan bagaimana program itu. Jika meja kecil dan tidak terlalu kualiti yang baik, saya mengesyorkan menggunakan kawasan "gambar" untuk tujuan ini. Ini akan menjimatkan banyak masa anda, dan anda boleh membuat jadual dengan cepat dalam Word berdasarkan gambar.

3.4 Elemen yang tidak perlu

Adalah penting untuk diperhatikan. Kadang-kadang halaman mempunyai unsur yang tidak perlu, yang mengganggu pengecaman teks, atau malah menghalang anda daripada memilih kawasan yang dikehendaki. Mereka boleh dikeluarkan sepenuhnya menggunakan pemadam.

Untuk melakukan ini, pergi ke mod penyuntingan imej.

Pilih alat pemadam dan pilih kawasan yang tidak diperlukan. Ia akan dipadamkan dan di tempatnya akan ada sehelai kertas putih.

Dengan cara ini, saya mengesyorkan anda menggunakan pilihan ini sekerap mungkin. Cuba semua kawasan teks yang telah anda pilih di mana anda tidak memerlukan sekeping teks, atau ada mana-mana mata yang tidak perlu, kekaburan, herotan - keluarkan dengan pemadam. Terima kasih kepada ini, pengiktirafan akan menjadi lebih cepat!

4. Pengecaman fail PDF/DJVU

Secara umum, format pengiktirafan ini tidak akan berbeza dalam apa jua cara daripada yang lain - i.e. Anda boleh bekerja dengannya dengan cara yang sama seperti dengan gambar. Satu-satunya perkara ialah program itu tidak sepatutnya terlalu versi lama, jika fail PDF/DJVU tidak dibuka untuk anda, kemas kini versi kepada 11.

Sedikit nasihat. Selepas membuka dokumen dalam FineReader, ia akan mula mengenali dokumen tersebut secara automatik. Selalunya dalam fail PDF/DJVU, kawasan tertentu halaman tidak diperlukan dalam keseluruhan dokumen! Untuk mengalih keluar kawasan sedemikian pada semua halaman, lakukan perkara berikut:

1. Pergi ke bahagian penyuntingan imej.

2. Hidupkan pilihan "crop".

3. Pilih kawasan yang anda perlukan pada semua halaman.

4. Klik gunakan untuk semua halaman dan pangkas.

5. Menyemak ralat dan menyimpan hasil kerja

Nampaknya, apakah masalah lain yang mungkin ada apabila semua kawasan diserlahkan, kemudian dikenali - ambil dan simpannya... Tetapi itu tidak berlaku!

Pertama, anda perlu menyemak dokumen!

Untuk membolehkannya, selepas pengecaman, akan ada butang "semak" dalam tetingkap di sebelah kanan, lihat tangkapan skrin di bawah. Selepas mengkliknya, program FineReader secara automatik akan menunjukkan kepada anda kawasan yang terdapat ralat program dan tidak dapat mengenal pasti aksara tertentu dengan pasti. Apa yang anda perlu lakukan ialah memilih, sama ada anda bersetuju dengan pendapat program, atau masukkan simbol anda sendiri.

Ngomong-ngomong, dalam kira-kira separuh daripada kes, program ini akan menawarkan anda perkataan siap sedia - anda hanya perlu memilih pilihan yang dikehendaki dengan tetikus.

Kedua, selepas menyemak, anda perlu memilih format di mana anda akan menyimpan hasil kerja anda.

Di sini FineReader memberikan anda ringkasan tentang letupan penuh: Anda hanya boleh memindahkan maklumat ke Word satu-ke-satu, atau anda boleh menyimpannya dalam salah satu daripada berdozen format. Tetapi saya ingin menyerlahkan satu lagi aspek penting. Apa sahaja format yang anda pilih, adalah lebih penting untuk memilih jenis salinan! Mari lihat pilihan yang paling menarik...

Salinan tepat

Semua kawasan yang anda pilih pada halaman dalam dokumen yang diiktiraf akan sepadan dengan dokumen asal. sangat pilihan yang mudah, apabila penting untuk anda tidak kehilangan pemformatan teks. By the way, fon juga akan sangat serupa dengan yang asal. Dengan pilihan ini, saya syorkan untuk memindahkan dokumen ke Word untuk meneruskan kerja selanjutnya di sana.

Salinan boleh diedit

Pilihan ini bagus kerana anda akan menerima versi teks yang telah diformatkan. Itu. Anda tidak akan menemui lekukan dengan "kilometer" yang mungkin terdapat dalam dokumen asal. Pilihan yang berguna, apabila anda akan mengedit maklumat dengan ketara.

Benar, anda tidak sepatutnya memilih sama ada penting untuk anda mengekalkan gaya reka bentuk, fon dan inden. Kadangkala, jika pengecaman tidak begitu berjaya, dokumen anda mungkin menjadi "miring" disebabkan pemformatan yang diubah. Dalam kes ini, adalah dinasihatkan untuk memilih salinan yang tepat.

Teks ringkas

Pilihan untuk mereka yang hanya memerlukan teks dari halaman tanpa segala-galanya. Sesuai untuk dokumen tanpa gambar dan meja.

Ini menyimpulkan artikel mengenai pengimbasan dan pengecaman dokumen. Saya berharap dengan bantuan ini tips mudah anda boleh selesaikan masalah anda...

Pengecaman teks optik ialah proses di mana teks yang difoto atau diimbas program khas, diterjemahkan ke dalam format dokumen.

Iaitu, bukannya gambar, anda akan mempunyai teks ditaip standard yang boleh diedit.

DALAM bahan ini kami akan membincangkan program pengecaman teks mana yang lebih baik (UTITI 7 TOP diberikan di bawah).

Pilihan

Bagaimana untuk memilih yang paling banyak program yang sesuai, dan apakah ciri utama yang dimiliki oleh perisian tersebut?

Ia boleh berbeza dalam pelbagai penunjuk - ketepatan pengecaman, keupayaan untuk bekerja dengan bahasa tertentu, keupayaan untuk mengekalkan struktur asal teks, dsb.

Perisian sedemikian boleh diedarkan dengan bayaran atau percuma, dan boleh dilaksanakan dalam talian (dalam bentuk perkhidmatan khas) dan dalam bentuk program pra-pasang.

Algoritma kerja ialah untuk setiap huruf abjad pangkalan data pilihan untuk bagaimana ia boleh kelihatan dalam foto disusun, elemen utamanya diserlahkan dan disimpan. Sebaik sahaja unsur-unsur tersebut dikesan dalam foto, program mengenali huruf yang sepadan. Bergantung pada seberapa baik dan terperinci pangkalan data sedemikian disusun, kualiti pengiktirafan bahan pada akhirnya bergantung.

Oleh itu, adalah penting bahawa perisian direka untuk berfungsi secara khusus dengan bahasa Rusia (sesetengah program boleh berfungsi dengan teks yang ditulis dalam dua bahasa sekaligus, yang lain tidak boleh).

Di samping itu, sesetengah utiliti dan perkhidmatan dapat mengekalkan walaupun struktur asal teks (, senarai), jenis reka bentuknya (inden, dll.) dan sekata.

Dalam kes apakah perisian sedemikian diperlukan?

  • Apabila membuat dokumen apabila hanya versi bercetak tersedia;
  • Semasa menyusun abstrak, laporan dan keperluan untuk memetik petikan besar teks daripada buku;
  • Untuk kerja editorial, apabila teks hanya tersedia dalam format foto, dsb.

Malah, skop penggunaan perisian ini sangat luas, dan jika dipilih dengan betul, ia boleh menjadikan kerja dengan teks lebih mudah dan pantas.

Spesifikasi

Perisian ini berbeza dalam banyak cara: kaedah pelaksanaan (dalam talian atau dalam bentuk utiliti), lesen untuk digunakan (berbayar atau percuma), senarai bahasa yang diiktiraf, kualiti pengiktirafan dan banyak lagi.

Agar pengguna melakukan pilihan yang tepat secepat mungkin, jadual di bawah menunjukkan ciri-ciri utama program tersebut.

Tajuk Lesen Mengimbas Menyemak ejaan Terjemahan Memproses teks dalam editor Bekerja dengan teks tulisan tangan Bekerja dengan imej berkualiti rendah
Pembaca Baik Abbyy Berbayar, dengan percuma tempoh percubaan selama 10 hari ya ya ya sebahagiannya sebahagiannya ya
Borang OCR Cunei Secara percuma ya ya Tidak ya Tidak ya
Readiris Pro Tidak ya Tidak ya ya ya
OCR Freemore Secara percuma ya Tidak Tidak ya Tidak ya
Pembaca Petikan Skrin Abbyy Berbayar, dengan percubaan percuma 14 hari Tidak ya ya Tidak Tidak sebahagiannya
Adobe Acrobat Berbayar, dengan percubaan percuma selama 7 hari ya Tidak Tidak sebahagiannya Tidak sebahagiannya
OCR Dalam Talian Percuma Secara percuma Tidak Tidak Tidak Tidak sebahagiannya ya

Semua utiliti yang disenaraikan dalam jadual di bawah diterangkan secara terperinci, dan diletakkan dalam susunan TOP, daripada yang terbaik kepada yang paling teruk.

Pembaca Baik Abbyy

Ini adalah perisian berkualiti tinggi dan pelbagai fungsi dalam TOP ini. Dia lain ketepatan yang tinggi pengiktirafan dan mempunyai beberapa kelebihan, diedarkan dengan bayaran.

Program ini berjaya berfungsi dengan banyak bahasa; semasa pengecaman ia dapat mengekalkan struktur teks dan jenis pemformatan.

Ia bertujuan untuk profesional, oleh itu, menurut kebanyakan pengguna, ia bernilai wang.

  • Sebilangan besar bahasa yang disokong;
  • Keupayaan untuk mengekalkan gaya pemformatan dan ciri struktur dokumen dengan agak tepat;
  • Ketersediaan percuma versi Percubaan selama 10 hari;
  • Tiada pengurangan dalam kualiti kerja walaupun dengan jumlah yang besar teks (yang sering diperhatikan dalam program lain yang mengenali teks lebih teruk dan lebih teruk dengan setiap foto yang dimuat naik berikutnya, dan masalah itu dibetulkan hanya selepas dimulakan semula).

Ulasan tentang perisian ini berbeza: " Program yang bagus, banyak membantu dalam kerja”, “Tidak bernilai wang - ada juga program percuma dengan kualiti pengiktirafan yang sama."

Borang OCR Cunei

Borang OCR Cunei mungkin salah satu yang paling berfungsi dan program yang selesa, antara yang diedarkan secara percuma.

Menyediakan kualiti pengiktirafan yang agak tinggi dan berfungsi walaupun dengan gambar berkualiti rendah.

Program ini membolehkan anda mengedit foto secara langsung semasa bekerja dengannya, dan mengenali fon dan struktur dengan baik (walaupun ia tidak berfungsi dengan teks tulisan tangan).

Mampu secara langsung dan menghantarnya kepada editor di bentuk teks.

Ia mempunyai kelajuan operasi yang agak memuaskan.

  • Kekurangan penterjemah terbina dalam;
  • Tiada kualiti semakan ejaan;
  • Kurang keupayaan untuk bekerja dengan teks tulisan tangan.

Ulasan pengguna program ini adalah seperti berikut: "Perisian yang bagus", "Memandangkan program ini percuma, ia berfungsi dengan baik."

Readiris Pro

Readiris Pro adalah satu lagi perisian berbayar yang menyediakan perisian yang agak pelbagai dan kerja yang stabil mengenai pengiktirafan dan penyuntingan ujian.