Masalah terbuka dalam pengecaman pertuturan. Kuliah dalam Yandex. Ensiklopedia besar minyak dan gas

Semakan kaedah pengecaman corak sedia ada

L.P. Popova , DAN TENTANG. Datiev

Keupayaan untuk "mengiktiraf" dianggap sebagai harta utama manusia, serta organisma hidup yang lain. Pengecaman corak adalah cabang sibernetik yang membangunkan prinsip dan kaedah pengelasan, serta pengenalpastian objek, fenomena, proses, isyarat, situasi - semua objek yang boleh diterangkan oleh set terhingga beberapa tanda atau sifat yang mencirikan objek. .

Imej ialah perihalan objek. Imej mempunyai ciri ciri, yang menunjukkan dirinya dalam fakta bahawa membiasakan diri dengan bilangan fenomena terhingga dari set yang sama memungkinkan untuk mengenali seberapa banyak yang anda suka. nombor besar wakilnya.

Dalam teori pengecaman corak, dua arah utama boleh dibezakan:

    kajian kebolehan pengiktirafan yang dimiliki oleh manusia dan organisma hidup lain;

    pembangunan teori dan kaedah untuk membina peranti yang direka untuk menyelesaikan masalah individu pengecaman corak dalam kawasan aplikasi tertentu.

Selanjutnya, artikel itu menerangkan masalah, prinsip dan kaedah melaksanakan sistem pengecaman imej yang berkaitan dengan pembangunan arah kedua. Bahagian kedua artikel membincangkan kaedah rangkaian saraf pengecaman corak, yang boleh dikaitkan dengan arah pertama teori pengecaman corak.

Masalah membina sistem pengecaman imej

Cabaran yang timbul semasa pembinaan sistem automatik Pengecaman corak secara amnya boleh dikelaskan kepada beberapa bidang utama. Yang pertama adalah berkaitan dengan pembentangan data awal yang diperolehi sebagai hasil pengukuran untuk objek yang akan dikenali.Ini masalah sensitiviti. Setiap nilai yang diukur ialah beberapa "ciri imej atau objek. Mari kita anggap, sebagai contoh, imej itu adalah simbol alfanumerik. Dalam kes ini, retina pengukur, serupa dengan yang ditunjukkan dalam Rajah 1(a), boleh berjaya digunakan dalam sensor. Jika retina terdiri daripada unsur-n, maka hasil pengukuran boleh diwakili sebagai vektor ukuran atau vektor imej ,

di mana setiap elemen xi, mengambil, sebagai contoh, nilai 1 jika melalui sel ke-i retina melepasi imej simbol, dan nilainya ialah 0 sebaliknya.

Mari lihat Rajah. 2(b). Dalam kes ini, imej adalah fungsi berterusan (seperti isyarat bunyi) pembolehubah t. Jika pengukuran nilai fungsi dijalankan pada titik diskret t1,t2, ..., tn, maka vektor imej boleh dibentuk dengan mengambil x1= f(t1),x2=f(t2),... , xn = f(tn).

Rajah 1. Mengukur retina

Masalah kedua pengecaman corak adalah berkaitan dengan pemilihan ciri ciri atau sifat daripada data sumber yang diperoleh dan mengurangkan dimensi vektor imej. Masalah ini sering ditakrifkan sebagai masalah prapemprosesan dan pemilihan ciri.

Ciri kelas imej ialah sifat ciri yang biasa kepada semua imej kelas tertentu. Ciri yang mencirikan perbezaan antara kelas individu boleh ditafsirkan sebagai ciri antara kelas. Ciri-ciri intrakelas yang biasa kepada semua kelas yang sedang dipertimbangkan tidak dibawa informasi berguna dari sudut pengiktirafan dan mungkin tidak diambil kira. Pilihan ciri dianggap sebagai salah satu daripada tugas penting berkaitan dengan pembinaan sistem pengecaman. Jika hasil pengukuran membolehkan kami memperoleh set lengkap ciri tersendiri untuk semua kelas, pengecaman dan pengelasan imej sebenar tidak akan menyebabkan sebarang kesulitan tertentu. Pengecaman automatik kemudiannya akan dikurangkan kepada proses pemadanan yang mudah atau prosedur seperti pengimbasan jadual. Dalam majoriti masalah praktikal pengiktirafan, bagaimanapun, definisi set penuh ciri membezakan ternyata sangat sukar, jika tidak mustahil. Biasanya mungkin untuk mengekstrak beberapa ciri yang membezakan daripada data mentah dan menggunakannya untuk memudahkan proses pengecaman automatik imej Khususnya, dimensi vektor pengukuran boleh dikurangkan menggunakan transformasi yang meminimumkan kehilangan maklumat.

Masalah ketiga yang berkaitan dengan pembinaan sistem pengecaman corak ialah mencari prosedur keputusan optimum yang diperlukan untuk pengenalpastian dan pengelasan. Selepas data yang dikumpul tentang imej yang akan dikenali diwakili oleh titik atau vektor ukuran dalam ruang imej, kami membiarkan mesin memikirkan kelas imej yang mana data ini sepadan. Biarkan mesin direka bentuk untuk membezakan kelas M, dilambangkan w1, w2, ... ..., wm. Dalam kes ini, ruang imej boleh dianggap terdiri daripada kawasan M, setiap satunya mengandungi titik yang sepadan dengan imej dari satu kelas. Dalam kes ini, tugas pengiktirafan boleh dianggap sebagai membina sempadan kawasan keputusan yang memisahkan kelas M berdasarkan vektor ukuran berdaftar. Biarkan sempadan ini ditakrifkan, sebagai contoh, oleh fungsi keputusan d1(x), d2(x),..., dm(x). Fungsi ini, juga dipanggil fungsi diskriminasi, ialah fungsi skalar dan nilai tunggal bagi imej x. Jika di (x) > dj (x), maka imej x tergolong dalam kelas w1. Dengan kata lain, jika ke-i penentu fungsi di(x) mempunyai nilai tertinggi, kemudian ilustrasi yang bermakna bagi skema sedemikian pengelasan automatik, berdasarkan pelaksanaan proses membuat keputusan, ditunjukkan dalam Rajah. 2 (dalam rajah "GR" - penjana fungsi penentu).

Rajah 2. Skim pengelasan automatik.

Fungsi penentu boleh diperolehi dalam beberapa cara. Dalam kes di mana terdapat maklumat apriori yang lengkap mengenai imej yang diiktiraf, fungsi keputusan boleh ditentukan dengan tepat berdasarkan maklumat ini. Jika hanya maklumat kualitatif yang tersedia mengenai imej, andaian munasabah boleh dibuat tentang bentuk fungsi penentu. Dalam kes kedua, sempadan kawasan penyelesaian mungkin menyimpang dengan ketara daripada yang sebenar, dan oleh itu adalah perlu untuk mencipta sistem yang mampu mencapai hasil yang memuaskan melalui satu siri pelarasan berturut-turut.

Objek (imej) yang ingin dikenali dan dikelaskan menggunakan sistem pengecaman corak automatik mesti mempunyai satu set ciri yang boleh diukur. Apabila untuk keseluruhan kumpulan imej hasil ukuran yang sepadan ternyata serupa, objek ini dianggap tergolong dalam kelas yang sama. Tujuan sistem pengecaman corak adalah untuk, berdasarkan maklumat yang dikumpul, menentukan kelas objek dengan ciri yang serupa dengan yang diukur dalam objek yang dikenali. Ketepatan pengecaman bergantung pada jumlah maklumat diskriminasi yang terkandung dalam ciri yang diukur dan keberkesanan penggunaan maklumat ini.

      Kaedah asas untuk melaksanakan sistem pengecaman corak

Pengecaman corak merujuk kepada masalah membina dan menggunakan operasi formal pada perwakilan berangka atau simbolik objek dalam dunia sebenar atau ideal, yang hasilnya mencerminkan hubungan kesetaraan antara objek ini. Hubungan kesetaraan menyatakan kepunyaan objek yang dinilai kepada mana-mana kelas, dianggap sebagai unit semantik bebas.

Apabila membina algoritma pengecaman, kelas kesetaraan boleh ditentukan oleh penyelidik yang menggunakan perwakilan bermaknanya sendiri atau menggunakan luaran Maklumat tambahan tentang persamaan dan perbezaan objek dalam konteks masalah yang diselesaikan. Kemudian mereka bercakap tentang "pengiktirafan dengan seorang guru." Jika tidak, i.e. Bila sistem automatik menyelesaikan masalah pengelasan tanpa menggunakan maklumat latihan luaran, mereka bercakap tentang pengelasan automatik atau "pengiktirafan tanpa pengawasan". Kebanyakan algoritma pengecaman imej memerlukan sangat penting kuasa pengkomputeran, yang hanya boleh disediakan oleh teknologi komputer berprestasi tinggi.

Pelbagai pengarang (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V., R. Gonzalez, P. Winston, K. Fu, Ya.Z. Tsypkin, dll.) memberikan tipologi kaedah pengecaman corak yang berbeza. Sesetengah pengarang membezakan antara kaedah parametrik, bukan parametrik dan heuristik, yang lain mengenal pasti kumpulan kaedah berdasarkan sekolah yang ditubuhkan secara sejarah dan trend dalam bidang ini.

Pada masa yang sama, tipologi yang diketahui tidak mengambil kira satu ciri yang sangat penting, yang mencerminkan kekhususan cara penyampaian pengetahuan tentang bidang subjek dengan bantuan mana-mana algoritma formal pengecaman corak. D.A. Pospelov mengenal pasti dua cara utama untuk menyampaikan pengetahuan:

    Perwakilan Intensional - dalam bentuk gambar rajah perkaitan antara atribut (ciri).

    Perwakilan lanjutan - menggunakan fakta khusus (objek, contoh).

Perlu diingatkan bahawa kewujudan tepat dua kumpulan kaedah pengecaman ini: yang beroperasi dengan tanda dan yang beroperasi dengan objek, adalah sangat semula jadi. Dari sudut pandangan ini, tiada satu pun daripada kaedah ini, diambil secara berasingan daripada yang lain, membolehkan kita membentuk refleksi yang mencukupi bagi kawasan subjek. Di antara kaedah ini terdapat hubungan saling melengkapi dalam erti kata N. Bohr, oleh itu, sistem pengiktirafan yang menjanjikan harus menyediakan pelaksanaan kedua-dua kaedah ini, dan bukan hanya salah satu daripadanya.

Oleh itu, klasifikasi kaedah pengiktirafan yang dicadangkan oleh D.A. Pospelov adalah berdasarkan corak asas yang mendasari cara kognisi manusia secara umum, yang meletakkannya dalam kedudukan yang benar-benar istimewa (terutama) berbanding dengan klasifikasi lain, yang terhadap latar belakang ini kelihatan lebih ringan dan tiruan.

Kaedah bersungguh-sungguh

Ciri tersendiri kaedah intensi ialah mereka menggunakan elemen operasi semasa membina dan menggunakan algoritma pengecaman corak. pelbagai ciri tanda dan kaitannya. Elemen tersebut boleh menjadi nilai individu atau selang nilai ciri, nilai purata dan varians, matriks hubungan ciri, dsb., di mana tindakan dilakukan, dinyatakan dalam bentuk analitikal atau konstruktif. Pada masa yang sama, objek dalam kaedah ini tidak dianggap sebagai unit maklumat penting, tetapi bertindak sebagai penunjuk untuk menilai interaksi dan tingkah laku atribut mereka.

Kumpulan kaedah intensional untuk pengecaman corak adalah luas, dan pembahagiannya kepada subkelas pada tahap tertentu bersyarat:

– kaedah berdasarkan anggaran ketumpatan taburan nilai ciri

– kaedah berdasarkan andaian tentang kelas fungsi keputusan

– kaedah logik

– kaedah linguistik (struktural).

Kaedah berdasarkan anggaran ketumpatan taburan nilai ciri. Kaedah pengecaman corak ini dipinjam daripada teori klasik keputusan statistik, di mana objek kajian dianggap sebagai pelaksanaan multidimensi. pembolehubah rawak, diedarkan dalam ruang ciri mengikut beberapa undang-undang. Ia adalah berdasarkan skim membuat keputusan Bayesian yang merayu kepada kebarangkalian priori objek kepunyaan kelas tertentu yang diiktiraf dan ketumpatan pengedaran bersyarat bagi nilai vektor ciri. Kaedah ini bermula untuk menentukan nisbah kebarangkalian dalam pelbagai bidang ruang ciri berbilang dimensi.

Sekumpulan kaedah berdasarkan anggaran ketumpatan taburan nilai ciri secara langsung berkaitan dengan kaedah analisis diskriminasi. Pendekatan Bayesian untuk membuat keputusan adalah salah satu kaedah parametrik yang paling banyak dibangunkan dalam statistik moden, yang mana ungkapan analitik undang-undang pengedaran dianggap diketahui (dalam dalam kes ini hukum biasa) dan hanya sebilangan kecil parameter (vektor min dan matriks kovarians) perlu dianggarkan.

Kumpulan ini juga termasuk kaedah pengiraan nisbah kemungkinan untuk ciri bebas. Kaedah ini, dengan pengecualian andaian kebebasan ciri-ciri (yang pada hakikatnya hampir tidak pernah berpuas hati), tidak mengandaikan pengetahuan jenis berfungsi undang-undang pengedaran. Ia boleh dikelaskan sebagai kaedah bukan parametrik.

Kaedah bukan parametrik lain, digunakan apabila bentuk lengkung ketumpatan taburan tidak diketahui dan tiada andaian tentang sifatnya boleh dibuat sama sekali, menduduki kedudukan istimewa. Ini termasuk kaedah histogram berbilang dimensi yang terkenal, kaedah "jiran terhampir k", kaedah jarak Euclidean, kaedah fungsi berpotensi, dsb., generalisasi yang merupakan kaedah yang dipanggil "anggaran Parzen". Kaedah ini secara rasmi beroperasi dengan objek sebagai struktur integral, tetapi bergantung pada jenis tugas pengecaman, mereka boleh bertindak dalam kedua-dua bentuk intensional dan lanjutan.

Kaedah bukan parametrik menganalisis bilangan relatif objek yang jatuh ke dalam jumlah dan penggunaan berbilang dimensi yang diberikan pelbagai fungsi jarak antara objek sampel latihan dan objek yang dikenali. Untuk ciri kuantitatif, apabila bilangannya jauh lebih kecil daripada saiz sampel, operasi dengan objek memainkan peranan perantaraan dalam menganggar ketumpatan taburan tempatan bagi kebarangkalian bersyarat dan objek tidak membawa beban semantik unit maklumat bebas. Pada masa yang sama, apabila bilangan tanda adalah sepadan atau lebih banyak nombor daripada objek yang dikaji, dan tanda-tandanya adalah bersifat kualitatif atau dikotomi, maka tidak boleh diperkatakan tentang sebarang anggaran tempatan ketumpatan taburan kebarangkalian. Dalam kes ini, objek dalam kaedah bukan parametrik yang ditentukan dianggap sebagai unit maklumat bebas (fakta empirikal bersepadu) dan kaedah ini memperoleh makna menilai persamaan dan perbezaan objek yang dikaji.

Oleh itu, operasi teknologi yang sama bagi kaedah bukan parametrik, bergantung pada keadaan masalah, memahami sama ada anggaran tempatan ketumpatan taburan kebarangkalian nilai ciri, atau anggaran persamaan dan perbezaan objek.

Dalam konteks perwakilan intensif pengetahuan, bahagian pertama kaedah bukan parametrik, sebagai anggaran kepadatan taburan kebarangkalian, dipertimbangkan di sini. Ramai pengarang ambil perhatian bahawa dalam amalan, kaedah bukan parametrik seperti penganggar Parzen berfungsi dengan baik. Kesukaran utama dalam menggunakan kaedah ini adalah keperluan untuk mengingati keseluruhan sampel latihan untuk mengira anggaran kepadatan taburan kebarangkalian tempatan dan kepekaan yang tinggi terhadap ketidakwakilan sampel latihan.

Kaedah berdasarkan andaian tentang kelas fungsi keputusan. Dalam kumpulan kaedah ini, bentuk umum fungsi keputusan dianggap diketahui dan fungsi kualitinya ditentukan. Berdasarkan fungsi ini, anggaran terbaik bagi fungsi keputusan dicari dalam urutan latihan. Yang paling biasa ialah perwakilan fungsi keputusan dalam bentuk polinomial tak linear linear dan umum. Fungsi kualiti peraturan keputusan biasanya dikaitkan dengan ralat klasifikasi.

Kelebihan utama kaedah berdasarkan andaian tentang kelas fungsi keputusan ialah kejelasan rumusan matematik masalah pengecaman sebagai masalah mencari ekstrem. Penyelesaian kepada masalah ini sering dicapai menggunakan beberapa algoritma kecerunan. Kepelbagaian kaedah dalam kumpulan ini dijelaskan oleh pelbagai fungsi kualiti peraturan keputusan dan algoritma carian melampau yang digunakan. Generalisasi algoritma yang sedang dipertimbangkan, yang termasuk, khususnya, algoritma Newton, algoritma jenis perceptron, dsb., ialah kaedah penghampiran stokastik. Berbeza dengan kaedah pengecaman parametrik, kejayaan menggunakan kumpulan kaedah ini tidak begitu bergantung kepada percanggahan antara idea teori tentang hukum pengedaran objek dalam ruang ciri dan realiti empirikal. Semua operasi tertakluk kepada satu matlamat utama - mencari keterlaluan fungsi kualiti peraturan keputusan. Pada masa yang sama, keputusan parametrik dan kaedah yang dipertimbangkan mungkin serupa. Seperti yang ditunjukkan di atas, kaedah parametrik untuk kes itu taburan normal objek dalam kelas yang berbeza dengan matriks kovarians yang sama membawa kepada fungsi keputusan linear. Ambil perhatian juga bahawa algoritma untuk memilih ciri bermaklumat dalam model diagnostik linear boleh ditafsirkan sebagai versi khas algoritma kecerunan untuk mencari extremum.

Keupayaan algoritma carian ekstrem kecerunan, terutamanya dalam kumpulan peraturan keputusan linear, telah dikaji dengan cukup baik. Konvergensi algoritma ini telah dibuktikan hanya untuk kes apabila kelas objek yang diiktiraf dipaparkan dalam ruang ciri oleh struktur geometri padat. Walau bagaimanapun, keinginan untuk mencapai kualiti peraturan keputusan yang mencukupi selalunya boleh dipenuhi dengan bantuan algoritma yang tidak mempunyai bukti matematik yang ketat tentang penumpuan penyelesaian kepada ekstrem global.

Algoritma sedemikian termasuk kumpulan besar prosedur pengaturcaraan heuristik yang mewakili arah pemodelan evolusi. Pemodelan evolusi ialah kaedah bionik yang dipinjam daripada alam semula jadi. Ia berdasarkan penggunaan mekanisme evolusi yang diketahui untuk menggantikan proses pemodelan bermakna objek kompleks dengan pemodelan fenomenologi evolusinya.

Wakil terkenal pemodelan evolusi dalam pengecaman corak ialah kaedah perakaunan kumpulan hujah (MGUA). Asas GMDH ialah prinsip penyusunan diri, dan algoritma GMDH menghasilkan semula skema pemilihan jisim. Dalam algoritma GMDH, ahli polinomial umum disintesis dan dipilih dengan cara yang istimewa, yang sering dipanggil polinomial Kolmogorov-Gabor. Sintesis dan pemilihan ini dijalankan dengan kerumitan yang semakin meningkat, dan adalah mustahil untuk meramalkan terlebih dahulu bentuk akhir polinomial umum. Pertama, kombinasi mudah berpasangan ciri awal biasanya dipertimbangkan, dari mana persamaan fungsi keputusan disusun, biasanya tidak lebih tinggi daripada tertib kedua. Setiap persamaan dianalisis sebagai fungsi keputusan bebas, dan nilai parameter persamaan yang disusun didapati dalam satu cara atau yang lain menggunakan sampel latihan. Kemudian, daripada set fungsi keputusan yang terhasil, beberapa yang terbaik dipilih. Kualiti fungsi keputusan individu disemak pada sampel kawalan (pengesahan), yang kadangkala dipanggil prinsip penambahan luaran. Fungsi keputusan separa terpilih dianggap selanjutnya sebagai pembolehubah perantaraan yang berfungsi sebagai hujah awal untuk sintesis serupa bagi fungsi keputusan baharu, dsb. Proses sintesis hierarki sedemikian berterusan sehingga melampau kriteria kualiti fungsi keputusan dicapai, yang dalam amalan dimanifestasikan dalam kemerosotan kualiti ini apabila cuba meningkatkan lagi susunan istilah polinomial berbanding ciri asal.

Prinsip organisasi diri yang mendasari GMDH dipanggil organisasi kendiri heuristik, kerana keseluruhan proses adalah berdasarkan pengenalan tambahan luaran, dipilih secara heuristik. Hasil keputusan mungkin bergantung secara ketara pada heuristik ini. Model diagnostik yang terhasil bergantung pada cara objek dibahagikan kepada sampel latihan dan ujian, cara kriteria kualiti pengecaman ditentukan, bilangan pembolehubah yang dihantar ke baris pemilihan seterusnya, dsb.

Ciri-ciri algoritma GMDH yang ditunjukkan juga merupakan ciri pendekatan lain untuk pemodelan evolusi. Tetapi mari kita perhatikan di sini satu lagi aspek kaedah yang sedang dipertimbangkan. Inilah intipati mereka yang bermakna. Menggunakan kaedah berdasarkan andaian tentang kelas fungsi keputusan (evolusi dan kecerunan), adalah mungkin untuk membina model diagnostik kerumitan tinggi dan memperoleh hasil yang boleh diterima secara praktikal. Pada masa yang sama, pencapaian matlamat praktikal dalam kes ini tidak disertai dengan pengekstrakan pengetahuan baru tentang sifat objek yang diiktiraf. Kemungkinan untuk mengekstrak pengetahuan ini, khususnya pengetahuan tentang mekanisme interaksi atribut (ciri), di sini pada asasnya dihadkan oleh struktur interaksi sedemikian, ditetapkan dalam bentuk fungsi keputusan yang dipilih. Oleh itu, perkara yang paling boleh dikatakan selepas membina model diagnostik tertentu ialah menyenaraikan gabungan ciri dan ciri itu sendiri termasuk dalam model yang dihasilkan. Tetapi makna gabungan mencerminkan sifat dan struktur taburan objek yang dikaji, dalam pendekatan ini selalunya tidak didedahkan.

Kaedah Boolean. Kaedah logik pengecaman corak adalah berdasarkan radas algebra logik dan membolehkan seseorang beroperasi dengan maklumat yang terkandung bukan sahaja dalam ciri individu, tetapi juga dalam gabungan nilai ciri. Dalam kaedah ini, nilai mana-mana atribut dianggap sebagai peristiwa asas.

Dalam bentuk yang paling umum, kaedah logik boleh dicirikan sebagai jenis carian melalui sampel latihan pola logik dan pembentukan sistem peraturan keputusan logik tertentu (contohnya, dalam bentuk kata hubung peristiwa asas), setiap yang mempunyai berat sendiri. Kumpulan kaedah logik adalah pelbagai dan termasuk kaedah kerumitan dan kedalaman analisis yang berbeza-beza. Untuk ciri dikotomi (Boolean), apa yang dipanggil pengelas seperti pokok, kaedah ujian buntu, algoritma "Bark" dan lain-lain adalah popular. Lagi kaedah yang kompleks adalah berdasarkan pemformalan kaedah induktif D.S. Mill. Pemformalan dijalankan dengan membina teori kuasi-aksiomatik dan berdasarkan logik pelbagai nilai pelbagai dengan pengkuantiti atas tupel panjang berubah-ubah.

Algoritma "Kora", seperti kaedah logik pengecaman corak lain, agak intensif buruh, kerana carian lengkap diperlukan apabila memilih kata hubung. Oleh itu, apabila menggunakan kaedah logik, keperluan yang tinggi kepada organisasi yang berkesan proses pengkomputeran, dan kaedah ini berfungsi dengan baik untuk dimensi ruang ciri yang agak kecil dan hanya pada komputer berkuasa.

Kaedah linguistik (sintaktik atau struktur). Kaedah linguistik pengecaman corak adalah berdasarkan penggunaan tatabahasa khas yang menjana bahasa, dengan bantuan yang satu set sifat objek yang diiktiraf dapat diterangkan. Tatabahasa merujuk kepada peraturan untuk membina objek daripada unsur bukan terbitan ini.

Jika penerangan imej dibuat menggunakan unsur bukan terbitan (sub-imej) dan hubungannya, maka linguistik atau pendekatan sintaksis menggunakan prinsip keumuman sifat. Imej boleh diterangkan menggunakan struktur hierarki subimej, serupa dengan struktur sintaksis bahasa. Keadaan ini memungkinkan untuk mengaplikasikan teori bahasa formal. Tatabahasa imej diandaikan mengandungi set unsur terhingga yang dipanggil pembolehubah, unsur bukan terbitan dan peraturan penggantian. Sifat peraturan penggantian menentukan jenis tatabahasa. Antara tatabahasa yang paling dikaji kita boleh perhatikan tetap, tanpa konteks dan tatabahasa komponen langsung. Perkara utama daripada pendekatan ini ialah pemilihan elemen bukan terbitan imej, gabungan unsur-unsur ini dan perhubungan yang menghubungkannya ke dalam tatabahasa imej dan, akhirnya, pelaksanaan proses analisis dan pengecaman dalam bahasa yang sesuai. Pendekatan ini amat berguna apabila bekerja dengan imej yang sama ada tidak boleh diterangkan dengan ukuran berangka atau terlalu kompleks sehingga ciri setempatnya tidak dapat dikenal pasti dan seseorang perlu beralih kepada sifat global objek.

Contohnya, E.A. Butakov, V.I. Ostrovsky, I.L. Fadeev ditawarkan struktur berikut sistem untuk pemprosesan imej (Rajah 3), menggunakan pendekatan linguistik, di mana setiap blok berfungsi adalah kompleks (modul) perisian (program mikro) yang melaksanakan fungsi yang sepadan.

Rajah 3. Skim struktur peranti pengecaman

Percubaan untuk menggunakan kaedah linguistik matematik kepada masalah analisis imej membawa kepada keperluan untuk menyelesaikan beberapa masalah yang berkaitan dengan pemetaan struktur dua dimensi imej ke rantai satu dimensi bahasa formal.

Kaedah lanjutan

Dalam kaedah kumpulan ini, berbeza dengan arah intensional, setiap objek yang dikaji, pada tahap yang lebih besar atau lebih kecil, diberi kepentingan diagnostik bebas. Pada teras mereka, kaedah ini hampir dengan pendekatan klinikal, yang menganggap orang bukan sebagai rantaian objek yang disenaraikan oleh satu penunjuk atau yang lain, tetapi sebagai sistem integral, setiap satunya adalah individu dan mempunyai nilai diagnostik khas. Sikap berhati-hati sedemikian terhadap objek penyelidikan tidak membenarkan mengecualikan atau kehilangan maklumat tentang setiap objek individu, yang berlaku apabila menggunakan kaedah arah intensi yang menggunakan objek hanya untuk mengesan dan merekodkan corak tingkah laku atribut mereka.

Operasi utama dalam pengecaman corak menggunakan kaedah yang dibincangkan ialah operasi menentukan persamaan dan perbezaan objek. Objek dalam kumpulan kaedah yang ditentukan memainkan peranan sebagai preseden diagnostik. Namun, bergantung kepada keadaan tugas tertentu peranan preseden individu boleh berbeza-beza secara meluas: daripada peranan utama dan penentu kepada penyertaan yang sangat tidak langsung dalam proses pengiktirafan. Sebaliknya, keadaan masalah mungkin memerlukan penyertaan daripada pelbagai kuantiti preseden diagnostik: daripada satu dalam setiap kelas yang diiktiraf kepada saiz sampel penuh, serta cara yang berbeza mengira ukuran persamaan dan perbezaan antara objek. Keperluan ini menerangkan pembahagian kaedah lanjutan ke dalam subkelas:

    kaedah perbandingan dengan prototaip;

    kaedah k-jiran terdekat;

    kolektif peraturan keputusan.

Kaedah perbandingan dengan prototaip. Ini ialah kaedah pengecaman lanjutan yang paling mudah. Ia digunakan, sebagai contoh, apabila kelas yang diiktiraf dipaparkan dalam ruang ciri oleh kumpulan geometri padat. Dalam kes ini, biasanya pusat kumpulan geometri kelas (atau objek yang paling hampir dengan pusat) dipilih sebagai titik prototaip.

Untuk mengklasifikasikan objek yang tidak diketahui, prototaip yang paling hampir dengannya ditemui, dan objek itu tergolong dalam kelas yang sama dengan prototaip ini. Jelas sekali, tiada imej kelas umum dihasilkan dalam kaedah ini.

Pelbagai jenis jarak boleh digunakan sebagai ukuran kedekatan. Selalunya, untuk ciri dikotomi, jarak Hamming digunakan, yang dalam kes ini adalah sama dengan kuasa dua jarak Euclidean. Dalam kes ini, peraturan keputusan untuk mengelaskan objek adalah bersamaan dengan fungsi keputusan linear.

Fakta ini perlu diberi perhatian khusus. Ia jelas menunjukkan hubungan antara prototaip dan perwakilan atribut maklumat tentang struktur data. Menggunakan perwakilan di atas, anda boleh, sebagai contoh, mana-mana skala pengukur tradisional, iaitu fungsi linear daripada makna ciri dikotomi, dianggap sebagai prototaip diagnostik hipotesis. Sebaliknya, jika analisis struktur spatial kelas yang diiktiraf membolehkan kita membuat kesimpulan tentang kekompakan geometri mereka, maka sudah cukup untuk menggantikan setiap kelas ini dengan satu prototaip, yang sebenarnya bersamaan dengan model diagnostik linear.

Dalam amalan, sudah tentu, keadaan sering berbeza daripada contoh ideal yang diterangkan. Seorang penyelidik yang berhasrat untuk menggunakan kaedah pengecaman berdasarkan perbandingan dengan kelas diagnostik prototaip menghadapi masalah yang sukar. Ini adalah, pertama sekali, pilihan ukuran kedekatan (metrik), yang boleh mengubah konfigurasi spatial pengedaran objek dengan ketara. Dan, kedua, masalah bebas ialah analisis struktur multidimensi data eksperimen. Kedua-dua masalah ini amat akut bagi penyelidik dalam keadaan dimensi ruang ciri yang tinggi, ciri-ciri masalah sebenar.

Kaedah k-jiran terdekat. Kaedah k-nerest neighbors untuk menyelesaikan masalah analisis diskriminasi pertama kali dicadangkan pada tahun 1952. Ia adalah seperti berikut.

Apabila mengelaskan objek yang tidak diketahui, seseorang mendapati nombor yang diberi(k) secara geometri paling hampir dengannya dalam ruang ciri objek lain (jiran terdekat) dengan keahlian yang sudah diketahui dalam kelas yang boleh dikenali. Keputusan untuk menetapkan objek yang tidak diketahui kepada kelas diagnostik tertentu dibuat dengan menganalisis maklumat tentang gabungan diketahui jiran terdekatnya, contohnya, menggunakan kiraan undian yang mudah.

Pada mulanya, kaedah jiran terhampir k dianggap sebagai kaedah bukan parametrik untuk menganggar nisbah kemungkinan. Untuk kaedah ini, anggaran teori keberkesanannya diperolehi berbanding dengan pengelas Bayesian yang optimum. Telah terbukti bahawa kebarangkalian ralat asimptotik untuk kaedah jiran terhampir k melebihi ralat peraturan Bayes tidak lebih daripada dua kali.

Seperti yang dinyatakan di atas, dalam masalah sebenar selalunya perlu untuk beroperasi dengan objek yang diterangkan jumlah yang besar ciri kualitatif (dikotomi). Dalam kes ini, dimensi ruang ciri adalah sepadan dengan atau melebihi volum sampel yang dikaji. Dalam keadaan sedemikian, adalah mudah untuk mentafsir setiap objek sampel latihan sebagai pengelas linear yang berasingan. Kemudian kelas diagnostik ini atau itu diwakili bukan oleh satu prototaip, tetapi oleh satu set pengelas linear. Interaksi gabungan pengelas linear akhirnya menghasilkan permukaan linear sekeping yang memisahkan kelas yang diiktiraf dalam ruang ciri. Jenis permukaan pembahagi, yang terdiri daripada kepingan hyperplanes, boleh diubah dan bergantung pada kedudukan relatif agregat terkelas.

Satu lagi tafsiran mekanisme pengelasan menggunakan peraturan jiran terdekat k juga boleh digunakan. Ia berdasarkan idea kewujudan beberapa pembolehubah terpendam, abstrak atau berkaitan dengan beberapa transformasi kepada ruang ciri asal. Jika dalam ruang pembolehubah terpendam, jarak berpasangan antara objek adalah sama seperti dalam ruang ciri asal, dan bilangan pembolehubah ini jauh lebih kecil daripada bilangan objek, maka tafsiran kaedah k-newest jiran boleh dipertimbangkan dari sudut membandingkan anggaran bukan parametrik bagi ketumpatan taburan kebarangkalian bersyarat. Pandangan pembolehubah terpendam yang dibentangkan di sini adalah dekat dengan pandangan dimensi sebenar dan pandangan lain yang digunakan dalam pelbagai teknik pengurangan dimensi.

Apabila menggunakan kaedah k-nerest neighbors untuk pengecaman corak, pengkaji perlu membuat keputusan masalah yang kompleks memilih metrik untuk menentukan kehampiran objek yang didiagnosis. Masalah ini dalam keadaan ruang ciri berdimensi tinggi adalah sangat teruk kerana kerumitan kaedah ini yang mencukupi, yang menjadi ketara walaupun untuk komputer berprestasi tinggi. Oleh itu, di sini, sama seperti dalam kaedah perbandingan dengan prototaip, adalah perlu untuk menyelesaikan masalah kreatif menganalisis struktur multidimensi data eksperimen untuk meminimumkan bilangan objek yang mewakili kelas diagnostik.

Algoritma untuk mengira rating (mengundi). Prinsip operasi algoritma pengiraan penilaian (ABO) adalah untuk mengira keutamaan (skor persamaan) yang mencirikan "kehampiran" objek yang diiktiraf dan rujukan mengikut sistem ensembel ciri, yang merupakan sistem subset bagi set ciri tertentu. .

Tidak seperti semua kaedah yang dibincangkan sebelum ini, algoritma untuk mengira anggaran beroperasi dengan penerangan objek dengan cara yang asasnya baharu. Untuk algoritma ini, objek wujud serentak dalam subruang yang sangat berbeza bagi ruang ciri. Kelas ABO mengambil idea menggunakan ciri kepada kesimpulan logiknya: kerana tidak selalu diketahui gabungan ciri mana yang paling bermaklumat, maka dalam ABO tahap persamaan objek dikira dengan membandingkan semua kombinasi yang mungkin atau khusus bagi ciri-ciri yang termasuk dalam huraian objek.

Kolektif peraturan keputusan. Peraturan keputusan menggunakan skim pengecaman dua peringkat. Pada peringkat pertama, algoritma pengecaman peribadi beroperasi, hasilnya digabungkan pada tahap kedua dalam blok sintesis. Kaedah penyatuan yang paling biasa adalah berdasarkan mengenal pasti bidang kecekapan algoritma tertentu. Cara paling mudah mencari bidang kecekapan terdiri daripada pembahagian a priori bagi ruang atribut berdasarkan pertimbangan profesional sains tertentu (contohnya, stratifikasi sampel mengikut atribut tertentu). Kemudian, untuk setiap kawasan yang dipilih, algoritma pengecamannya sendiri dibina. Kaedah lain adalah berdasarkan penggunaan analisis formal untuk menentukan kawasan tempatan ruang ciri sebagai kejiranan objek yang diiktiraf yang mana kejayaan algoritma pengecaman tertentu telah terbukti.

Pendekatan paling umum untuk membina blok sintesis menganggap penunjuk yang terhasil bagi algoritma tertentu sebagai ciri awal untuk membina peraturan keputusan umum yang baharu. Dalam kes ini, semua kaedah arah intensional dan lanjutan di atas dalam pengecaman corak boleh digunakan. Berkesan untuk menyelesaikan masalah mencipta satu set peraturan keputusan adalah algoritma logik jenis "Kora" dan algoritma untuk mengira anggaran (ABO), yang membentuk asas kepada pendekatan algebra yang dipanggil, yang menyediakan kajian dan penerangan konstruktif tentang algoritma pengecaman, dalam rangka kerja yang sesuai dengan semua jenis algoritma sedia ada.

Kaedah rangkaian saraf

Kaedah rangkaian saraf adalah kaedah berdasarkan aplikasi pelbagai jenis rangkaian saraf (NN). Bidang utama penggunaan pelbagai rangkaian saraf untuk pengecaman corak dan imej:

    permohonan untuk pengekstrakan ciri utama atau tanda-tanda imej yang diberikan,

    klasifikasi imej itu sendiri atau ciri yang telah diekstrak daripadanya (dalam kes pertama, pengekstrakan ciri utama berlaku secara tersirat dalam rangkaian),

    menyelesaikan masalah pengoptimuman.

Rangkaian saraf berbilang lapisan. Seni bina rangkaian saraf berbilang lapisan (MNN) terdiri daripada lapisan yang disambung secara berurutan, di mana neuron setiap lapisan disambungkan dengan inputnya kepada semua neuron lapisan sebelumnya, dan output yang seterusnya.

Aplikasi paling mudah bagi rangkaian neural satu lapisan (dipanggil memori auto-asosiatif) adalah untuk melatih rangkaian untuk membina semula imej suapan. Dengan memberi imej ujian sebagai input dan mengira kualiti imej yang dibina semula, anda boleh menilai sejauh mana rangkaian mengenali imej input. Sifat positif kaedah ini ialah rangkaian boleh memulihkan imej yang herot dan bising, tetapi ia tidak sesuai untuk tujuan yang lebih serius.

MNN juga digunakan untuk klasifikasi imej langsung - sama ada imej itu sendiri dalam beberapa bentuk atau satu set ciri utama imej yang diekstrak sebelum ini dibekalkan sebagai input; pada output, neuron dengan aktiviti maksimum menunjukkan keahlian dalam kelas yang diiktiraf (Rajah 1). 4). Jika aktiviti ini berada di bawah ambang tertentu, maka ia dianggap bahawa imej yang diserahkan bukan milik mana-mana kelas yang diketahui. Proses pembelajaran menetapkan kesesuaian imej yang dibekalkan kepada input dengan kepunyaan kelas tertentu. Ini dipanggil pembelajaran terselia. Pendekatan ini bagus untuk tugas kawalan akses sekumpulan kecil orang. Pendekatan ini memastikan bahawa rangkaian secara langsung membandingkan imej itu sendiri, tetapi dengan peningkatan dalam bilangan kelas, latihan dan masa operasi rangkaian meningkat secara eksponen. Oleh itu, untuk tugasan seperti mencari orang yang serupa dalam pangkalan data yang besar, memerlukan pengekstrakan set ciri utama yang padat untuk dicari.

Pendekatan pengelasan menggunakan ciri frekuensi keseluruhan imej, diterangkan dalam . Rangkaian saraf satu lapisan berdasarkan neuron berbilang nilai telah digunakan.

Aplikasi rangkaian neural untuk klasifikasi imej ditunjukkan apabila input rangkaian menerima hasil penguraian imej menggunakan kaedah komponen utama.

Dalam MNN klasik, sambungan saraf interlayer disambungkan sepenuhnya, dan imej diwakili sebagai vektor satu dimensi, walaupun ia adalah dua dimensi. Seni bina rangkaian neural convolutional bertujuan untuk mengatasi kelemahan ini. Ia menggunakan medan reseptor tempatan (menyediakan sambungan neuron dua dimensi tempatan), pemberat global (menyediakan pengesanan ciri tertentu di mana-mana dalam imej) dan organisasi hierarki dengan subsampel spatial. Rangkaian saraf konvolusional (CNN) memberikan rintangan separa terhadap perubahan skala, anjakan, putaran dan herotan.

MNN juga digunakan untuk mengesan objek daripada jenis tertentu. Selain fakta bahawa mana-mana MNN terlatih boleh, sedikit sebanyak, menentukan sama ada imej tergolong dalam kelas "mereka", ia boleh dilatih khas untuk mengesan kelas tertentu dengan pasti. Dalam kes ini, kelas output akan menjadi kelas yang tergolong dan bukan milik jenis imej yang diberikan. Pengesan rangkaian saraf digunakan untuk mengesan imej muka dalam imej input. Imej telah diimbas oleh tetingkap 20x20 piksel, yang disalurkan kepada input rangkaian, yang menentukan sama ada kawasan tertentu tergolong dalam kelas muka. Latihan telah dijalankan menggunakan kedua-dua contoh positif (pelbagai imej muka) dan contoh negatif (imej bukan muka). Untuk meningkatkan kebolehpercayaan pengesanan, satu pasukan rangkaian saraf telah digunakan, dilatih dengan pemberat awal yang berbeza, akibatnya rangkaian saraf membuat kesilapan dalam cara yang berbeza, dan keputusan akhir dibuat dengan mengundi seluruh pasukan.

Rajah 5. Komponen utama (eigenfaces) dan penguraian imej kepada komponen utama

Rangkaian saraf juga digunakan untuk mengekstrak ciri imej utama, yang kemudiannya digunakan untuk pengelasan seterusnya. Dalam , kaedah pelaksanaan rangkaian saraf kaedah analisis komponen utama ditunjukkan. Intipati kaedah analisis komponen utama adalah untuk mendapatkan pekali yang dihiasi secara maksimum yang mencirikan imej input. Pekali ini dipanggil komponen utama dan digunakan untuk pemampatan imej statistik, di mana bilangan kecil pekali digunakan untuk mewakili keseluruhan imej. Rangkaian saraf dengan satu lapisan tersembunyi mengandungi N neuron (yang jauh lebih kecil daripada dimensi imej), dilatih menggunakan kaedah perambatan balik ralat dipulihkan pada output, imej yang dibekalkan kepada input membentuk pekali komponen utama N pertama pada output neuron tersembunyi, yang digunakan untuk perbandingan. Biasanya, dari 10 hingga 200 komponen utama digunakan. Apabila bilangan komponen bertambah, keterwakilannya berkurangan dengan banyaknya, dan tidak masuk akal untuk menggunakan komponen dengan bilangan yang lebih besar. Apabila menggunakan fungsi pengaktifan tak linear unsur saraf, penguraian tak linear kepada komponen utama adalah mungkin. Ketaklinieran membolehkan variasi dalam data input dicerminkan dengan lebih tepat. Menggunakan analisis komponen utama pada penguraian imej muka, kami memperoleh komponen utama yang dipanggil eigenfaces, yang juga dicirikan oleh harta yang berguna– terdapat komponen yang mencerminkan ciri-ciri penting seseorang seperti jantina, bangsa, emosi. Apabila dipulihkan, komponen mempunyai penampilan seperti muka, dengan yang pertama paling mencerminkan bentuk umum muka, yang terakhir - pelbagai perbezaan kecil antara muka (Rajah 5). Kaedah ini sangat sesuai untuk mencari imej yang serupa orang dalam pangkalan data yang besar data. Kemungkinan untuk mengurangkan lagi dimensi komponen utama menggunakan NN juga ditunjukkan. Dengan menilai kualiti pembinaan semula imej input, anda boleh menentukan keahliannya dalam kelas wajah dengan sangat tepat.

Rangkaian saraf perintah tinggi. Rangkaian saraf tertib tinggi (HANN) berbeza daripada MNN kerana ia hanya mempunyai satu lapisan, tetapi input neuron juga menerima istilah tertib tinggi, yang merupakan hasil dua atau lebih komponen vektor input. Rangkaian sedemikian juga boleh membentuk permukaan pemisah yang kompleks.

Rangkaian saraf Hopfield. Hopfield NN (HNS) adalah satu lapisan dan bersambung sepenuhnya (tiada sambungan antara neuron pada diri mereka sendiri), outputnya disambungkan kepada input. Tidak seperti MNS, NSC adalah kelonggaran - i.e. ditetapkan kepada keadaan awal, ia beroperasi sehingga ia mencapai keadaan stabil, yang akan menjadi nilai outputnya. Untuk mencari minimum global berhubung dengan masalah pengoptimuman, pengubahsuaian stokastik NSC digunakan.

Penggunaan NSH sebagai ingatan bersekutu membolehkan anda memulihkan imej dengan tepat yang rangkaian dilatih apabila imej herot disalurkan ke input. Dalam kes ini, rangkaian akan "mengingat" imej yang paling dekat (dalam erti kata tenaga minimum tempatan), dan dengan itu mengenalinya. Fungsi sedemikian juga boleh diwakili sebagai aplikasi berurutan memori auto-asosiatif yang diterangkan di atas. Tidak seperti memori auto-asosiatif, NSC akan memulihkan imej dengan tepat. Untuk mengelakkan gangguan minima dan meningkatkan kapasiti rangkaian, gunakan pelbagai kaedah.

Rangkaian saraf Kohonen yang mengatur sendiri. Rangkaian saraf Kohonen (KONN) yang mengatur sendiri menyediakan susunan topologi ruang imej input. Mereka membenarkan pemetaan berterusan secara topologi bagi ruang input n-dimensi ke dalam ruang keluaran dimensi-m, m<

Cognitron. Seni bina Cognitron adalah serupa dengan struktur korteks visual; ia mempunyai organisasi berbilang lapisan hierarki di mana neuron antara lapisan disambungkan secara tempatan sahaja. Dipelajari dengan pembelajaran kompetitif (tanpa guru). Setiap lapisan otak melaksanakan tahap generalisasi yang berbeza; lapisan input sensitif kepada corak mudah, seperti garisan, dan orientasinya di kawasan tertentu domain visual, manakala tindak balas lapisan lain adalah lebih kompleks, abstrak dan bebas daripada kedudukan corak. Fungsi serupa dilaksanakan dalam kognitron dengan memodelkan organisasi korteks visual.

Neocognitron adalah perkembangan lanjut idea kognitron dan lebih tepat mencerminkan struktur sistem visual, membolehkan anda mengenali imej tanpa mengira transformasi, putaran, herotan dan perubahan dalam skala.

Cognitron ialah alat pengecaman imej yang berkuasa, tetapi memerlukan kos pengiraan yang tinggi, yang pada masa ini tidak dapat dicapai.

Kaedah rangkaian saraf yang dipertimbangkan memberikan pengecaman imej yang pantas dan boleh dipercayai, tetapi apabila menggunakan kaedah ini, masalah timbul dalam mengenali objek tiga dimensi. Walau bagaimanapun, pendekatan ini mempunyai banyak kelebihan.

      Kesimpulan

Pada masa ini, terdapat sejumlah besar sistem pengecaman corak automatik untuk pelbagai tugas yang digunakan.

Pengecaman corak melalui kaedah formal sebagai hala tuju saintifik asas tidak habis-habis.

Kaedah matematik pemprosesan imej mempunyai pelbagai aplikasi: sains, teknologi, perubatan, sfera sosial. Pada masa hadapan, peranan pengecaman pola dalam kehidupan manusia akan semakin meningkat.

Kaedah rangkaian saraf menyediakan pengecaman imej yang pantas dan boleh dipercayai. Pendekatan ini mempunyai banyak kelebihan dan merupakan salah satu yang paling menjanjikan.

kesusasteraan

    D.V. Brilyuk, V.V. Starovoitov. Kaedah rangkaian saraf untuk pengecaman imej // /

    Kuzin L.T. Asas sibernetik: Asas model sibernetik. T.2. - M.: Tenaga, 1979. - 584 hlm.

    Peregudov F.I., Tarasenko F.P. Pengenalan kepada analisis sistem: Buku teks. – M.: Sekolah Tinggi, 1997. - 389 p.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Asas teori teknologi maklumat. - M.: Tenaga, 1979. - 511 hlm.

    Tu J., Gonzalez R. Prinsip pengecaman corak. /Trans. dari bahasa Inggeris - M.: Mir, 1978. - 410 hlm.

    Winston P. Kecerdasan buatan. /Trans. dari bahasa Inggeris - M.: Mir, 1980. - 520 hlm.

    Fu K. Kaedah struktur dalam pengecaman corak: Diterjemah daripada bahasa Inggeris. - M.: Mir, 1977. - 320 p.

    Tsypkin Ya.Z. Asas teori maklumat pengenalan. - M.: Nauka, 1984. - 520 p.

    Pospelov G.S. Kepintaran buatan adalah asas teknologi maklumat baharu. - M.: Nauka, 1988. - 280 hlm.

    Yu. Lifshits, Kaedah statistik pengecaman corak ///modern/07modernnote.pdf

    Bohr N. Fizik atom dan kognisi manusia. /Diterjemah daripada bahasa Inggeris - M.: Mir, 1961. - 151 hlm.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Pemprosesan imej pada komputer.1987.-236p.

    Duda R., Hart P. Pengecaman corak dan analisis pemandangan. /Diterjemah daripada bahasa Inggeris - M.: Mir, 1978. - 510 hlm.

    Duke V.A. Psikodiagnostik komputer. - St Petersburg: Brotherhood, 1994. - 365 p.

    Aizenberg I. N., Aizenberg N. N. dan Krivosheev G. A. Neuron Perduaan Berbilang nilai dan Universal: Algoritma Pembelajaran, Aplikasi untuk Pemprosesan dan Pengiktirafan Imej. Nota Kuliah dalam Kepintaran Buatan – Pembelajaran Mesin dan Perlombongan Data dalam Pengecaman Corak, 1999, hlm. 21-35.

    Ranganath S. dan Arun K. Pengecaman muka menggunakan ciri transformasi dan rangkaian saraf. Pengecaman Corak 1997, Jld. 30, hlm. 1615-1622.

    Golovko V.A. Neurointelligence: Teori dan aplikasi. Buku 1. Organisasi dan latihan rangkaian saraf dengan sambungan langsung dan maklum balas - Brest: BPI, 1999, - 260 pp.

    Vetter T. dan Poggio T. Kelas Objek Linear dan Sintesis Imej Daripada Imej Contoh Tunggal. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, hlm. 733-742.

    Golovko V.A. Neurointelligence: Teori dan aplikasi. Buku 2. Organisasi diri, toleransi kesalahan dan penggunaan rangkaian saraf - Brest: BPI, 1999, - 228 p.

    Lawrence S., Giles C. L., Tsoi A. C. dan Belakang A. D. Pengecaman Muka: Pendekatan Rangkaian Neural Konvolusi. Transaksi IEEE pada Rangkaian Neural, Isu Khas mengenai Rangkaian Neural dan Pengecaman Corak, ms. 1-24.

    Wasserman F. Teknologi Neurokomputer: Teori dan amalan, 1992 - 184 p.

    Rowley, H. A., Baluja, S. dan Kanade, T. Pengesanan Muka Berasaskan Rangkaian Neural. Transaksi IEEE pada Analisis Corak dan Perisikan Mesin 1998, Vol. 20, hlm. 23-37.

    Valentin D., Abdi H., O"Toole A. J. dan Cottrell G. W. Model penyambung pemprosesan muka: satu tinjauan. DALAM: Pengecaman Corak 1994, Jilid 27, hlm. 1209-1230.

    Dokumen

    Mereka membuat algoritma pengiktirafanimej. Kaedahpengiktirafanimej Seperti yang dinyatakan di atas... realiti tidak wujud"ekosistem secara umum", dan wujud hanya individu... kesimpulan daripada ini terperinci ulasankaedahpengiktirafan kami sampaikan dalam...

  1. Semakan kaedah untuk mengenal pasti orang berdasarkan imej muka, dengan mengambil kira ciri pengecaman visual

    Semakan

    ... pengiktirafan oleh seseorang objek kontras rendah, termasuk. orang Diberi semakan biasa kaedah ... wujud keseluruhan baris kaedah ... cara, hasil daripada penyelidikan, platform untuk membangunkan kaedahpengiktirafan ...

  2. Dinamakan sempena Glazkova Valentina Vladimirovna PENYELIDIKAN DAN PEMBANGUNAN KAEDAH UNTUK MEMBINA ALAT PERISIAN UNTUK KLASIFIKASI DOKUMEN HIPERTEKS PELBAGAI TOPIK Keistimewaan 05

    Abstrak disertasi

    Dokumen hiperteks. Bab menyediakan semakansedia adakaedah penyelesaian kepada masalah yang sedang dipertimbangkan, penerangan... dengan memotong kelas yang paling kurang relevan // Matematik kaedahpengiktirafanimej: Persidangan Seluruh Rusia ke-13. wilayah Leningrad...

  3. Slaid 0 Kajian semula tugasan bioinformatik yang berkaitan dengan analisis dan pemprosesan teks genetik

    Syarahan

    Urutan DNA dan protein. Semakan tugas bioinformatik sebagai tugas... isyarat memerlukan penggunaan moden kaedahpengiktirafanimej, pendekatan statistik dan... dengan ketumpatan gen yang rendah. sedia ada program ramalan gen bukan...

Imej, kelas - kumpulan pengelasan dalam sistem pengelasan yang menyatukan (menyerlahkan) kumpulan objek tertentu mengikut beberapa kriteria.

Persepsi imaginatif dunia adalah salah satu sifat misteri otak yang hidup, yang membolehkan seseorang memahami aliran maklumat yang tidak berkesudahan dan mengekalkan orientasi dalam lautan data yang berbeza tentang dunia luar. Apabila melihat dunia luar, kita sentiasa mengklasifikasikan sensasi yang dirasakan, iaitu, kita membahagikannya kepada kumpulan fenomena yang serupa, tetapi tidak serupa. Sebagai contoh, walaupun terdapat perbezaan yang ketara, satu kumpulan termasuk semua huruf A, ditulis dalam tulisan tangan yang berbeza, atau semua bunyi yang sepadan dengan not yang sama, diambil dalam mana-mana oktaf dan pada mana-mana instrumen, dan operator yang mengawal objek teknikal untuk keseluruhan banyak negeri objek bertindak balas dengan tindak balas yang sama. Ia adalah ciri bahawa untuk merumuskan konsep tentang kumpulan persepsi kelas tertentu, sudah cukup untuk membiasakan diri dengan sebilangan kecil wakilnya. Seorang kanak-kanak boleh ditunjukkan huruf sekali sahaja supaya dia dapat mencari huruf ini dalam teks yang ditulis dalam fon yang berbeza, atau mengenalinya, walaupun ia ditulis dalam bentuk yang sengaja diputarbelitkan. Sifat otak ini membolehkan kita merumuskan konsep sedemikian sebagai imej.

Imej mempunyai ciri ciri, yang menunjukkan dirinya dalam fakta bahawa membiasakan diri dengan bilangan fenomena terhingga dari set yang sama memungkinkan untuk mengenali sejumlah besar wakilnya secara sewenang-wenangnya. Contoh imej boleh menjadi: sungai, laut, cecair, muzik oleh Tchaikovsky, puisi oleh Mayakovsky, dll. Satu set keadaan tertentu objek kawalan juga boleh dianggap sebagai imej, dan keseluruhan set keadaan ini dicirikan oleh fakta bahawa untuk mencapai matlamat tertentu, kesan yang sama pada objek . Imej mempunyai ciri objektif ciri dalam erti kata bahawa orang yang berbeza, dilatih pada bahan pemerhatian yang berbeza, untuk sebahagian besar mengklasifikasikan objek yang sama dengan cara yang sama dan secara bebas antara satu sama lain. Objektiviti imej inilah yang membolehkan orang di seluruh dunia memahami antara satu sama lain.

Keupayaan untuk melihat dunia luar dalam bentuk imej membolehkan seseorang mengenali dengan kebolehpercayaan tertentu bilangan objek yang tidak terhingga berdasarkan pembiasaan dengan bilangan terhingga mereka, dan sifat objektif sifat utama imej membolehkan seseorang memodelkan proses pengiktirafan mereka. Sebagai gambaran realiti objektif, konsep imej adalah objektif seperti realiti itu sendiri, dan oleh itu sendiri boleh menjadi objek kajian khas.

Dalam literatur yang ditujukan kepada masalah pengecaman pola pembelajaran (PR), konsep kelas sering diperkenalkan dan bukannya konsep imej.

Masalah pengecaman pola pembelajaran (PRT)

Salah satu sifat otak manusia yang paling menarik ialah keupayaannya untuk bertindak balas set tak terhingga keadaan persekitaran luaran dengan bilangan tindak balas yang terhad. Mungkin tepatnya harta ini yang membolehkan manusia mencapai bentuk kewujudan tertinggi bahan hidup, dinyatakan dalam keupayaan untuk berfikir, iaitu, secara aktif mencerminkan dunia objektif dalam bentuk imej, konsep, pertimbangan, dll. Oleh itu, masalahnya ORR timbul dalam kajian sifat fisiologi otak.

Mari kita pertimbangkan contoh masalah dari bidang ODO.


nasi. 3.1.

Terdapat 12 imej yang dibentangkan di sini, dan anda harus memilih ciri yang boleh membantu anda membezakan triad kiri gambar dari kanan. Menyelesaikan masalah ini memerlukan pemodelan pemikiran logik sepenuhnya.

Secara umumnya, masalah pengecaman corak terdiri daripada dua bahagian: latihan dan pengecaman. Latihan dijalankan dengan menunjukkan objek individu yang menunjukkan kepunyaan mereka kepada satu atau imej lain. Hasil daripada latihan, sistem pengecaman mesti memperoleh keupayaan untuk bertindak balas dengan tindak balas yang sama kepada semua objek imej yang sama dan dengan tindak balas yang berbeza kepada semua objek imej yang berbeza. Adalah sangat penting bahawa proses pembelajaran harus diselesaikan hanya dengan menunjukkan bilangan objek yang terhad tanpa sebarang gesaan lain. Objek pembelajaran boleh sama ada gambar atau imej visual lain (huruf), atau pelbagai fenomena dunia luar, contohnya, bunyi, keadaan badan semasa diagnosis perubatan, keadaan objek teknikal dalam sistem kawalan, dll. Ia adalah penting bahawa hanya objek itu sendiri dan kepunyaan mereka kepada imej. Latihan diikuti dengan proses mengenali objek baru, yang mencirikan tindakan sistem yang sudah terlatih. Automasi prosedur ini adalah masalah pengecaman corak pengajaran. Dalam kes apabila seseorang menyelesaikan atau mencipta sendiri, dan kemudian mengenakan peraturan klasifikasi pada mesin, masalah pengiktirafan sebahagiannya diselesaikan, kerana orang itu mengambil bahagian utama dan utama masalah (latihan).

Masalah pengecaman corak pengajaran adalah menarik dari sudut gunaan dan asas. Dari sudut pandangan yang diterapkan, menyelesaikan masalah ini adalah penting terutamanya kerana ia membuka kemungkinan mengautomasikan banyak proses yang sehingga kini hanya dikaitkan dengan aktiviti otak yang hidup. Kepentingan asas masalah ini berkait rapat dengan persoalan yang semakin timbul berkaitan dengan perkembangan idea dalam sibernetik: apa yang boleh dan apa yang tidak boleh dilakukan oleh mesin? Sejauh manakah keupayaan mesin hampir sama dengan otak yang hidup? Secara khususnya, bolehkah mesin membangunkan keupayaan untuk menerima pakai keupayaan manusia untuk melakukan tindakan tertentu bergantung pada situasi yang timbul dalam persekitaran? Setakat ini, ia hanya menjadi jelas bahawa jika seseorang mula-mula dapat menyedari kemahirannya sendiri, dan kemudian menerangkannya, iaitu, menunjukkan mengapa dia melakukan tindakan sebagai tindak balas kepada setiap keadaan persekitaran luaran atau bagaimana (dengan peraturan apa) dia menggabungkan objek individu ke dalam imej, maka kemahiran tersebut boleh dipindahkan ke mesin tanpa kesukaran asas. Jika seseorang mempunyai kemahiran, tetapi tidak dapat menjelaskannya, maka hanya ada satu cara untuk memindahkan kemahiran itu kepada mesin - mengajar melalui contoh.

Pelbagai masalah yang boleh diselesaikan menggunakan sistem pengecaman adalah sangat luas. Ini termasuk bukan sahaja tugas mengenali imej visual dan pendengaran, tetapi juga tugas mengenali proses dan fenomena kompleks yang timbul, contohnya, apabila memilih tindakan yang sesuai oleh ketua perusahaan atau memilih pengurusan teknologi, ekonomi, pengangkutan yang optimum. atau operasi ketenteraan. Dalam setiap tugas ini, fenomena, proses, dan keadaan dunia luar tertentu dianalisis, yang dirujuk di bawah sebagai objek pemerhatian. Sebelum anda mula menganalisis mana-mana objek, anda perlu mendapatkan maklumat tertentu yang teratur mengenainya dalam beberapa cara. Maklumat sedemikian mewakili ciri-ciri objek, paparan mereka pada pelbagai organ persepsi sistem pengecaman.

Tetapi setiap objek pemerhatian boleh mempengaruhi kita secara berbeza, bergantung pada keadaan persepsi. Sebagai contoh, mana-mana surat, walaupun ditulis dengan cara yang sama, pada dasarnya, boleh disesarkan dalam apa-apa cara berbanding dengan organ yang merasakan. Di samping itu, objek imej yang sama boleh agak berbeza antara satu sama lain dan, secara semula jadi, mempunyai kesan yang berbeza pada organ persepsi.

Setiap pemetaan objek ke organ persepsi sistem pengecaman, tanpa mengira kedudukannya berbanding dengan organ ini, biasanya dipanggil imej objek, dan set imej sedemikian, disatukan oleh beberapa sifat biasa, adalah imej.

Apabila menyelesaikan masalah kawalan menggunakan kaedah pengecaman corak, istilah "keadaan" digunakan dan bukannya istilah "imej". negeri- ini ialah satu bentuk paparan tertentu ciri-ciri arus (atau serta-merta) yang diukur bagi objek yang diperhatikan. Set negeri menentukan keadaan. Konsep "situasi" adalah sama dengan konsep "imej". Tetapi analogi ini tidak lengkap, kerana tidak setiap imej boleh dipanggil situasi, walaupun setiap situasi boleh dipanggil imej.

Situasi biasanya dipanggil set keadaan tertentu objek kompleks, setiap satu dicirikan oleh ciri yang sama atau serupa objek itu. Sebagai contoh, jika objek kawalan tertentu dianggap sebagai objek pemerhatian, maka situasi itu menggabungkan keadaan objek ini di mana tindakan kawalan yang sama harus digunakan. Jika objek pemerhatian adalah permainan perang, maka situasi itu menggabungkan semua keadaan permainan yang memerlukan, sebagai contoh, serangan kereta kebal yang kuat dengan sokongan udara.

Pilihan perihalan awal objek adalah salah satu tugas utama masalah ODO. Jika huraian awal (ruang ciri) berjaya dipilih, tugas pengecaman mungkin menjadi remeh, dan sebaliknya, penerangan awal yang tidak berjaya dipilih boleh membawa kepada pemprosesan maklumat lanjut yang sangat kompleks atau tiada penyelesaian langsung. Sebagai contoh, jika masalah mengenali objek yang berbeza dalam warna sedang diselesaikan, dan isyarat yang diterima daripada penderia berat dipilih sebagai penerangan awal, maka masalah pengecaman tidak, pada dasarnya, dapat diselesaikan.

20 Masalah pengecaman corak

Otak manusia, seperti otak haiwan, menyelesaikan masalah pengecaman corak setiap minit sejak lahir dan sepanjang hayat. Dari minit pertama kelahirannya, kanak-kanak atau haiwan muda mengenali makanan, ibunya, suaranya, dan objek di sekelilingnya. Apabila kanak-kanak itu membesar, dia belajar mengenali mainannya, bilik, rumah, banyak objek yang diperlukan, wajah rakan-rakan, ucapan mereka, muzik, surat, perkataan, buku, dll.

Dalam kehidupan sehariannya, seseorang itu menghadapi tugas pengiktirafan dengan begitu mudah sehingga ia dipandang remeh. Sementara itu, percubaan untuk mensimulasikan fungsi yang sangat pintar ini pada komputer menghadapi kesukaran yang sangat serius.

Agar seseorang dapat melihat maklumat secara sedar, ia mesti melalui kitaran pemprosesan awal yang agak panjang. Mari kita lihat contoh persepsi imej visual:

1. Pertama, cahaya masuk ke dalam mata. Setelah melalui keseluruhan sistem optik, foton memasuki retina (lapisan sel sensitif cahaya). Di sinilah peringkat pertama pemprosesan maklumat berlaku. Dalam mamalia, hanya di belakang sel sensitif cahaya biasanya terdapat dua lapisan sel saraf yang melakukan pemprosesan yang agak mudah.

2. Maklumat bergerak sepanjang saraf optik ke otak, ke apa yang dipanggil "thalamus visual".

3. Seterusnya, maklumat visual memasuki bahagian otak, yang sudah mengasingkan komponen individu daripadanya (garis mendatar, menegak, pepenjuru; kontur; kawasan terang, gelap, warna). Sehingga itu, anda boleh mensimulasikan kerja otak dengan mudah menggunakan pelbagai penapis grafik.

4. Secara beransur-ansur, imej menjadi lebih kompleks dan kabur, tetapi imej grafik masih akan mempunyai perjalanan yang jauh sebelum ia mencapai tahap kesedaran. Selain itu, pada tahap kesedaran, bunyi, bau dan sensasi rasa juga boleh dicampur ke dalam imej.

Secara umumnya, masalah pengecaman corak terdiri daripada dua bahagian: latihan dan pengecaman. Latihan dijalankan dengan menunjukkan objek individu yang menunjukkan kepunyaan mereka kepada satu atau imej lain. Hasil daripada latihan, sistem pengecaman harus memperoleh keupayaan untuk bertindak balas dengan tindak balas yang sama kepada semua objek imej yang sama. Latihan diikuti dengan proses mengenali objek baru, yang mencirikan tindakan sistem yang sudah terlatih.

Pelbagai masalah yang boleh diselesaikan menggunakan sistem pengecaman adalah sangat luas. Ini termasuk bukan sahaja tugas mengenali imej visual dan pendengaran, tetapi juga tugas mengenali proses dan fenomena kompleks yang timbul, contohnya, apabila memilih tindakan yang sesuai oleh ketua perusahaan atau memilih pengurusan teknologi, ekonomi, pengangkutan yang optimum. atau operasi ketenteraan.

Pada masa ini, kejayaan terbesar telah dicapai dalam pengiktirafan imej visual, seperti aksara bercetak. Tidak ada keraguan tentang kegunaan program pengecaman teks yang terkenal FineReader dan CuneiForm . Fungsi untuk mengesan dan mengenali sasaran tentera musuh telah lama dibina ke dalam komputer atas kapal peluru berpandu, pesawat, kapal dan kapal selam.

Apakah idea dan prinsip yang boleh digunakan sebagai asas untuk sistem pengecaman? Perkara pertama yang terlintas di fikiran ialah bertindak "dari kedudukan kekerasan": masukkan seberapa banyak imej templat yang diketahui ke dalam komputer yang mungkin dan bandingkannya dengan imej yang tidak diketahui yang diterima untuk pengecaman. Namun, jalan ini serta-merta membawa kepada jalan buntu. Mari kita andaikan bahawa imej visual dibaca menggunakan sistem standard unsur fotosensitif 32 kedudukan lebar dan 48 tinggi, i.e. sejumlah 1536 elemen. Tetapi walaupun pada grid yang kasar anda boleh melihat kira-kira 10 460 imej yang mungkin. Adalah mustahil untuk menyimpan sejumlah imej templat dalam ingatan dan membandingkan imej yang diterima sebagai input dengannya.

Oleh itu, dalam amalan, sistem pengecaman pada peringkat pertama semestinya memproses imej dan mengenal pasti ciri ciri, kualitatif atau kuantitatif. Oleh itu, jumlah maklumat untuk pengiktirafan dikurangkan dengan ketara.

Idea seterusnya yang biasa digunakan dalam sistem pengecaman ialah idea pembelajaran. Ia merupakan elemen penting bagi banyak sistem pintar moden.

  • Algoritma,
  • Pembelajaran mesin
  • Tugas kebanyakan saintis pertuturan bukanlah untuk menghasilkan algoritma baru secara konseptual. Syarikat memberi tumpuan terutamanya kepada pendekatan sedia ada. Kepintaran mesin sudah boleh mengecam dan mensintesis suara, tetapi tidak selalu dalam masa nyata, tidak selalu secara tempatan dan tidak selalu "secara selektif" - apabila anda perlu bertindak balas hanya kepada frasa utama, robot boleh membuat kesilapan. Pemaju sibuk dengan masalah sedemikian. Muammar Al-Shediwat bercakap tentang ini dan isu-isu lain yang walaupun syarikat besar masih belum dapat menyelesaikannya.


    - Hari ini saya akan bercakap tentang masalah terbuka dalam bidang teknologi pertuturan. Tetapi pertama sekali, mari kita fahami bahawa teknologi pertuturan telah menjadi sebahagian daripada kehidupan kita. Sama ada kita berjalan di jalan atau memandu di dalam kereta, apabila kita ingin bertanya pertanyaan tertentu kepada enjin carian, adalah lumrah untuk melakukannya melalui suara, dan bukan dengan menaip atau apa-apa lagi.

    Hari ini saya akan bercakap terutamanya mengenai pengecaman pertuturan, walaupun terdapat banyak tugas lain yang menarik. Cerita saya akan terdiri daripada tiga bahagian. Mula-mula, izinkan saya mengingatkan anda secara umum cara pengecaman pertuturan berfungsi. Seterusnya, saya akan memberitahu anda cara orang cuba memperbaikinya dan apakah tugas yang dihadapi Yandex yang biasanya tidak ditemui dalam artikel saintifik.

    Skim pengecaman pertuturan umum. Pada mulanya, kami menerima gelombang bunyi pada input.

    Kami memecahkannya kepada kepingan kecil, bingkai. Panjang bingkai biasanya 25 ms, langkahnya ialah 10 ms. Mereka datang dengan sedikit kekeliruan.


    Selepas itu, kami mengekstrak ciri yang paling penting daripada bingkai. Katakan nada suara atau jantina seseorang itu tidak penting bagi kita. Kami ingin mengenali pertuturan tanpa mengira faktor ini, jadi kami mengekstrak ciri yang paling penting.


    Kemudian rangkaian saraf ditetapkan terhadap semua ini dan menghasilkan ramalan pada setiap bingkai, taburan kebarangkalian ke atas fonem. Neuron cuba meneka fonem mana yang disebut dalam bingkai tertentu.


    Pada akhirnya, semua ini dimasukkan ke dalam penyahkodan graf, yang menerima taburan kebarangkalian dan mengambil kira model bahasa. Katakan "Mama mencuci bingkai" ialah frasa yang lebih popular dalam bahasa Rusia daripada "Mama sabun Roma." Sebutan perkataan juga diambil kira dan hipotesis akhir dihasilkan.

    Secara umum, beginilah cara pengecaman pertuturan berfungsi.


    Sememangnya, kita perlu mengatakan beberapa perkataan tentang metrik. Semua orang menggunakan metrik WER dalam pengecaman pertuturan. Ia diterjemahkan sebagai Kadar Ralat Dunia. Ini hanyalah jarak Levenshtein daripada apa yang kami kenali kepada apa yang sebenarnya dikatakan dalam frasa, dibahagikan dengan bilangan perkataan yang sebenarnya disebut dalam frasa tersebut.

    Anda boleh melihat bahawa jika kami mempunyai banyak sisipan, maka ralat WER mungkin lebih besar daripada satu. Tetapi tiada siapa yang memberi perhatian kepada perkara ini, dan semua orang bekerja dengan metrik ini.

    Bagaimanakah kita akan memperbaiki perkara ini? Saya telah mengenal pasti empat pendekatan utama yang bertindih antara satu sama lain, tetapi ini tidak patut diberi perhatian. Pendekatan utama adalah seperti berikut: mari kita perbaiki seni bina rangkaian saraf, cuba ubah fungsi Loss, mengapa tidak gunakan pendekatan End to end, yang telah menjadi bergaya sejak kebelakangan ini. Dan sebagai kesimpulan, saya akan memberitahu anda tentang tugas lain yang, sebagai contoh, tidak memerlukan penyahkodan.


    Apabila orang datang dengan idea untuk menggunakan rangkaian saraf, penyelesaian semula jadi adalah dengan menggunakan perkara paling mudah: rangkaian neural suapan ke hadapan. Kami mengambil bingkai, konteks, beberapa bingkai di sebelah kiri, nombor di sebelah kanan dan meramalkan fonem yang disebut dalam bingkai ini. Selepas itu anda boleh melihat semua ini sebagai gambar dan menggunakan semua artileri yang telah digunakan untuk pemprosesan imej, semua jenis rangkaian saraf konvolusi.


    Secara umum, banyak artikel terkini diperoleh menggunakan rangkaian saraf konvolusi, tetapi hari ini saya akan bercakap lebih lanjut mengenai rangkaian saraf berulang.


    Rangkaian saraf berulang. Semua orang tahu cara mereka bekerja. Tetapi masalah besar timbul: biasanya terdapat lebih banyak bingkai daripada fonem. Terdapat 10 atau bahkan 20 bingkai setiap fonem. Ini perlu ditangani entah bagaimana. Biasanya ini diperkuatkan ke dalam penyahkodan graf, di mana kita kekal dalam satu keadaan untuk banyak langkah. Pada dasarnya, anda entah bagaimana boleh memerangi ini; terdapat paradigma pengekod-penyahkod. Mari kita buat dua rangkaian saraf berulang: satu akan mengekod semua maklumat dan mengeluarkan keadaan tersembunyi, dan penyahkod akan mengambil keadaan ini dan mengeluarkan urutan fonem, huruf atau mungkin perkataan - ini adalah cara anda melatih rangkaian saraf.

    Biasanya dalam pengecaman pertuturan kami bekerja dengan urutan yang sangat besar. Terdapat 1000 bingkai dengan mudah yang perlu dikodkan dengan satu keadaan tersembunyi. Ini tidak realistik; tiada rangkaian saraf dapat menangani perkara ini. Mari gunakan kaedah lain.


    Dima Bogdanov, seorang graduan dari ShAD, mencipta kaedah Perhatian. Biarkan pengekod menghasilkan keadaan tersembunyi, dan kami tidak akan membuangnya, tetapi biarkan yang terakhir sahaja. Mari kita ambil jumlah wajaran pada setiap langkah. Penyahkod akan mengambil jumlah wajaran keadaan tersembunyi. Dengan cara ini, kita akan mengekalkan konteks, apa yang kita lihat dalam kes tertentu.

    Pendekatan ini sangat baik, ia berfungsi dengan baik, pada beberapa set data ia memberikan hasil terkini, tetapi terdapat satu kelemahan besar. Kami ingin mengenali pertuturan dalam talian: seseorang menyebut frasa 10 saat, dan kami segera memberikannya hasilnya. Tetapi Perhatian memerlukan anda mengetahui keseluruhan frasa, ini adalah masalah besarnya. Seseorang akan menyebut frasa 10 saat, dan kami akan mengenalinya selama 10 saat. Pada masa ini, dia akan memadamkan aplikasi itu dan tidak akan memasangnya lagi. Kita perlu melawan ini. Baru-baru ini perkara ini dibincangkan dalam salah satu artikel. Saya memanggilnya perhatian dalam talian.


    Mari bahagikan urutan input ke dalam blok dengan panjang tetap kecil, sediakan Perhatian di dalam setiap blok, kemudian akan ada penyahkod yang menghasilkan simbol yang sepadan pada setiap blok, selepas itu pada satu ketika ia menghasilkan penghujung simbol blok, bergerak ke blok seterusnya, kerana Kami telah kehabisan semua maklumat di sini.

    Di sini anda boleh membaca beberapa siri kuliah, saya akan cuba merumuskan idea itu.


    Apabila mereka mula melatih rangkaian saraf untuk pengecaman pertuturan, mereka cuba meneka fonem. Untuk melakukan ini, kami menggunakan fungsi kehilangan entropi silang biasa. Masalahnya ialah walaupun kita mengoptimumkan entropi silang, ini tidak bermakna kita telah mengoptimumkan WER dengan baik, kerana metrik ini tidak berkorelasi 100%.


    Untuk memerangi ini, fungsi Kerugian Berdasarkan Jujukan telah dicipta: mari kumpulkan semua maklumat pada semua bingkai, kira satu Kehilangan biasa dan luluskan kecerunan kembali. Saya tidak akan pergi ke butiran, anda boleh membaca tentang CTC atau SNBR Loss, ini adalah topik yang sangat khusus untuk pengecaman pertuturan.

    Pendekatan hujung ke hujung mempunyai dua laluan. Yang pertama ialah membuat lebih banyak ciri "mentah". Kami mempunyai masa di mana kami mengekstrak ciri daripada bingkai, dan biasanya ia diekstrak dengan cuba meniru telinga manusia. Mengapa mencontohi telinga manusia? Biarkan neuron itu sendiri belajar dan memahami ciri mana yang berguna untuknya dan mana yang tidak berguna. Mari kita masukkan lebih banyak ciri mentah ke dalam neuron.

    Pendekatan kedua. Kami memberi pengguna perkataan, perwakilan huruf. Jadi mengapa kita perlu meramalkan fonem? Walaupun sangat wajar untuk meramalkannya, seseorang bercakap dalam fonem, bukan huruf, tetapi kita mesti memberikan hasil akhir dalam huruf. Jadi mari kita ramalkan huruf, suku kata atau pasangan aksara.


    Apakah tugas lain yang ada? Katakan tugas itu adalah framespotting. Terdapat beberapa bunyi yang anda perlukan untuk mengekstrak maklumat tentang sama ada frasa "Dengar, Yandex" dikatakan atau tidak. Untuk melakukan ini, anda boleh mengecam frasa dan menyebut "Dengar, Yandex," tetapi ini adalah pendekatan yang sangat kasar, dan pengecaman biasanya berfungsi pada pelayan, modelnya sangat besar. Biasanya bunyi dihantar ke pelayan, dikenali, dan borang yang diiktiraf dihantar semula. Memuatkan 100 ribu pengguna setiap saat, menghantar bunyi ke pelayan - tiada satu pelayan pun dapat mengendalikannya.

    Kita perlu menghasilkan penyelesaian yang kecil, boleh berfungsi pada telefon dan tidak akan memakan bateri. Dan ia akan menjadi berkualiti.

    Untuk melakukan ini, mari letakkan semuanya ke dalam rangkaian saraf. Ia hanya akan meramalkan, sebagai contoh, bukan fonem atau huruf, tetapi keseluruhan perkataan. Dan mari kita buat tiga kelas. Rangkaian akan meramalkan perkataan "dengar" dan "Yandex", dan kami akan memetakan semua perkataan lain ke dalam pengisi.

    Oleh itu, jika pada satu ketika dahulu terdapat kebarangkalian tinggi untuk "mendengar", maka kebarangkalian tinggi untuk "Yandex", maka dengan kebarangkalian yang tinggi terdapat frasa utama "Dengar, Yandex".


    Masalah yang tidak banyak diterokai dalam artikel. Biasanya, apabila artikel ditulis, beberapa jenis dataset diambil, hasil yang baik diperoleh daripadanya, keadaan seni mencecah - hore, kami menerbitkan artikel itu. Masalah dengan pendekatan ini ialah banyak set data tidak berubah selama 10 atau 20 tahun. Dan mereka tidak menghadapi masalah yang kita hadapi.

    Kadangkala trend timbul, kami ingin mengenalinya, dan jika perkataan ini tiada dalam graf penyahkodan kami dalam pendekatan standard, maka kami tidak akan mengenalinya. Kita perlu melawan ini. Kita boleh mengambil dan mencerna graf penyahkodan, tetapi ini adalah proses intensif buruh. Mungkin ada beberapa perkataan trending pada waktu pagi dan berbeza pada waktu petang. Kekalkan jadual pagi dan petang? Ia sangat pelik.


    Pendekatan mudah telah dicipta: mari tambahkan graf penyahkodan kecil pada graf penyahkodan yang besar, yang akan dicipta semula setiap lima minit daripada beribu-ribu frasa terbaik dan arah aliran. Kami hanya akan menyahkod kedua-dua graf ini secara selari dan memilih hipotesis yang terbaik.

    Apakah tugas yang kekal? Di sana keadaan seni dipukul, di sini masalah diselesaikan... Saya akan memberikan graf WER sejak beberapa tahun yang lalu.


    Seperti yang anda lihat, Yandex telah bertambah baik sejak beberapa tahun kebelakangan ini, dan berikut ialah graf untuk topik terbaik - geosearch. Anda boleh faham bahawa kami sedang mencuba dan menambah baik, tetapi terdapat sedikit jurang yang perlu dilindungi. Dan walaupun kita melakukan pengecaman pertuturan - dan kita akan melakukannya - yang setanding dengan kebolehan manusia, maka masalah lain akan timbul: ini dilakukan pada pelayan, tetapi mari kita pindahkannya ke peranti. Ini adalah tugas yang berasingan, kompleks dan menarik.

    Kami mempunyai banyak tugas lain yang boleh anda tanyakan kepada saya. Terima kasih kerana memberi perhatian.

    Muka surat 2


    Apabila mempelajari pengecaman corak, beberapa imej t dan kepunyaan imej tersebut diketahui. Masalah pengecaman corak adalah untuk membina algoritma menggunakan urutan latihan yang menentukan nilai y untuk sebarang set dari domain definisi fungsi.

    Sistem pengecaman, berdasarkan data proses dan pengaruh luaran pada proses ini, menilai situasi pengeluaran dan mengeluarkan arahan untuk mengawal proses. Berkait rapat dengan masalah pengecaman corak ialah masalah mencipta automata pembelajaran yang sepatutnya dapat menilai keadaan semasa dan, berdasarkan ini, membuat keputusan yang terbaik. Oleh itu, kebanyakan tugas untuk latihan automata boleh dikurangkan kepada tugas pengecaman corak latihan.

    Terdapat banyak masalah yang sangat besar dan menarik yang sedang diusahakan oleh beribu-ribu saintis sekarang. Ini adalah masalah pengecaman imej, pemprosesan maklumat, masalah linguistik dan lain-lain lagi.

    Keberkesanan menyelesaikan masalah pengecaman akhirnya ditentukan oleh keberkesanan peranti pengecaman dilatih dalam prosedur pengelasan. Oleh itu, fokus utama dalam masalah pengecaman pola adalah kepada tugas pembelajaran pengecaman.

    Nampaknya logik untuk mengkaji seni bina yang sesuai dengan pemahaman kita tentang organisasi dan fungsi otak. Otak manusia menyediakan bukti sedia ada bahawa penyelesaian kepada masalah pengecaman corak adalah mungkin. Nampaknya munasabah untuk meniru otak jika kita ingin meniru cara ia berfungsi. Walau bagaimanapun, hujah balas adalah sejarah penerbangan; manusia tidak dapat turun dari tanah sehingga dia berhenti meniru pergerakan sayap dan penerbangan burung.

    Penggunaan prinsip topografi membolehkan kita mencipta memori komputer terpantas dan paling luas. Memori hologram mencari maklumat yang diperlukan mengikut undang-undang persatuan, yang merupakan ciri ingatan manusia. Holografi boleh menyelesaikan masalah pengecaman corak, yang telah bergelut dengan sibernetik selama bertahun-tahun. Jika hologram dibentangkan dengan sekumpulan objek, ia akan bertindak balas serta-merta (dengan pengenalan) kepada mereka yang imejnya disimpan. Lebih-lebih lagi, lebih kompleks objek, lebih dipercayai hologram mengenalinya.

    Bab keempat menggariskan asas teori sistem penyusunan diri diskret. Ukuran kuantitatif organisasi kendiri dan pembelajaran kendiri ditentukan, tingkah laku automata rawak dan automata yang beroperasi di bawah keadaan pengaruh luaran rawak dikaji. Perhatian khusus diberikan kepada masalah pengecaman corak dan teori satu kelas peranti (yang dipanggil a-perceptrons) yang direka untuk menyelesaikan masalah ini. Beberapa isu pemodelan refleks terkondisi, serta proses pembelajaran mengenal makna dan membangunkan konsep baharu dipertimbangkan.

    Dalam Rajah. Rajah 12.11 menunjukkan contoh di mana huruf besar A dipilih sebagai imej. Adalah mudah untuk melihat bahawa jika kapasiti memori yang sesuai dikekalkan, selepas beberapa langkah kelonggaran, imej yang jelas, pada mulanya direkodkan dalam ingatan, muncul daripada huruf yang sangat herot. oleh bunyi bising. Ini adalah tepat hubungan antara ingatan bersekutu jenis yang diterangkan di atas dan masalah pengecaman imej. Pada masa ini, tidak ada idea yang tepat tentang bagaimana model kaca putaran ingatan bersekutu yang digariskan di atas boleh digeneralisasikan dan diperluaskan untuk digunakan pada masalah kompleks mengenali imej yang diputar atau dianjak. Sebagai contoh imej dalam Rajah. 12.11, huruf A, terbalik, tidak akan dikenali, kerana walaupun anjakan imej yang tidak diputarbelitkan oleh beberapa nod kekisi (raster) mengubah pengiktirafannya menjadi masalah, penyelesaiannya melangkaui keupayaan bersekutu model Hopfydd . Masa depan akan menunjukkan sama ada kelas masalah ini juga boleh diselesaikan dengan bantuan peranti storan bersekutu.

    Kerumitan masalah alam sekitar memerlukan pemprosesan sejumlah besar data. Penyelidikan diperlukan untuk memudahkan tafsiran dan penggunaan maklumat terkumpul secara bijak. Kerja dalam bidang kecerdasan buatan yang berkaitan dengan masalah pengecaman corak dapat memberikan bantuan yang signifikan dalam hal ini. Pencapaian terkini mikropemproses dan teknologi mikrokomputer mula digunakan dalam reka bentuk alat pengukur pintar. Ia adalah perlu untuk memberi perhatian kepada organisasi, pengumpulan dan pengumpulan data alam sekitar.

    Seperti yang kita lihat, konsep simetri mengambil makna yang benar-benar global. Walau bagaimanapun, kita boleh pergi lebih jauh dan menarik perhatian kepada fakta bahawa, pada umumnya, kita berurusan dengan simetri apabila kita menyelesaikan masalah pengecaman corak, masalah diagnostik.

    Pengecaman corak adalah salah satu bentuk pemprosesan maklumat yang datang daripada sistem atau objek. Kelas dicirikan oleh fakta bahawa objek kepunyaan mereka mempunyai beberapa persamaan (kesamaan), sebagai contoh, mereka dicirikan oleh struktur yang sama pengendali berfungsi. Perkara biasa yang menyatukan objek ke dalam kelas biasanya dipanggil imej. Masalah membina penerangan matematik sesuatu objek atau sistem dari sudut masalah pengecaman pola boleh didekati dengan dua cara. Salah satu pendekatannya ialah operator berfungsi FHS itu sendiri bertindak sebagai imej yang perlu dikenal pasti. Sebaliknya, bukannya pengendali berfungsi Ф, peranti pengecaman sibernetik dibina yang meramalkan tingkah laku sistem dengan cara yang sama seperti yang akan dilakukan oleh pengendali fungsian yang sepadan.

    Daripada perkara di atas, adalah jelas bahawa terdapat banyak algoritma untuk mengenal pasti ciri-ciri dalam proses pemprosesan awal maklumat; bilangan mereka sentiasa dan pesat berkembang, kerana pilihan kaedah untuk menyelesaikan masalah tertentu sebahagian besarnya ditentukan oleh sifat masalah itu sendiri. Kejayaan keseluruhan kajian mengenai masalah pengecaman corak ditentukan oleh sejauh mana tahap pengekstrakan ciri dilakukan. Sudut pandangan telah mendapat penerimaan umum mengikut mana pencapaian utama baharu dalam bidang ini harus dijangka dengan tepat pada peringkat pengekstrakan ciri semasa pemprosesan maklumat awal.

    Saya secara peribadi percaya bahawa tafsiran ini memberikan ahli sibernetik moden kunci kepada kajian yang lebih mendalam tentang masalah ingatan, yang dibincangkan dalam bahagian lain dalam buku ini. Selanjutnya, walaupun Leibniz gagal mencipta logik relativistik, pandangan falsafahnya mengenai masalah persepsi (yang merupakan salah satu isu terpenting dalam sibernetik) adalah kira-kira tiga abad lebih awal daripada eranya. Lagipun, hanya dengan kemunculan karya Whitehead pada abad kita, pandangan itu membuktikan bahawa sesetengah objek, yang tidak mempunyai kesedaran itu sendiri, dapat bertindak balas dalam erti kata tertentu terhadap peristiwa yang berkaitan dengannya. Akhir sekali, adalah ciri khas bahawa dalam kajiannya tentang semua hubungan ini, Leibniz berdiri di atas kedudukan asas teori penyelidikan operasi. Dia kurang berminat dengan tafsiran sebab-akibat perhubungan berbanding tafsiran dinamik, dan percaya bahawa sebahagian adalah ungkapan keseluruhan, dan bukan hanya terkandung di dalamnya. Pendekatan ini sesuai dengan masalah Gestalt dalam psikologi moden, dengan pendekatan untuk menyelesaikan semua masalah sibernetik industri dari kedudukan perpaduan organik, serta dengan penyelidikan sibernetik moden ke dalam masalah pengecaman corak.