Otvoreni problemi u prepoznavanju govora. Predavanje u Yandexu. Velika enciklopedija nafte i plina

Pregled postojećih metoda prepoznavanja uzoraka

L.P. Popova , I OKO. Datiev

Sposobnost "prepoznavanja" smatra se glavnim svojstvom čovjeka, kao i drugih živih organizama. Prepoznavanje uzoraka je grana kibernetike koja razvija principe i metode klasifikacije, kao i identifikacije objekata, pojava, procesa, signala, situacija - svih onih objekata koji se mogu opisati konačnim skupom nekih znakova ili svojstava koja karakteriziraju objekt. .

Slika je opis predmeta. Slike imaju karakteristično svojstvo, koje se očituje u činjenici da upoznavanje konačnog broja pojava iz istog skupa omogućuje prepoznavanje koliko god želite. veliki broj njezini predstavnici.

U teoriji prepoznavanja uzoraka mogu se razlikovati dva glavna pravca:

proučavanje sposobnosti prepoznavanja koje posjeduju ljudska bića i drugi živi organizmi;

razvoj teorije i metoda za konstruiranje uređaja za rješavanje pojedinačnih problema prepoznavanja uzoraka u pojedinim područjima primjene.

Nadalje, članak opisuje probleme, principe i metode implementacije sustava za prepoznavanje slika povezanih s razvojem drugog smjera. U drugom dijelu članka govori se o neuromrežnim metodama prepoznavanja uzoraka, koje se mogu pripisati prvom smjeru teorije prepoznavanja uzoraka.

Problemi izgradnje sustava za prepoznavanje slike

Izazovi koji nastaju tijekom izgradnje automatski sustavi Prepoznavanje uzoraka općenito se može klasificirati u nekoliko glavnih područja. Prvi od njih odnosi se na prikaz početnih podataka dobivenih kao rezultata mjerenja za objekt koji treba prepoznati problem osjetljivosti. Svaka izmjerena vrijednost je neka "karakteristika slike ili objekta. Pretpostavimo, na primjer, da su slike alfanumerički simboli. U ovom slučaju, mrežnica za mjerenje, slična onoj prikazanoj na slici 1(a), može se uspješno koji se koristi u senzoru. Ako se mrežnica sastoji od n-elemenata, tada se rezultati mjerenja mogu prikazati kao vektor mjerenja ili vektor slike ,

gdje svaki element xi, ima, na primjer, vrijednost 1 ako je kroz i-ta ćelija mrežnica prolazi kroz sliku simbola, a vrijednost je 0 inače.

Pogledajmo sl. 2(b). U ovom slučaju slike su kontinuirane funkcije (kao što su zvučni signali) varijable t. Ako se mjerenje vrijednosti funkcije provodi u diskretnim točkama t1,t2, ..., tn, tada se vektor slike može formirati uzimanjem x1= f(t1),x2=f(t2),... , xn = f(tn).

Slika 1. Mjerenje retine

Drugi problem prepoznavanja uzoraka vezan je za odabir karakteristične značajke ili svojstva iz dobivenih izvornih podataka i smanjenje dimenzija slikovnih vektora. Taj se problem često definira kao problem pretprocesiranje i odabir značajki.

Značajke klase slika su karakteristična svojstva zajednička svim slikama date klase. Značajke koje karakteriziraju razlike između pojedinih klasa mogu se tumačiti kao međuklasne značajke. Značajke unutar klase zajedničke za sve klase koje se razmatraju ne nose korisna informacija sa stajališta priznavanja i ne mogu se uzeti u obzir. Izbor značajki smatra se jednim od važne zadatke vezano uz konstrukciju sustava za prepoznavanje. Ako nam rezultati mjerenja omogućuju dobivanje cjelovitog skupa razlikovnih obilježja za sve klase, stvarno prepoznavanje i klasifikacija slika neće uzrokovati posebne poteškoće. Automatsko prepoznavanje tada će se svesti na jednostavan proces uparivanja ili postupke kao što je skeniranje tablice. U većini praktični problemi prepoznavanje, međutim, definicija cijeli set razlikovanje značajki pokazalo se izuzetno teškim, ako ne i nemogućim. Obično je moguće izdvojiti neke od razlikovnih značajki iz neobrađenih podataka i koristiti ih za pojednostavljenje procesa automatsko prepoznavanje slike Konkretno, dimenzija mjernih vektora može se smanjiti korištenjem transformacija koje minimiziraju gubitak informacija.

Treći problem povezan s konstrukcijom sustava za prepoznavanje uzoraka je pronalaženje optimalnih postupaka odlučivanja potrebnih za identifikaciju i klasifikaciju. Nakon što su prikupljeni podaci o slikama koje treba prepoznati predstavljeni točkama ili mjernim vektorima u prostoru slike, prepuštamo stroju da otkrije kojoj klasi slika ti podaci odgovaraju. Neka je stroj dizajniran da razlikuje M klase, označene w1, w2, ... ..., wm. U ovom slučaju se može smatrati da se prostor slike sastoji od M regija, od kojih svaka sadrži točke koje odgovaraju slikama iz jedne klase. U ovom slučaju, zadatak prepoznavanja može se smatrati konstruiranjem granica područja odlučivanja koja razdvajaju M klase na temelju registriranih vektora mjerenja. Neka su te granice definirane, na primjer, funkcijama odlučivanja d1(x), d2(x),..., dm(x). Ove funkcije, koje se također nazivaju diskriminantne funkcije, su skalarne i jednovrijedne funkcije slike x. Ako je di (x) > dj (x), tada slika x pripada klasi w1. Drugim riječima, ako i-ti odlučujući funkcija di(x) ima najveća vrijednost, zatim smislena ilustracija takve sheme automatsko razvrstavanje, na temelju provedbe procesa odlučivanja, prikazan je na sl. 2 (u "GR" dijagramu - generator odlučujuće funkcije).

Slika 2. Shema automatske klasifikacije.

Odlučujuće funkcije mogu se dobiti na više načina. U slučajevima kada postoje potpune apriorne informacije o prepoznatim slikama, funkcije odlučivanja mogu se odrediti točno na temelju tih informacija. Ako su dostupne samo kvalitativne informacije o slikama, mogu se napraviti razumne pretpostavke o obliku odlučujućih funkcija. U potonjem slučaju, granice područja rješenja mogu značajno odstupati od stvarnih, pa je potrebno stvoriti sustav koji je u stanju postići zadovoljavajući rezultat nizom uzastopnih prilagodbi.

Objekti (slike) koji se trebaju prepoznati i klasificirati pomoću sustava za automatsko prepoznavanje uzoraka moraju imati skup mjerljivih karakteristika. Kada se za cijelu skupinu slika rezultati odgovarajućih mjerenja pokažu sličnim, smatra se da ti objekti pripadaju istoj klasi. Svrha sustava za prepoznavanje uzoraka je da na temelju prikupljenih informacija odredi klasu objekata sa karakteristikama sličnim onima izmjerenim u objektima koji se prepoznaju. Ispravnost prepoznavanja ovisi o količini diskriminirajućih informacija sadržanih u mjerenim karakteristikama i učinkovitosti korištenja tih informacija.

Osnovne metode implementacije sustava za prepoznavanje uzoraka

Prepoznavanje uzoraka odnosi se na problem konstruiranja i primjene formalnih operacija na numeričkim ili simboličkim reprezentacijama objekata u stvarnom ili idealnom svijetu, čiji rezultati odražavaju odnose ekvivalencije između tih objekata. Odnosi ekvivalencije izražavaju pripadnost procijenjenih objekata bilo kojoj klasi, koja se smatra neovisnom semantičkom jedinicom.

Prilikom konstruiranja algoritama za prepoznavanje, klase ekvivalencije može specificirati istraživač koji koristi svoje vlastite smislene reprezentacije ili koristi vanjske Dodatne informacije o sličnostima i razlikama objekata u kontekstu problema koji se rješava. Zatim govore o "prepoznavanju kod učitelja". Inače, t.j. Kada automatizirani sustav rješava problem klasifikacije bez korištenja vanjskih informacija o obuci, govore o automatskoj klasifikaciji ili "nenadziranom prepoznavanju". Većina algoritama za prepoznavanje slike zahtijevaju vrlo značajne računalna snaga, što može pružiti samo računalna tehnologija visokih performansi.

Razni autori (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V.I., J. Tu, R. Gonzalez, P. Winston, K. Fu, Ya.Z. Tsypkin, itd.) daju drugačiju tipologiju metoda prepoznavanja uzoraka. Neki autori razlikuju parametarske, neparametarske i heurističke metode, drugi identificiraju skupine metoda na temelju povijesno utemeljenih škola i trendova u ovom području.

Istodobno, poznate tipologije ne uzimaju u obzir jednu vrlo značajnu karakteristiku, koja odražava specifičnost načina prezentiranja znanja o predmetno područje uz pomoć bilo koje formalni algoritam prepoznavanje uzorka. D.A. Pospelov identificira dva glavna načina prezentiranja znanja:

Intenzionalni prikaz – u obliku dijagrama veza između atributa (obilježja).

Ekstenzivno prikazivanje - korištenje konkretnih činjenica (predmeta, primjera).

Valja napomenuti da je postojanje upravo ove dvije skupine metoda prepoznavanja: onih koje operiraju znakovima i onih koje operiraju objektima, duboko prirodno. S ove točke gledišta, niti jedna od ovih metoda, odvojeno jedna od druge, ne omogućuje nam da formiramo adekvatan odraz predmetnog područja. Između ovih metoda postoji odnos komplementarnosti u smislu N. Bohra, stoga bi perspektivni sustavi prepoznavanja trebali omogućiti implementaciju obje ove metode, a ne samo jedne od njih.

Dakle, klasifikacija metoda prepoznavanja koju je predložio D.A. Pospelov temelji se na temeljnim obrascima koji leže u osnovi ljudskog načina spoznaje općenito, što ga stavlja u potpuno poseban (privilegiran) položaj u usporedbi s drugim klasifikacijama, koje u ovoj pozadini izgledaju lakše i lakše. Umjetna.

Intenzivne metode

Osobitost intenzionalnih metoda je da koriste elemente operacija pri konstruiranju i primjeni algoritama za prepoznavanje uzoraka. razne karakteristike znakovi i njihove veze. Takvi elementi mogu biti pojedinačne vrijednosti ili intervali vrijednosti obilježja, prosječne vrijednosti i varijance, matrice odnosa obilježja itd., na kojima se izvode radnje, izražene u analitičkom ili konstruktivnom obliku. Pritom se objekti u ovim metodama ne smatraju integralnim informacijskim jedinicama, već djeluju kao indikatori za procjenu interakcije i ponašanja njihovih atributa.

Skupina intenzijskih metoda za prepoznavanje uzoraka je opsežna, a njezina podjela na potklase donekle je uvjetna:

– metode temeljene na procjeni gustoće distribucije vrijednosti značajki

– metode temeljene na pretpostavkama o klasi funkcija odlučivanja

– logičke metode

– lingvističke (strukturne) metode.

Metode temeljene na procjeni gustoće distribucije vrijednosti obilježja. Ove metode prepoznavanja uzoraka posuđene su iz klasične teorije statističkih odluka, u kojoj se objekti proučavanja smatraju implementacijama višedimenzionalnog nasumična varijabla, raspoređeni u prostoru obilježja prema nekom zakonu. Temelje se na Bayesovoj shemi odlučivanja koja se poziva na apriorne vjerojatnosti objekata koji pripadaju određenoj priznatoj klasi i uvjetne gustoće distribucije vrijednosti vektora obilježja. Ove se metode svode na određivanje omjera vjerojatnosti u različitim područjima višedimenzionalnog prostora značajki.

Skupina metoda koja se temelji na procjeni gustoće distribucije vrijednosti obilježja izravno je povezana s metodama diskriminativne analize. Bayesov pristup donošenju odluka jedna je od takozvanih parametarskih metoda najrazvijenijih u modernoj statistici, za koju se analitički izraz zakona distribucije smatra poznatim (u u ovom slučaju normalni zakon) i potrebno je procijeniti samo mali broj parametara (vektore srednjih vrijednosti i matrice kovarijancije).

U ovu skupinu spada i metoda izračuna omjera vjerojatnosti za nezavisna obilježja. Ova metoda, s izuzetkom pretpostavke o neovisnosti karakteristika (koja u stvarnosti gotovo nikad nije zadovoljena), ne pretpostavlja znanje funkcionalni tip zakon distribucije. Može se klasificirati kao neparametarska metoda.

Ostale neparametarske metode, koje se koriste kada je oblik krivulje gustoće distribucije nepoznat i ne mogu se napraviti nikakve pretpostavke o njezinoj prirodi, zauzimaju posebno mjesto. To uključuje dobro poznatu metodu višedimenzionalnih histograma, metodu “k-najbližih susjeda”, metodu euklidske udaljenosti, metodu potencijalnih funkcija itd., čija je generalizacija metoda nazvana “Parzenove procjene”. Ove metode formalno operiraju s objektima kao integralnim strukturama, ali ovisno o vrsti zadatka prepoznavanja, mogu djelovati iu intenzionom i u ekstenzionom obliku.

Neparametrijske metode analiziraju relativne brojeve objekata koji spadaju u zadane višedimenzionalne volumene i upotrebu razne funkcije udaljenosti između objekata uzorka za obuku i prepoznatih objekata. Za kvantitativne karakteristike, kada je njihov broj puno manji od veličine uzorka, operacije s objektima igraju posrednu ulogu u procjeni lokalne gustoće distribucije uvjetnih vjerojatnosti i objekti ne nose semantičko opterećenje neovisnih informacijskih jedinica. U isto vrijeme, kada je broj znakova razmjeran odn više broja objekata koji se proučavaju, a znakovi su kvalitativne ili dihotomne prirode, tada ne može biti govora o bilo kakvim lokalnim procjenama gustoća distribucije vjerojatnosti. Pri tome se objekti u navedenim neparametarskim metodama smatraju samostalnim informacijskim jedinicama (cjelovitim empirijskim činjenicama) i te metode dobivaju značenje procjene sličnosti i razlika predmeta koji se proučavaju.

Dakle, iste tehnološke operacije neparametarskih metoda, ovisno o uvjetima problema, imaju smisla ili lokalne procjene gustoće distribucije vjerojatnosti vrijednosti obilježja, ili procjene sličnosti i razlike objekata.

U kontekstu intenzivne reprezentacije znanja, ovdje se razmatra prva strana neparametarskih metoda, kao što su procjene gustoća distribucije vjerojatnosti. Mnogi autori primjećuju da u praksi dobro funkcioniraju neparametarske metode poput Parzenovih procjenitelja. Glavne poteškoće u korištenju ovih metoda su potreba da se zapamti cijeli uzorak za obuku kako bi se izračunale procjene lokalnih gustoća distribucije vjerojatnosti i velika osjetljivost na nereprezentativnost uzorka za obuku.

Metode temeljene na pretpostavkama o klasi funkcija odlučivanja. U ovoj skupini metoda opći oblik funkcije odlučivanja smatra se poznatim i specificira funkcional njezine kvalitete. Na temelju ovog funkcionala traži se najbolja aproksimacija funkcije odlučivanja u sekvenci učenja. Najčešći su prikazi funkcija odlučivanja u obliku linearnih i generaliziranih nelinearnih polinoma. Funkcional kvalitete pravila odlučivanja obično je povezan s greškom klasifikacije.

Glavna prednost metoda temeljenih na pretpostavkama o klasi funkcija odlučivanja je jasnoća matematičke formulacije problema prepoznavanja kao problema traženja ekstrema. Rješenje ovog problema često se postiže korištenjem nekih gradijentnih algoritama. Raznolikost metoda u ovoj skupini objašnjava se širokim rasponom funkcionala kvalitete pravila odlučivanja i korištenih algoritama pretraživanja ekstrema. Generalizacija algoritama koji se razmatraju, koji uključuju, posebno, Newtonov algoritam, algoritme perceptronskog tipa itd., je metoda stohastičke aproksimacije. Za razliku od parametarskih metoda prepoznavanja, uspješnost korištenja ove skupine metoda ne ovisi toliko o raskoraku između teorijskih ideja o zakonitostima raspodjele objekata u prostoru značajki i empirijske stvarnosti. Sve operacije su podređene jednom glavnom cilju - pronalaženju ekstrema funkcionala kvalitete pravila odlučivanja. U isto vrijeme, rezultati parametarske i razmatrane metode mogu biti slični. Kao što je prikazano gore, parametarske metode za slučaj normalne raspodjele objekti u različitim klasama s jednakim matricama kovarijanci dovode do linearnih funkcija odlučivanja. Napomenimo također da se algoritmi za odabir informativnih značajki u linearnim dijagnostičkim modelima mogu interpretirati kao posebne verzije gradijentnih algoritama za traženje ekstrema.

Mogućnosti algoritama traženja gradijentnog ekstremuma, posebno u skupini linearnih pravila odlučivanja, prilično su dobro proučene. Konvergencija ovih algoritama je dokazana samo za slučaj kada su prepoznate klase objekata prikazane u prostoru značajki kompaktnim geometrijskim strukturama. Međutim, želja da se postigne dovoljna kvaliteta pravila odlučivanja često se može zadovoljiti uz pomoć algoritama koji nemaju striktan matematički dokaz konvergencije rješenja globalnom ekstremu.

Takvi algoritmi uključuju velika grupa postupci heurističkog programiranja koji predstavljaju smjer evolucijskog modeliranja. Evolucijsko modeliranje je bionička metoda posuđena iz prirode. Temelji se na korištenju poznatih mehanizama evolucije kako bi se proces smislenog modeliranja složenog objekta zamijenio fenomenološkim modeliranjem njegove evolucije.

Poznati predstavnik evolucijskog modeliranja u prepoznavanju uzoraka je metoda grupnog obračuna argumenata (MGUA). Osnova GMDH je princip samoorganizacije, a GMDH algoritmi reproduciraju shemu masovne selekcije. U GMDH algoritmima članovi generaliziranog polinoma se sintetiziraju i odabiru na poseban način, koji se često naziva Kolmogorov-Gaborov polinom. Ova sinteza i selekcija provodi se sve složenije i nemoguće je unaprijed predvidjeti kakav će konačni oblik imati generalizirani polinom. Prvo se obično razmatraju jednostavne parne kombinacije početnih značajki, iz kojih se sastavljaju jednadžbe funkcija odlučivanja, obično ne višeg od drugog reda. Svaka se jednadžba analizira kao nezavisna funkcija odlučivanja, a vrijednosti parametara sastavljenih jednadžbi pronalaze se na ovaj ili onaj način pomoću uzorka za obuku. Zatim se iz rezultirajućeg skupa funkcija odlučivanja odabiru neke od najboljih. Kvaliteta pojedinih funkcija odlučivanja provjerava se na kontrolnom (validacijskom) uzorku, što se ponekad naziva i princip eksternog dodavanja. Odabrane djelomične funkcije odlučivanja dalje se smatraju međuvarijablama koje služe kao početni argumenti za sličnu sintezu novih funkcija odlučivanja itd. Proces takve hijerarhijske sinteze nastavlja se sve dok se ne dosegne ekstrem kriterija kvalitete funkcije odlučivanja, što u praksi očituje se u pogoršanju ove kvalitete pri pokušaju daljnjeg povećanja reda polinomskih članova u odnosu na izvorna obilježja.

Načelo samoorganizacije koje leži u osnovi GMDH naziva se heuristička samoorganizacija, budući da se cijeli proces temelji na uvođenju vanjskih dodataka, odabranih heuristički. Ishod odluke može značajno ovisiti o tim heuristikama. Rezultirajući dijagnostički model ovisi o tome kako su objekti podijeljeni na uzorke za obuku i testiranje, kako je određen kriterij kvalitete prepoznavanja, koliko je varijabli proslijeđeno u sljedeći redak odabira itd.

Navedene značajke GMDH algoritama karakteristične su i za druge pristupe evolucijskom modeliranju. Ali zapazimo ovdje još jedan aspekt metoda koje razmatramo. Ovo je njihova smislena bit. Korištenjem metoda temeljenih na pretpostavkama o klasi funkcija odlučivanja (evolucijskih i gradijentnih) moguće je izgraditi dijagnostičke modele visoke složenosti i dobiti praktično prihvatljive rezultate. Istodobno, postizanje praktičnih ciljeva u ovom slučaju nije popraćeno izvlačenjem novih znanja o prirodi prepoznatih objekata. Mogućnost izdvajanja tog znanja, posebice znanja o mehanizmima interakcije atributa (značajki), ovdje je temeljno ograničena zadanom strukturom takve interakcije, fiksiranom u odabranom obliku funkcija odlučivanja. Stoga je najviše što se može reći nakon konstruiranja određenog dijagnostičkog modela navesti kombinacije značajki i same značajke uključene u rezultirajući model. Ali značenje kombinacija odražava prirodu i strukturu distribucije predmeta koji se proučavaju unutar ovaj pristupčesto ostaje neotkrivena.

Booleove metode. Logičke metode prepoznavanja uzoraka temelje se na aparatu logičke algebre i omogućuju rad s informacijama sadržanim ne samo u pojedinačnim značajkama, već iu kombinacijama vrijednosti značajki. U ovim metodama, vrijednosti bilo kojeg atributa smatraju se elementarnim događajima.

U najopćenitijem obliku, logičke metode mogu se okarakterizirati kao vrsta pretraživanja kroz uzorak za obuku logičkih obrazaca i formiranje određenog sustava logičkih pravila odlučivanja (na primjer, u obliku konjunkcija elementarnih događaja), svaki od koji ima svoju težinu. Skupina logičkih metoda je raznolika i uključuje metode različite složenosti i dubine analize. Za dihotomne (Booleove) značajke popularni su takozvani klasifikatori nalik na stablo, slijepa metoda ispitivanja, algoritam "Laja" i drugi. Više složene metode temelje se na formalizaciji induktivnih metoda D.S. Milla. Formalizacija se provodi konstruiranjem kvazi-aksiomatske teorije i temelji se na višestruko sortiranoj mnogovrijednoj logici s kvantifikatorima nad torkama promjenjive duljine.

Algoritam "Kora", kao i druge logičke metode prepoznavanja uzoraka, prilično je naporan, budući da je pri odabiru konjunkcija potrebna potpuna pretraga. Stoga, primjenom logičkih metoda, visoke zahtjeve do učinkovite organizacije proces računanja, a ove metode dobro funkcioniraju za relativno male dimenzije prostora značajki i samo na snažnim računalima.

Lingvističke (sintaktičke ili strukturne) metode. Lingvističke metode prepoznavanja uzoraka temelje se na korištenju posebnih gramatika koje generiraju jezike, uz pomoć kojih se može opisati skup svojstava prepoznatih objekata. Gramatika se odnosi na pravila za konstruiranje objekata iz tih neizvedenih elemenata.

Ako se opis slika vrši korištenjem neizvedenih elemenata (podslike) i njihovih odnosa, onda se jezični ili sintaktički pristup koristeći načelo općenitosti svojstava. Slika se može opisati pomoću hijerarhijske strukture podslika, slično sintaktičkoj strukturi jezika. Ova okolnost omogućuje primjenu teorije o formalni jezici. Pretpostavlja se da gramatika slike sadrži konačne skupove elemenata koji se nazivaju varijablama, nederivativni elementi i pravila zamjene. Priroda pravila zamjene određuje vrstu gramatike. Među najčešće proučavanim gramatikama možemo istaknuti redovne, bezkontekstualne i gramatike izravnih komponenti. Ključne točke ovog pristupa su izbor nederiviranih elemenata slike, kombinacija tih elemenata i odnosa koji ih povezuju u gramatike slike i, konačno, implementacija procesa analize i prepoznavanja na odgovarajućem jeziku. Ovaj pristup je posebno koristan kada se radi sa slikama koje se ili ne mogu opisati numeričkim mjerenjima ili su toliko složene da se njihove lokalne značajke ne mogu identificirati i treba se okrenuti globalnim svojstvima objekata.

Na primjer, E.A. Butakov, V.I. Ostrovski, I.L. Fadejev se nudi sljedeća struktura sustavi za obradu slike (slika 3), koristeći lingvistički pristup, gdje je svaki od funkcionalnih blokova programski (mikroprogramski) kompleks (modul) koji implementira odgovarajuće funkcije.

Slika 3. Strukturna shema uređaj za prepoznavanje

Pokušaji primjene metoda matematičke lingvistike na problem analize slike dovode do potrebe za rješavanjem brojnih problema povezanih s preslikavanjem dvodimenzionalne strukture slike na jednodimenzionalne lance formalnog jezika.

Ekstenzivne metode

U metodama ove skupine, za razliku od intenzionalnog smjera, svakom proučavanom objektu se u većoj ili manjoj mjeri pridaje samostalno dijagnostičko značenje. U svojoj srži, ove su metode bliske kliničkom pristupu, koji ljude ne promatra kao lanac objekata rangiranih po jednom ili drugom pokazatelju, već kao cjelovite sustave, od kojih je svaki individualan i ima posebnu dijagnostičku vrijednost. Takav pažljiv odnos prema objektima istraživanja ne dopušta isključivanje ili gubljenje informacija o svakom pojedinom objektu, što se događa pri korištenju metoda intenzionog usmjerenja koje koriste objekte samo za otkrivanje i bilježenje obrazaca ponašanja njihovih atributa.

Glavne operacije u prepoznavanju uzoraka korištenjem razmatranih metoda su operacije određivanja sličnosti i razlika objekata. Objekti u navedenoj skupini metoda igraju ulogu dijagnostičkih presedana. Međutim, ovisno o uvjetima konkretan zadatak uloga pojedinog presedana može jako varirati: od glavne i odlučujuće uloge do vrlo neizravnog sudjelovanja u procesu priznavanja. Zauzvrat, uvjeti problema mogu zahtijevati sudjelovanje razne količine dijagnostički presedani: od jednog u svakoj priznatoj klasi do pune veličine uzorka, kao i različiti putevi izračunavanje mjera sličnosti i razlika između objekata. Ovi zahtjevi objašnjavaju daljnju podjelu ekstenzijskih metoda u potklase:

metoda usporedbe s prototipom;

k-metoda najbližih susjeda;

kolektivi pravila odlučivanja.

Metoda usporedbe s prototipom. Ovo je najjednostavnija metoda ekstenzivnog prepoznavanja. Koristi se, na primjer, kada se prepoznate klase prikazuju u prostoru značajki kompaktnim geometrijskim skupinama. U ovom slučaju, obično je središte geometrijskog grupiranja klase (ili objekt najbliži središtu) odabrano kao točka prototipa.

Za klasificiranje nepoznatog objekta, pronalazi se njemu najbliži prototip, a objekt pripada istoj klasi kao i ovaj prototip. Očito, ovom metodom se ne generiraju generalizirane slike klasa.

Kao mjera blizine mogu se koristiti različite vrste udaljenosti. Često se za dihotomna obilježja koristi Hammingova udaljenost, koja je u ovom slučaju jednaka kvadratu euklidske udaljenosti. U ovom slučaju, pravilo odlučivanja za klasificiranje objekata je ekvivalentno linearnoj funkciji odlučivanja.

Tu činjenicu treba posebno istaknuti. Jasno pokazuje vezu između prototipa i atributnog prikaza informacija o strukturi podataka. Koristeći gornji prikaz, možete, na primjer, bilo koju tradicionalnu mjernu ljestvicu, koja je linearna funkcija iz značenja dihotomnih obilježja, smatra se hipotetskim dijagnostičkim prototipom. S druge strane, ako nam analiza prostorne strukture prepoznatih klasa omogućuje izvođenje zaključka o njihovoj geometrijskoj kompaktnosti, onda je dovoljno svaku od tih klasa zamijeniti jednim prototipom, što je zapravo ekvivalentno linearnom dijagnostičkom modelu.

U praksi je, naravno, situacija često drugačija od opisanog idealiziranog primjera. Istraživač koji namjerava primijeniti metodu prepoznavanja temeljenu na usporedbi s prototipovima dijagnostičkih klasa suočava se s teškim problemima. To je, prije svega, izbor mjere (metrike) blizine, koja može značajno promijeniti prostornu konfiguraciju rasporeda objekata. I, drugo, samostalan problem je analiza višedimenzionalnih struktura eksperimentalnih podataka. Oba ova problema posebno su akutna za istraživača u uvjetima visoke dimenzionalnosti prostora obilježja, karakteristične za stvarne probleme.

Metoda k-najbližih susjeda. Metoda k-najbližih susjeda za rješavanje problema diskriminacijske analize prvi put je predložena davne 1952. godine. To je kako slijedi.

Pri klasificiranju nepoznatog objekta nalazi se dati broj(k) geometrijski najbliži sebi u prostoru obilježja drugih objekata (najbližih susjeda) s već poznatim članstvom u prepoznatljivim klasama. Odluka o dodjeli nepoznatog objekta određenoj dijagnostičkoj klasi donosi se analizom informacija o toj poznatoj pripadnosti njegovih najbližih susjeda, na primjer, korištenjem jednostavnog brojanja glasova.

U početku se metoda k-najbližih susjeda smatrala neparametrijskom metodom za procjenu omjera vjerojatnosti. Za ovu metodu dobivene su teorijske procjene njezine učinkovitosti u usporedbi s optimalnim Bayesovim klasifikatorom. Dokazano je da vjerojatnosti asimptotske pogreške za metodu k-najbližih susjeda premašuju pogreške Bayesova pravila ne više od dva puta.

Kao što je gore navedeno, u stvarnim problemima često je potrebno raditi s objektima koji su opisani veliki iznos kvalitativne (dihotomne) karakteristike. U ovom slučaju, dimenzija prostora obilježja je razmjerna ili premašuje volumen uzorka koji se proučava. U takvim uvjetima pogodno je interpretirati svaki objekt uzorka za obuku kao zaseban linearni klasifikator. Tada je ova ili ona dijagnostička klasa predstavljena ne jednim prototipom, već skupom linearnih klasifikatora. Kombinirana interakcija linearnih klasifikatora u konačnici rezultira komadičnom linearnom površinom koja odvaja prepoznate klase u prostoru značajki. Vrsta razdjelne plohe, koja se sastoji od dijelova hiperravnina, može varirati i ovisi o međusobnom položaju razvrstanih agregata.

Može se koristiti i drugo tumačenje mehanizama klasifikacije korištenjem pravila k-najbližih susjeda. Temelji se na ideji postojanja nekih latentnih varijabli, apstraktnih ili povezanih nekom transformacijom s izvornim prostorom značajki. Ako su u prostoru latentnih varijabli parne udaljenosti između objekata jednake kao u prostoru izvornih obilježja, a broj tih varijabli znatno manji od broja objekata, tada interpretacija metode k-najbližih susjeda može razmatrati sa stajališta usporedbe neparametarskih procjena uvjetne gustoće distribucije vjerojatnosti. Pogled na latentne varijable koji je ovdje predstavljen po prirodi je blizak pogledu na pravu dimenzionalnost i drugim pogledima koji se koriste u raznim tehnikama smanjenja dimenzionalnosti.

Kada koristi metodu k-najbližih susjeda za prepoznavanje uzoraka, istraživač mora odlučiti složen problem odabir metrike za određivanje blizine dijagnosticiranih objekata. Ovaj problem u uvjetima visoke dimenzionalnosti prostora značajki izuzetno je pogoršan zbog dostatne složenosti ove metode, što postaje značajno čak i za računala visokih performansi. Stoga je ovdje, baš kao iu metodi usporedbe s prototipom, potrebno riješiti kreativni problem analize višedimenzionalne strukture eksperimentalnih podataka kako bi se smanjio broj objekata koji predstavljaju dijagnostičke klase.

Algoritmi za izračunavanje rejtinga (glasovanje). Načelo rada algoritama za izračun procjene (ABO) je izračunavanje prioriteta (rezultati sličnosti) koji karakteriziraju "blizinu" prepoznatih i referentnih objekata prema sustavu ansambala obilježja, koji je sustav podskupova danog skupa obilježja .

Za razliku od svih prethodno razmatranih metoda, algoritmi za izračunavanje procjena rade s opisima objekata na potpuno nov način. Za ove algoritme, objekti postoje istovremeno u vrlo različitim podprostorima prostora značajki. ABO klasa dovodi ideju korištenja značajki do logičnog završetka: budući da nije uvijek poznato koje su kombinacije značajki najinformativnije, tada se u ABO stupanj sličnosti objekata izračunava usporedbom svih mogućih ili specifičnih kombinacija značajke uključene u opise objekata.

Kolektivi pravila odlučivanja. Pravilo odlučivanja koristi dvorazinsku shemu prepoznavanja. Na prvoj razini djeluju privatni algoritmi za prepoznavanje čiji se rezultati kombiniraju na drugoj razini u bloku sinteze. Najčešće metode takvog objedinjavanja temelje se na identificiranju područja kompetencije pojedinog algoritma. Najjednostavniji način pronalaženje područja kompetencije sastoji se u apriornoj podjeli prostora atributa na temelju stručnih razmatranja određene znanosti (primjerice, stratifikacija uzorka prema određenom atributu). Zatim se za svako od odabranih područja izrađuje vlastiti algoritam za prepoznavanje. Druga metoda temelji se na upotrebi formalne analize za određivanje lokalna područja prostori značajki kao susjedstva prepoznatih objekata za koje je dokazana uspješnost bilo kojeg određenog algoritma za prepoznavanje.

Najopćenitiji pristup konstruiranju bloka sinteze uzima u obzir rezultirajuće pokazatelje pojedinih algoritama kao početne karakteristike za konstruiranje novog generaliziranog pravila odlučivanja. U ovom slučaju mogu se koristiti sve gore navedene metode intenzijskih i ekstenzijskih smjerova u prepoznavanju uzoraka. Učinkoviti za rješavanje problema kreiranja skupa pravila odlučivanja su logički algoritmi tipa “Kora” i algoritmi za izračunavanje procjena (ABO), koji čine osnovu tzv. algebarskog pristupa, koji omogućuje proučavanje i konstruktivan opis algoritmi za prepoznavanje, u čiji okvir se uklapaju sve postojeće vrste algoritama.

Metode neuronske mreže

Metode neuronske mreže su metode koje se temelje na primjeni različite vrste neuronske mreže (NN). Glavna područja primjene različitih neuronskih mreža za prepoznavanje uzoraka i slika:

zahtjev za ekstrakciju ključne karakteristike ili znakovi datih slika,

klasifikacija samih slika ili karakteristika koje su već izvučene iz njih (u prvom slučaju ekstrakcija ključnih karakteristika događa se implicitno unutar mreže),

rješavanje problema optimizacije.

Višeslojne neuronske mreže. Arhitektura višeslojne neuronske mreže (MNN) sastoji se od sekvencijalno povezanih slojeva, pri čemu je neuron svakog sloja svojim ulazima povezan sa svim neuronima prethodnog sloja, a izlazima sljedećeg.

Najjednostavnija primjena jednoslojne neuronske mreže (zvane auto-asocijativna memorija) je osposobljavanje mreže za rekonstrukciju unesenih slika. Unosom probne slike kao ulaza i izračunavanjem kvalitete rekonstruirane slike, možete procijeniti koliko je dobro mreža prepoznala ulaznu sliku. Pozitivna svojstva ove metode su da mreža može vratiti iskrivljene i šumne slike, ali nije prikladna za ozbiljnije svrhe.

MNN se također koristi za izravnu klasifikaciju slike - ili sama slika u nekom obliku ili skup prethodno ekstrahiranih ključnih karakteristika slike se daje kao ulaz; na izlazu, neuron s maksimalnom aktivnošću ukazuje na članstvo u prepoznatoj klasi (Sl. 4). Ako je ova aktivnost ispod određenog praga, tada se smatra da poslana slika ne pripada nijednoj od poznatih klasa. Proces učenja uspostavlja korespondenciju slika koje se unose s pripadnošću određenoj klasi. To se zove nadzirano učenje. Ovaj pristup je dobar za zadatke kontrole pristupa male grupe ljudi. Ovakav pristup osigurava da mreža izravno uspoređuje same slike, ali s povećanjem broja klasa, vrijeme obuke i rada mreže raste eksponencijalno. Stoga, za zadatke kao što je traženje slična osoba u velikoj bazi podataka zahtijeva izdvajanje kompaktnog skupa ključnih karakteristika po kojima se može pretraživati.

Korištenje klasifikacijskog pristupa frekvencijske karakteristike cijela slika, opisana u . Korištena je jednoslojna neuronska mreža temeljena na neuronima s više vrijednosti.

Prikazana je primjena neuronske mreže za klasifikaciju slika kada mrežni ulaz dobije rezultate dekompozicije slike metodom glavne komponente.

U klasičnom MNN-u, međuslojne neuronske veze su potpuno povezane, a slika je predstavljena kao jednodimenzionalni vektor, iako je dvodimenzionalna. Arhitektura konvolucijske neuronske mreže ima za cilj prevladati te nedostatke. Koristila je lokalna receptorska polja (omogućuju lokalnu dvodimenzionalnu povezanost neurona), globalne težine (omogućuju otkrivanje određenih značajki bilo gdje na slici) i hijerarhijska organizacija sa prostornim poduzorkovanjem. Konvolucijska neuronska mreža (CNN) pruža djelomičnu otpornost na promjene mjerila, pomake, rotacije i iskrivljenja.

MNN se također koriste za otkrivanje objekata određene vrste. Osim što svaki obučeni MNN može donekle utvrditi pripadaju li slike “njihovim” klasama, može se posebno osposobiti za pouzdano otkrivanje određenih klasa. U ovom slučaju, izlazne klase će biti klase koje pripadaju i ne pripadaju danom tipu slike. Za otkrivanje slike lica u ulaznoj slici korišten je detektor neuronske mreže. Slika je skenirana prozorom od 20x20 piksela, koji je stavljen na ulaz mreže, koja odlučuje pripada li određeno područje klasi lica. Edukacija je provedena na pozitivnim primjerima (razne slike lica) i na negativnim primjerima (slike koje nisu lica). Za povećanje pouzdanosti detekcije korišten je tim neuronskih mreža treniranih s različitim početnim težinama, zbog čega su neuronske mreže griješile na različite načine, a konačna odluka se donosila glasovanjem cijelog tima.

Slika 5. Glavne komponente (eigenfaces) i dekompozicija slike na glavne komponente

Neuronska mreža također se koristi za izdvajanje ključnih karakteristika slike, koje se zatim koriste za kasniju klasifikaciju. U , prikazana je metoda implementacije neuronske mreže metode analize glavnih komponenti. Bit metode analize glavnih komponenti je dobivanje maksimalno ukrašenih koeficijenata koji karakteriziraju ulazne slike. Ti se koeficijenti nazivaju glavnim komponentama i koriste se za statističku kompresiju slike, u kojoj mali broj koeficijenti se koriste za predstavljanje cijele slike. Neuronska mreža s jednim skrivenim slojem koji sadrži N neurona (što je mnogo manje od dimenzije slike), obučena pomoću metode širenje unazad greške se obnavljaju na izlazu, slika dostavljena na ulaz oblikuje koeficijente prvih N glavnih komponenti na izlazu skrivenih neurona, koji se koriste za usporedbu. Obično se koristi od 10 do 200 glavnih komponenti. Povećanjem broja sastavnice, njena reprezentativnost se jako smanjuje, te nema smisla koristiti komponente s velikim brojevima. Pri korištenju nelinearnih aktivacijskih funkcija neuralnih elemenata moguća je nelinearna dekompozicija na glavne komponente. Nelinearnost omogućuje da se varijacije u ulaznim podacima točnije odražavaju. Primjenom analize glavnih komponenti na dekompoziciju slika lica, dobivamo glavne komponente koje se nazivaju vlastita lica, a koje također karakterizira korisno svojstvo– postoje komponente koje uglavnom odražavaju bitne karakteristike osobe kao što su spol, rasa, emocije. Kada se restauriraju, komponente imaju izgled lica, pri čemu se one prve najviše odražavaju opći oblik lica, potonji – razne male razlike između lica (sl. 5). Ova metoda je vrlo prikladna za pretraživanje slične slike osobe u velike baze podataka podaci. Također je prikazana mogućnost daljnjeg smanjenja dimenzija glavnih komponenti korištenjem NN. Ocjenjujući kvalitetu rekonstrukcije ulazne slike, možete vrlo precizno odrediti njezino članstvo u klasi lica.

Neuronske mreže visokog reda. Neuralne mreže visokog reda (HANN) razlikuju se od MNN po tome što imaju samo jedan sloj, ali neuronski ulazi također primaju članove visokog reda, koji su proizvod dviju ili više komponenti ulaznog vektora. Takve mreže također mogu tvoriti složene razdjelne plohe.

Hopfieldove neuronske mreže. Hopfieldov NN (HNS) je jednoslojni i potpuno povezan (nema veza između neurona na sebi), njegovi izlazi su povezani s ulazima. Za razliku od MNS-a, NSC je opuštanje - tj. ako je postavljen na početno stanje, radi dok ne postigne stabilno stanje, što će biti njegova izlazna vrijednost. Za traženje globalnog minimuma u odnosu na probleme optimizacije koriste se stohastičke modifikacije NSC-a.

Primjena NSH as asocijativno pamćenje omogućuje vam da točno vratite slike za koje je mreža osposobljena kada se iskrivljena slika unese na ulaz. U tom slučaju, mreža će "zapamtiti" najbližu (u smislu lokalne minimalne energije) sliku, i tako je prepoznati. Takvo funkcioniranje također se može predstaviti kao gore opisana sekvencijalna primjena autoasocijativne memorije. Za razliku od autoasocijativne memorije, NSC će idealno točno vratiti sliku. Kako biste izbjegli minimalne smetnje i povećali kapacitet mreže, koristite razne metode.

Samoorganizirajuće Kohonenove neuronske mreže. Samoorganizirajuće Kohonenove neuronske mreže (KONN) osiguravaju topološko uređenje prostora ulazne slike. Omogućuju topološki kontinuirano preslikavanje n-dimenzionalnog ulaznog prostora u m-dimenzionalni izlazni prostor, m<

Cognitron. Arhitektura Cognitrona slična je strukturi vidnog korteksa, ima hijerarhijsku višeslojnu organizaciju u kojoj su neuroni između slojeva povezani samo lokalno. Naučeno natjecateljskim učenjem (bez nastavnika). Svaki sloj mozga provodi različite razine generalizacije; ulazni sloj je osjetljiv na jednostavne uzorke, kao što su linije, i njihovu orijentaciju u određenim područjima vizualne domene, dok je odgovor drugih slojeva složeniji, apstraktniji i neovisan o položaju uzorka. Slične funkcije implementirane su u kognitronu modeliranjem organizacije vidnog korteksa.

Neocognitron je daljnji razvoj ideje kognitrona i točnije odražava strukturu vizualnog sustava, omogućuje vam prepoznavanje slika bez obzira na njihove transformacije, rotacije, izobličenja i promjene u mjerilu.

Cognitron je moćan alat za prepoznavanje slika, ali zahtijeva visoke računalne troškove, koji su trenutno nedostižni.

Razmatrane metode neuronske mreže omogućuju brzo i pouzdano prepoznavanje slike, ali pri korištenju ovih metoda nastaju problemi u prepoznavanju trodimenzionalnih objekata. Međutim, ovaj pristup ima mnoge prednosti.

Zaključak

Trenutno postoji prilično velik broj sustava za automatsko prepoznavanje uzoraka za različite primijenjene zadatke.

Prepoznavanje obrazaca formalnim metodama kao temeljni znanstveni pravac je neiscrpan.

Matematičke metode obrade slike imaju široku paletu primjena: znanost, tehnologija, medicina, društvena sfera. U budućnosti će se uloga prepoznavanja uzoraka u ljudskom životu još više povećati.

Metode neuronske mreže omogućuju brzo i pouzdano prepoznavanje slike. Ovaj pristup ima puno prednosti i jedan je od onih koji najviše obećavaju.

Književnost

D.V. Brilyuk, V.V. Starovoitov. Metode neuronske mreže za prepoznavanje slika // /

Kuzin L.T. Osnove kibernetike: Osnove kibernetičkih modela. T.2. - M.: Energija, 1979. - 584 str.

Peregudov F.I., Tarasenko F.P. Uvod u analizu sustava: Udžbenik. – M.: Viša škola, 1997. - 389 str.

Temnikov F.E., Afonin V.A., Dmitriev V.I. Teorijske osnove informacijske tehnologije. - M.: Energija, 1979. - 511 str.

Tu J., Gonzalez R. Principi prepoznavanja uzoraka. /Trans. s engleskog - M.: Mir, 1978. - 410 str.

Winston P. Umjetna inteligencija. /Trans. s engleskog - M.: Mir, 1980. - 520 str.

Fu K. Strukturne metode u prepoznavanju uzoraka: Prijevod s engleskog. - M.: Mir, 1977. - 320 str.

Tsypkin Ya.Z. Osnove informacijske teorije identifikacije. - M.: Nauka, 1984. - 520 str.

Pospelov G.S. Umjetna inteligencija temelj je nove informacijske tehnologije. - M.: Nauka, 1988. - 280 str.

Yu. Lifshits, Statističke metode prepoznavanja uzoraka ///modern/07modernnote.pdf

Bohr N. Atomska fizika i ljudska spoznaja. /Prijevod s engleskog - M.: Mir, 1961. - 151 str.

Butakov E.A., Ostrovsky V.I., Fadeev I.L. Obrada slike na računalu.1987.-236str.

Duda R., Hart P. Prepoznavanje uzoraka i analiza scene. /Prijevod s engleskog - M.: Mir, 1978. - 510 str.

Vojvoda V.A. Računalna psihodijagnostika. - St. Petersburg: Bratstvo, 1994. - 365 str.

Aizenberg I. N., Aizenberg N. N. i Krivosheev G. A. Viševrijedni i univerzalni binarni neuroni: Algoritmi za učenje, primjene na obradu i prepoznavanje slike. Bilješke s predavanja iz Umjetne inteligencije – Strojno učenje i rudarenje podataka u prepoznavanju uzoraka, 1999., str. 21-35 (prikaz, ostalo).

Ranganath S. i Arun K. Prepoznavanje lica pomoću značajki transformacije i neuronskih mreža. Pattern Recognition 1997, sv. 30, str. 1615-1622 (prikaz, stručni).

Golovko V.A. Neurointeligencija: teorija i primjene. Knjiga 1. Organizacija i obuka neuronskih mreža s izravnim i povratnim vezama - Brest: BPI, 1999, - 260 str.

Vetter T. i Poggio T. Klase linearnih objekata i sinteza slike iz jednog primjera slike. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, str. 733-742 (prikaz, ostalo).

Golovko V.A. Neurointeligencija: teorija i primjene. Knjiga 2. Samoorganizacija, tolerancija grešaka i primjena neuronskih mreža - Brest: BPI, 1999., - 228 str.

Lawrence S., Giles C. L., Tsoi A. C. i Back A. D. Prepoznavanje lica: Pristup konvolucijske neuronske mreže. IEEE Transactions on Neural Networks, Posebno izdanje o neuronskim mrežama i prepoznavanju uzoraka, str. 1-24 (prikaz, ostalo).

Wasserman F. Neuroračunalna tehnologija: Teorija i praksa, 1992. – 184 str.

Rowley, H. A., Baluja, S. i Kanade, T. Detekcija lica temeljena na neuronskoj mreži. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Vol. 20, str. 23-37 (prikaz, ostalo).

Valentin D., Abdi H., O"Toole A. J. i Cottrell G. W. Konekcionistički modeli obrade lica: anketa. IN: Pattern Recognition 1994., svezak 27, str. 1209-1230.

Dokument

Oni sastavljaju algoritme priznanjeslike. Metodepriznanjeslike Kao što je gore navedeno... stvarnost nije postoji"ekosustavi općenito", i postojati samo pojedinačni... zaključci iz ovog detaljnog pregledmetodepriznanje predstavili smo u...

Pregled metoda za identifikaciju ljudi na temelju slika lica, uzimajući u obzir značajke vizualnog prepoznavanja
Pregled
... priznanje od strane osobe objekata niskog kontrasta, uklj. osobe S obzirom pregled uobičajen metode ... postoji cijela linija metode ... put, kao rezultat istraživanja, platforma za razvoj metodapriznanje ...
Nazvana po Glazkovoj Valentini Vladimirovnoj ISTRAŽIVANJE I RAZVOJ METODA ZA KONSTRUKCIJU SOFTVERSKIH ALATA ZA KLASIFIKACIJU VIŠETEMATSKIH HIPERTEKSTUALNIH DOKUMENATA Specijalnost 05
Sažetak disertacije
Hipertekstualni dokumenti. Poglavlje pruža pregledpostojanjemetode rješenja problema koji se razmatra, opis... odsijecanjem najmanje relevantnih razreda // Mathematical metodepriznanjeslike: 13. Sveruska konferencija. Lenjingradska oblast...
Slide 0 Pregled bioinformatičkih zadataka vezanih uz analizu i obradu genetskih tekstova
Predavanje
DNA i proteinske sekvence. Pregled bioinformatički zadaci kao zadaci... signali zahtijevaju korištenje suvremenih metodepriznanjeslike, statistički pristupi i... s niskom gustoćom gena. Postojanje programi predviđanja gena nisu...

Slika, klasa - klasifikacijska grupacija u klasifikacijskom sustavu koja objedinjuje (ističe) određenu skupinu objekata prema nekom kriteriju.

Imaginativna percepcija svijeta jedno je od tajanstvenih svojstava živog mozga koje omogućuje razumijevanje beskonačnog protoka percipiranih informacija i održavanje orijentacije u oceanu različitih podataka o vanjskom svijetu. Pri percipiranju vanjskog svijeta opažene osjete uvijek klasificiramo, odnosno dijelimo ih u skupine sličnih, ali ne i istovjetnih pojava. Na primjer, unatoč značajnoj razlici, jedna skupina uključuje sva slova A, napisana različitim rukopisom, ili sve zvukove koji odgovaraju istoj noti, snimljene u bilo kojoj oktavi i na bilo kojem instrumentu, te operatera koji upravlja tehničkim objektom za cijelu mnoge države objekt reagira istom reakcijom. Karakteristično je da je za formuliranje pojma o skupini percepcija određene klase dovoljno upoznati se s malim brojem njezinih predstavnika. Djetetu se može pokazati slovo samo jednom kako bi ono moglo pronaći to slovo u tekstu napisanom različitim fontovima ili ga prepoznati, čak i ako je napisano u namjerno iskrivljenom obliku. Ovo svojstvo mozga omogućuje nam da formuliramo takav koncept kao sliku.

Slike imaju karakteristično svojstvo, koje se očituje u tome da upoznavanje konačnog broja pojava iz istog skupa omogućuje prepoznavanje proizvoljno velikog broja njegovih predstavnika. Primjeri slika mogu biti: rijeka, more, tekućina, glazba Čajkovskog, poezija Majakovskog itd. Određeni skup stanja upravljačkog objekta također se može smatrati slikom, a cijeli taj skup stanja karakterizira činjenica da da bi se postigao zadani cilj isti utjecaj na objekt . Slike imaju karakteristična objektivna svojstva u smislu da različiti ljudi, obučeni na različitom promatračkom materijalu, većinom klasificiraju iste objekte na isti način i neovisno jedan o drugom. Upravo ta objektivnost slika omogućuje ljudima diljem svijeta da razumiju jedni druge.

Sposobnost percipiranja vanjskog svijeta u obliku slika omogućuje s određenom pouzdanošću prepoznavanje beskonačnog broja objekata na temelju upoznavanja s konačnim brojem njih, a objektivna priroda glavnog svojstva slika omogućuje modeliranje proces njihovog prepoznavanja. Budući da je odraz objektivne stvarnosti, pojam slike je jednako objektivan kao i sama stvarnost, te stoga i sam može biti predmet posebnog proučavanja.

U literaturi posvećenoj problemu učenja prepoznavanja uzoraka (PR) često se umjesto pojma slike uvodi pojam klase.

Problem prepoznavanja uzoraka učenja (PRT)

Jedno od najzanimljivijih svojstava ljudskog mozga je njegova sposobnost da reagira na beskonačan skup stanja vanjske okoline s konačnim brojem reakcija. Možda je upravo to svojstvo omogućilo čovjeku da postigne najviši oblik postojanja žive materije, izražen u sposobnosti mišljenja, tj. aktivnog odražavanja objektivnog svijeta u obliku slika, pojmova, prosudbi itd. Dakle, problem ORR je nastao u proučavanju fizioloških svojstava mozga.

Razmotrimo primjer problema iz područja ODO-a.

Riža. 3.1.

Ovdje je predstavljeno 12 slika, a trebali biste odabrati značajke koje vam mogu pomoći da razlikujete lijevu trijadu slika od desne. Rješavanje ovih problema zahtijeva potpuno modeliranje logičkog razmišljanja.

Općenito, problem prepoznavanja uzoraka sastoji se od dva dijela: obuke i prepoznavanja. Obuka se provodi prikazivanjem pojedinačnih predmeta koji ukazuju na njihovu pripadnost jednoj ili drugoj slici. Kao rezultat treninga, sustav za prepoznavanje mora steći sposobnost da odgovori istim reakcijama na sve objekte iste slike i različitim reakcijama na sve objekte različitih slika. Vrlo je važno da se proces učenja završi samo pokazivanjem konačnog broja objekata bez ikakvih drugih upita. Objekti učenja mogu biti ili slike ili druge vizualne slike (slova), ili različiti fenomeni vanjskog svijeta, na primjer, zvukovi, tjelesna stanja tijekom medicinske dijagnoze, stanje tehničkog objekta u sustavima upravljanja itd. Važno je da samo sami predmeti i njihova pripadnost slici. Nakon uvježbavanja slijedi proces prepoznavanja novih objekata, koji karakterizira radnje već uvježbanog sustava. Automatizacija ovih postupaka predstavlja problem učenja prepoznavanja uzoraka. U slučaju kada ga osoba sama riješi ili izmisli, a zatim stroju nametne pravilo klasifikacije, problem prepoznavanja je djelomično riješen, budući da osoba preuzima glavni i glavni dio problema (obuka).

Problem poučavanja prepoznavanja uzoraka zanimljiv je i s aplikativnog i s fundamentalnog stajališta. S primijenjenog gledišta, rješavanje ovog problema važno je prvenstveno jer otvara mogućnost automatizacije mnogih procesa koji su do sada bili vezani samo uz aktivnost živog mozga. Temeljni značaj problema usko je povezan s pitanjem koje se sve više nameće u vezi s razvojem ideja u kibernetici: što stroj može, a što temeljno ne može? U kojoj mjeri sposobnosti stroja mogu biti bliske onima živog mozga? Konkretno, može li stroj razviti sposobnost da usvoji ljudsku sposobnost obavljanja određenih radnji ovisno o situacijama koje se pojavljuju u okolini? Do sada je samo postalo jasno da ako osoba može prvo sama shvatiti svoju vještinu, a zatim je opisati, odnosno naznačiti zašto izvodi radnje kao odgovor na svako stanje vanjske okoline ili kako (po kojem pravilu) kombinira pojedinačne predmete u slike, tada se takva vještina može prenijeti na stroj bez temeljnih poteškoća. Ako osoba ima vještinu, ali je ne može objasniti, tada postoji samo jedan način da se vještina prenese na stroj - poučavanje primjerima.

Spektar problema koji se mogu riješiti korištenjem sustava za prepoznavanje iznimno je širok. To uključuje ne samo zadatke prepoznavanja vizualnih i slušnih slika, već i zadatke prepoznavanja složenih procesa i pojava koji nastaju, na primjer, prilikom odabira odgovarajućih radnji od strane čelnika poduzeća ili odabira optimalnog upravljanja tehnološkim, ekonomskim, prometnim ili vojne operacije. U svakom od ovih zadataka analiziraju se određene pojave, procesi i stanja vanjskog svijeta koji se u nastavku nazivaju predmetima promatranja. Prije nego počnete analizirati bilo koji objekt, morate na neki način dobiti određene, uređene podatke o njemu. Takve informacije predstavljaju karakteristike objekata, njihov prikaz na različitim perceptivnim organima sustava za prepoznavanje.

Ali svaki objekt promatranja može utjecati na nas drugačije, ovisno o uvjetima percepcije. Na primjer, svako slovo, čak i napisano na isti način, može se, u načelu, na bilo koji način pomaknuti u odnosu na organe opažanja. Osim toga, predmeti iste slike mogu se prilično razlikovati jedni od drugih i, naravno, različito djelovati na organe opažanja.

Svako preslikavanje objekta na perceptivne organe sustava za prepoznavanje, bez obzira na njegov položaj u odnosu na te organe, obično se naziva slika objekta, a skupovi takvih slika, ujedinjeni nekim zajedničkim svojstvima, su slike.

Pri rješavanju problema upravljanja metodama prepoznavanja uzoraka koristi se pojam "stanje" umjesto pojma "slika". država- ovo je određeni oblik prikaza izmjerenih trenutnih (ili trenutnih) karakteristika promatranog objekta. Skup stanja određuje situaciju. Koncept "situacije" je analogan pojmu "image". Ali ova analogija nije potpuna, budući da se ne može svaka slika nazvati situacijom, iako se svaka situacija može nazvati slikom.

Situacijom se obično naziva određeni skup stanja složenog objekta, od kojih svako karakteriziraju iste ili slične karakteristike objekta. Na primjer, ako se određeni objekt upravljanja smatra objektom promatranja, tada situacija kombinira takva stanja tog objekta u kojima treba primijeniti iste upravljačke radnje. Ako je objekt promatranja ratna igra, tada situacija kombinira sva stanja igre koja zahtijevaju, primjerice, snažan tenkovski udar uz zračnu potporu.

Odabir početnog opisa objekata jedan je od središnjih zadataka ODO problema. Ako je inicijalni opis (prostor značajki) uspješno odabran, zadatak prepoznavanja može ispasti trivijalan, i obrnuto, neuspješno odabran inicijalni opis može dovesti ili do vrlo složene daljnje obrade informacija ili do nikakvog rješenja. Na primjer, ako se rješava problem prepoznavanja objekata koji se razlikuju po boji, a kao početni opis se biraju signali primljeni od senzora težine, tada se problem prepoznavanja u načelu ne može riješiti.

20 Problem prepoznavanja uzoraka

Ljudski mozak, kao i mozak životinja, rješava probleme prepoznavanja uzoraka svake minute od rođenja i tijekom života. Od prvih minuta rođenja dijete ili mlada životinja prepoznaje hranu, majku, njezin glas i okolne predmete. Kako dijete raste, ono uči prepoznavati svoje igračke, sobu, kuću, mnoge potrebne predmete, lica prijatelja, njihov govor, glazbu, slova, riječi, knjige itd.

U svom svakodnevnom životu, osoba se nosi sa zadacima prepoznavanja tako lako da se to uzima zdravo za gotovo. U međuvremenu, pokušaji simulacije ovih visoko inteligentnih funkcija na računalima nailaze na vrlo ozbiljne poteškoće.

Da bi osoba svjesno percipirala informacije, one moraju proći kroz prilično dug ciklus preliminarne obrade. Pogledajmo primjer vizualne percepcije slike:

1. Prvo, svjetlost ulazi u oko. Prošavši kroz cijeli optički sustav, fotoni ulaze u mrežnicu (sloj stanica osjetljivih na svjetlost). Tu se javlja prva faza obrade informacija. Kod sisavaca, neposredno iza stanica osjetljivih na svjetlo, obično se nalaze dva sloja živčanih stanica koje obavljaju relativno jednostavnu obradu.

2. Informacije putuju duž vidnog živca do mozga, do takozvanog “vizualnog talamusa”.

3. Zatim, vizualna informacija ulazi u dijelove mozga, koji već izoliraju pojedine komponente iz nje (horizontalne, okomite, dijagonalne linije; konture; područja svjetla, tame, boja). Do tada možete jednostavno simulirati rad mozga koristeći razne grafičke filtere.

4. Postupno, slike postaju složenije i mutnije, ali grafička slika će još uvijek morati prijeći dug put dok ne dosegne razinu svijesti. Štoviše, na razini svijesti, zvukovi, mirisi i osjeti okusa također se mogu umiješati u sliku.

Trenutačno je najveći uspjeh postignut u prepoznavanju vizualnih slika, poput tiskanih znakova. Nema sumnje u korisnost dobro poznatih programa za prepoznavanje teksta FineReader i CuneiForm . Funkcije za otkrivanje i prepoznavanje neprijateljskih vojnih ciljeva odavno su ugrađene u računala na brodu projektila, zrakoplova, brodova i podmornica.

Koje se ideje i principi mogu koristiti kao osnova za sustave prepoznavanja? Prvo što pada na pamet je djelovati "s pozicije grube sile": staviti što više poznatih predložaka u računalo i usporediti ih s nepoznatim slikama primljenim za prepoznavanje. Međutim, taj put odmah vodi u slijepu ulicu. Pretpostavimo da se vizualna slika očitava pomoću standardnog sustava fotoosjetljivih elemenata 32 položaja po širini i 48 po visini, tj. ukupno 1536 elemenata. Ali čak i na tako gruboj mreži možete uočiti oko 10 460 moguće slike. Nemoguće je pohraniti toliki broj slika predložaka u memoriju i usporediti slike primljene kao ulaz s njima.

Stoga u praksi sustavi za prepoznavanje u prvoj fazi nužno obrađuju sliku i identificiraju karakteristične značajke, kvalitativne ili kvantitativne. Time se značajno smanjuje količina informacija za prepoznavanje.

Sljedeća ideja koja se često koristi u sustavima za prepoznavanje je ideja učenja. To je bitan element mnogih modernih inteligentnih sustava.

Algoritmi,

Strojno učenje

Posao većine govornih znanstvenika nije smisliti konceptualno nove algoritme. Tvrtke se uglavnom fokusiraju na postojeće pristupe. Strojna inteligencija već može prepoznati i sintetizirati glasove, ali ne uvijek u stvarnom vremenu, ne uvijek lokalno i ne uvijek "selektivno" - kada trebate reagirati samo na ključne fraze, robot može pogriješiti. Programeri su zaokupljeni takvim problemima. Muammar Al-Shediwat govori o ovim i drugim problemima koje ni velike tvrtke još nisu uspjele riješiti.

- Danas ću govoriti o otvorenim problemima u području govornih tehnologija. Ali prije svega, shvatimo da su govorne tehnologije postale sastavni dio naših života. Bilo da hodamo ulicom ili se vozimo u automobilu, kada želimo postaviti određeni upit tražilici, prirodno je da to učinimo glasom, a ne tipkanjem ili bilo čime drugim.

Danas ću uglavnom govoriti o prepoznavanju govora, iako ima mnogo drugih zanimljivih zadataka. Moja priča će se sastojati od tri dijela. Prvo, dopustite mi da vas podsjetim općenito kako prepoznavanje govora funkcionira. Zatim ću vam reći kako ga ljudi pokušavaju poboljšati i s kojim se zadacima suočava Yandex koji se obično ne susreću u znanstvenim člancima.

Opća shema prepoznavanja govora. U početku na ulazu primamo zvučni val.

Razbijamo ga na male dijelove, okvire. Dužina okvira je obično 25 ms, korak je 10 ms. Dolaze s nekom zabunom.

Nakon toga izdvajamo najvažnije karakteristike iz okvira. Recimo da nam boja glasa ili spol osobe nisu važni. Želimo prepoznati govor bez obzira na te čimbenike, stoga izdvajamo najvažnije značajke.

Zatim se neuronska mreža usprotivi svemu tome i proizvodi predviđanje za svaki okvir, distribuciju vjerojatnosti po fonemima. Neuron pokušava pogoditi koji je fonem izrečen u određenom okviru.

Na kraju se sve to strpa u dekodiranje grafa, koji dobiva distribuciju vjerojatnosti i uzima u obzir jezični model. Recimo da je "mama oprala okvir" popularnija fraza na ruskom nego "mama nasapunala Rome". Izgovor riječi također se uzima u obzir i generiraju se konačne hipoteze.

Općenito, ovako funkcionira prepoznavanje govora.

Naravno, moramo reći nekoliko riječi o metrici. Svi koriste WER metriku u prepoznavanju govora. Prevedeno je kao Svjetska stopa pogreške. Ovo je jednostavno Levenshteinova udaljenost od onoga što smo prepoznali do onoga što je stvarno rečeno u frazi, podijeljena s brojem riječi koje su stvarno izgovorene u frazi.

Možete vidjeti da ako smo imali mnogo umetanja, onda WER pogreška može biti veća od jedan. Ali nitko ne obraća pažnju na to i svi rade s ovom metrikom.

Kako ćemo to poboljšati? Identificirao sam četiri glavna pristupa koji se međusobno preklapaju, ali to nije vrijedno pažnje. Glavni pristupi su sljedeći: poboljšajmo arhitekturu neuronskih mreža, pokušajmo promijeniti funkciju gubitka, zašto ne bismo koristili End to End pristupe, koji su u posljednje vrijeme moderni. I na kraju, reći ću vam o drugim zadacima koji, na primjer, ne zahtijevaju dekodiranje.

Kad su ljudi došli na ideju korištenja neuronskih mreža, prirodno rješenje bilo je koristiti najjednostavniju stvar: naprijed neuronske mreže. Uzimamo okvir, kontekst, broj okvira s lijeve strane, broj s desne strane i predviđamo koji je fonem izrečen u ovom okviru. Nakon čega sve ovo možete promatrati kao sliku i primijeniti svu onu artiljeriju koja se već koristi za obradu slike, sve vrste konvolucijskih neuronskih mreža.

Općenito, mnogi najnoviji članci dobiveni su korištenjem konvolucijskih neuronskih mreža, ali danas ću govoriti više o rekurentnim neuronskim mrežama.

Rekurentne neuronske mreže. Svi znaju kako rade. Ali javlja se veliki problem: okvira je obično mnogo više nego fonema. Postoji 10 ili čak 20 okvira po fonemu. Ovo se mora nekako riješiti. Obično je to ugrađeno u dekodiranje grafa, gdje ostajemo u jednom stanju mnogo koraka. U principu, možete se nekako boriti protiv toga; postoji paradigma koder-dekoder. Napravimo dvije rekurentne neuronske mreže: jedna će kodirati sve informacije i ispisati skriveno stanje, a dekoder će uzeti to stanje i ispisati slijed fonema, slova ili možda riječi - tako trenirate neuronsku mrežu.

Obično u prepoznavanju govora radimo s vrlo velikim nizovima. Postoji jednostavno 1000 okvira koje je potrebno kodirati s jednim skrivenim stanjem. To je nerealno; niti jedna neuronska mreža to ne može podnijeti. Koristimo druge metode.

Dima Bogdanov, diplomant ShAD-a, izumio je metodu Attention. Neka enkoder proizvodi skrivena stanja, a mi ih nećemo baciti, nego ćemo ostaviti samo zadnje. Uzmimo ponderirani zbroj za svaki korak. Dekoder će uzeti ponderirani zbroj skrivenih stanja. Na taj način ćemo zadržati kontekst, ono što gledamo u konkretnom slučaju.

Pristup je izvrstan, dobro radi, na nekim skupovima podataka daje vrhunske rezultate, ali postoji jedan veliki nedostatak. Želimo prepoznati govor online: osoba je izgovorila frazu od 10 sekundi, a mi smo mu odmah dali rezultat. Ali Attention zahtijeva da znate cijelu frazu, to je njezin veliki problem. Osoba će izgovoriti frazu od 10 sekundi, a mi ćemo je prepoznati 10 sekundi. Za to vrijeme će obrisati aplikaciju i nikada je više neće instalirati. Moramo se boriti protiv ovoga. Nedavno je o tome bilo riječi u jednom od članaka. Nazvao sam to internetskom pozornošću.

Podijelimo ulaznu sekvencu u blokove neke male fiksne duljine, postavimo Attention unutar svakog bloka, zatim će postojati dekoder koji proizvodi odgovarajuće simbole na svakom bloku, nakon čega u nekom trenutku proizvodi simbol kraja bloka, pomiče se do sljedećeg bloka, budući da smo ovdje iscrpili sve informacije.

Ovdje možete pročitati niz predavanja, ja ću pokušati jednostavno formulirati ideju.

Kad su počeli trenirati neuronske mreže za prepoznavanje govora, pokušali su pogoditi fonem. Da bismo to učinili, koristili smo uobičajenu funkciju gubitka entropije. Problem je u tome što čak i ako optimiziramo unakrsnu entropiju, to ne znači da smo dobro optimizirali WER, jer ove metrike nisu 100% korelirane.

Kako bismo se borili protiv toga, izumljene su funkcije gubitka temeljene na nizu: skupimo sve informacije o svim okvirima, izračunajmo jedan zajednički gubitak i vratimo gradijent natrag. Neću ulaziti u detalje, možete pročitati o CTC ili SNBR Loss, ovo je vrlo specifična tema za prepoznavanje govora.

Pristupi od kraja do kraja imaju dva puta. Prvi je napraviti više "sirovih" značajki. Imali smo trenutak kada smo izvlačili značajke iz okvira, a obično se izvlače pokušavajući oponašati ljudsko uho. Zašto oponašati ljudsko uho? Neka sam neuron nauči i shvati koje su mu značajke korisne, a koje beskorisne. Unosimo sve više grubih karakteristika u neuron.

Drugi pristup. Korisnicima dajemo riječi, slovni prikaz. Dakle, zašto trebamo predviđati foneme? Iako ih je vrlo prirodno predvidjeti, osoba govori fonemima, a ne slovima, ali konačni rezultat moramo dati slovima. Dakle, predvidimo slova, slogove ili parove znakova.

Koji još zadaci postoje? Recimo da je zadatak framespotting. Postoji neki zvuk iz kojeg morate izvući informaciju o tome je li rečenica "Slušaj, Yandex" izgovorena ili ne. Da biste to učinili, možete prepoznati frazu i reći "Slušaj, Yandex", ali ovo je pristup vrlo grube sile, a prepoznavanje obično radi na poslužiteljima, modeli su vrlo veliki. Obično se zvuk šalje na poslužitelj, prepoznaje, a prepoznati oblik se šalje natrag. Učitavanje 100 tisuća korisnika svake sekunde, slanje zvuka na server - niti jedan server to ne može podnijeti.

Moramo smisliti rješenje koje će biti malo, moći će raditi na telefonu i neće trošiti bateriju. I bit će kvalitetno.

Da bismo to učinili, stavimo sve u neuronsku mrežu. Jednostavno će predvidjeti, na primjer, ne foneme ili slova, već cijele riječi. I napravimo samo tri klase. Mreža će predvidjeti riječi "slušaj" i "Yandex", a mi ćemo mapirati sve ostale riječi u popunu.

Dakle, ako su u nekom trenutku prvo postojale velike vjerojatnosti za "slušaj", zatim velike vjerojatnosti za "Yandex", tada je s velikom vjerojatnošću postojala ključna fraza "Slušaj, Yandex".

Problem koji nije puno istražen u člancima. Obično se, kad se pišu članci, uzme nekakav skup podataka, iz toga se dobiju dobri rezultati, stanje tehnike pogodi - ura, objavimo članak. Problem s ovim pristupom je što se mnogi skupovi podataka ne mijenjaju 10 ili čak 20 godina. I ne suočavaju se s problemima s kojima se mi suočavamo.

Ponekad se pojave trendovi, želimo ih prepoznati, a ako ove riječi nema u našem grafu dekodiranja u standardnom pristupu, tada je nikada nećemo prepoznati. Moramo se boriti protiv ovoga. Možemo uzeti i probaviti graf dekodiranja, ali to je radno intenzivan proces. Možda postoje neke riječi u trendu ujutro, a drugačije navečer. Držite se jutarnjeg i večernjeg rasporeda? To je vrlo čudno.

Izmišljen je jednostavan pristup: dodajmo mali grafikon dekodiranja velikom grafikonu dekodiranja, koji će se iznova stvarati svakih pet minuta od tisuća najboljih fraza u trendu. Jednostavno ćemo paralelno dekodirati ova dva grafikona i odabrati najbolju hipotezu.

Koji zadaci ostaju? Tamo je pobijeđeno stanje tehnike, ovdje su problemi riješeni... Dat ću graf WER-a u posljednjih nekoliko godina.

Kao što vidite, Yandex se poboljšao tijekom proteklih nekoliko godina, a ovdje je grafikon za najbolju temu - geopretraživanje. Možete razumjeti da se trudimo i poboljšavamo, ali postoji ta mala praznina koju treba pokriti. Pa čak i ako napravimo prepoznavanje govora – a hoćemo – koje je usporedivo s ljudskim sposobnostima, onda će se pojaviti drugi problem: ovo je napravljeno na serveru, ali ajmo to prenijeti na uređaj. Ovo je zaseban, složen i zanimljiv zadatak.

Imamo mnogo drugih zadataka o kojima me možete pitati. Hvala vam na pažnji.

stranica 2

Kod učenja prepoznavanja uzoraka poznate su neke t slike i njihova pripadnost slici. Problem prepoznavanja uzoraka je konstruirati algoritam pomoću sekvence za treniranje koji određuje vrijednost y za bilo koji skup iz domene definiranja funkcije.

Sustav prepoznavanja na temelju podataka o procesu i vanjskih utjecaja na ovaj proces procjenjuje proizvodnu situaciju i izdaje naredbe za upravljanje procesom. S problemom prepoznavanja uzoraka usko je povezan i problem kreiranja učenja automata koji bi trebali moći procijeniti trenutnu situaciju i na temelju toga donijeti najbolju odluku. Stoga se većina zadataka za uvježbavanje automata može svesti na zadatke uvježbavanja prepoznavanja uzoraka.

Postoji mnogo stvarno velikih, stvarno uzbudljivih problema na kojima tisuće znanstvenika trenutno rade. To je problem prepoznavanja slika, obrade informacija, lingvistički problemi i mnogi drugi.

Učinkovitost rješavanja problema prepoznavanja u konačnici je određena time koliko je učinkovito uređaj za prepoznavanje uvježban u postupku klasifikacije. Stoga je glavni fokus u problemu prepoznavanja uzoraka na zadatku prepoznavanja učenja.

Čini se logičnim proučavati arhitekture koje odgovaraju našem razumijevanju organizacije i funkcije mozga. Ljudski mozak pruža postojeće dokaze da je rješenje problema prepoznavanja uzoraka moguće. Čini se razumnim oponašati mozak ako želimo replicirati kako radi. Međutim, protuargument je povijest leta; čovjek se nije mogao podići sa zemlje sve dok nije prestao oponašati pokrete krila i let ptica.

Korištenje topografskih principa omogućuje nam stvaranje najbrže i najkapamtičnije računalne memorije. Hologramsko pamćenje traži potrebne informacije prema zakonima asocijacije, što je svojstveno ljudskom pamćenju. Holografija može riješiti problem prepoznavanja uzoraka s kojim se kibernetika bori već dugi niz godina. Ako se hologram prikaže sa skupinom objekata, on će trenutno odgovoriti (identifikacijom) na one od njih čije slike pohranjuje. Štoviše, što je objekt složeniji, to ga hologram pouzdanije prepoznaje.

Četvrto poglavlje ocrtava temelje teorije diskretnih samoorganizirajućih sustava. Određuje se kvantitativna mjera samoorganizacije i samoučenja, proučava se ponašanje slučajnih automata i automata koji rade u uvjetima slučajnih vanjskih utjecaja. Posebna pozornost posvećena je problemu prepoznavanja uzoraka i teoriji jedne klase uređaja (tzv. a-perceptrona) namijenjenih rješavanju tog problema. Razmatraju se neka pitanja modeliranja uvjetovanih refleksa, kao i procesi učenja prepoznavanja značenja i razvijanja novih pojmova.

Na sl. Slika 12.11 prikazuje primjer u kojem je kao slika odabrano veliko slovo A. Lako je vidjeti da se, ako se održi odgovarajući kapacitet memorije, nakon nekoliko koraka opuštanja, pojavljuje jasna slika, inicijalno zabilježena u memoriji, iz jako izobličenih slova bukom. Upravo je to odnos između asocijativnog pamćenja gore opisanog tipa i problema prepoznavanja slike. Trenutačno ne postoji precizna ideja o tome kako bi se gore navedeni model spin stakla asocijativne memorije mogao generalizirati i proširiti da se primijeni na složeni problem prepoznavanja rotiranih ili pomaknutih slika. Kao primjer slike na sl. 12.11, slovo A, okrenuto naopako, ne bi bilo prepoznato, jer čak i pomicanje neiskrivljene slike za nekoliko rešetkastih (rasterskih) čvorova pretvara njeno prepoznavanje u problem čije rješenje nadilazi asocijativne mogućnosti Hopfyddovog modela . Budućnost će pokazati može li se i ova klasa problema riješiti uz pomoć asocijativnih uređaja za pohranu.

Složenost ekoloških problema zahtijeva obradu velikih količina podataka. Potrebno je istraživanje kako bi se olakšalo tumačenje i mudra uporaba prikupljenih informacija. Radovi na području umjetne inteligencije koji se odnose na problem prepoznavanja uzoraka mogu pružiti značajnu pomoć u tom pogledu. Najnovija dostignuća mikroprocesorske i mikroračunalne tehnike počinju se koristiti u projektiranju inteligentnih mjernih instrumenata. Potrebno je obratiti pozornost na organizaciju, prikupljanje i prikupljanje podataka o okolišu.

Kao što vidimo, koncept simetrije poprima istinski globalno značenje. No, možemo ići i dalje i skrenuti pozornost na činjenicu da se, uglavnom, bavimo simetrijom kad god rješavamo problem prepoznavanja uzoraka, problem dijagnostike.

Prepoznavanje uzoraka jedan je od oblika obrade informacija koje dolaze iz sustava ili objekta. Klase karakterizira činjenica da objekti koji im pripadaju imaju nešto zajedničko (sličnost), na primjer, karakterizira ih ista struktura funkcionalnog operatora. Ta uobičajena stvar koja ujedinjuje objekte u klasu obično se naziva slika. Problemu konstruiranja matematičkog opisa objekta ili sustava sa stajališta problema prepoznavanja uzoraka može se pristupiti na dva načina. Jedan od pristupa je da sam funkcionalni operator FHS djeluje kao slika koju treba identificirati. S druge strane, umjesto funkcionalnog operatora F, izgrađen je uređaj za kibernetičko prepoznavanje koji predviđa ponašanje sustava na isti način kao što bi to učinio odgovarajući funkcionalni operator.

Iz navedenog je očito da postoji mnogo algoritama za identifikaciju obilježja u procesu preliminarne obrade informacija; njihov broj stalno i brzo raste, budući da je izbor metoda za rješavanje pojedinog problema uvelike određen prirodom samog problema. Uspjeh cijele studije o problemu prepoznavanja uzoraka određen je time koliko je dobro izvedena faza izdvajanja obilježja. Općeprihvaćeno je stajalište prema kojem nova velika postignuća u ovom području treba očekivati upravo u fazi izdvajanja obilježja tijekom preliminarne obrade informacija.

Osobno vjerujem da ovo tumačenje modernom kibernetičaru daje ključ za dublje proučavanje problema pamćenja, o čemu se govori u drugom odjeljku ove knjige. Nadalje, iako Leibniz nije uspio stvoriti relativističku logiku, njegovi filozofski pogledi na problem percepcije (koji je jedno od najvažnijih pitanja u kibernetici) bili su oko tri stoljeća ispred njegove ere. Uostalom, tek s pojavom Whiteheadova rada u našem stoljeću bilo je potkrijepljeno stajalište da je neki objekt, koji sam po sebi ne posjeduje svijest, sposoban u određenom smislu reagirati na događaje koji su s njim povezani. Naposljetku, posebno je karakteristično da je Leibniz u svojim proučavanjima svih ovih veza stajao na temeljnim pozicijama teorije operacijskih istraživanja. Mnogo manje ga je zanimalo uzročno-posljedično tumačenje odnosa nego ono dinamičko te je smatrao da je dio izraz cjeline, a ne samo sadržan u njoj. Ovakav pristup dobro se slaže s geštalt problematikom u suvremenoj psihologiji, s pristupom rješavanju svih problema industrijske kibernetike s pozicije organskog jedinstva, kao i sa suvremenim kibernetičkim istraživanjima problema prepoznavanja obrazaca.