Avoimet ongelmat puheentunnistuksessa. Luento Yandexissa. Suuri öljyn ja kaasun tietosanakirja

Yleiskatsaus olemassa oleviin kuviontunnistusmenetelmiin

L.P. Popova , JA TIETOJA. Datiev

Kykyä "tunnistaa" pidetään ihmisten, kuten itse asiassa muidenkin elävien organismien, pääominaisuutena. Kuvioiden tunnistus on kybernetiikan osa, joka kehittää periaatteita ja menetelmiä esineiden, ilmiöiden, prosessien, signaalien, tilanteiden luokitteluun ja tunnistamiseen - kaikki ne kohteet, jotka voidaan kuvata joidenkin objektia kuvaavien ominaisuuksien tai ominaisuuksien rajallisella joukolla.

Kuva on kuvaus esineestä. Kuvilla on ominainen ominaisuus, joka ilmenee siinä, että tutustuminen äärelliseen määrään ilmiöitä samasta joukosta mahdollistaa mielivaltaisen tunnistamisen iso luku sen edustajat.

Kuviontunnistuksen teoriassa on kaksi pääsuuntaa:

    ihmisten ja muiden elävien organismien tunnistamiskykyjen tutkiminen;

    teorian ja menetelmien kehittäminen sellaisten laitteiden rakentamiseksi, jotka on suunniteltu ratkaisemaan yksittäisiä kuviontunnistuksen ongelmia tietyillä sovellusalueilla.

Lisäksi artikkelissa kuvataan toisen suunnan kehittämiseen liittyviä ongelmia, periaatteita ja menetelmiä hahmontunnistusjärjestelmien toteuttamiseksi. Artikkelin toisessa osassa käsitellään hahmontunnistuksen hermoverkkomenetelmiä, jotka voidaan katsoa kuuluvan hahmontunnistusteorian ensimmäiseen suuntaan.

Kuvantunnistusjärjestelmien rakentamisen ongelmat

Rakentamisen aikana syntyvät tehtävät automaattiset järjestelmät hahmontunnistus voidaan yleensä luokitella useisiin pääalueisiin. Ensimmäinen niistä liittyy mittaustuloksena saatujen lähtötietojen esittämiseen tunnistettavan kohteen osalta. herkkyys ongelma. Jokainen mitattu arvo on jokin "kuvan tai esineen ominaisuus. Oletetaan esimerkiksi, että kuvat ovat aakkosnumeerisia merkkejä. Tässä tapauksessa voidaan onnistuneesti käyttää mittausverkkokalvoa, joka on samanlainen kuin kuvassa 1(a). Jos verkkokalvo koostuu n-elementistä, mittaustulokset voidaan esittää mittausvektorina tai kuvavektorina ,

jossa jokainen elementti xi saa esimerkiksi arvon 1 jos läpi i. solu verkkokalvo kulkee merkkikuvan läpi, ja muuten arvo on 0.

Harkitse fig. 2(b). Tässä tapauksessa kuvat ovat muuttujan t jatkuvia (äänisignaalityyppisiä) toimintoja. Jos funktioarvot mitataan diskreeteissä pisteissä t1,t2, ..., tn, niin kuvavektori voidaan muodostaa ottamalla x1= f(t1),x2=f(t2),... , xn = f(tn).

Kuva 1. Verkkokalvon mittaus

Toinen kuviontunnistuksen ongelma liittyy valintaan ominaispiirteet tai ominaisuudet saadusta lähtötiedosta ja pienentämällä kuvavektorien ulottuvuutta. Tämä ongelma määritellään usein ongelmaksi esikäsittely ja ominaisuuksien valinta.

Kuvaluokan ominaisuudet ovat ominaispiirteitä, jotka ovat yhteisiä tietyn luokan kaikille kuville. Yksittäisten luokkien välisiä eroja kuvaavat piirteet voidaan tulkita luokkien välisiksi piirteiksi. Luokan sisäisiä ominaisuuksia, jotka ovat yhteisiä kaikille tarkasteltaville luokille, ei ole hyödyllistä tietoa tunnustamisen kannalta, eikä niitä voida ottaa huomioon. Ominaisuuden valintaa pidetään yhtenä tärkeitä tehtäviä liittyvät tunnistusjärjestelmien rakentamiseen. Jos mittaustulosten avulla on mahdollista saada täydellinen sarja erottavia piirteitä kaikille luokille, kuvioiden varsinainen tunnistaminen ja luokittelu ei aiheuta erityisiä vaikeuksia. Automaattinen tunnistus pelkistyy sitten yksinkertaiseksi täsmäytysprosessiksi tai toimenpiteiksi, kuten taulukkohakuihin. Enemmistössä käytännön tehtäviä tunnustaminen kuitenkin määritelmän täysi setti erottaminen osoittautuu erittäin vaikeaksi, ellei ollenkaan mahdottomaksi. Alkuperäisistä tiedoista on yleensä mahdollista poimia joitakin erottavia piirteitä ja käyttää niitä prosessin yksinkertaistamiseen. automaattinen tunnistus kuvia. Erityisesti mittausvektorien ulottuvuutta voidaan pienentää käyttämällä muunnoksia, jotka minimoivat tiedon menetyksen.

Kolmas hahmontunnistusjärjestelmien rakentamiseen liittyvä ongelma on löytää optimaaliset tunnistus- ja luokitteluprosessit. Kun tunnistettavista kuvioista kerätyt tiedot on esitetty pisteillä tai mittavektoreilla kuvioiden avaruudessa, anna koneen selvittää, mitä kuvioluokkaa tämä tieto vastaa. Olkoon kone suunniteltu erottamaan M-luokka, joita merkitään w1, w2, ... ..., wm. Tässä tapauksessa kuva-avaruuden voidaan katsoa koostuvan M alueesta, joista jokainen sisältää pisteitä, jotka vastaavat saman luokan kuvia. Tässä tapauksessa tunnistusongelmaa voidaan pitää M luokkaa erottavien päätösalueiden rajojen rakentamisena rekisteröityjen mittausvektoreiden perusteella. Määritetään nämä rajat esimerkiksi päätösfunktioilla d1(х),d2(x),..., dm(х). Nämä funktiot, joita kutsutaan myös erotusfunktioiksi, ovat x:n kuvan skalaari- ja yksiarvoisia funktioita. Jos di (x) > dj (x), niin x:n kuva kuuluu luokkaan w1. Toisin sanoen, jos i:s ratkaiseva funktiolla di(x) on korkein arvo, sitten mielekäs esimerkki tällaisesta järjestelmästä automaattinen luokittelu Päätöksentekoprosessin toteutukseen perustuen, on esitetty kuvassa. 2 (kaaviossa "GR" - generaattori ratkaisevia toimintoja).

Kuva 2. Automaattisen luokituksen kaavio.

Päätösfunktioita voidaan saada useilla tavoilla. Niissä tapauksissa, joissa on saatavilla täydellistä ennakkotietoa tunnistettavissa olevista kuvioista, päätöksentekofunktiot voidaan määrittää täsmälleen tämän tiedon perusteella. Jos kuvioista on saatavilla vain laadullista tietoa, voidaan tehdä perusteltuja oletuksia päätösfunktioiden muodosta. Jälkimmäisessä tapauksessa päätösalueiden rajat voivat poiketa merkittävästi todellisista, ja siksi on tarpeen luoda järjestelmä, joka pystyy saavuttamaan tyydyttävän tuloksen sarjalla peräkkäisiä säätöjä.

Objekteilla (kuvilla), jotka tunnistetaan ja luokitellaan automaattisen hahmontunnistusjärjestelmän avulla, on oltava joukko mitattavissa olevia ominaisuuksia. Kun kokonaisen kuvaryhmän vastaavien mittausten tulokset ovat samankaltaisia, näiden kohteiden katsotaan kuuluvan samaan luokkaan. Kuviontunnistusjärjestelmän tarkoituksena on määrittää kerätyn tiedon perusteella objektiluokka, jonka ominaisuudet ovat samanlaiset kuin tunnistettavissa oleville kohteille mitatut ominaisuudet. Tunnistuksen oikeellisuus riippuu mitattujen ominaisuuksien sisältämän erottavan tiedon määrästä ja tämän tiedon käytön tehokkuudesta.

      Perusmenetelmät kuvioiden tunnistusjärjestelmien toteuttamiseen

Kuviontunnistuksen tehtävänä on rakentaa ja soveltaa muodollisia operaatioita reaali- tai ideaalimaailman objektien numeerisille tai symbolisille esityksille, joiden tulokset heijastavat näiden objektien välisiä ekvivalenssisuhteita. Ekvivalenssirelaatiot ilmaisevat arvioitujen objektien kuulumisen joihinkin luokkiin, joita pidetään itsenäisinä semanttisina yksiköinä.

Tunnistusalgoritmeja rakentaessaan ekvivalenssiluokat voi asettaa tutkija, joka käyttää omia mielekkäitä esityksiään tai käyttää ulkoista Lisäinformaatio objektien samankaltaisuudesta ja erosta ratkaistavan ongelman yhteydessä. Sitten puhutaan "tarkistamisesta opettajan kanssa". Muuten, ts. Kun automatisoitu järjestelmä ratkaisee luokitteluongelman ilman ulkoista koulutusinformaatiota, puhutaan automaattisesta luokittelusta tai "valvomattomasta tunnistamisesta". Useimmat hahmontunnistusalgoritmit vaativat erittäin merkittävien osallistumisen laskentateho, jonka voi tarjota vain korkean suorituskyvyn tietokonetekniikka.

Eri kirjailijoita (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V.I. Gonzalez, P. Winston, K. Fu, Ya.Z. Tsypkin ja muut) antavat erilaisen mallintunnistusmenetelmien typologian. Jotkut kirjoittajat erottavat parametriset, ei-parametriset ja heuristiset menetelmät, kun taas toiset eristävät menetelmäryhmiä, jotka perustuvat alan historiallisiin koulukuntiin ja suuntauksiin.

Samaan aikaan tunnetuissa typologioissa ei oteta huomioon yhtä hyvin merkittävää ominaisuutta, joka heijastelee tiedon esittämistavan erityispiirteitä. aihealue minkä tahansa avulla muodollinen algoritmi hahmontunnistus. D.A. Pospelov tunnistaa kaksi päätapaa esittää tietoa:

    Intensionaalinen esitys - attribuuttien (ominaisuuksien) välisten suhteiden kaavion muodossa.

    Laajentuva esitys - konkreettisten tosiasioiden (objektien, esimerkkien) avulla.

On huomattava, että näiden kahden tunnistusmenetelmien ryhmän: ominaisuuksilla operoivien ja esineiden kanssa operoivien, olemassaolo on syvästi luonnollista. Tästä näkökulmasta katsottuna mikään näistä menetelmistä toisista erillään tarkasteltuna ei mahdollista riittävän heijastuksen muodostamista aihealueesta. Näiden menetelmien välillä on N. Bohrin tarkoittama täydentävyyssuhde, joten lupaavien tunnistusjärjestelmien tulisi tarjota molempien näiden menetelmien toteutus, ei vain yhden niistä.

Siten D.A. Pospelovin ehdottama tunnistusmenetelmien luokittelu perustuu peruslakeihin, jotka ovat ihmisen kognition yleensä taustalla, mikä asettaa sen hyvin erityiseen (etuoikeutettuun) asemaan verrattuna muihin luokitteluihin, jotka tätä taustaa vasten näyttävät. kevyempi ja keinotekoisempi.

Intensionaaliset menetelmät

Intensiomenetelmien erottuva piirre on, että niitä käytetään operaatioelementteinä hahmontunnistusalgoritmien rakentamisessa ja soveltamisessa. erilaisia ​​ominaisuuksia ominaisuuksia ja niiden suhteita. Tällaisia ​​elementtejä voivat olla yksittäiset arvot tai piirrearvojen intervallit, keskiarvot ja varianssit, piirresuhdematriisit jne., joille suoritetaan toimia, ilmaistuna analyyttisessä tai rakentavassa muodossa. Samaan aikaan näissä menetelmissä esineitä ei pidetä yhtenäisinä tietoyksiköinä, vaan ne toimivat indikaattoreina arvioitaessa niiden attribuuttien vuorovaikutusta ja käyttäytymistä.

Intensionaalisten muodontunnistusmenetelmien ryhmä on laaja, ja sen jakautuminen alaluokkiin on melko mielivaltaista:

– menetelmät, jotka perustuvat piirrearvojen jakautumistiheyksien arvioihin

– menetelmät, jotka perustuvat oletuksiin päätösfunktioiden luokasta

– loogiset menetelmät

– kielelliset (rakenteelliset) menetelmät.

Menetelmät, jotka perustuvat piirrearvojen jakautumistiheyksien arvioihin. Nämä muodontunnistusmenetelmät ovat lainattuja klassisesta tilastollisten päätösten teoriasta, jossa tutkimuskohteita pidetään moniulotteisen toteutuksena. Satunnaismuuttuja jaettu piirreavaruudessa jonkin lain mukaan. Ne perustuvat Bayesin päätöksentekomalliin, joka vetoaa tiettyyn tunnistettavaan luokkaan kuuluvien objektien a priori todennäköisyyksiin ja piirrevektoriarvojen ehdollisiin jakautumistiheyksiin. Nämä menetelmät rajoittuvat todennäköisyyssuhteen määrittämiseen moniulotteisen piirreavaruuden eri alueilla.

Piirrearvojen jakautumistiheyksien estimointiin perustuva menetelmäryhmä liittyy suoraan erotteluanalyysin menetelmiin. Bayesilainen lähestymistapa päätöksentekoon on yksi kehittyneimmistä nykytilastoissa, niin sanotuista parametrisista menetelmistä, joille jakautumislain analyyttisen ilmaisun katsotaan tunnetuksi (in. Tämä tapaus normaali laki) ja vain pieni määrä parametreja on arvioitava (keskiarvovektorit ja kovarianssimatriisit).

Tämä ryhmä sisältää myös menetelmän riippumattomien ominaisuuksien todennäköisyyssuhteen laskemiseksi. Tämä menetelmä, lukuun ottamatta ominaisuuden riippumattomuuden oletusta (joka ei käytännössä koskaan pidä paikkaansa), ei tarkoita tietoa toimiva näkymä jakelulaki. Se voidaan selittää ei-parametristen menetelmien ansioksi.

Muut ei-parametriset menetelmät, joita käytetään, kun jakautumistiheyskäyrän muotoa ei tunneta ja sen luonteesta ei voida tehdä oletuksia ollenkaan, ovat erityisasemassa. Näitä ovat hyvin tunnettu moniulotteisten histogrammien menetelmä, "k-lähimpien naapureiden" menetelmä, euklidinen etäisyysmenetelmä, potentiaalifunktioiden menetelmä jne., joiden yleistys on menetelmä nimeltä "Parzen-estimaatit". Nämä menetelmät toimivat muodollisesti objekteissa yhtenäisinä rakenteina, mutta tunnistustehtävän tyypistä riippuen ne voivat toimia sekä intensiaalisesti että ekstensiaalisesti.

Ei-parametriset menetelmät analysoivat tiettyihin moniulotteisiin tilavuuksiin kuuluvien kohteiden suhteellisia määriä ja käyttöä erilaisia ​​toimintoja harjoitusnäytteen objektien ja tunnistettujen kohteiden väliset etäisyydet. Kvantitatiivisissa ominaisuuksissa, kun niiden lukumäärä on paljon pienempi kuin otoskoko, objektien kanssa tehdyillä operaatioilla on välirooli ehdollisten todennäköisyyksien paikallisten jakautumistiheyksien arvioinnissa, eivätkä objektit kanna itsenäisten informaatioyksiköiden semanttista kuormaa. Samaan aikaan, kun ominaisuuksien määrä on oikeassa suhteessa tai lisää numeroa Kun tutkittavien kohteiden ominaisuudet ovat laadullisia tai kaksijakoisia, todennäköisyysjakauman tiheyksien paikallisestimaateista ei voi puhua. Tällöin näissä ei-parametrisissä menetelmissä objektit katsotaan itsenäisiksi tietoyksiköiksi (holistiset empiiriset faktat) ja nämä menetelmät saavat merkityksen arvioitaessa tutkittavien objektien samankaltaisuutta ja eroa.

Näin ollen samoilla ei-parametristen menetelmien teknisillä operaatioilla on ongelman ehdoista riippuen järkeä joko paikallisesti estimaatteja piirrearvojen todennäköisyysjakauman tiheydistä tai arvioita objektien samankaltaisuudesta ja erosta.

Tiedon intensionaalisen esityksen yhteydessä tässä tarkastellaan ei-parametristen menetelmien ensimmäistä puolta todennäköisyysjakauman tiheyksien estimaateina. Monet kirjoittajat huomauttavat, että ei-parametriset menetelmät, kuten Parzen-estimaatit, toimivat hyvin käytännössä. Suurimmat vaikeudet näiden menetelmien soveltamisessa ovat tarve muistaa koko harjoitusotos paikallisten todennäköisyysjakauman tiheyksien arvioiden laskemiseksi ja suuri herkkyys harjoitusnäytteen epäedustavuudelle.

Päätösfunktioiden luokkaa koskeviin oletuksiin perustuvat menetelmät. Tässä menetelmäryhmässä päätösfunktion yleinen muoto katsotaan tiedoksi ja sen laatufunktio on annettu. Tämän funktion perusteella etsitään koulutusjaksolle päätösfunktion paras approksimaatio. Yleisimmät ovat päätösfunktioiden esitykset lineaaristen ja yleistettyjen epälineaaristen polynomien muodossa. Päätössäännön laatufunktio liittyy yleensä luokitteluvirheeseen.

Päätösfunktioiden luokkaa koskeviin oletuksiin perustuvien menetelmien tärkein etu on tunnistusongelman matemaattisen muotoilun selkeys ääripään löytämisen ongelmana. Ratkaisu tähän ongelmaan saadaan usein käyttämällä jonkinlaisia ​​gradienttialgoritmeja. Tämän ryhmän menetelmien monimuotoisuus selittyy laajalla valikoimalla käytettyjä päätössäännön laatufunktioita ja äärimmäisiä hakualgoritmeja. Yleistys tarkasteltavista algoritmeista, joihin kuuluvat erityisesti Newtonin algoritmi, perceptronityyppiset algoritmit jne., on stokastisen approksimoinnin menetelmä. Toisin kuin parametrisissä tunnistusmenetelmissä, tämän menetelmäryhmän menestys ei riipu niinkään teoreettisten käsitysten erosta objektien jakautumislakeja piirreavaruudessa ja empiiristä todellisuutta. Kaikki toiminnot ovat alistettu yhdelle päätavoitteelle - päätössäännön laatufunktionaalisuuden ääripään löytämiselle. Samanaikaisesti parametristen ja harkittujen menetelmien tulokset voivat olla samanlaisia. Kuten yllä näkyy, parametriset menetelmät tapaukselle normaalijakaumia eri luokkiin kuuluvat objektit, joilla on samat kovarianssimatriisit, johtavat lineaarisiin päätösfunktioihin. Huomaa myös, että algoritmit informatiivisten piirteiden valitsemiseksi lineaarisissa diagnostisissa malleissa voidaan tulkita erityisiksi varianteiksi gradienttialgoritmeista ääripään etsimiseksi.

Gradienttialgoritmien mahdollisuuksia ääripään löytämiseen, erityisesti lineaaristen päätössääntöjen ryhmässä, on tutkittu melko hyvin. Näiden algoritmien konvergenssi on todistettu vain siinä tapauksessa, kun tunnistettavat objektiluokat esitetään piirreavaruudessa kompakteilla geometrisilla rakenteilla. Kuitenkin halu saavuttaa riittävän laadukas päätössääntö voidaan usein tyydyttää algoritmien avulla, joilla ei ole tiukkaa matemaattista näyttöä ratkaisun konvergenssista globaaliin ääripäähän.

Näitä algoritmeja ovat mm iso ryhmä heuristiset ohjelmointimenettelyt, jotka edustavat evoluutiomallinnuksen suuntaa. Evoluutiomallinnus on luonnosta lainattu bioninen menetelmä. Se perustuu tunnettujen evoluutiomekanismien käyttöön, jotta monimutkaisen kohteen mielekäs mallinnusprosessi korvataan sen evoluution fenomenologisella mallinnuksella.

Tunnettu evoluutiomallinnuksen edustaja hahmontunnistuksessa on argumenttien ryhmälaskentamenetelmä (MGUA). GMDH perustuu itseorganisoitumisen periaatteeseen, ja GMDH-algoritmit toistavat massavalinnan kaavion. GMDH-algoritmeissa yleistetyn polynomin jäsenet syntetisoidaan ja valitaan erityisellä tavalla, jota kutsutaan usein Kolmogorov-Gabor-polynomiksi. Tämä synteesi ja valinta suoritetaan yhä monimutkaisemmin, ja on mahdotonta ennustaa etukäteen, minkälainen lopullinen muoto yleistetylle polynomille tulee olemaan. Ensinnäkin tarkastellaan yleensä yksinkertaisia ​​alkuominaisuuksien parittaisia ​​yhdistelmiä, joista muodostetaan ratkaisevien funktioiden yhtälöt, pääsääntöisesti korkeintaan toista kertaluokkaa. Jokainen yhtälö analysoidaan itsenäisenä päätösfunktiona ja muodostettujen yhtälöiden parametrien arvot löydetään tavalla tai toisella harjoitusnäytteestä. Sitten tuloksena olevasta päätösfunktioiden joukosta valitaan osa jossain mielessä parhaista. Yksittäisten päätöstoimintojen laatu tarkistetaan kontrolli(testi)näytteestä, jota joskus kutsutaan ulkoisen lisäyksen periaatteeksi. Valittuja osittaisia ​​päätösfunktioita tarkastellaan alla välimuuttujina, jotka toimivat alkuargumentteina samanlaiselle uusien päätösfunktioiden synteesille jne. Tällaisen hierarkkisen synteesin prosessi jatkuu, kunnes päätösfunktion laatukriteerin ääripää on saavutettu, mikä käytännössä on ilmenee tämän laadun heikkenemisenä, kun polynomin jäsenten järjestystä yritetään edelleen lisätä suhteessa alkuperäisiin piirteisiin.

GMDH:n taustalla olevaa itseorganisaation periaatetta kutsutaan heuristiseksi itseorganisaatioksi, koska koko prosessi perustuu heuristisesti valittujen ulkoisten lisäysten lisäämiseen. Päätöksen tulos voi merkittävästi riippua näistä heuristioista. Tuloksena oleva diagnostinen malli riippuu siitä, kuinka objektit jaetaan harjoitus- ja testausnäytteiksi, kuinka tunnistuksen laatukriteeri määritetään, kuinka monta muuttujaa ohitetaan seuraavalla valintarivillä jne.

Nämä GMDH-algoritmien ominaisuudet ovat tyypillisiä myös muille evolutionaarisen mallintamisen lähestymistavoille. Mutta huomioimme tässä vielä yhden näkökohdan tarkasteltavista menetelmistä. Tämä on heidän sisällön ydin. Päätösfunktioiden luokkaa (evoluutio ja gradientti) koskeviin oletuksiin perustuvilla menetelmillä on mahdollista rakentaa erittäin monimutkaisia ​​diagnostisia malleja ja saada käytännössä hyväksyttäviä tuloksia. Samaan aikaan käytännön tavoitteiden saavuttamiseen ei tässä tapauksessa liity uuden tiedon hankkiminen tunnistettavien esineiden luonteesta. Mahdollisuutta poimia tämä tieto, erityisesti tieto attribuuttien (ominaisuuksien) vuorovaikutusmekanismeista, rajoittaa tässä pohjimmiltaan tällaisen vuorovaikutuksen annettu rakenne, joka on kiinnitetty ratkaisevien toimintojen valittuun muotoon. Siksi maksimi, joka voidaan sanoa tietyn diagnostisen mallin rakentamisen jälkeen, on luetella ominaisuuksien yhdistelmät ja itse ominaisuudet, jotka sisältyvät tuloksena olevaan malliin. Mutta niiden yhdistelmien merkitys, jotka heijastavat tutkittavien objektien jakautumisen luonnetta ja rakennetta sisällä tätä lähestymistapaa jää usein selvittämättä.

Boolen menetelmät. Loogiset kuviontunnistuksen menetelmät perustuvat loogisen algebran laitteistoon ja mahdollistavat toimimisen paitsi yksittäisiin ominaisuuksiin, myös piirrearvojen yhdistelmiin sisältyvällä tiedolla. Näissä menetelmissä minkä tahansa määritteen arvoja pidetään alkeistapahtumina.

Yleisimmässä muodossa loogisia menetelmiä voidaan luonnehtia eräänlaiseksi loogisten mallien etsimiseksi harjoitusnäytteestä ja tietyn loogisten päätössääntöjen järjestelmän muodostamiseksi (esimerkiksi alkeistapahtumien konjunktioiden muodossa), jokainen jolla on oma painonsa. Loogisten menetelmien ryhmä on monipuolinen ja sisältää menetelmiä, joiden monimutkaisuus ja analyysisyvyys vaihtelevat. Kaksijakoisten (boolean) ominaisuuksien osalta suosittuja ovat niin sanotut puumaiset luokittelijat, umpikujatestimenetelmä, Kora-algoritmi ja muut. Lisää monimutkaisia ​​menetelmiä Ne perustuvat D.S. Millin induktiivisten menetelmien formalisointiin. Formalisointi suoritetaan rakentamalla kvasiaksiomaattinen teoria ja se perustuu monilajiteltuun moniarvoiseen logiikkaan, jossa on kvantoijat monikoittain vaihteleva pituus.

Kora-algoritmi, kuten muutkin loogiset hahmontunnistuksen menetelmät, on melko työläs, koska konjunktioiden valinnassa tarvitaan täydellinen luettelointi. Siksi loogisia menetelmiä sovellettaessa korkeat vaatimukset tehokkaaseen organisaatioon laskentaprosessi, ja nämä menetelmät toimivat hyvin suhteellisen pienissä ominaisuustilan mitoissa ja vain tehokkaissa tietokoneissa.

Kielelliset (syntaktiset tai rakenteelliset) menetelmät. Kuviontunnistuksen kielelliset menetelmät perustuvat erityisten kielioppien käyttöön, jotka generoivat kieliä, joiden avulla voidaan kuvata joukko tunnistettavien kohteiden ominaisuuksia. Kielioppi viittaa sääntöihin objektien rakentamiseksi näistä ei-johdannaisista elementeistä.

Jos kuvien kuvaus tehdään ei-johdannaisten elementtien (alikuvien) ja niiden suhteiden avulla, niin rakentaa automaattisia tunnistusjärjestelmiä, kielellisiä tai syntaktinen lähestymistapa ominaisuuksien yleisyyden periaatetta käyttäen. Kuvaa voidaan kuvata käyttämällä kielen syntaktista rakennetta muistuttavaa alakuvien hierarkkista rakennetta. Tämä seikka mahdollistaa teorian soveltamisen viralliset kielet. Oletetaan, että kuvien kielioppi sisältää rajallisia elementtijoukkoja, joita kutsutaan muuttujiksi, ei-johdannaisiksi elementeiksi ja korvaussäännöiksi. Korvaussääntöjen luonne määrittää kieliopin tyypin. Tutkituimpia kielioppeja ovat säännölliset, yhteydettömät ja suorien ainesosien kieliopit. Avainkohdat tässä lähestymistavassa ovat kuvan ei-johdannaisten elementtien valinta, näiden elementtien ja suhteiden yhdistäminen kuvien kieliopeiksi ja lopuksi analyysi- ja tunnistusprosessien toteuttaminen vastaavalla kielellä. Tämä lähestymistapa on erityisen hyödyllinen työskenneltäessä kuvien kanssa, joita ei voida kuvata numeerisilla mittauksilla tai jotka ovat niin monimutkaisia, että niiden paikallisia piirteitä ei voida tunnistaa ja on viitattava objektien globaaleihin ominaisuuksiin.

Esimerkiksi E.A. Butakov, V.I. Ostrovski, I.L. Fadeevin tarjous seuraavaa rakennetta Kuvankäsittelyjärjestelmät (kuva 3) lingvististä lähestymistapaa käyttäen, jossa kukin toiminnallisista lohkoista on ohjelmisto (firmware) -kompleksi (moduuli), joka toteuttaa vastaavat toiminnot.

Kuva 3 Rakennesuunnitelma tunnistuslaite

Yritykset soveltaa matemaattisen kielitieteen menetelmiä kuva-analyysin ongelmaan johtavat tarpeeseen ratkaista useita ongelmia, jotka liittyvät kaksiulotteisen kuvarakenteen kartoittamiseen muodollisen kielen yksiulotteisiin ketjuihin.

Laajennettavat menetelmät

Tämän ryhmän menetelmissä, toisin kuin intensiaalisuunnassa, kullekin tutkittavalle kohteelle annetaan itsenäinen diagnostinen arvo suuremmassa tai pienemmässä määrin. Nämä menetelmät ovat pohjimmiltaan lähellä kliinistä lähestymistapaa, jossa ihmiset eivät ole yhden tai toisen indikaattorin mukaan järjestettävää esineketjua, vaan kokonaisia ​​järjestelmiä, joista jokainen on yksilöllinen ja jolla on erityinen diagnostinen arvo. Tällainen huolellinen suhtautuminen tutkimuskohteisiin ei anna mahdollisuutta sulkea pois tai kadottaa tietoa jokaisesta yksittäisestä kohteesta, mikä tapahtuu käytettäessä intensionaalisen suunnan menetelmiä käyttämällä esineitä vain havaitsemaan ja korjaamaan niiden attribuuttien käyttäytymismalleja.

Tärkeimmät operaatiot hahmontunnistuksessa käsitellyillä menetelmillä ovat kohteiden samankaltaisuuden ja eron määritysoperaatiot. Määritellyn menetelmäryhmän kohteilla on diagnostisten ennakkotapausten rooli. Tosin olosuhteista riippuen tietty tehtävä yksittäisen ennakkotapauksen rooli voi vaihdella laajalla alueella: pääasiallisesta ja määrittävästä erittäin epäsuoraan osallistumiseen tunnustamisprosessiin. Ongelman olosuhteet puolestaan ​​voivat edellyttää osallistumista eri määrä diagnostiset ennakkotapaukset: yhdestä jokaisessa tunnistettavassa luokassa koko otoskokoon ja eri tavoilla objektien samankaltaisuuden ja eron mittojen laskeminen. Nämä vaatimukset selittävät laajennusmenetelmien jaon edelleen alaluokkiin:

    prototyyppien vertailumenetelmä;

    k-lähimmän naapurin menetelmä;

    päätöksentekosääntöjen ryhmät.

Prototyyppien vertailumenetelmä. Tämä on yksinkertaisin laajennusmenetelmä. Sitä käytetään esimerkiksi silloin, kun tunnistetut luokat näytetään piirreavaruudessa kompakteina geometrisina ryhmittyminä. Tällöin prototyyppipisteeksi valitaan yleensä luokan geometrisen ryhmittelyn keskipiste (tai keskustaa lähinnä oleva kohde).

Tuntemattoman objektin luokittelua varten etsitään sitä lähinnä oleva prototyyppi ja kohde kuuluu samaan luokkaan kuin tämä prototyyppi. Ilmeisesti tässä menetelmässä ei muodostu yleistettyjä luokkakuvia.

Erilaisia ​​etäisyyksiä voidaan käyttää läheisyyden mittana. Usein dikotomisille piirteille käytetään Hamming-etäisyyttä, joka tässä tapauksessa on yhtä suuri kuin euklidisen etäisyyden neliö. Tässä tapauksessa kohteiden luokittelun päätössääntö vastaa lineaarista päätösfunktiota.

Tämä tosiasia on erityisesti huomioitava. Se osoittaa selvästi prototyypin ja tietorakennetta koskevien tietojen indikatiivisen esityksen välisen yhteyden. Yllä olevaa esitystä käyttämällä voit esimerkiksi käyttää mitä tahansa perinteistä mitta-asteikkoa, joka on lineaarinen funktio dikotomien piirteiden arvoista, sitä voidaan pitää hypoteettisena diagnostisena prototyyppinä. Jos taas tunnistettujen luokkien tilarakenteen analyysi antaa meille mahdollisuuden päätellä, että ne ovat geometrisesti kompakteja, riittää, että jokainen näistä luokista korvataan yhdellä prototyypillä, joka vastaa itse asiassa lineaarista diagnostista mallia.

Käytännössä tilanne on tietysti usein erilainen kuin kuvattu idealisoitu esimerkki. Tutkija, joka aikoo soveltaa tunnistusmenetelmää, joka perustuu vertailuun diagnostisten luokkien prototyyppeihin, kohtaa vaikeita ongelmia. Tämä on ennen kaikkea läheisyysmitan (metriikan) valinta, joka voi merkittävästi muuttaa objektien jakauman spatiaalista konfiguraatiota. Ja toiseksi, itsenäinen ongelma on kokeellisen datan moniulotteisten rakenteiden analyysi. Molemmat ongelmat ovat tutkijalle erityisen akuutteja ominaisuustilan korkean ulottuvuuden olosuhteissa, mikä on tyypillistä todellisille ongelmille.

K-lähimpien naapureiden menetelmä. K-lähimmän naapurin menetelmää diskriminanttianalyysiongelmien ratkaisemiseksi ehdotettiin ensimmäisen kerran jo vuonna 1952. Se on seuraava.

Tuntematonta esinettä luokittaessa löytyy annettu numero(k) muut sitä geometrisesti lähimpänä olevat objektit piirreavaruudessa (lähimmät naapurit), joiden jo tiedetään kuuluvan tunnistettavissa oleviin luokkiin. Päätös määrittää tuntematon objekti tiettyyn diagnostiikkaluokkaan tehdään analysoimalla tietoa lähimpien naapureidensa tästä tunnetusta jäsenyydestä, esimerkiksi käyttämällä yksinkertaista ääntenlaskentaa.

Aluksi k-lähimmän naapurin menetelmää pidettiin ei-parametrisena menetelmänä todennäköisyyssuhteen arvioinnissa. Tätä menetelmää varten saadaan teoreettiset arviot sen tehokkuudesta verrattuna optimaaliseen Bayesin luokittimeen. On osoitettu, että asymptoottisten virheiden todennäköisyydet k-lähimmän naapurin menetelmälle ylittävät Bayesin säännön virheet enintään kaksi kertaa.

Kuten edellä todettiin, todellisissa ongelmissa on usein tarpeen toimia kuvattujen kohteiden kanssa iso määrä laadulliset (dikotomiset) ominaisuudet. Samalla piirreavaruuden ulottuvuus on verrannollinen tai suurempi kuin tutkittavan otoksen tilavuus. Tällaisissa olosuhteissa on kätevää tulkita jokainen harjoitusnäytteen objekti erilliseksi lineaariseksi luokittelijaksi. Sitten tätä tai toista diagnostiikkaluokkaa ei edusta yksi prototyyppi, vaan joukko lineaarisia luokittimia. Lineaaristen luokittimien yhdistetty vuorovaikutus johtaa paloittain lineaariseen pintaan, joka erottaa tunnistettavat luokat piirreavaruudessa. Hypertasopaloista koostuvan jakopinnan tyyppiä voidaan vaihdella ja se riippuu luokiteltujen aggregaattien suhteellisesta sijainnista.

Myös toista k-lähimmän naapurin luokittelumekanismien tulkintaa voidaan käyttää. Se perustuu ajatukseen joidenkin piilevien muuttujien olemassaolosta, abstraktien tai jonkin muunnoksen yhteydessä alkuperäiseen ominaisuustilaan. Jos objektien väliset parietäisyydet piilevien muuttujien avaruudessa ovat samat kuin alkuominaisuuksien avaruudessa ja näitä muuttujia on paljon pienempi kuin objektien lukumäärä, niin k-lähimpien naapurien menetelmän tulkintaa voidaan harkita. ehdollisten todennäköisyysjakauman tiheyksien ei-parametristen estimaattien vertailun kannalta. Tässä esitetty piilevien muuttujien käsite on luonteeltaan lähellä todellisen ulottuvuuden käsitettä ja muita erilaisissa ulottuvuuksien vähentämismenetelmissä käytettyjä esityksiä.

K-lähimpien naapurien menetelmää käytettäessä hahmontunnistukseen tutkijan on ratkaistava vaikea ongelma Valitsemalla mittarin diagnosoitujen kohteiden läheisyyden määrittämiseksi. Tämä ongelma ominaisuustilan suuren mittasuhteen olosuhteissa pahenee erittäin paljon tämän menetelmän riittävän monimutkaisuuden vuoksi, mikä tulee merkittäväksi jopa korkean suorituskyvyn tietokoneille. Siksi tässä, aivan kuten prototyyppivertailumenetelmässä, on tarpeen ratkaista luova ongelma kokeellisen datan moniulotteisen rakenteen analysoinnissa diagnostisia luokkia edustavien objektien määrän minimoimiseksi.

Arvosanojen laskemisen algoritmit (äänestys). Arviointialgoritmien (ABO) toimintaperiaate on laskea prioriteetti (samankaltaisuuspisteet), jotka kuvaavat tunnistettujen ja referenssikohteiden "läheisyyttä" piirreryhmien järjestelmän mukaisesti, joka on tietyn joukon osajoukkojen järjestelmä. ominaisuuksista.

Toisin kuin kaikki aiemmin käsitellyt menetelmät, arvioiden laskenta-algoritmit toimivat objektikuvausten kanssa täysin uudella tavalla. Näillä algoritmeilla objektit ovat samanaikaisesti olemassa piirreavaruuden hyvin erilaisissa aliavaruuksissa. ABO-luokka vie ajatuksen ominaisuuksien käytöstä loogiseen lopputulokseen: koska aina ei tiedetä, mitkä ominaisuuksien yhdistelmät ovat informatiivisimpia, ABO:ssa lasketaan objektien samankaltaisuusaste vertaamalla kaikkia mahdollisia tai tiettyjä ominaisuuksien yhdistelmiä. sisältyy esineiden kuvauksiin.

Päätössääntöjen joukkueet. Päätössäännössä käytetään kaksitasoista tunnistusjärjestelmää. Ensimmäisellä tasolla toimivat yksityiset tunnistusalgoritmit, joiden tulokset yhdistetään toisella tasolla synteesilohkossa. Yleisimmät tällaisen yhdistelmän menetelmät perustuvat tietyn algoritmin toimivalta-alueiden allokointiin. Yksinkertaisin tapa osaamisalueiden löytäminen koostuu piirreavaruuden ennakko-osistamisesta tietyn tieteen ammatillisten näkökohtien perusteella (esimerkiksi otoksen kerrostaminen jonkin ominaisuuden mukaan). Sitten kullekin valitulle alueelle rakennetaan oma tunnistusalgoritmi. Toinen tapa perustuu muodollisen analyysin käyttöön määrittämiseen paikalliset alueet ominaisuustilat tunnistettavien kohteiden naapureina, joille minkä tahansa tunnistusalgoritmin menestys on todistettu.

Yleisin lähestymistapa synteesilohkon rakentamiseen pitää tuloksena saatuja osittaisalgoritmien indikaattoreita alkuominaisuuksina uuden yleisen päätössäännön rakentamiseksi. Tässä tapauksessa voidaan käyttää kaikkia yllä olevia intensionaalisten ja ekstensiivisten suuntien menetelmiä kuviontunnistuksessa. Päätössääntöjoukon luomisen ongelman ratkaisemiseksi tehokkaita ovat "Kora"-tyyppiset loogiset algoritmit ja estimaattien laskemisen algoritmit (ABO), jotka ovat perustana niin sanotulle algebralliselle lähestymistavalle, joka tarjoaa tutkimusta ja rakentavan kuvauksen tunnistusalgoritmit, joihin kaikki olemassa olevat algoritmit sopivat.

Neuroverkkomenetelmät

Neuroverkkomenetelmät ovat sovellukseen perustuvia menetelmiä erilaisia ​​tyyppejä neuroverkot (NN). Erilaisten NN:iden pääkäyttöalueet kuvioiden ja kuvien tunnistamiseen:

    hakemus louhintaan Avainominaisuudet tai merkit annetuista kuvista,

    itse kuvien tai niistä jo erotettujen ominaisuuksien luokittelu (ensimmäisessä tapauksessa avainominaisuuksien poimiminen tapahtuu implisiittisesti verkon sisällä),

    optimointiongelmien ratkaisu.

Monikerroksiset neuroverkot. Monikerroksisen hermoverkon (MNN) arkkitehtuuri koostuu peräkkäin yhdistetyistä kerroksista, joissa kunkin kerroksen neuroni on yhdistetty kaikkiin edellisen kerroksen neuroniin tuloillaan ja seuraavan kerroksen lähtöihin.

Yksikerroksisen NN:n (kutsutaan auto-assosiatiiviseksi muistiksi) yksinkertaisin sovellus on kouluttaa verkko rekonstruoimaan syöttökuvat. Syöttämällä testikuva tuloon ja laskemalla rekonstruoidun kuvan laatu voidaan arvioida kuinka hyvin verkko tunnisti tulokuvan. Tämän menetelmän positiivisia ominaisuuksia ovat, että verkko pystyy palauttamaan vääristyneet ja kohinaiset kuvat, mutta se ei sovellu vakavampiin tarkoituksiin.

MNN:ää käytetään myös kuvien suoraan luokitteluun - syötteenä on joko itse kuva jossain muodossa tai joukko kuvan aiemmin poimittuja avainominaisuuksia, lähdössä maksimiaktiivinen neuroni ilmaisee kuuluvansa tunnistettuun luokkaan (kuva . 4). Jos tämä aktiviteetti on alle tietyn kynnyksen, lähetetty kuva ei kuulu mihinkään tunnettuun luokkaan. Oppimisprosessi määrittää syötettyjen kuvien vastaavuuden tiettyyn luokkaan kuulumisen kanssa. Tätä kutsutaan ohjatuksi oppimiseksi. Tämä lähestymistapa on hyvä pienen ryhmän kulunvalvontatehtäviin. Tämä lähestymistapa tarjoaa suoran vertailun itse kuvista verkossa, mutta luokkien lukumäärän kasvaessa koulutus- ja verkon toiminta-aika kasvaa eksponentiaalisesti. Siksi tehtäviin, kuten etsimiseen samanlainen henkilö suuressa tietokannassa, vaatii tiiviin joukon avainominaisuuksia hakemista varten.

Luokittelumenetelmä käyttäen taajuusominaisuudet koko kuvasta, kuvattu kohdassa . Käytettiin yksikerroksista NS:ää, joka perustui moniarvoisiin hermosoluihin.

B esittää NN:n käyttöä kuvan luokitukseen, kun verkkotulo vastaanottaa kuvan hajotuksen tulokset pääkomponenttien menetelmällä.

Klassisessa MNS:ssä kerrosten väliset hermoyhteydet ovat täysin yhteydessä toisiinsa, ja kuva esitetään yksiulotteisena vektorina, vaikka se on kaksiulotteinen. Konvoluutiohermoverkon arkkitehtuuri pyrkii voittamaan nämä puutteet. Se käytti paikallisia reseptorikenttiä (tarjoaa paikallisen kaksiulotteisen liitettävyyden hermosoluille), yleisiä painoja (jotka mahdollistavat joidenkin ominaisuuksien havaitsemisen missä tahansa kuvassa) ja hierarkkinen organisaatio spatiaalisen osanäytteenoton (spatial subsampling) kanssa. Convolutional NN (CNN) tarjoaa osittaisen vastuksen mittakaavamuutoksille, siirtymille, kierroksille ja vääristymille.

MNS:ää käytetään myös tietyn tyyppisten kohteiden havaitsemiseen. Sen lisäksi, että mikä tahansa koulutettu MNS voi jossain määrin määrittää kuvien kuulumisen "omiin" luokkiinsa, se voidaan erityisesti kouluttaa tunnistamaan luotettavasti tietyt luokat. Tässä tapauksessa tulosluokat ovat luokkia, jotka kuuluvat ja eivät kuulu annettuun kuvatyyppiin. Syöttökuvassa olevan kasvokuvan havaitsemiseen käytettiin neuroverkon ilmaisinta. Kuva skannattiin 20x20 pikselin ikkunalla, joka syötettiin verkon tuloon, joka päättää kuuluuko annettu alue kasvojen luokkaan. Koulutuksessa käytettiin sekä positiivisia esimerkkejä (erilaiset kasvokuvat) että negatiivisia esimerkkejä (kuvia, jotka eivät ole kasvoja). Tunnistuksen luotettavuuden parantamiseksi käytettiin eri alkupainoilla koulutettua NN-ryhmää, jonka seurauksena NN:t tekivät virheitä eri tavoin ja lopullinen päätös tehtiin koko tiimin äänestämällä.

Kuva 5. Pääkomponentit (ominaispinnat) ja kuvan hajoaminen pääkomponenteiksi

NN:ää käytetään myös kuvan tärkeimpien ominaisuuksien poimimiseen, joita sitten käytetään myöhempään luokitteluun. Kuvassa on esitetty menetelmä pääkomponenttianalyysimenetelmän neuroverkon toteuttamiseksi. Pääkomponenttianalyysimenetelmän ydin on saada maksimaalisesti decorelletut kertoimet, jotka kuvaavat syöttökuvioita. Näitä kertoimia kutsutaan pääkomponenteiksi ja niitä käytetään tilastolliseen kuvanpakkaukseen, jossa pieni määrä kertoimia käytetään edustamaan koko kuvaa. NN, jossa on yksi piilotettu kerros, joka sisältää N neuronia (joka on paljon pienempi kuin kuvaulottuvuus), jota menetelmä harjoittaa takaisinlisäystä virheet palauttaakseen sisääntulokuvan lähdössä, muodostaa ensimmäisen N pääkomponentin kertoimet piilotettujen hermosolujen lähdössä, joita käytetään vertailuun. Tyypillisesti käytetään 10-200 pääkomponenttia. Komponenttiluvun kasvaessa sen edustavuus heikkenee huomattavasti, eikä ole järkevää käyttää suurilukuisia komponentteja. Käytettäessä hermoelementtien epälineaarisia aktivointifunktioita, epälineaarinen hajoaminen pääkomponenteiksi on mahdollista. Epälineaarisuuden avulla voit heijastaa syöttötietojen vaihtelut tarkemmin. Soveltamalla pääkomponenttianalyysiä kasvojen kuvien hajotteluun saadaan pääkomponentit, joita kutsutaan oikeiksi kasvoiksi ja joilla on myös hyödyllinen omaisuus- on komponentteja, jotka heijastavat pääasiassa sellaisia ​​ihmisen olennaisia ​​ominaisuuksia kuin sukupuoli, rotu, tunteet. Kunnostettuna komponentit näyttävät kasvoilta, entinen heijastuu eniten yleinen muoto kasvot, jälkimmäinen - erilaisia ​​pieniä eroja kasvojen välillä (kuva 5). Tämä menetelmä toimii hyvin etsinnässä samanlaisia ​​kuvia henkilöitä sisään suuret pohjat tiedot. Esitetään myös mahdollisuus pienentää pääkomponenttien mittoja edelleen NS:n avulla. Syötekuvan rekonstruoinnin laatua arvioimalla voidaan hyvin tarkasti määrittää, kuuluuko se kasvojen luokkaan.

Neuroverkot korkea järjestys. Korkean asteen hermoverkot (HNN:t) eroavat MNN:istä siinä, että niissä on vain yksi kerros, mutta hermosolujen syötteet saavat myös korkean asteen termejä, jotka ovat tulovektorin kahden tai useamman komponentin tuloja. Tällaiset verkot voivat myös muodostaa monimutkaisia ​​erotuspintoja.

Hopfieldin neuroverkot. Hopfield NN (HSH) on yksikerroksinen ja täysin kytketty (ei ole neuronien yhteyksiä toisiinsa), sen lähdöt on kytketty tuloihin. Toisin kuin MNS, NSH on rentouttava, ts. alkutilaan asetettuna se toimii, kunnes se saavuttaa vakaan tilan, joka on sen lähtöarvo. Optimointiongelmiin liittyvän globaalin minimin etsimiseen käytetään NSH:n stokastisia modifikaatioita.

NSH:n käyttö mm assosiatiivinen muisti voit palauttaa tarkasti kuvat, joihin verkko on koulutettu, kun vääristynyt kuva syötetään tuloon. Tässä tapauksessa verkko "muistaa" lähimmän (paikallisen energiaminimin mielessä) kuvan ja siten tunnistaa sen. Tällaista toimintaa voidaan myös pitää yllä kuvatun autoassosiatiivisen muistin peräkkäisenä sovelluksena. Toisin kuin automaattinen assosiatiivinen muisti, NSH palauttaa kuvan täydellisesti. Häiriöiden välttämiseksi ja verkon kapasiteetin lisäämiseksi käytä erilaisia ​​menetelmiä.

Kohonen itseorganisoituvat neuroverkot. Kohosen itseorganisoituvat hermoverkot (SNNC) tarjoavat syötekuvaavaruuden topologisen järjestyksen. Ne mahdollistavat topologisesti jatkuvan sisääntulon n-ulotteisen avaruuden kartoituksen lähtöön m-ulotteinen, m<

Cognitron. Kognitroni on arkkitehtuuriltaan samanlainen kuin visuaalisen aivokuoren rakenne, sillä on hierarkkinen monikerroksinen organisaatio, jossa kerrosten väliset neuronit ovat yhteydessä vain paikallisesti. Koulutettu kilpailullisesti (ilman opettajaa). Jokainen aivojen kerros toteuttaa erilaisia ​​yleistyksen tasoja; syöttökerros on herkkä yksinkertaisille kuvioille, kuten viivoille, ja niiden suunnalle tietyillä visuaalisen alueen alueilla, kun taas muiden kerrosten vaste on monimutkaisempi, abstrakti ja kuvion sijainnista riippumaton. Samanlaisia ​​toimintoja toteutetaan kognitronissa mallintamalla visuaalisen aivokuoren organisaatiota.

Neocognitron on kognitroni-idean jatkokehitys ja heijastaa tarkemmin visuaalisen järjestelmän rakennetta, mahdollistaa kuvien tunnistamisen niiden muunnoksista, kierroksista, vääristymistä ja mittakaavamuutoksista riippumatta.

Cognitron on tehokas kuvantunnistustyökalu, mutta se vaatii korkeita laskentakustannuksia, joita ei tällä hetkellä voida saavuttaa.

Tarkasteltavat neuroverkkomenetelmät mahdollistavat nopean ja luotettavan kuvantunnistuksen, mutta näitä menetelmiä käytettäessä syntyy ongelmia kolmiulotteisten kohteiden tunnistamisessa. Tällä lähestymistavalla on kuitenkin monia etuja.

      Johtopäätös

Tällä hetkellä on olemassa melko suuri määrä automaattisia hahmontunnistusjärjestelmiä erilaisiin sovellettuihin ongelmiin.

Kuvioiden tunnistaminen muodollisin menetelmin tieteellisenä perussuuntana on ehtymätön.

Kuvankäsittelyn matemaattisilla menetelmillä on laaja valikoima sovelluksia: tieteessä, tekniikassa, lääketieteessä, sosiaalisessa sfäärissä. Tulevaisuudessa hahmontunnistuksen rooli ihmiselämässä kasvaa entisestään.

Neuraaliverkkomenetelmät tarjoavat nopean ja luotettavan kuvantunnistuksen. Tällä lähestymistavalla on monia etuja ja se on yksi lupaavimmista.

Kirjallisuus

    D.V. Brilyuk, V.V. Starovoitov. Kuvantunnistuksen hermoverkkomenetelmät // /

    Kuzin L.T. Kybernetiikan perusteet: Kyberneettisten mallien perusteet. T.2. - M.: Energia, 1979. - 584 s.

    Peregudov F.I., Tarasenko F.P. Johdatus järjestelmäanalyysiin: Oppikirja. - M .: Higher School, 1997. - 389s.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Tietotekniikan teoreettiset perusteet. - M.: Energia, 1979. - 511s.

    Tu J., Gonzalez R. Kuvioiden tunnistamisen periaatteet. / Per. englannista. - M.: Mir, 1978. - 410s.

    Winston P. Tekoäly. / Per. englannista. - M.: Mir, 1980. - 520-luku.

    Fu K. Rakenteelliset menetelmät hahmontunnistuksessa: Käännetty englannista. - M.: Mir, 1977. - 320s.

    Tsypkin Ya.Z. Identifioinnin tietoteorian perusteet. - M.: Nauka, 1984. - 520s.

    Pospelov G.S. Tekoäly on uuden tietotekniikan perusta. - M.: Nauka, 1988. - 280s.

    Yu. Lifshits, Tilastolliset kuviontunnistuksen menetelmät ///modern/07modernnote.pdf

    Bohr N. Atomifysiikka ja ihmistieto. / Käännös englannista. - M.: Mir, 1961. - 151s.

    Butakov E.A., Ostrovski V.I., Fadeev I.L. Kuvankäsittely tietokoneella.1987.-236s.

    Duda R., Hart P. Kuvioiden tunnistus ja kohtausanalyysi. / Käännös englannista. - M.: Mir, 1978. - 510s.

    Duke V.A. Tietokonepsykodiagnostiikka. - Pietari: Veljeskunta, 1994. - 365 s.

    Aizenberg I. N., Aizenberg N. N. ja Krivosheev G. A. Moniarvoiset ja universaalit binaariset neuronit: oppimisalgoritmit, sovellukset kuvankäsittelyyn ja tunnistamiseen. Luentomuistiinpanot tekoälyssä - koneoppiminen ja tiedon louhinta kuvioiden tunnistamisessa, 1999, s. 21-35.

    Ranganath S. ja Arun K. Kasvojentunnistus muunnosominaisuuksien ja hermoverkkojen avulla. Pattern Recognition 1997, Voi. 30, s. 1615-1622.

    Golovko V.A. Neuroäly: teoria ja sovellukset. Kirja 1. Neuraaliverkkojen organisointi ja koulutus suoralla ja palautteella - Brest: BPI, 1999, - 260s.

    Vetter T. ja Poggio T. Lineaariset objektiluokat ja kuvan synteesi yhdestä esimerkkikuvasta. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Voi. 19, s. 733-742.

    Golovko V.A. Neuroäly: teoria ja sovellukset. Kirja 2. Itseorganisaatio, vikasietoisuus ja hermoverkkojen käyttö - Brest: BPI, 1999, - 228s.

    Lawrence S., Giles C. L., Tsoi A. C. ja Back A. D. Face Recognition: A Convolutional Neural Network Approach. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, ss. 1-24.

    Wasserman F. Neurotietokonetekniikka: teoria ja käytäntö, 1992 - 184s.

    Rowley H. A., Baluja S. ja Kanade T. Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Voi. 20, s. 23-37.

    Valentin D., Abdi H., O "Toole A. J. ja Cottrell G. W. Connectionist model of face processing: a survey. IN: Pattern Recognition 1994, Vol. 27, s. 1209-1230.

    Asiakirja

    Ne muodostavat algoritmeja tunnustaminenkuvia. menetelmättunnustaminenkuvia Kuten yllä todettiin, todellisuus ei ole sitä olemassa"ekosysteemit yleensä" ja olla olemassa vain muutama ... johtopäätös tästä yksityiskohtaisesta arvostelumenetelmiätunnustaminen esittelimme...

  1. Yleiskatsaus menetelmiin ihmisten tunnistamiseksi kasvokuvan perusteella visuaalisen tunnistamisen ominaisuudet huomioon ottaen

    Arvostelu

    ... tunnustaminen henkilön toimesta vähäkontrastisista esineistä, mukaan lukien henkilöt. Tuotu arvostelu yleinen menetelmiä ... Olemassa koko rivi menetelmiä ... tapa, tutkimuksen tuloksena alustan kehittämiseen menetelmätunnustaminen ...

  2. Imeni Glazkova Valentina Vladimirovna OHJELMISTON RAKENNUSMENETELMIEN TUTKIMUS JA KEHITTÄMINEN MONIA AIHEITA KOSKEVIEN HYPERTEKSTIASIAKIRJOJEN LUOKITTAMISEKSI Erikoisala 05

    Väitöskirjan abstrakti

    hypertekstiasiakirjoja. Luku sisältää arvostelunykyinenmenetelmiä tarkasteltavan ongelman ratkaisu, kuvaus ... leikkaamalla pois vähiten merkitykselliset luokat // Matemaattinen menetelmiätunnustaminenkuvia: 13. koko Venäjän konferenssi. Leningradin alue...

  3. Dia 0 Yleiskatsaus geneettisten tekstien analysointiin ja käsittelyyn liittyvistä bioinformatiikan tehtävistä

    Luento

    DNA- ja proteiinisekvenssit. Arvostelu bioinformatiikan tehtävät tehtävinä ... signaalit vaativat nykyaikaisen käytön menetelmiätunnustaminenkuvia, tilastollisia lähestymistapoja ja ... alhaisella geenitiheydellä. Nykyinen geenien ennustusohjelmat eivät...

Kuva, luokka - luokitusjärjestelmässä oleva luokitusryhmä, joka yhdistää (erottaa) tietyn objektiryhmän jonkin määritteen mukaan.

Kuvannollinen maailmankäsitys on yksi elävien aivojen salaperäisistä ominaisuuksista, joka mahdollistaa havaitun tiedon loputtoman virran ymmärtämisen ja suuntautumisen ylläpitämisen ulkomaailman erilaisten tietojen valtameressä. Havaittaessa ulkomaailmaa luokittelemme havaitut aistimukset aina, eli jaamme ne samankaltaisten mutta ei identtisten ilmiöiden ryhmiin. Esimerkiksi yhteen ryhmään kuuluvat merkittävästä erosta huolimatta kaikki eri käsialalla kirjoitetut A-kirjaimet tai kaikki äänet, jotka vastaavat samaa säveltä missä tahansa oktaavissa ja missä tahansa instrumentissa, sekä teknistä kohdetta ohjaava operaattori. joukko tiloja kohde reagoi samalla reaktiolla. Tyypillistä on, että tietyn luokan käsitysryhmän käsitteen muodostamiseksi riittää, että tutustutaan pieneen määrään sen edustajia. Lapselle voidaan näyttää vain kerran kirjain, jotta hän löytää tämän kirjaimen eri fonteilla kirjoitetusta tekstistä tai tunnistaa sen, vaikka se olisi kirjoitettu tarkoituksella vääristetyssä muodossa. Tämä aivojen ominaisuus antaa meille mahdollisuuden muotoilla sellaisen käsitteen kuvana.

Kuvilla on ominainen ominaisuus, joka ilmenee siinä, että tutustuminen äärelliseen määrään ilmiöitä samasta sarjasta mahdollistaa mielivaltaisen suuren joukon sen edustajia. Esimerkkejä kuvista voivat olla: joki, meri, neste, Tšaikovskin musiikki, Majakovskin runot jne. Tiettyä ohjausobjektin tilojen joukkoa voidaan pitää myös kuvana, ja tälle koko tilajoukolle on ominaista se, että tietyn tavoitteen saavuttamiseksi, sama vaikutus kohteeseen . Kuvilla on ominaisia ​​objektiivisia ominaisuuksia siinä mielessä, että erilaisesta havaintomateriaalista oppivat ihmiset luokittelevat suurimmaksi osaksi samat kohteet samalla tavalla ja toisistaan ​​riippumatta. Juuri tämä kuvien objektiivisuus antaa ihmisille kaikkialla maailmassa ymmärtää toisiaan.

Kyky havaita ulkoinen maailma kuvien muodossa mahdollistaa sen, että tunnistaa tietyllä varmuudella äärettömän määrän esineitä, jotka perustuvat tutustumiseen äärelliseen määrään niitä, ja kuvien pääominaisuuden objektiivinen luonne mahdollistaa sen mallintamisen tunnistamisprosessia. Objektiivisen todellisuuden heijastuksena kuvan käsite on yhtä objektiivinen kuin todellisuus itse, ja siksi se voi itsessään olla erityisen tutkimuksen kohteena.

Koulutusmallintunnistuksen (ORO) ongelmalle omistetussa kirjallisuudessa esitellään usein luokan käsite kuvan käsitteen sijaan.

Learning Pattern Recognition (ORO) -ongelma

Yksi ihmisaivojen mielenkiintoisimmista ominaisuuksista on kyky reagoida ääretön joukko ulkoisen ympäristön tilat äärellisellä määrällä reaktioita. Ehkä juuri tämä ominaisuus antoi ihmisen saavuttaa elävän aineen olemassaolon korkeimman muodon, joka ilmaistaan ​​kyvyssä ajatella, eli heijastaa aktiivisesti objektiivista maailmaa kuvien, käsitteiden, tuomioiden jne. muodossa. Siksi ORO:n ongelma nousi esiin tutkittaessa aivojen fysiologisia ominaisuuksia.

Harkitse esimerkkiä ODP-alueen tehtävistä.


Riisi. 3.1.

Tässä on 12 kuvaa, ja on tarpeen valita ominaisuuksia, joiden avulla voidaan erottaa vasen kuvakolmio oikeasta. Näiden ongelmien ratkaiseminen edellyttää loogisen ajattelun mallintamista kokonaisuudessaan.

Yleensä kuviontunnistusongelma koostuu kahdesta osasta: oppimisesta ja tunnistamisesta. Koulutus toteutetaan näyttämällä yksittäisiä esineitä osoituksena niiden kuulumisesta yhteen tai toiseen kuvaan. Harjoittelun tuloksena tunnistusjärjestelmän tulee hankkia kyky reagoida samoilla reaktioilla kaikkiin saman kuvan esineisiin ja eri reaktioihin kaikkiin eri kuvien esineisiin. On erittäin tärkeää, että oppimisprosessi päättyy vain rajallisen määrän kohteiden näyttämiseen ilman muita kehotteita. Oppimisobjekteina voivat olla joko kuvia tai muita visuaalisia kuvia (kirjaimia), tai erilaisia ​​ulkomaailman ilmiöitä, esimerkiksi äänet, kehon tila lääketieteellisen diagnoosin aikana, teknisen kohteen tila ohjausjärjestelmissä, jne. On tärkeää, että vain esineet itse ja niiden kuuluvuus kuvaan. Koulutusta seuraa uusien kohteiden tunnistusprosessi, joka luonnehtii jo koulutetun järjestelmän toimintaa. Näiden toimenpiteiden automatisointi on hahmontunnistuksen koulutuksen ongelma. Siinä tapauksessa, että henkilö itse arvaa tai keksii ja asettaa sitten koneelle luokittelusäännön, tunnistusongelma on osittain ratkaistu, koska henkilö ottaa pää- ja pääosan ongelmasta (koulutuksesta).

Kuviontunnistuksen koulutuksen ongelma on mielenkiintoinen sekä soveltavalta että perustavanlaatuisesta näkökulmasta. Sovelletusta näkökulmasta tämän ongelman ratkaisu on tärkeä ennen kaikkea siksi, että se avaa mahdollisuuden automatisoida monia prosesseja, jotka tähän asti ovat liittyneet vain elävien aivojen toimintaan. Ongelman perustavanlaatuinen merkitys liittyy läheisesti kybernetiikan ideakehityksen yhteydessä nousevaan kysymykseen: mitä kone pystyy ja mitä pohjimmiltaan ei? Missä määrin koneen kykyjä voidaan lähentää elävien aivojen kykyjä? Voiko kone erityisesti kehittää kykyä ottaa ihmiseltä kyky suorittaa tiettyjä toimintoja ympäristössä syntyvistä tilanteista riippuen? Toistaiseksi on käynyt selväksi vain, että jos ihminen osaa ensin itse toteuttaa kykynsä ja sitten kuvailla sitä, eli osoittaa, miksi hän tekee toimia vasteena jokaiseen ulkoisen ympäristön tilaan tai kuinka (millä säännöllä) hän yhdistää yksilön objektit kuviksi, niin tällainen taito voidaan siirtää koneeseen ilman perustavanlaatuisia vaikeuksia. Jos ihmisellä on taito, mutta hän ei osaa selittää sitä, on vain yksi tapa siirtää taito koneelle - oppiminen esimerkein.

Tunnistusjärjestelmien avulla ratkaistavien tehtävien kirjo on erittäin laaja. Tämä ei sisällä vain visuaalisen ja kuulokuvan tunnistamisen tehtäviä, vaan myös monimutkaisten prosessien ja ilmiöiden tunnistamisen tehtäviä, joita syntyy esimerkiksi valittaessa yrityksen johtajan asianmukaisia ​​toimia tai valittaessa optimaalista teknologista, taloudellista, liikennettä. tai sotilaallisiin operaatioihin. Jokaisessa näistä tehtävistä analysoidaan joitain ulkomaailman ilmiöitä, prosesseja, tiloja, joita kutsutaan jäljempänä havainnointikohteiksi. Ennen kuin aloitat minkä tahansa kohteen analyysin, on tarpeen hankkia siitä jollakin tavalla tiettyä, järjestettyä tietoa. Tällainen tieto on ominaisuus esineille, niiden näyttö tunnistusjärjestelmän havaitsevien elinten joukossa.

Mutta jokainen havaintokohde voi vaikuttaa meihin eri tavoin havaintoolosuhteista riippuen. Esimerkiksi mikä tahansa kirjain, jopa samalla tavalla kirjoitettu, voidaan periaatteessa siirtää millä tahansa tavalla suhteessa havaitseviin elimiin. Lisäksi saman kuvan kohteet voivat olla hyvin erilaisia ​​keskenään ja tietysti vaikuttaa havainnointielimiin eri tavoin.

Jokaista minkä tahansa kohteen kartoittamista tunnistusjärjestelmän havaitseviin elimiin, riippumatta sen sijainnista näihin elimiin nähden, kutsutaan yleensä kohteen kuvaksi, ja tällaisten kuvien joukot, joita yhdistävät eräät yhteiset ominaisuudet, ovat kuvia.

Kun ohjausongelmia ratkaistaan ​​kuvantunnistusmenetelmillä, käytetään termiä "tila" termin "image" sijaan. Osavaltio- tämä on tietty tapa näyttää mitatun kohteen (tai hetkelliset) ominaisuudet. Tilan joukko määrää tilanteen. Käsite "tilanne" on analoginen käsite "image" kanssa. Mutta tämä analogia ei ole täydellinen, koska jokaista kuvaa ei voida kutsua tilanteeksi, vaikka jokaista tilannetta voidaan kutsua kuvaksi.

Tilannetta kutsutaan yleensä tietyksi monimutkaisen objektin tilojen joukkoksi, joille jokaiselle on tunnusomaista kohteen samat tai samankaltaiset ominaisuudet. Esimerkiksi, jos tiettyä ohjausobjektia pidetään havainnointikohteena, niin tilanne yhdistää tämän kohteen sellaiset tilat, joissa samoja ohjaustoimenpiteitä tulisi soveltaa. Jos tarkkailukohteena on sotapeli, niin tilanne yhdistää kaikki pelin tilat, jotka vaativat esimerkiksi voimakkaan panssarihyökkäyksen ilmatuella.

Kohteiden alkuperäisen kuvauksen valinta on yksi ODP-ongelman keskeisistä tehtävistä. Alkukuvauksen (ominaisuustilan) onnistuneella valinnalla tunnistustehtävä voi osoittautua triviaaliksi, ja päinvastoin, epäonnistunut alkukuvaus voi johtaa joko erittäin vaikeaan tiedon jatkokäsittelyyn tai ratkaisun puuttumiseen. ollenkaan. Jos esimerkiksi ratkaistaan ​​väriltään poikkeavien esineiden tunnistamisongelma ja alkukuvaukseksi valitaan paino-antureilta saadut signaalit, niin tunnistusongelmaa ei periaatteessa voida ratkaista.

20 Kuviontunnistusongelma

Ihmisen aivot, kuten eläinten aivot, syntymästä ja koko elämän ajan, jokainen minuutti ratkaisee hahmontunnistusongelman. Eläimen lapsi tai pentu tunnistaa ensimmäisistä minuuteista lähtien ruoan, äidin, äänensä, ympäröivät esineet. Vanhetessaan lapsi oppii tunnistamaan lelunsa, huoneensa, talonsa, monet tarpeelliset esineensä, ystävien kasvot, heidän puheensa, musiikkinsa, kirjaimia, sanoja, kirjoja jne.

Ihminen selviää jokapäiväisessä elämässään tunnustamisen tehtävistä niin helposti, että se on itsestäänselvyys. Samaan aikaan yritykset simuloida näitä erittäin älykkäitä toimintoja tietokoneissa joutuvat erittäin vakaviin vaikeuksiin.

Jotta ihminen tietoisesti havaitsee tiedon, sen on käytävä läpi melko pitkä esikäsittelysykli. Harkitse esimerkkiä visuaalisen kuvan havainnosta:

1. Valo tulee silmään ensin. Kulkiessaan koko optisen järjestelmän läpi fotonit tulevat verkkokalvolle (valoherkkien solujen kerros). Tässä tapahtuu tietojenkäsittelyn ensimmäinen vaihe. Nisäkkäillä aivan valoherkkien solujen takana on yleensä kaksi hermosolukerrosta, jotka suorittavat suhteellisen mutkatonta käsittelyä.

2. Näköhermon kautta informaatio pääsee aivoihin, niin sanottuihin "optisiin tuberkoihin".

3. Lisäksi visuaalinen informaatio tulee aivojen alueille, jotka jo erottavat siitä yksittäiset komponentit (vaaka-, pysty-, vinoviivat; ääriviivat; vaaleat, tummat, värilliset alueet). Siihen asti voit helposti simuloida aivojen työtä erilaisilla graafisilla suodattimilla.

4. Vähitellen kuvista tulee monimutkaisempia ja epäselvämpiä, mutta graafisella kuvalla on vielä pitkä matka ennen kuin se saavuttaa tietoisuuden tason. Lisäksi tietoisuuden tasolla kuvaan voidaan lisätä ääniä, hajuja ja makuaistimuksia.

Yleensä kuviontunnistusongelma koostuu kahdesta osasta: oppimisesta ja tunnistamisesta. Harjoittelu suoritetaan näyttämällä yksittäisiä esineitä osoituksena niiden kuulumisesta yhteen tai toiseen kuvaan. Harjoittelun tuloksena tunnistusjärjestelmän tulee saada kyky reagoida samoilla reaktioilla kaikkiin saman kuvan esineisiin. Koulutusta seuraa uusien kohteiden tunnistusprosessi, joka luonnehtii jo koulutetun järjestelmän toimintaa.

Tunnistusjärjestelmien avulla ratkaistavien tehtävien kirjo on erittäin laaja. Tämä ei sisällä vain visuaalisen ja kuulokuvan tunnistamisen tehtäviä, vaan myös monimutkaisten prosessien ja ilmiöiden tunnistamisen tehtäviä, joita syntyy esimerkiksi valittaessa yrityksen johtajan asianmukaisia ​​toimia tai valittaessa optimaalista teknologista, taloudellista, liikennettä. tai sotilaallisiin operaatioihin.

Tällä hetkellä suurin menestys on saavutettu visuaalisten kuvioiden, kuten painettujen merkkien, tunnistamisessa. Tunnettujen tekstintunnistusohjelmien hyödyllisyydestä ei ole epäilystäkään FineReader ja CuneiForm . Vihollisen sotilaallisten kohteiden havaitsemis- ja tunnistamistoiminnot on jo pitkään sisällytetty ohjusten, lentokoneiden, laivojen ja sukellusveneiden tietokoneisiin.

Mitkä ideat ja periaatteet voivat muodostaa tunnistusjärjestelmien perustan? Ensimmäisenä tulee mieleen toimia "raa'an voiman asennosta": laita tietokoneeseen mahdollisimman monta tunnettua mallikuvaa ja vertaa niitä tuntemattomiin kuviin, jotka tulevat tunnistettavaksi. Tämä polku johtaa kuitenkin välittömästi umpikujaan. Oletetaan, että visuaalinen kuva luetaan käyttämällä valoherkkien elementtien standardijärjestelmää, jonka leveys on 32 ja korkeus 48, ts. Yhteensä 1536 elementtiä. Mutta jopa niin karkealla ruudukolla voit havaita noin 10 460 mahdollisia kuvia. On mahdotonta tallentaa tällaista määrää mallikuvia muistiin ja verrata syöttökuvia niihin.

Siksi käytännössä tunnistusjärjestelmät ensimmäisessä vaiheessa välttämättä käsittelevät kuvaa ja korostavat ominaispiirteitä, laadullisia tai määrällisiä. Siten tunnistettavan tiedon määrä vähenee merkittävästi.

Seuraava idea, jota yleisesti käytetään tunnistusjärjestelmissä, on ajatus oppimisesta. Se on olennainen osa monissa nykyaikaisissa älykkäissä järjestelmissä.

  • Algoritmit,
  • Koneoppiminen
  • Useimpien puheteknologien tehtävänä ei ole keksiä käsitteellisesti uusia algoritmeja. Yritykset keskittyvät pääasiassa olemassa oleviin lähestymistapoihin. Koneäly osaa jo tunnistaa ja syntetisoida äänen, mutta ei aina reaaliajassa, ei aina paikallisesti eikä aina "valikoivasti" - kun sinun on reagoitava vain avainlauseisiin, robotti voi tehdä virheitä. Kehittäjät ovat vain kiireisiä samanlaisten ongelmien kanssa. Muammar Al-Shedivat puhuu näistä ja muista ongelmista, joita suuretkaan yritykset eivät ole vielä kyenneet ratkaisemaan.


    - Tänään puhun puheteknologian alan avoimista ongelmista. Mutta ensinnäkin, ymmärretään, että puhetekniikoista on tullut olennainen osa elämäämme. Kävelemme sitten kadulla tai ajamme autolla - kun haluamme tehdä tämän tai toisen kyselyn hakukoneelle, on luonnollista tehdä se äänellä, ei kirjoittamalla tai millään muulla.

    Tänään puhun pääasiassa puheentunnistuksesta, vaikka siellä on monia muita mielenkiintoisia tehtäviä. Tarinani tulee olemaan kolmiosainen. Aluksi haluan muistuttaa teitä yleisesti kuinka puheentunnistus toimii. Seuraavaksi kerron sinulle, kuinka ihmiset yrittävät parantaa sitä ja mitä tehtäviä Yandex kohtaa, joita ei yleensä kohdata tieteellisissä artikkeleissa.

    Puheentunnistuksen yleinen kaavio. Aluksi ääniaalto tulee sisääntuloon.

    Halkaisemme sen pieniksi paloiksi, kehyksiksi. Kehyksen pituus on yleensä 25 ms, askel on 10 ms. Ne tulevat pienellä käänteellä.


    Tämän jälkeen poimimme kehyksistä tärkeimmät ominaisuudet. Oletetaan, että emme välitä äänen syvyydestä tai henkilön sukupuolesta. Haluamme tunnistaa puheen näistä tekijöistä riippumatta, joten poimimme tärkeimmät ominaisuudet.


    Sitten neuroverkko asetetaan tälle kaikelle ja antaa jokaiselle kehykselle ennusteen, todennäköisyysjakauman foneemien mukaan. Neuroni yrittää arvata, mikä foneemi sanottiin tässä tai tuossa kehyksessä.


    Lopulta tämä kaikki täytetään graafin dekoodaukseen, joka saa todennäköisyysjakauman ja ottaa huomioon kielimallin. Oletetaan, että "äiti pesi rungon" on venäjäksi suositumpi lause kuin "äiti pesi romanit". Myös sanojen ääntäminen huomioidaan ja lopulliset hypoteesit esitetään.

    Yleisesti ottaen puheentunnistus toimii näin.


    Mittarista on luonnollisesti sanottava muutama sana. Kaikki käyttävät WER-metriikkaa puheentunnistuksessa. Se tarkoittaa World Error Ratea. Tämä on yksinkertaisesti Levenshteinin etäisyys siitä, mitä tunnistimme, siihen, mitä lauseessa todella sanottiin, jaettuna lauseessa todella sanottujen sanojen lukumäärällä.

    Voit nähdä, että jos meillä oli paljon lisäyksiä, WER-virhe voi olla suurempi kuin yksi. Mutta kukaan ei kiinnitä huomiota tähän, ja kaikki työskentelevät tällaisen mittarin kanssa.

    Miten aiomme parantaa tätä? Olen tunnistanut neljä pääasiallista lähestymistapaa, jotka menevät päällekkäin, mutta sinun ei pitäisi kiinnittää tähän huomiota. Tärkeimmät lähestymistavat ovat seuraavat: parannamme hermoverkkojen arkkitehtuuria, yritämme muuttaa Loss-funktiota, miksei käyttäisi viime aikoina muodikkaita End to end -lähestymistapoja. Ja lopuksi kerron sinulle muista tehtävistä, joihin esimerkiksi dekoodausta ei tarvita.


    Kun ihmiset keksivät neuroverkkojen käytön, luonnollinen ratkaisu oli käyttää yksinkertaisinta: syöttää eteenpäin hermoverkkoja. Otamme kehyksen, kontekstin, jotkin kehykset vasemmalla, osa oikealla, ja ennustamme, mitä foneemia tässä kehyksessä sanottiin. Sitten voit katsoa tätä kaikkea kuvana ja käyttää kaikkea kuvankäsittelyyn jo käytettyä tykistöä, kaikenlaisia ​​konvoluutiohermoverkkoja.


    Yleisesti ottaen monet uusimmat artikkelit on saatu käyttämällä konvoluutiohermoverkkoja, mutta tänään puhun enemmän toistuvista hermoverkoista.


    Toistuvat neuroverkot. Kaikki tietävät, miten ne toimivat. Mutta siinä on suuri ongelma: kehyksiä on yleensä paljon enemmän kuin foneemeja. Yhtä foneemia kohden on 10 tai jopa 20 kehystä. Tämä pitää jotenkin hoitaa. Tämä on yleensä kiinteästi kytketty graafin dekoodaukseen, jossa pysymme samassa tilassa useiden vaiheiden ajan. Periaatteessa tämä voidaan hoitaa jotenkin, on olemassa kooderi-dekooderi-paradigma. Tehdään kaksi toistuvaa hermoverkkoa: toinen koodaa kaiken tiedon ja antaa piilotetun tilan, ja dekooderi ottaa tämän tilan ja antaa joukon foneemia, kirjaimia tai ehkä sanoja - näin harjoitat hermoverkkoa.

    Yleensä puheentunnistuksessa työskentelemme erittäin suurten sekvenssien kanssa. On rauhallisesti 1000 kehystä, jotka täytyy koodata yhdellä piilotilalla. Tämä on epärealistista, mikään hermoverkko ei kestä tätä. Käytetään muita menetelmiä.


    Dima Bogdanov, Shad-tutkinnon suorittanut, keksi Attention-menetelmän. Antakaamme enkooderi piilotiloja, emmekä heitä niitä pois, vaan jätämme vain viimeisen. Ota painotettu summa jokaisessa vaiheessa. Dekooderi ottaa piilotettujen tilojen painotetun summan. Näin säästämme kontekstin, mitä tarkastelemme tietyssä tapauksessa.

    Lähestymistapa on erinomainen, se toimii hyvin, joissakin aineistoissa se antaa huippuluokan tuloksia, mutta siinä on yksi iso miinus. Haluamme tunnistaa puheen verkossa: henkilö sanoi 10 sekunnin lauseen, ja annoimme hänelle heti tuloksen. Mutta Huomio vaatii, että tunnet koko lauseen, tämä on sen suuri ongelma. Ihminen sanoo 10 sekunnin lauseen, 10 sekunnin kuluttua tunnistamme sen. Tänä aikana se poistaa sovelluksen eikä koskaan asenna sitä uudelleen. Meidän on taisteltava tätä vastaan. Äskettäin tästä taisteltiin yhdessä artikkeleista. Kutsuin sitä online-huomioon.


    Jaetaan syöttösekvenssi johonkin pieneen kiinteän pituisiin lohkoihin, järjestetään Attention jokaisen lohkon sisään, sitten tulee dekooderi, joka tulostaa vastaavat merkit jokaiseen lohkoon, jonka jälkeen jossain vaiheessa se antaa lohkon loppusymbolin, siirtyy seuraava lohko, koska olemme käyttäneet kaikki tiedot täällä.

    Täällä voit lukea luentoja, yritän yksinkertaisesti muotoilla idean.


    Kun he alkoivat kouluttaa hermoverkkoja puheentunnistusta varten, he yrittivät arvata foneeman. Tätä varten käytettiin tavallista ristientropiahäviöfunktiota. Ongelmana on, että vaikka optimoimme ristientropian, se ei silti tarkoita, että meillä olisi hyvin optimoitu WER, koska näillä mittareilla ei ole 100% korrelaatiota.


    Tätä varten keksittiin sekvenssipohjaiset häviöfunktiot: kerätään kaikki tiedot kaikista kehyksistä, lasketaan yksi kokonaishäviö ja ohitetaan gradientti taaksepäin. En mene yksityiskohtiin, voit lukea CTC- tai SNBR-häviöstä, tämä on hyvin erityinen puheentunnistuksen aihe.

    Päästä päähän -lähestymistapoja on kaksi. Ensimmäinen on tehdä enemmän "raakoja" ominaisuuksia. Meillä oli hetki, jolloin poimimme piirteitä kehyksistä, ja yleensä ne poimitaan yrittäen jäljitellä ihmiskorvaa. Miksi jäljitellä ihmisen korvaa? Anna neuronin oppia itsestään ja ymmärtää, mitkä ominaisuudet ovat sille hyödyllisiä ja mitkä hyödyttömiä. Syötetään neuroniin yhä enemmän raakaominaisuuksia.

    Toinen lähestymistapa. Annamme käyttäjille sanoja, kirjaimellisen esityksen. Joten miksi meidän täytyy ennustaa foneemia? Vaikka on hyvin luonnollista ennustaa niitä, ihminen puhuu foneemilla, ei kirjaimilla, mutta meidän on annettava lopputulos kirjaimin. Ennakoidaan siis kirjaimia, tavuja tai merkkipareja.


    Mitä muita tehtäviä on? Sanotaan vaikka framespotting-tehtävä. On jokin äänipala, josta sinun täytyy poimia tietoja siitä, sanottiinko lause "Kuule, Yandex" vai ei. Tätä varten voit tunnistaa lauseen ja huutaa "Kuuntele, Yandex", mutta tämä on erittäin raakaa voimaa, ja tunnistus toimii yleensä palvelimilla, mallit ovat erittäin suuria. Yleensä ääni lähetetään palvelimelle, tunnistetaan ja tunnistettu lomake lähetetään takaisin. 100 000 käyttäjän lataaminen sekunnissa, äänen lähettäminen palvelimelle - yksikään palvelin ei selviä.

    Meidän on keksittävä ratkaisu, joka on pieni, toimii puhelimessa eikä syö akkua. Ja siitä tulee hyvälaatuista.

    Tätä varten ahdataan kaikki hermoverkkoon. Se yksinkertaisesti ennustaa esimerkiksi ei foneemia eikä kirjaimia, vaan kokonaisia ​​sanoja. Ja tehdään vain kolme luokkaa. Verkko ennustaa sanat "kuuntele" ja "Yandex", ja me yhdistämme kaikki muut sanat täyteaineeseen.

    Joten jos jossain vaiheessa oli korkea todennäköisyys ensin "kuuntele" ja sitten "Yandex", niin suurella todennäköisyydellä oli avainlause "Kuuntele, Yandex".


    Ongelma, jota artikkeleissa ei paljoa käsitellä. Yleensä kun artikkeleita kirjoitetaan, otetaan jonkinlainen tietojoukko, siitä saadaan hyviä tuloksia, uusinta lyö - hurraa, tulostamme artikkelin. Tämän lähestymistavan ongelmana on, että monet tietojoukot eivät muutu 10 tai jopa 20 vuoteen. Ja he eivät kohtaa meidän kohtaamiamme ongelmia.

    Joskus on trendejä, jotka haluamme tunnistaa, ja jos tämä sana ei ole dekoodauskaaviossamme standardimenetelmässä, emme koskaan tunnista sitä. Meidän on taisteltava tätä vastaan. Voimme ottaa ja sulatella dekoodauskaavion, mutta tämä on työvoimavaltainen prosessi. Ehkä jotkut trendisanat aamulla ja toiset illalla. Pidätkö aamun ja illan laskun? Se on hyvin outoa.


    Keksittiin yksinkertainen lähestymistapa: lisätään pieni dekoodauskaavio suureen dekoodauskaavioon, joka luodaan viiden minuutin välein tuhannesta parhaista ja trendikkäimmistä lauseista. Me yksinkertaisesti dekoodaamme nämä kaksi kuvaajaa rinnakkain ja valitsemme parhaan hypoteesin.

    Mitä tehtäviä on jäljellä? Siellä tekniikan taso lyötiin, täällä tehtävät ratkesivat... Annan kaavion WER:stä viime vuosilta.


    Kuten näet, Yandex on parantunut muutaman viime vuoden aikana, ja tässä on kaavio parhaasta aiheesta - geohaku. Ymmärrät, että yritämme ja kehitymme, mutta siellä on pieni aukko, joka on täytettävä. Ja vaikka teemme puheentunnistuksen - ja teemme sen - verrattavissa ihmisen kykyihin, syntyy toinen tehtävä: se tehtiin palvelimella, mutta siirretään se laitteeseen. Tämä on erillinen, monimutkainen ja mielenkiintoinen ongelma.

    Meillä on monia muita tehtäviä, joista voit kysyä minulta. Kiitos huomiostasi.

    Sivu 2


    Kuvien tunnistamista opetettaessa tiedetään m kuvaa ja niiden kuuluvuus kuvaan. Kuviontunnistusongelmana on rakentaa harjoitussekvenssistä algoritmi, joka määrittää y:n arvon mille tahansa joukolle funktion toimialueesta.

    Prosessitietojen ja tähän prosessiin kohdistuvien ulkoisten vaikutusten perusteella tunnistusjärjestelmä arvioi tuotantotilanteen ja antaa komentoja prosessin ohjaamiseksi. Kuviontunnistuksen ongelma liittyy läheisesti ongelmaan luoda oppimisautomaatteja, joiden pitäisi pystyä arvioimaan vallitsevaa tilannetta ja tekemään tämän perusteella paras päätös. Siksi suurin osa oppimisautomaattien tehtävistä voidaan pelkistää oppimismallintunnistuksen tehtäviksi.

    On olemassa monia todella suuria, todella jännittäviä ongelmia, joiden parissa tuhannet tiedemiehet työskentelevät juuri nyt. Tämä on kuvantunnistuksen ja tiedonkäsittelyn ongelma, kieliongelmat ja monet muut.

    Tunnistusongelman ratkaisun tehokkuuden määrää viime kädessä se, kuinka tehokkaasti tunnistuslaite on koulutettu luokittelumenettelyyn. Siksi päähuomio hahmontunnistuksen ongelmassa kiinnitetään tunnistamaan oppimisen ongelmaan.

    Vaikuttaa loogiselta tutkia arkkitehtuureja, jotka vastaavat ymmärrystämme aivojen organisaatiosta ja toiminnasta. Ihmisaivot esittävät olemassa olevaa näyttöä siitä, että ratkaisu hahmontunnistusongelmaan on mahdollista. Vaikuttaa järkevältä jäljitellä aivojen toimintaa, jos haluamme jäljitellä sen toimintaa. Vasta-argumentti on kuitenkin lentohistoria; ihminen ei päässyt irti maasta ennen kuin hän lakkasi matkimasta siipien liikkeitä ja lintujen lentoa.

    Topografisten periaatteiden avulla voit luoda nopeimman ja tilavimman koneen muistin. Hologrammimuisti etsii tarvittavaa tietoa assosiaatiolakien mukaan, mikä on ominaista ihmismuistille. Holografia voi ratkaista hahmontunnistusongelman, jonka kanssa kybernetiikka on kamppaillut monta vuotta. Jos hologrammi esitetään ryhmän esineiden kanssa, se reagoi välittömästi (tunnisteella) niihin, joiden kuvat se tallentaa. Lisäksi mitä monimutkaisempi kohde, sitä luotettavammin hologrammi tunnistaa sen.

    Neljännessä luvussa hahmotellaan diskreettien itseorganisoituvien järjestelmien teorian perusteet. Määritetään itseorganisoitumisen ja itseoppimisen kvantitatiivinen mitta, tutkitaan satunnaisten automaattien ja satunnaisten ulkoisten vaikutusten olosuhteissa toimivien automaattien käyttäytymistä. Erityinen paikka on hahmontunnistuksen ongelma ja teoria yhden luokan laiteista (ns. a-perceptronit), jotka on suunniteltu ratkaisemaan tämä ongelma. Käsitellään joitakin ehdollisten refleksien mallintamisen kysymyksiä sekä merkityksen tunnistamisen ja uusien käsitteiden kehittämisen oppimisprosesseja.

    Kuvassa Kuvassa 12.11 on esimerkki, jossa kuvaksi on valittu iso kirjain A. On helppo havaita, että sopivaa muistikapasiteettia säilyttäen useiden rentoutumisvaiheiden jälkeen syntyy alun perin muistiin tallennettu selkeä kuva kirjaimista, jotka ovat voimakkaasti vääristyneet kohinalla. . Juuri tämä on edellä kuvatun tyyppisen assosiatiivisen muistin ja kuviontunnistusongelman välinen suhde. Tällä hetkellä ei ole tarkkoja ideoita siitä, miten edellä mainittua assosiatiivisen muistin spin lasimallia voitaisiin yleistää ja laajentaa niin, että sitä voidaan soveltaa monimutkaiseen kiertyneiden tai siirtyneiden kuvioiden tunnistamisen ongelmaan. Kuten kuvassa oleva esimerkkikuva. 12.11, ylösalaisin käännetty A-kirjain ei tunnistettaisi, koska jopa vääristymättömän kuvan siirtyminen useiden ruudukon solmujen (rasteri) avulla muuttaa sen tunnistamisen ongelmaksi, jonka ratkaisu on Hopfidd-mallin assosiatiivisten kykyjen ulkopuolella. . Tulevaisuus näyttää, voidaanko tämän luokan ongelmat ratkaista assosiatiivisten tallennuslaitteiden avulla.

    Ympäristöongelmien monimutkaisuus vaatii suurten tietomäärien käsittelyä. Tutkimusta tarvitaan helpottamaan kertyneen tiedon tulkintaa ja järkevää käyttöä. Mallintunnistusongelmaan liittyvät tekoälyn alan työt voivat tarjota tässä merkittävää apua. Mikroprosessori- ja mikrotietokonetekniikan viimeisintä kehitystä aletaan hyödyntää älykkäiden mittauslaitteiden suunnittelussa. Ympäristötiedon järjestämiseen, keräämiseen ja keräämiseen on kiinnitettävä huomiota.

    Kuten näette, symmetrian käsite saa todella globaalin merkityksen. Voidaan kuitenkin mennä vielä pidemmälle ja kiinnittää huomiota siihen, että yleisesti ottaen olemme tekemisissä symmetrian kanssa aina, kun ratkaisemme hahmontunnistuksen ongelman, diagnostiikkaongelman.

    Kuviontunnistus on yksi järjestelmästä tai objektista tulevan tiedon käsittelyn muodoista. Luokille on ominaista se, että niihin kuuluvilla objekteilla on jotain yhteistä (samankaltaisuutta), esimerkiksi niille on ominaista sama toiminnallisen operaattorin rakenne. Sitä yleistä asiaa, joka yhdistää objektit luokkaan, kutsutaan yleensä kuvaksi. Objektin tai järjestelmän matemaattisen kuvauksen muodostamisen ongelmaa kuviontunnistuksen ongelman näkökulmasta voidaan lähestyä kahdella tavalla. Yksi lähestymistapa on, että FHS-toiminnallinen operaattori itse toimii tunnistettavana kuvana. Toisaalta toiminnallisen operaattorin Ф tilalle rakennetaan kyberneettinen tunnistuslaite, joka ennustaa järjestelmän käyttäytymisen samalla tavalla kuin vastaava toiminnallinen operaattori tekisi.

    Edellä olevan perusteella on selvää, että on olemassa monia algoritmeja ominaisuuksien poimimiseksi tietojen esikäsittelyprosessissa; Niiden määrä kasvaa jatkuvasti ja nopeasti, koska tietyn ongelman ratkaisumenetelmien valinta määräytyy suurelta osin itse ongelman luonteen mukaan. Koko kuviontunnistuksen ongelmaa käsittelevän tutkimuksen menestys määräytyy sen mukaan, kuinka hyvin piirteiden erottamisvaihe suoritetaan. Näkemys, jonka mukaan tällä alalla on odotettavissa uusia suuria saavutuksia tiedon esikäsittelyssä juuri ominaisuuspoiminnan vaiheessa, on saanut yleistä tunnustusta.

    Uskon henkilökohtaisesti, että tällainen tulkinta antaa nykyaikaiselle kybernetikolle avaimen muistiongelman syvempään tutkimukseen, jota käsitellään tämän kirjan toisessa osassa. Lisäksi, vaikka Leibniz ei onnistunut luomaan relativistista logiikkaa, hänen filosofiset näkemyksensä havaintoongelmasta (joka on yksi kybernetiikan tärkeimmistä kysymyksistä) olivat noin kolme vuosisataa hänen aikakauttaan edellä. Loppujen lopuksi vasta Whiteheadin (Whitehead) työn syntyessä vuosisadallamme vahvistettiin näkemys, että jokin esine, jolla ei ole itsessään tietoisuutta, pystyy tietyssä mielessä reagoimaan siihen liittyviin tapahtumiin. Lopuksi on erityisen ominaista, että kaikkia näitä yhteyksiä koskevissa tutkimuksissaan Leibniz seisoi operaatiotutkimuksen teorian perusasemilla. Hän oli paljon vähemmän kiinnostunut suhteiden kausaalisesta tulkinnasta kuin dynaamisesta, ja uskoi, että osa on kokonaisuuden ilmaus, ei vain sen sisältämä. Tämä lähestymistapa on hyvin sopusoinnussa modernin psykologian Gestalt-ongelmien kanssa, lähestymistavan kanssa ratkaista kaikki teollisen kybernetiikan ongelmat orgaanisen yhtenäisyyden näkökulmasta sekä nykyaikaisten kyberneettisten tutkimusten kanssa hahmontunnistusongelmasta.