IBM Watsoni kognitiivne süsteem: loomuliku keele põhimõtted

Arvuti suudab palju vähemalt seoses teabe töötlemisega. Talle loomuliku keele õpetamine on aga ülimalt asjakohane mittetriviaalne ülesanne. See väljakutse pani aluse IBM DeepQA projektile, mille tulemusena sündis kognitiivne tehnoloogia nimega IBM Watson, Thomas Watsoni auks, kes seisis IBMi loomise alguses.

Selgitada, mis on Watson, on lihtne – see on nii kognitiivne süsteem võimeline suhtlema inimestega loomulikus keeles. See tähendab, et mõista kirjalikku kõnet ja vastata samamoodi. Ja kui IBM piirduks sellega, ei jääks Watsonile enamat kui eksperimentaalne seadistus. Kuid talle leiti kiiresti töö ja paljude ettevõtete jaoks sai temast tõeliselt asendamatu töötaja.

Selgus, et seda oskusteavet saab rakendada kõikjal, kus see on vajalik suure hulga struktureerimata andmete töötlemiseks. Selliste andmete kvaliteetseks ja kiireks analüüsiks tuleb neid töödelda kõigi kaasaegsete olemasolevate tööriistade abil. arvutitehnoloogia: masinõpe, arvutuslingvistika, ontoloogilised konstruktsioonid ja suure jõudlusega andmetöötlus. Selleks on IBM Watson loodud.

IBM Watsoni põhipädevused võib kokku võtta nelja punktiga:

  • Loomuliku keele mõistmine.
  • Hüpoteeside koostamine töödeldud andmete põhjal.
  • Koolitus töökohal.
  • Soovituse andmine, millele on lisatud järelduse aluseks olevad faktid.

Inimene ei ole võimeline mõistliku aja jooksul analüüsima tõeliselt suurt hulka andmeid ja igal juhul peab ta suurema osa teabest kõrvale heitma, tuues esile tema arvates peamise. Vead on siin paratamatud, lisaks loevad ka äravisatud andmed ja need peaksid tulemust mõjutama. Ja selles aspektis on Watson inimesest kordades parem: ta võtab arvesse kõike, mitte ainsatki teadaolev fakt ei jää hindamata.

Süsteemi esimene avalik test oli osalemine Ameerika mängus Jeopardy! (Vene analoog - "Oma mäng"). Ilma Interneti-ühenduseta, kasutades avatud teabeallikaid, nagu kogu Vikipeedia tekst, üldentsüklopeediad ja sõnaraamatud, suutis Watson alistada selle mängu kaks rekordiomanikku.

Kutsume teid IBMi kliendikeskusesse seminarile "Watson Analytics" ja täiustatud tehnoloogiad analüütika valdkonnas!

IBM Watson on üks esimesi kognitiivseid süsteeme maailmas. Selle süsteemiga saab palju ära teha, tänu millele kasutatakse Watsoni võimalusi paljudes valdkondades – alates söögitegemisest kuni õnnetuste ennustamiseni asulates. Üldiselt ei ole enamik Watsoni funktsioone midagi ainulaadset, kuid kombineerituna on kõik need omadused väga võimas tööriist erinevate küsimuste lahendamiseks.

Näiteks - loomuliku keele äratundmine, dünaamiline süsteemiõpe, hüpoteeside konstrueerimine ja hindamine. Kõik see võimaldas IBM Watsonil õppida andma otseseid õigeid vastuseid (koos kõrge aste usaldusväärsus) operaatori küsimustele. Samal ajal on kognitiivne süsteem võimeline kasutama tööks suuri globaalsete struktureerimata andmete massiive, Suured andmed. Millised on IBM Watsoni keelega töötamise aluspõhimõtted? Sellest pikemalt järges.

Loomuliku keele äratundmise peamised raskused

Inimese jaoks on keel mõtete väljendamise vahend. Kasutame oma arvamuse, andmete ja teabe edastamiseks keelt. Saame teha ennustusi ja kujundada teooriaid. Keel on meie teadvuse nurgakivi. Samas, siin on paradoks, inimkeel on väga ebatäpne.

Paljud terminid on ebaloogilised ja arvutisüsteemidel võib olla väga raske meid mõista. Näiteks kuidas saab hääl olla peenike? Kuidas saab häbist põleda? Masina jaoks on see probleem, kuid inimese jaoks on see üsna tavaline asi. Fakt on see, et küsimusele õigesti vastamiseks on paljudel juhtudel vaja arvestada olemasoleva kontekstiga. Piisava faktiteabe puudumisel on küsimusele raske õigesti vastata, isegi kui küsimuse elementidele leiab täpse vastuse sõna otseses mõttes.

Loomuliku keele töötlemine – alustamine

Palju arvutisüsteemid oskab keelt analüüsida, kuid samal ajal viiakse läbi pealiskaudne analüüs. See võib olla mõttekas näiteks selleks, et anda statistiliselt põhjendatud hinnang emotsioonide muutumise suundumustele suurel hulgal teabel. Siin ei ole info edastamise täpsus kuigi oluline, sest isegi kui eeldame, et valepositiivsete tulemuste arv on ligikaudu võrdne valenegatiivsete tulemuste arvuga, siis need tühistavad üksteist.

Aga kui kõik juhtumid loevad, siis ei saa keele pealiskaudse analüüsiga töötavad süsteemid enam oma tööd normaalselt teha. Eeskuju eelnev võib olla ülesanne hääleassistentükskõik milline mobiilseadmed. Kui ütlete "otsi mulle pitsa", kuvab assistent pizzeriate loendi. Kui ütlete näiteks "ära otsi mulle pitsat Madridist", otsib süsteem ikkagi. Sellised süsteemid töötavad teatud märksõnade tuvastamise ja kindla reeglistiku abil. Tulemus võib olla täpne antud süsteem reeglid, aga valed.

Sügav loomuliku keele töötlemine

Selleks, et õpetada süsteemi analüüsima keerulisi semantilisi struktuure, võttes arvesse emotsioone ja muid tegureid, kasutasid eksperdid sügavat loomuliku keele töötlemist. Nimelt sisuanalüütika küsimus-vastus süsteem (Deep Question*Answering, DeepQA). Kui on vaja suuremat täpsust, siis tuleb seda kasutada täiendavaid meetodeid loomuliku keele töötlemine.
IBM Watson on sügav loomuliku keele töötlemise süsteem. Analüüsimisel konkreetne probleem, õige vastuse andmiseks püüab süsteem hinnata võimalikult laia konteksti. Sel juhul ei kasutata mitte ainult küsimuse infot, vaid ka teadmistebaasi andmeid.
Sügavat loomuliku keele töötlemist võimaldava süsteemi loomine võimaldas meil lahendada veel ühe probleemi - igapäevaselt genereeritava tohutu hulga teabe analüüsi. See on struktureerimata teave, nagu säutsud, sõnumid sotsiaalsed võrgustikud, aruanded, artiklid ja palju muud. IBM Watson on õppinud seda kõike kasutama inimprobleemide lahendamiseks.

IBM Watsoni kognitiivne süsteem

Watson on juba teistsugusel tasemel arvutusvõimsus. Süsteem on võimeline eraldama loomulikus keeles teatud lausungeid ja leidma seoseid nende lausungite vahel. Samal ajal saab Watson ülesandega paljudel juhtudel isegi hakkama parem kui mees, kuigi andmetöötlus on palju kiirem, tehakse tööd palju suured mahud- inimene pole selliseks asjaks lihtsalt võimeline.

Kognitiivse süsteemi peamised omadused

Süsteem töötab järgmises järjekorras:

1. Pärast küsimuse saamist analüüsib Watson selle, et eraldada küsimuse põhijooned.

2. Süsteem genereerib hulga hüpoteese, uurides korpust, otsides fraase, mis teatud tõenäosusega võivad sisaldada nõutavat vastust. Selleks, et juhtida tõhus otsing struktureerimata infovoogudes on vaja hoopis teistsuguseid arvutusvõimeid * neid nimetatakse kognitiivseteks süsteemideks. (Ma ei saa eriti aru viimasest lausest ja tärni rollist)

3. Süsteem täidab sügav võrdlus küsimuse keel ja iga võimaliku vastuse keel, kasutades erinevaid algoritme loogiline järeldus.

See on raske etapp. Järeldusalgoritme on sadu ja need kõik toimivad erinevad võrdlused. Näiteks mõned otsivad sobivaid termineid ja sünonüüme, teised arvestavad ajalisi ja ruumilisi tunnuseid, kolmandad aga analüüsivad asjakohaseid kontekstuaalse teabe allikaid.

4. Iga järeldusalgoritm annab ühe või mitu skoori, mis näitavad, mil määral tuleneb võimalik vastus küsimusest algoritmiga hõlmatud valdkonnas.

5. Iga saadud tulemust kaalutakse seejärel statistilise mudeliga, mis kajastab, kui hästi algoritm tuvastas. loogilisi seoseid kahe sarnase fraasi vahel sellest piirkonnast Watsoni "õppeperioodil". Seda statistilist mudelit saab hiljem kasutada üldise usaldustaseme määramiseks Watsoni süsteemid et küsimusest tuleneb võimalik vastus.

6. Watson kordab protsessi igaühe jaoks võimalik variant vastake seni, kuni ta leiab vastused, mis on tõenäolisemalt õiged kui teised.

Nagu eespool mainitud, peab süsteem küsimusele õige vastuse saamiseks viitama täiendavaid allikaid andmeid. Need võivad olla õpikud, käsiraamatud, KKK, uudised ja kõik muu. Õige vastuse saamiseks töötleb Watson sekunditega tohutul hulgal teavet. Samal ajal kontrollitakse ka leitud sisu, filtreeritakse välja vananenud ja kasutud andmed.

Kognitiivse süsteemi elemendid

Watson tuletab teksti üldise tähenduse saadud teabest, lisabaasist. See kasutab dokumendi pealkirja, osa dokumendi tekstist või kogu teksti.

Kognitiivsed süsteemid, nende teabe kogumise, meeldejätmise ja hankimise viisid on sarnased sellele, kuidas inimene teavet analüüsib. Samal ajal saavad kognitiivsed süsteemid teavet edastada ja tegutseda. Siin on näited käitumuslike konstruktsioonide kohta, mida sel juhul kasutatakse:

Oskus püstitada ja kontrollida hüpoteese;
- oskus jaotada komponentideks ja teha keele kohta loogilisi järeldusi;
- väljavõtte ja hindamise oskus kasulik informatsioon(nt kuupäevad, asukohad ja omadused).

Ilma nende võimeteta ei suuda ei arvuti ega inimene määrata küsimuste ja vastuste vahelist õiget suhet.
Kognitiivsed protsessid on rohkem kõrge järjekord võib jõuda kõrge tase mõistmine, keskendumine põhilistele käitumisviisidele. Et millestki aru saada, peame suutma jagada informatsiooni väiksemateks elementideks, mis on kõnealusel tasemel üsna hästi järjestatud. Füüsikalised protsessid inimestel kulgevad hoopis teistmoodi kui protsessid kosmilises mastaabis või elementaarosakeste tasandil. Samamoodi on kognitiivsed süsteemid loodud toimima inimtasandil, kuigi need esindavad tohutult erinevaid inimesi.

Sellega seoses algab keele mõistmine rohkematest arusaamisest lihtsad reeglid keel - mitte ainult formaalne grammatika, vaid ka igapäevases kasutuses järgitavad mitteametlikud kokkulepped.

Mille jaoks see kõik on?

Nüüd suudab IBM Watsoni kognitiivne süsteem tänu mitmeaastasele koolitusele ja täiustamisele kõige paremini töötada erinevad valdkonnad. Siin on meditsiin, kokandus ja lingvistika ning äriprobleemide lahendamine teaduslike probleemidega.

Algselt oli spetsialistidel valida – kas muuta süsteem universaalseks või spetsialiseeritud. Igal valikul on oma eelised ja puudused, kuid valik tehti universaalsuse suunas.

Ettevõte on mitu korda veendunud ideaalse valiku õigsuses – varemgi

Kaasaegsed superarvutid on mitu võrku ühendatud serveriarvutit. Nende arvutuste kiirust mõõdetakse petafloppides.

  • 1 petaflops = 10 15 toimingut sekundis

Inimese aju keskmine jõudlus on 20 petaflopsi. Vaid vähestel superarvutitel maailmas on suurepärane jõudlus, kuid ükski neist ei suuda asendada inimese aju.

Praegu on maailmas mitusada superarvutit. Kõige võimsam langeb iga-aastasesse TOP-500 reitingusse. 2016. aastal oli selle edetabeli tipus Hiina Sunway TaihuLight. Enne seda oli ta kolm aastat ka juhtrolli Hiina arvuti Tianhe-2. IBM-il on selles reitingus kaks superarvutit: Mira ja Sequoia. Viimane oli 2012. aastal liider, nüüdseks on ta neljandal kohal.

Andrei Filatov ( tegevdirektor IBM Venemaal ja SRÜ riikides) kognitiivsete tehnoloogiate kohta

Dr. Watson on kõige kuulsam superarvuti

Watsoni peamine eelis on see, et ta mõistab küsimusi loomulikus keeles ja vastab neile andmeid analüüsides. 2011. aastal võitis Watson inimesi viktoriinisaates Oht!(Vene analoog - "Oma mäng").

Watson on rakendustehnoloogiate komplekt nimega " pilveteenused". Watsonit kasutatakse kõige aktiivsemalt meditsiinis, aidates diagnoosida ja ravida vähki. Selle mälu sisaldab rohkem kui 600 000 meditsiinilist aruannet. Seda kasutatakse ka finantssektoris, õigus, hotellindus ja paljud teised tööstusharud. Lisaks suudab ta isegi kuulsustega vestlust pidada.

Allalaadimise ajal ilmnes viga.

Watson suhtleb Ameerika tennisisti Serena Williamsiga

Rakendused IBM Watsonile

Haridus. USA koolid testivad Teacher Advisorit Watsoniga, kognitiivse tööriistaga, mis pakub näpunäiteid selle parandamiseks. õppekavad ja koolitusprogrammide isikupärastamine.

Teadus. Johnson & Johnson kasutab Watsonit teaduskirjanduse analüüsimiseks. Kolossaalsest materjalihulgast valib ta välja uuringuks vajaliku ning uuring saab läbi viia palju kiiremini ja tõhusamalt.

Ohutus. Valtsitud terase tootja North Star BlueScope Steel hakkab kasutama Watsoni asjade Interneti süsteemi, et luua lahendusi töötajate kaitsmiseks äärmuslikes olukordades. Töötajad kannavad ka seadmeid andmete kogumiseks ja töötlemiseks. Inimestele ohtlike tingimuste ilmnemisel saadetakse koheselt info North Stari juhtkonnale.

küberturvalisus. Küberkurjategijad häkivad Infosüsteemid ettevõtetele ja seejärel müüa neile juurdepääsu "mustas" Internetis. Kui ühes osas gloobus Kui on toimunud rike või pettus, võimaldab Watsoni süsteem teisi selle süsteemi kasutajaid hoiatada.

Ravim. Põhja-Carolina ülikool ja veel 12 õppekeskust onkoloogilised haigused kasutage Watsonit patsientide DNA analüüsimiseks, et töötada välja isikupärastatud ravi.

Ükski arst ei ole võimeline analüüsima nii suurt teabevalikut, ainult arvuti

3. september 2015 kell 11.34

IBM Watsoni kognitiivne süsteem: loomuliku keele põhimõtted

  • IBMi ajaveeb,
  • Algoritmid

IBM Watson on üks esimesi kognitiivseid süsteeme maailmas. Selle süsteemiga saab palju ära teha, tänu millele kasutatakse Watsoni võimalusi paljudes valdkondades – alates söögitegemisest kuni õnnetuste ennustamiseni asulates. Üldiselt pole enamik Watsoni funktsioone midagi unikaalset, kuid kombineerituna on kõik need funktsioonid väga võimas tööriist mitmesuguste probleemide lahendamiseks.

Näiteks - loomuliku keele äratundmine, dünaamiline süsteemiõpe, hüpoteeside konstrueerimine ja hindamine. Kõik see võimaldas IBM Watsonil õppida, kuidas anda operaatori küsimustele otseseid õigeid vastuseid (suure usaldusväärsusega). Samal ajal saab kognitiivne süsteem töötamiseks kasutada suuri globaalsete struktureerimata andmete massiive, Big Data. Millised on IBM Watsoni keelega töötamise aluspõhimõtted? Sellest pikemalt järges.

Loomuliku keele äratundmise peamised raskused

Inimese jaoks on keel mõtete väljendamise vahend. Kasutame oma arvamuse, andmete ja teabe edastamiseks keelt. Saame teha ennustusi ja kujundada teooriaid. Keel on meie teadvuse nurgakivi. Samas, siin on paradoks, inimkeel on väga ebatäpne.

Paljud terminid on ebaloogilised ja arvutisüsteemidel võib olla väga raske meid mõista. Näiteks kuidas saab hääl olla peenike? Kuidas saab häbist põleda? Masina jaoks on see probleem, kuid inimese jaoks on see üsna tavaline asi. Fakt on see, et küsimusele õigesti vastamiseks on paljudel juhtudel vaja arvestada olemasoleva kontekstiga. Piisava faktiteabe puudumisel on küsimusele raske õigesti vastata, isegi kui küsimuse elementidele leiab täpse vastuse sõna otseses mõttes.

Loomuliku keele töötlemine – alustamine

Paljud arvutisüsteemid on võimelised keelt sõeluma, kuid analüüs on pealiskaudne. See võib olla mõttekas näiteks selleks, et anda statistiliselt põhjendatud hinnang emotsioonide muutumise suundumustele suurel hulgal teabel. Siin ei ole info edastamise täpsus väga oluline, sest isegi kui eeldame, et valepositiivsete tulemuste arv on ligikaudu võrdne valenegatiivsete tulemuste arvuga, siis need tühistavad üksteist.

Aga kui kõik juhtumid loevad, siis ei saa keele pealiskaudse analüüsiga töötavad süsteemid enam oma tööd normaalselt teha. Ilmekas näide öeldust võib olla mis tahes mobiilseadme hääleassistendi ülesanne. Kui ütlete "otsi mulle pitsa", kuvab assistent pizzeriate loendi. Kui ütlete näiteks "ära otsi mulle pitsat Madridist", otsib süsteem ikkagi. Sellised süsteemid töötavad teatud märksõnade tuvastamise ja kindla reeglistiku abil. Tulemus võib antud reeglisüsteemis olla täpne, kuid vale.

Sügav loomuliku keele töötlemine

Õpetamaks süsteemi analüüsima keerulisi semantilisi struktuure, võttes arvesse emotsioone ja muid tegureid, kasutasid eksperdid sügavat loomuliku keele töötlust. Nimelt sisuanalüütika küsimus-vastus süsteem (Deep Question*Answering, DeepQA). Kui on vaja suuremat täpsust, tuleb kasutada täiendavaid loomuliku keele töötlemise meetodeid.
IBM Watson on sügav loomuliku keele töötlemise süsteem. Konkreetse küsimuse analüüsimisel püüab süsteem õige vastuse andmiseks hinnata võimalikult laia konteksti. Sel juhul ei kasutata mitte ainult küsimuse infot, vaid ka teadmistebaasi andmeid.
Sügavat loomuliku keele töötlemist võimaldava süsteemi loomine võimaldas meil lahendada veel ühe probleemi - igapäevaselt genereeritava tohutu hulga teabe analüüsi. See on struktureerimata teave, nagu säutsud, sotsiaalmeedia postitused, aruanded, artiklid ja palju muud. IBM Watson on õppinud seda kõike kasutama inimprobleemide lahendamiseks.

IBM Watsoni kognitiivne süsteem

Watson on juba teistsugusel tasemel arvutusvõimsus. Süsteem on võimeline eraldama loomulikus keeles teatud lausungeid ja leidma seoseid nende lausungite vahel. Samal ajal tuleb Watson ülesandega toime, paljudel juhtudel isegi paremini kui inimene, samas kui andmetöötlus on palju kiirem, tööd tehakse palju suuremate mahtudega - inimene pole selleks lihtsalt võimeline.

Kognitiivse süsteemi peamised omadused

Süsteem töötab järgmises järjekorras:

1. Pärast küsimuse saamist analüüsib Watson selle, et eraldada küsimuse põhijooned.

2. Süsteem genereerib hulga hüpoteese, uurides korpust, otsides fraase, mis teatud tõenäosusega võivad sisaldada nõutavat vastust. Struktureerimata teabe voogudes tõhusa otsingu läbiviimiseks on vaja täiesti erinevaid arvutusvõimalusi * neid nimetatakse kognitiivseteks süsteemideks. (Ma ei saa eriti aru viimasest lausest ja tärni rollist)

3. Süsteem teostab erinevate järeldusalgoritmide abil küsimuse keele ja iga võimaliku vastuse keele sügava võrdluse.

See on raske etapp. Järeldusalgoritme on sadu ja need kõik teostavad erinevaid võrdlusi. Näiteks mõned otsivad sobivaid termineid ja sünonüüme, teised arvestavad ajalisi ja ruumilisi tunnuseid, kolmandad aga analüüsivad asjakohaseid kontekstuaalse teabe allikaid.

4. Iga järeldusalgoritm annab ühe või mitu skoori, mis näitavad, mil määral tuleneb võimalik vastus küsimusest algoritmiga hõlmatud valdkonnas.

5. Seejärel kaalutakse iga tulemust statistilise mudeli abil, mis näitab, kui hästi õnnestus algoritmil Watsoni koolitusperioodi jooksul tuvastada loogilisi seoseid kahe sarnase fraasi vahel sellest piirkonnast. Seda statistilist mudelit saab hiljem kasutada Watsoni üldise kindlustunde määramiseks, et küsimusest tuleneb võimalik vastus.

6. Watson kordab protsessi iga võimaliku vastuse puhul, kuni leiab vastused, mis on tõenäolisemalt õiged kui teised.

Nagu eespool mainitud, peab süsteem küsimusele õigesti vastamiseks viitama täiendavatele andmeallikatele. Need võivad olla õpikud, käsiraamatud, KKK, uudised ja kõik muu. Õige vastuse saamiseks töötleb Watson sekunditega tohutul hulgal teavet. Samal ajal kontrollitakse ka leitud sisu, filtreeritakse välja vananenud ja kasutud andmed.

Kognitiivse süsteemi elemendid

Watson tuletab teksti üldise tähenduse saadud teabest, lisabaasist. See kasutab dokumendi pealkirja, osa dokumendi tekstist või kogu teksti.

Kognitiivsed süsteemid, nende teabe kogumise, meeldejätmise ja hankimise viisid on sarnased sellele, kuidas inimene teavet analüüsib. Samal ajal saavad kognitiivsed süsteemid teavet edastada ja tegutseda. Siin on näited käitumuslike konstruktsioonide kohta, mida sel juhul kasutatakse:

Oskus püstitada ja kontrollida hüpoteese;
- oskus jaotada komponentideks ja teha keele kohta loogilisi järeldusi;
- võime hankida ja hinnata kasulikku teavet (nagu kuupäevad, asukohad ja omadused).

Ilma nende võimeteta ei suuda ei arvuti ega inimene määrata küsimuste ja vastuste vahelist õiget suhet.
Kõrgemat järku kognitiivsed protsessid võivad saavutada kõrge mõistmise taseme, keskendudes põhikäitumisele. Et millestki aru saada, peame suutma jagada informatsiooni väiksemateks elementideks, mis on kõnealusel tasemel üsna hästi järjestatud. Füüsikalised protsessid inimestel kulgevad hoopis teistmoodi kui protsessid kosmilises mastaabis või elementaarosakeste tasandil. Samamoodi on kognitiivsed süsteemid loodud toimima inimtasandil, kuigi need esindavad tohutult erinevaid inimesi.

Sellega seoses algab keele mõistmine lihtsamate keelereeglite mõistmisest – mitte ainult formaalsest grammatikast, vaid ka mitteametlikest tavadest, mida igapäevakasutuses järgitakse.

Mille jaoks see kõik on?

Tänapäeval suudab IBM Watsoni kognitiivne süsteem tänu mitmeaastasele koolitusele ja täiustamisele töötada erinevates valdkondades. Siin on meditsiin, kokandus ja lingvistika ning äriprobleemide lahendamine teaduslike probleemidega.

Algselt oli spetsialistidel valida – kas muuta süsteem universaalseks või spetsialiseeritud. Igal valikul on oma eelised ja puudused, kuid valik tehti universaalsuse suunas.

Ettevõte on mitu korda veendunud ideaalse valiku õigsuses – varemgi

) on tehisintellektisüsteemiga varustatud IBM-i superarvuti, mille lõi teadlaste rühm eesotsas David Ferrucciga. Selle loomine on osa DeepQA projektist. Watsoni põhiülesanne on mõista loomulikus keeles sõnastatud küsimusi ja leida neile andmebaasist vastused. Nime sai IBMi asutaja Thomas Watsoni järgi.

Osalemine Jeopardys!

2011. aasta veebruaris osales ta Watsoni võimete proovilepanekuks telesaates Jeopardy! (Vene analoog – oma mäng). Tema rivaalid olid Brad Rutter – programmi suurima võidu omanik – ja Ken Jennings – pikima kaotuseta seeria rekordiomanik. Watson võitis miljoni dollariga, Jennings ja Rutter said vastavalt 300 000 ja 200 000 dollarit.

Platvorm

Watson koosneb 90 Power7 750 serverist, millest igaüks sisaldab 4 kaheksatuumaline protsessor VÕIMSUS7. Kokku RAM Watson üle 15 terabaidi.

Süsteemil oli juurdepääs 200 miljonile leheküljele struktureeritud ja struktureerimata teabele 4 terabaidis, sealhulgas täistekst Vikipeedia. Mängu ajal ei olnud Watsonil juurdepääsu Internetile.

Projekti tulevik

IBM teeb koostööd Nuance Communicationsiga, et järgmise kahe aasta jooksul välja töötada toode, mis aitab patsiente diagnoosida ja ravida. Kaalutakse ka muid kasutusvõimalusi, näiteks kindlustuspoliiside või energiatõhususe hindamine.

Watsoni ajalugu sai alguse 2006. aastal, kui IBMi osakonna vanemjuht David Ferrucci semantiline analüüs, asus testima ühte kõige enam võimsad superarvutid ettevõte, mis kuulus maailma 500 kõige produktiivsema masina tippu. Ferucci otsustas katsetada, kui tõhusalt masin "loomuliku keele" seatud ülesannetega hakkama saab, ja kutsus ta vastama 500 küsimusele, mis küsiti juba lõppenud Jeopardys! Tulemused olid hukatuslikud: võrreldes live-mängijatega ei vajutanud masin piisavalt kiiresti nupule (st oli valmis vastama) ja juhul, kui suutis veel inimestega võistelda, siis õigete vastuste arv. mitte üle 15%

Ferruccit hakkasid huvitama superarvuti sellise käitumise põhjused ja selle tulemusena suutis ta 2007. aastal veenda IBMi juhtkonda andma talle 15 inimesest koosnev meeskond ja 3–5 aastat aega, et luua tõhus. automaatne süsteem suudab vastata mitteametlikele küsimustele. Selline süsteem oleks kasulik kõikvõimalikele kõnekeskustele, kasutajatoele ja muudele kliente teenindavatele teenustele. IBM-il juba oli edukas kogemus luues masinat, mis suudab võistelda inimese intelligentsiga – jutt on Deep Blue superarvutist, mis 1997. aastal alistas male maailmameistri Garri Kasparovi. See võit tõi IBMile suure reklaami, kuid sellisele installatsioonile ei õnnestunud kaubanduslikku rakendust leida. Küsimustele automaatsete vastuste süsteemi puhul on kommertspotentsiaal üsna ilmne.

Põhiline erinevus Watson Deep Bluest seisneb selles, et kui malemasin tegeleb rangelt loogiliste mängureeglitega, siis "loomulikku kõnet" tuvastav masin seisab silmitsi palju enamaga. keerulised reeglid keel ning arvukad moonutused ja kõrvalekalded neist. Suurim raskus seisneb aga selles, et inimesed suhtlevad oma kultuurilises ja sotsiaalses kontekstis, ilma seda teadvustamata. Kõnekeelne kõne on täis vihjeid, vihjeid ja konnotatsioone, viiteid teatud faktidele, mõistetele ja nähtustele, mis on omased konkreetses sotsiaalses keskkonnas. Nende hulgas on religioossed ideed ja poliitilised tõekspidamised ning kõikvõimalikud kunstiteosed – raamatutest ja maalidest filmideni ja Arvutimängud.

Sest tõhus töötlemine Selline teave kasutab statistilisi algoritme, mis võimaldavad väga erinevaid dokumente analüüsides luua seose erinevate mõistete vahel. Lihtsamalt öeldes määrab see, milliseid sõnu kasutatakse kõige sagedamini koos. Näiteks "Kremli" seostatakse sagedamini sõnadega "Venemaa", "Moskva", veidi harvemini "Kaasan", " Nižni Novgorod", veelgi harvem - koos "katedraaliga", "ikooniga" jne. Kuigi need algoritmid on tuntud juba pikka aega, on nende täielik rakendamine saanud võimalikuks alles viimasel kümnendil – pärast jõudluse hüppelist kasvu. arvutiteadus ja suurte andmemahtude salvestamiseks mõeldud draivide kulude vähendamine.

Ferrucci meeskond laadib IBM Watsoni mällu alla miljoneid igasuguseid dokumente – õpikuid, entsüklopeediaid, teatmeteoseid, ilukirjandust ja religioosset kirjandust. Küsimuste analüüsimiseks kasutatakse korraga enam kui sada algoritmi, mis pakuvad sadu võimalikud lahendused. Seejärel hindavad teised algoritmid potentsiaalsete vastuste usaldusväärsust, filtreerides välja need, mis on seetõttu võimatud objektiivsetel põhjustel(näiteks ebakõlad sündmuse kuupäeva ja näitlejate eluaastate vahel) ja ebatõenäoline. Mida rohkem identseid vastuseid saadakse, seda suurem on tõenäosus, et need on õiged – mängu ajal kuvatakse tabloole lisaks kõige levinumale ka mitme kõige tõenäolisema vastuse hinnang.

2008. aastaks oli IBM Watson liikunud "kaotajate" kategooriast ülemised read nn "võitjate pilv", mis koosneb inimestest, kellel õnnestub 50% juhtudest esimesena nupule vajutada, andes märku vastuseks valmisolekust ja seejärel 85-95% juhtudest õige vastuse anda. IBM leppis isegi Jeopardy tootjatega kokku, et korraldab 2010. aasta sügisel spetsiaalse mänguseeria Watsoni ja eelmiste aastate võitjate osalusel. Nende mängude ettevalmistamiseks (see tähendab tegelikult algoritmide täiustamiseks) taastati viktoriinistuudio ligikaudne interjöör ning viidi läbi testid live-mängijate ja saatejuhi osavõtul. Samas annab "Watson" ootuspäraselt oma vastused kõva häälega sünteesitud arvutihäälel, mis lõbustab kohalolijaid kõvasti.

"Treeningu" käigus selgus huvitav fakt: vaatamata mitte kogu Watsoni potentsiaalile, ei suuda ta mitte ainult enamikku mänge võita, vaid ka kaotada üle poole neist. Põhjuseid on mitu: alates "tema majesteetlikkusest" (on olukordi, kus vastane võib võita lihtsalt panuseid tõstes, jättes auto pankrotti) kuni reeglite spetsiifikani. Kummalisel kombel suudab inimene nuppu vajutada kiiremini kui masin ja see tuleneb mängureeglitest, mida muuta ei saa.

Fakt on see, et iga küsimus kuvatakse ekraanil ja saatejuht loeb ette ning nuppu saate klõpsata alles pärast küsimuse lugemise lõppu. Watson saab küsimuse teksti elektroonilisel kujul samaaegselt selle väljundiga ekraanile, kuid isegi siis pole sellel aega jõuda valmis lahendus kiiremini kui inimene. Samal ajal kui saatejuht loeb küsimust, mis võtab aega kuus kuni seitse sekundit, oskab kogenud mängija juba hinnata oma võimalusi õige vastuse andmiseks ja on valmis nuppu vajutama mõne kümne millisekundi pärast. Reeglid lubavad järgmiseks vastuseks veel viis sekundit.

Nupule vajutades riskib inimene: kui ta ei anna 100 ühiku kohta küsimusele õiget vastust, virtuaalne konto sama palju kahanenud. Arvuti ei kipu riskima ja annab vastuseid alles pärast kõigi arvutuste tegemist ja ainult siis, kui tal on piisavalt informatsiooni, et hinnata selle vastuse usaldusväärsust ja tõenäosust, et see vastus on õige. Kuidas see mängu ajal välja näeb, näed videost. Riskides võib live-mängija võita, kui mäletab õiget vastust tema käsutuses oleva 11-12 sekundi jooksul.

Veidi formaalsemas olukorras kui viktoriin, suudavad Watsoni algoritmid anda palju etteaimatavamaid ja täpsemaid vastuseid. Eelkõige kavatseb IBMi uurimisdivisjoni juht John Kelly luua sellest seadmest meditsiinilise versiooni mitteametliku nime all Watson M.D. Selline süsteem aitaks arstidel kiiresti teha õigeid otsuseid, võttes arvesse patsiendi kohta tohutut andmemahtu, mida füüsiliselt võimatu alati mälus hoida. "Watson" võib hästi asendada reaalajas operaatoreid arvutis ja telefoniteenused V jaekaubandus, V pangandus ja transpordis.

IBM Watsoni klassi süsteemi maksumus võib tänapäeval olla mitu miljonit dollarit, kuna selle tööks on vaja vähemalt ühte IBMi superarvutit miljoni dollari kohta. Kelly usub, et järgmise kümne aasta jooksul saab sellist tehnoloogiat rakendada palju odavamas serveris ning tulevikus töötab selline programm mitte kallimas arvutis kui tänapäevane sülearvuti.

Teades inglise keel võib võtta vastu IBM Watsoni veebis The New York Timesis.

IBM Watsoni superarvutit plaanitakse kasutada tehnilistes tugiteenustes elavate operaatorite asemel. Kõik need ülesanded on aga rohkem seotud teadaoleva info põhjal kasutaja päringutele õige vastuse leidmisega. IBM usub, et tõeline tehisintellekt peaks oskama leida loovaid lahendusi, luua ja leiutada uusi asju, mitte ainult analüüsida vana.

Watsoni loominguliste võimete arendamiseks valisid tema loojad kokakunsti. See on väga mugav katsepolügoon: toiduvalmistamine on väga “inimlik”, intuitiivne protsess, mis on halvasti algoritmiseeritav ja standardiseeritav. Ja tulemust võib hinnata igaüks tänaval. Hispaaniapärased mandli-šokolaadiküpsised, Ecuadori maasikamagustoit, grilltomatid röstsaial safraniga - neid ja teisi Watsoni loodud roogasid on katsetuste käigus juba mõnuga valmistatud ja söödud. Ja paar nädalat tagasi ilmus eeltrükk artiklist, milles kirjeldati algoritme ja matemaatilisi mudeleid, mida Watson kasutab originaalretseptide loomisel.

Iga loominguline lahendus peab üheaegselt vastama kahele kriteeriumile – olema uus ja kvaliteetne. Uudsust on suhteliselt lihtne saavutada, lihtsalt kombineerides koostisosi ja töötlemistehnikaid. Kuid kvaliteedi osas on olukord palju keerulisem. Õpetada arvutit mõistma, milline saab olema maitse, lõhn, tekstuur ja välimus toidud on äärmiselt keerulised.

Watsoni esialgsed andmed olid mitu miljonit Internetis kogutud retsepti. Neid juhiti läbi tõestatud loomuliku keele töötlemise algoritmid, mida kasutati viktoriini võitmiseks ja Watsoni meditsiini õpetamiseks. Vikipeediast ammutati teavet maailma eri rahvaste köökidele iseloomulike tüüpiliste koostisosade ja töötlemisviiside kohta. Lõpuks sai Watson põhjalikud teadmised inimese maitse- ja lõhnataju keemiast ja füsioloogiast.

Uued retseptid loodi olemasolevate retseptide põhjal geneetiline algoritm, kasutati fitnessi funktsioonidena väärtusi uudsus, meeldivus ja ühilduvus.

Matemaatiline mudel Retsepti uudsuse hinded põhinevad Bayesi teoreemil, kasutades nn Bayesi üllatuse lähenemist, mis algselt töötati välja vaataja käitumise modelleerimiseks video vaatamisel. Lühidalt öeldes seisneb meetodi olemus selles, et retseptiruumis mõõdetakse uue toote lisamisel a priori ja posterior tõenäosuse vahel, et retseptiruumis teatud tootekombinatsioon kohtub. Seega on pähklite ja šokolaadi või sinepi ja vorsti kombinatsioonid täiesti banaalsed ega põhjusta peaaegu mingit muutust erinevate kombinatsioonide tõenäosustes. Kuid šokolaadis olevad vorstid mõjutavad neid tõenäosusi palju rohkem.

Meeldivuse hindamiseks kasutati peamiselt keemiat. Teades toodete keemilist koostist ning nende segamise ja töötlemise järjekorda, arvutas arvuti välja, millised ained määravad roa maitse ja lõhna. Huvitaval kombel osutus roa maitsest palju olulisem lõhn. Meie maitsetaju on väga tugevalt seotud lõhna ja aroomiga. Inimene eristab vaid mõnda põhimaitset – hapu, magus, soolane, mõru. Erinevates kultuurides eristatakse veel mitmeid põhimaitseid, näiteks tart või umami. Kuid lõhnade mitmekesisus on palju suurem ja need ei piirdu lihtsate põhikombinatsioonidega.

Lõpuks tugines toiduainete sidumise hindamine ka kindlale teaduslikule alusele, eelkõige Ameerika ja Briti teadlaste ühisele uuringule "Fragrance Networks and Food Pairing Principles", mille käigus analüüsiti umbes 50 000 retsepti ja kaardid toidupaari kohta, mis on tüüpilised. ehitati köögid. erinevad piirkonnad.

Selle tulemusena loodi rakendus, milles saate määrata toodete komplekti, rahvusliku stiili ja roa tüübi, mille järel Watson andis välja retseptide komplekti, mida saab sorteerida vastavalt uudsuse, meeldivuse ja ühilduvuse astmele. Lisaks üksikutele roogadele oskab Watson koostada terveid menüüsid, saavutades temaatilise modelleerimise abil vaheldusrikkust ja õigeid roogade kombinatsioone. See on viis kogumismudeli ülesehitamiseks tekstidokumendid, mis jagab kogumiku teemadeks ja määrab, millise teema alla iga dokument kuulub. Watson rakendab seda mudelit retseptide puhul – nagu märksõnadüksikud koostisosad toimivad dokumentidena – retseptid ise.