Suurandmete tehnoloogia. Turunduse entsüklopeedia. Parimad raamatud Big-Data tehnoloogia kohta

Suurandmed (või suurandmed) on meetodite kogum suure hulga struktureeritud või struktureerimata teabega töötamiseks. Suurandmete spetsialistid töötlevad ja analüüsivad neid, et saada visuaalseid, inimesele tajutavaid tulemusi. Look At Me vestles professionaalidega ja uuris, kuidas on lood suurandmete töötlemisega Venemaal, kus ja mida on kõige parem õppida neil, kes soovivad sellel erialal töötada.

Alexey Ryvkin peamistest trendidest suurandmete, klientidega suhtlemise ja numbrimaailma vallas

Õppisin Moskva elektroonikatehnoloogia instituudis. Peamine, mida mul õnnestus sealt ära võtta, olid füüsika ja matemaatika põhiteadmised. Samaaegselt õpingutega töötasin teadus- ja arenduskeskuses, kus tegelesin turvalise andmeedastuse mürakindlate kodeerimisalgoritmide väljatöötamise ja juurutamisega. Pärast bakalaureuseõppe lõpetamist astusin Kõrgemasse Majanduskooli äriinformaatika magistriõppesse. Pärast seda tahtsin IBS-is töötada. Mul vedas, et sel ajal toimus suure hulga projektide tõttu täiendav praktikantide värbamine ja pärast mitut intervjuud asusin tööle Venemaa selle valdkonna ühes suurimas ettevõttes IBS. Kolme aastaga sain praktikandist ettevõttelahenduste arhitektiks. Hetkel arendan suurandmete tehnoloogiate ekspertteadmisi finants- ja telekommunikatsioonisektori klientidele.

Inimestele, kes soovivad suurandmetega töötada, on kaks peamist eriala: analüütikud ja IT-konsultandid, kes loovad tehnoloogiaid suurandmetega töötamiseks. Lisaks saame kliendi IT-platvormiga rääkida ka Big Data Analyst’i ehk otseselt andmetega töötavatest inimestest. Varem olid need tavalised matemaatilised analüütikud, kes teadsid statistikat ja matemaatikat ning kasutasid andmeanalüüsi ülesannete lahendamiseks statistikatarkvara. Tänapäeval on lisaks statistika ja matemaatika teadmistele vajalik ka arusaam tehnoloogiast ja andmete elutsüklist. See on minu arvates erinevus tänapäevaste andmeanalüütikute ja nende analüütikute vahel, kes olid varem.

Minu erialaks on IT-alane nõustamine ehk mõtlen välja ja pakun klientidele võimalusi äriprobleemide lahendamiseks IT tehnoloogiate abil. Nõustamisele tulevad erinevate kogemustega inimesed, kuid selle elukutse juures on kõige olulisemad omadused oskus mõista kliendi vajadusi, soov aidata inimesi ja organisatsioone, hea suhtlemis- ja meeskonnaoskus (kuna see on alati töö kliendiga ja meeskonnas), hea analüüsivõime. Väga oluline on sisemine motivatsioon: töötame konkurentsitihedas keskkonnas ning tellija ootab ebatavalisi lahendusi ja tööhuvi.

Suurem osa minu ajast kulub klientidega suhtlemisele, nende ärivajaduste vormistamisele ja neile sobivaima tehnoloogiaarhitektuuri väljatöötamisele aitamisele. Valikukriteeriumitel on siin oma eripära: lisaks funktsionaalsusele ja TCO-le (Total cost of ownership) on väga olulised mittefunktsionaalsed nõuded süsteemile, enamasti on nendeks reaktsiooniaeg ja infotöötlusaeg. Kliendi veenmiseks kasutame sageli kontseptsiooni tõestamise meetodit – pakume tehnoloogia toimimises veendumiseks mõne ülesande puhul, kitsa andmehulga peal tehnoloogiat tasuta “testida”. Lahendus peaks tekitama kliendile konkurentsieelise, saades lisahüvesid (näiteks x-sell, ristmüük) või lahendama mingi äriprobleemi, näiteks vähendama laenupettuste kõrget taset.

Oleks palju lihtsam, kui kliendid tuleksid valmis ülesandega, aga siiani ei saa aru, et on ilmunud revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta

Milliste probleemidega te silmitsi seisate? Turg ei ole veel suurandmete tehnoloogiate kasutamiseks valmis. Oleks palju lihtsam, kui kliendid tuleksid valmis ülesandega, kuid seni pole aru saadud, et on ilmunud revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta. Seetõttu töötame põhiliselt käivitusrežiimis – me ei müü ainult tehnoloogiaid, vaid veename kliente iga kord, et nad peavad nendesse lahendustesse investeerima. See on visionääride seisukoht – näitame klientidele, kuidas nad saavad andmete ja IT abil oma äri muuta. Loome seda uut turgu – suurandmete valdkonna ärilise IT-konsultatsiooni turgu.

Kui inimene soovib tegeleda andmeanalüüsi või IT-alase nõustamisega Big Data valdkonnas, siis esimese asjana on oluline matemaatika- või tehniline haridus koos hea matemaatilise ettevalmistusega. Samuti on kasulik omandada spetsiifilisi tehnoloogiaid, näiteks SAS-i, Hadoopi, R-keele või IBM-i lahendusi. Lisaks peate olema aktiivselt huvitatud Big Data rakendustest – näiteks selle kohta, kuidas neid saab kasutada panga krediidiskoori parandamiseks või kliendi elutsükli haldamiseks. Seda ja muid teadmisi saab saadaolevatest allikatest: näiteks Coursera ja Big Data University. Pennsylvania Whartoni ülikoolis tegutseb ka Customer Analytics Initiative, kus on avaldatud palju huvitavaid materjale.

Meie valdkonnas tegutseda soovijate jaoks on suureks probleemiks selge infopuudus Big Data kohta. Te ei saa minna raamatupoodi või mõnele veebisaidile ja hankida näiteks põhjalikku juhtumite kogumit kõigi suurandmete tehnoloogiate rakenduste kohta pankades. Selliseid katalooge pole. Osa teabest on raamatutes, osa kogutakse konverentsidel ja osa tuleb ise välja mõelda.

Teine probleem on see, et analüütikutel on numbrite maailmas mugav olla, kuid äris pole neil alati mugav. Need inimesed on sageli introvertsed ja neil on raskusi suhtlemisega, mistõttu neil on raske uurimistulemustest klientidele veenvalt edastada. Nende oskuste arendamiseks soovitaksin selliseid raamatuid nagu The Pyramid Principle, Speak the Language of Diagrams. Need aitavad arendada esinemisoskust ning väljendada oma mõtteid lühidalt ja selgelt.

Mind aitas palju kaasa erinevatel juhtumimeistrivõistlustel osalemine Riigiuuringute Ülikooli Kõrgemas Majanduskoolis õppides. Juhtumimeistrivõistlused on õpilaste intellektuaalsed võistlused, kus neil on vaja uurida äriprobleeme ja pakkuda neile lahendusi. Neid on kahte tüüpi: konsultatsioonifirmade meistrivõistlused, näiteks McKinsey, BCG, Accenture, aga ka sõltumatud juhtumimeistrivõistlused, nagu Changellenge. Nendes osaledes õppisin nägema ja lahendama keerulisi probleeme – alates probleemi tuvastamisest ja struktureerimisest kuni selle lahendamise soovituste kaitsmiseni.

Oleg Mihhalsky Venemaa turust ja suurandmete valdkonna uue toote loomise spetsiifikast

Enne Acronisega liitumist tegelesin juba uute toodete turuletoomisega teistele ettevõtetele. See on alati huvitav ja ühtaegu väljakutseid pakkuv, mistõttu tekkis kohe huvi võimalus töötada pilveteenuste ja andmesalvestuslahenduste kallal. Selles valdkonnas tuli kasuks kogu minu varasem IT-valdkonna kogemus, sealhulgas minu enda startup projekti I-kiirendi. Abiks oli ka ärihariduse (MBA) omamine lisaks inseneri põhiharidusele.

Venemaal on suurtel ettevõtetel - pankadel, mobiilioperaatoritel jne - vajadus suurandmete analüüsi järele, nii et meie riigis on perspektiivi neil, kes soovivad selles valdkonnas töötada. Tõsi, paljud projektid on praegu integratsiooniprojektid, st tehtud välismaiste arenduste või avatud lähtekoodiga tehnoloogiate põhjal. Sellistes projektides ei looda põhimõtteliselt uusi lähenemisviise ja tehnoloogiaid, vaid pigem kohandatakse olemasolevaid arendusi. Acronis läksime teist teed ja pärast olemasolevate alternatiivide analüüsi otsustasime investeerida enda arendusse, mille tulemuseks on suurandmete jaoks usaldusväärne salvestussüsteem, mis ei jää hinna poolest alla näiteks Amazon S3-le, kuid töötab usaldusväärselt. tõhusalt ja oluliselt väiksemas mahus. Ka suurtel Interneti-ettevõtetel on suurandmete osas oma arendused, kuid nad on rohkem keskendunud sisemistele vajadustele, mitte väliste klientide vajaduste rahuldamisele.

Oluline on mõista trende ja majandusjõude, mis suurandmete valdkonda mõjutavad. Selleks peate palju lugema, kuulama IT-valdkonna autoriteetsete ekspertide kõnesid ja osalema temaatilistel konverentsidel. Nüüd on peaaegu igal konverentsil Big Data rubriik, kuid kõik räägivad sellest erineva nurga alt: tehnoloogia, äri või turunduse vaatenurgast. Võite minna projektitööle või praktikale ettevõttesse, mis juba juhib selleteemalisi projekte. Kui oled oma võimetes kindel, siis pole veel hilja korraldada startup Big Data valdkonnas.

Ilma pideva turuga kontaktita uute arenduste puhul on oht, et neid ei taotleta

Tõsi, kui vastutad uue toote eest, kulub palju aega turuanalüüsile ja suhtlemisele potentsiaalsete klientide, partnerite ja professionaalsete analüütikutega, kes teavad klientidest ja nende vajadustest palju. Ilma pideva turuga kontaktita on oht, et uusarendus jääb kasutamata. Alati on palju ebakindlust: peate välja mõtlema, kes on varased kasutajad, mida teil on neile pakkuda ja kuidas seejärel massilist publikut meelitada. Teiseks kõige olulisemaks ülesandeks on sõnastada ja edastada arendajatele selge ja terviklik visioon lõpptootest, et motiveerida neid töötama sellistes tingimustes, kus mõned nõuded võivad veel muutuda ning prioriteedid sõltuvad esimestelt klientidelt tulevast tagasisidest. Seetõttu on oluliseks ülesandeks ühelt poolt klientide ja teiselt poolt arendajate ootuste juhtimine. Et ei üks ega teine ​​ei kaotaks huvi ja viiks projekti lõpuni. Pärast esimest edukat projekti muutub see lihtsamaks ja peamiseks väljakutseks saab uue ettevõtte jaoks õige kasvumudeli leidmine.

Venekeelses keskkonnas kasutatakse seda terminina Suured andmed ja suurandmete mõiste. Mõiste "suured andmed" on ingliskeelse termini koopia. Suurandmetel pole ranget määratlust. On võimatu tõmmata selget joont - kas see on 10 terabaiti või 10 megabaiti? Nimi ise on väga subjektiivne. Sõna "suur" on primitiivsete hõimude seas nagu "üks, kaks, palju".

Siiski on väljakujunenud arvamus, et suurandmed on tehnoloogiate kogum, mis on loodud kolme toimingu tegemiseks. Esiteks töödeldakse standardstsenaariumitega võrreldes suuremaid andmemahtusid. Teiseks oskama töötada kiiresti saabuvate andmetega väga suurtes mahtudes. See tähendab, et andmeid ei ole lihtsalt palju, vaid neid tuleb pidevalt juurde. Kolmandaks peavad nad olema võimelised töötama struktureeritud ja halvasti struktureeritud andmetega paralleelselt erinevates aspektides. Suurandmed eeldavad, et algoritmid saavad infovoogu, mis ei ole alati struktureeritud ja et sellest saab eraldada rohkem kui ühe idee.

Tüüpiline suurandmete näide on erinevatest füüsilistest eksperimentaalsetest rajatistest – näiteks koos – pärinev teave, mis toodab tohutul hulgal andmeid ja teeb seda pidevalt. Installatsioon toodab pidevalt suuri andmemahtusid ja teadlased kasutavad seda paljude probleemide paralleelseks lahendamiseks.

Suurandmete ilmumine avalikku ruumi oli tingitud sellest, et need andmed puudutasid peaaegu kõiki inimesi ja mitte ainult teadlaskonda, kus sellised probleemid on juba ammu lahendatud. Tehnoloogia avalikku sfääri Suured andmed tuli välja, kui hakkasime rääkima väga konkreetsest numbrist – planeedi elanike arvust. 7 miljardit kogutakse sotsiaalvõrgustikesse ja muudesse projektidesse, mis koondavad inimesi. Youtube, Facebook, Kokkupuutel, kus inimeste arvu mõõdetakse miljardites ja nende samaaegselt sooritatavate tehingute arv on tohutu. Andmevoog on sel juhul kasutaja toimingud. Näiteks sama hostimise andmed Youtube, mis voolavad läbi võrgu mõlemas suunas. Töötlemine ei tähenda mitte ainult tõlgendamist, vaid ka võimalust kõiki neid toiminguid õigesti töödelda, st õigesse kohta panna ja need andmed kiiresti igale kasutajale kättesaadavaks teha, kuna sotsiaalvõrgustikud ei talu ootamist.

Suur osa suurtest andmetest, nende analüüsimiseks kasutatavatest lähenemisviisidest, on tegelikult olemas olnud juba mõnda aega. Näiteks valvekaamerate piltide töötlemine, kui me ei räägi ühest pildist, vaid andmevoost. Või robotiga navigeerimine. Kõik see on eksisteerinud aastakümneid, kuid nüüdseks on andmetöötlusülesanded puudutanud palju suuremat hulka inimesi ja ideid.

Paljud arendajad on harjunud töötama staatiliste objektidega ja mõtlema olekutes. Suurandmete puhul on paradigma erinev. Peate suutma töötada pideva andmevooga ja see on huvitav ülesanne. See mõjutab üha rohkem piirkondi.

Meie elus hakkab üha enam riist- ja tarkvara tootma suuri andmemahtusid – näiteks asjade internet.

Asjad tekitavad juba praegu tohutuid teabevooge. Potoki politseisüsteem saadab infot kõikidest kaameratest ja võimaldab neid andmeid kasutades autosid leida. Fitness käevõrud, GPS-jälgijad ja muud üksikisikute ja ettevõtete vajadusi teenindavad asjad on muutumas üha moes.

Moskva informatiseerimisosakond värbab suurel hulgal andmeanalüütikuid, sest inimeste kohta koguneb palju statistikat ja see on mitme kriteeriumi (st iga inimese kohta on kogutud väga paljude kriteeriumide statistika). rühm inimesi). Nendest andmetest peate leidma mustrid ja suundumused. Selliste ülesannete jaoks on vaja IT-haridusega matemaatikuid. Kuna lõppkokkuvõttes salvestatakse andmed struktureeritud DBMS-idesse ja teil peab olema neile juurdepääs ja teabe hankimine.

Varem ei pidanud me suurandmeid probleemiks sel lihtsal põhjusel, et polnud kohta, kuhu neid salvestada ja võrke nende edastamiseks. Nende võimaluste ilmnemisel täitsid andmed kohe kogu neile antud mahu. Kuid hoolimata sellest, kui palju ribalaiust ja andmesalvestusmahtu laiendatakse, leidub alati allikaid, näiteks füüsilised katsed, katsed tiiva sujuvamaks muutmise modelleerimiseks, mis toodavad rohkem teavet, kui suudame edastada. Moore'i seaduse kohaselt kasvab kaasaegsete paralleelarvutussüsteemide jõudlus pidevalt ning ka andmeedastusvõrkude kiirused. Andmeid peab aga saama kiiresti salvestada ja andmekandjatelt (kõvaketas ja muud tüüpi mälud) välja võtta ning see on suurandmete töötlemisel veel üks väljakutse.

Suured andmed- Inglise "Suured andmed". Mõiste ilmus DBMS-i alternatiivina ja sellest sai IT-infrastruktuuri üks peamisi suundumusi, kui enamik tööstushiiglasi - IBM, Microsoft, HP, Oracle ja teised - hakkasid seda kontseptsiooni oma strateegiates kasutama. Suurandmed viitavad tohutule (sadade terabaitide suurusele) andmemassiivile, mida ei saa traditsiooniliste meetoditega töödelda; mõnikord – vahendid ja meetodid nende andmete töötlemiseks.

Näited suurandmete allikatest: RFID-sündmused, sõnumid sotsiaalvõrgustikes, meteoroloogiline statistika, teave mobiilsidevõrkude abonentide asukoha kohta ja andmed heli-/videosalvestusseadmetest. Seetõttu kasutatakse "suurandmeid" laialdaselt tootmises, tervishoius, riigihalduses ja Interneti-äris – eelkõige sihtrühma analüüsimisel.

Iseloomulik

Suurandmete märke defineeritakse kui "kolm Vs": maht – maht (tõesti suur); sort – heterogeensus, komplekt; kiirus – kiirus (väga kiire töötlemise vajadus).

Suurandmed on enamasti struktureerimata ja nende töötlemiseks on vaja spetsiaalseid algoritme. Suurandmete analüüsimeetodid hõlmavad järgmist:

  • ("andmekaeve") – lähenemisviiside kogum varjatud kasulike teadmiste avastamiseks, mida ei ole võimalik saada standardmeetoditega;
  • Crowdsourcing (crowd - "rahvahulk", sourcing - allikana kasutamine) - oluliste probleemide lahendamine vabatahtlike, kes ei ole kohustuslikus töölepingus või -suhtes, ühisel jõul, tegevuste koordineerimine IT-vahendite abil;
  • Data Fusion & Integration ("andmete segamine ja rakendamine") – meetodite kogum mitme allika ühendamiseks süvaanalüüsi osana;
  • Masinaõpe (“masinõpe”) on tehisintellektiuuringute alajaotus, mis uurib statistilise analüüsi kasutamise ja põhimudelitel põhinevate prognooside tegemise meetodeid;
  • pildituvastus (näiteks nägude tuvastamine kaamera või videokaamera pildiotsijas);
  • ruumianalüüs – topoloogia, geomeetria ja geograafia kasutamine andmete konstrueerimiseks;
  • andmete visualiseerimine – analüütilise teabe väljastamine illustratsioonide ja diagrammide kujul, kasutades interaktiivseid tööriistu ja animatsiooni, et jälgida tulemusi ja luua alus edasiseks jälgimiseks.

Teavet salvestatakse ja analüüsitakse paljudes suure jõudlusega serverites. Võtmetehnoloogia on Hadoop, mis on avatud lähtekoodiga.

Kuna info hulk aja jooksul ainult kasvab, ei ole raskusi andmete hankimises, vaid selles, kuidas neid maksimaalselt kasutult töödelda. Üldiselt hõlmab suurandmetega töötamise protsess: teabe kogumist, selle struktureerimist, arusaamade ja kontekstide loomist, tegevussoovituste väljatöötamist. Juba enne esimest etappi on oluline selgelt määratleda töö eesmärk: milleks täpselt andmeid vaja läheb, näiteks toote sihtrühma määramiseks. Vastasel juhul on oht saada palju teavet, mõistmata, kuidas seda täpselt kasutada saab.

Eessõna

“Suurandmed” on tänapäeval moekas termin, mida esineb peaaegu kõigil andmeanalüüsile, ennustavale analüütikale, andmekaevandusele, CRM-ile pühendatud erialakonverentsidel. Mõistet kasutatakse valdkondades, kus on aktuaalne kvalitatiivselt suurte andmemahtudega töötamine, kus toimub pidev andmevoo kiiruse kasv organisatsiooniprotsessi: majandus, pangandus, tootmine, turundus, telekommunikatsioon, veebianalüütika, meditsiin jne. .

Koos info kiire kuhjumisega arenevad kiiresti ka andmeanalüüsi tehnoloogiad. Kui veel paar aastat tagasi oli võimalik kliente näiteks segmenteerida vaid sarnaste eelistustega rühmadesse, siis nüüd on võimalik igale kliendile reaalajas mudeleid koostada, analüüsides näiteks tema liikumist Internetis konkreetse otsimiseks. toode. Tarbija huve saab analüüsida ning vastavalt konstrueeritud mudelile tuletada sobivad kuulutused või konkreetsed pakkumised. Mudelit saab ka reaalajas reguleerida ja ümber ehitada, mis veel paar aastat tagasi oli mõeldamatu.

Näiteks telekommunikatsiooni valdkonnas on arenenud tehnoloogiad mobiiltelefonide ja nende omanike füüsilise asukoha määramiseks ning 2002. aasta ulmefilmis Minority Report kirjeldatud idee, mis kuvab kaubanduskeskustes reklaamiteavet, näib peagi muutuvat reaalsust, võttes arvesse konkreetsete mööduvate isikute huve.

Samas on olukordi, kus kirg uute tehnoloogiate vastu võib tuua kaasa pettumuse. Näiteks mõnikord hõredad andmed ( Napid andmed), mis annavad olulise ülevaate tegelikkusest, on palju väärtuslikumad kui Suured andmed(Big Data), mis kirjeldab mägesid, ei sisalda sageli olulist teavet.

Selle artikli eesmärk on selgitada ja mõtiskleda suurandmete uute võimaluste üle ning illustreerida, kuidas analüüsiplatvorm STATISTIKA StatSoft aitab teil tõhusalt kasutada suurandmeid protsesside optimeerimiseks ja probleemide lahendamiseks.

Kui suured on Big Data?

Muidugi peaks õige vastus sellele küsimusele olema "see sõltub ..."

Tänapäevastes aruteludes kirjeldatakse Big Data mõistet kui andmeid terabaitide järjekorras.

Praktikas (kui me räägime gigabaitidest või terabaitidest) on selliseid andmeid lihtne salvestada ja hallata, kasutades “traditsioonilisi” andmebaase ja standardset riistvara (andmebaasiservereid).

Tarkvara STATISTIKA kasutab mitme lõimega tehnoloogiat andmetele juurdepääsu (lugemise), teisendamise ja ennustavate (ja hindamismudelite) mudelite loomise algoritmide jaoks, nii et selliseid andmeproove saab hõlpsasti analüüsida ja need ei vaja spetsiaalseid tööriistu.

Mõned praegused StatSofti projektid töötlevad proove suurusjärgus 9–12 miljonit rida. Korrutame need 1000 parameetriga (muutujaga), mis on kogutud ja korraldatud andmelaos, et luua riski- või ennustusmudeleid. Seda tüüpi fail on "ainult" umbes 100 gigabaiti suur. See ei ole muidugi väike andmeladu, kuid selle suurus ei ületa standardse andmebaasitehnoloogia võimalusi.

Tootesari STATISTIKA partii analüüsiks ja hindamismudelite ehitamiseks ( STATISTIKA ettevõte), reaalajas lahendusi ( STATISTICA reaalajas skoor) ja analüütilised tööriistad mudelite loomiseks ja haldamiseks ( STATISTICA Data Miner, Otsuste tegemine) on hõlpsasti skaleeritavad mitme mitmetuumalise protsessoriga serveri vahel.

Praktikas tähendab see, et standardsete vahenditega on peaaegu alati võimalik saavutada piisav analüütiliste mudelite kiirus (näiteks prognoosid krediidiriski, pettuste tõenäosuse, seadmete komponentide töökindluse jms kohta), mis võimaldavad kiireid otsuseid langetada. STATISTIKA.

Alates suurtest andmemahtudest kuni suurandmeteni

Tavaliselt keskenduvad suurandmete arutelud andmeladude ümber (ja sellistel ladudel põhinevad analüüsid), mis on palju suuremad kui paar terabaiti.

Eelkõige võivad mõned andmelaod kasvada tuhandete terabaitideni, st kuni petabaitideni (1000 terabaiti = 1 petabait).

Peale petabaitide saab andmete akumulatsiooni mõõta eksabaitides, näiteks tootmissektoris kogu maailmas kogunes 2010. aastal kokku hinnanguliselt 2 eksabaiti uut teavet (Manyika et al., 2011).

On majandusharusid, kus andmeid kogutakse ja kogutakse väga intensiivselt.

Näiteks tootmiskeskkonnas, nagu elektrijaam, genereeritakse vahel kümnete tuhandete parameetrite jaoks pidev andmevoog iga minuti või isegi sekundi järel.

Lisaks on viimastel aastatel kasutusele võetud nn targa võrgu tehnoloogiad, mis võimaldavad kommunaalettevõtetel mõõta üksikute majapidamiste elektritarbimist iga minuti või sekundi järel.

Seda tüüpi rakenduste puhul, kus andmeid tuleb säilitada aastaid, liigitatakse kogutud andmed Extremely Big Data alla.

Samuti on kommerts- ja valitsussektorite seas kasvamas Big Data rakenduste arv, kus andmete maht võib olla sadu terabaite või petabaite.

Kaasaegne tehnoloogia võimaldab meil inimesi ja nende käitumist „jälgida“ mitmel viisil. Näiteks kui kasutame Internetti, ostleme veebipoodides või suurtes kauplusekettides, nagu Walmart (Wikipedia andmetel on Walmarti andmemahtu hinnanguliselt rohkem kui 2 petabaiti) või liigume ringi, kui mobiiltelefon on sisse lülitatud – jätame jälg meie tegudest, mis viib uue teabe kogumiseni.

Erinevad suhtlusviisid alates lihtsatest telefonikõnedest kuni teabe üleslaadimiseni suhtlusvõrgustike kaudu, nagu Facebook (Wikipedia andmetel vahetatakse teavet iga kuu 30 miljardit) või videote jagamiseni sellistel saitidel nagu YouTube (Youtube väidab, et laadib üles 24 tundi videot iga minut; vaata Wikipediat), genereerides iga päev tohutul hulgal uusi andmeid.

Samuti genereerivad kaasaegsed meditsiinitehnoloogiad suurel hulgal tervishoiuteenuste osutamiseks vajalikke andmeid (pildid, videod, reaalajas jälgimine).

Seega saab andmemahtude klassifikatsiooni esitada järgmiselt:

Suured andmekogumid: 1000 megabaidist (1 gigabaitist) sadade gigabaitideni

Suured andmekogumid: 1000 gigabaidist (1 terabaidist) mitme terabaidini

Suurandmed: mitmest terabaidist sadade terabaitideni

Äärmiselt suured andmed: 1000 kuni 10 000 terabaiti = 1 kuni 10 petabaiti

Big Dataga seotud ülesanded

Suurandmetega seotud ülesandeid on kolme tüüpi:

1. Hoiustamine ja haldamine

Sadade tera- või petabaitide suuruseid andmemahtusid ei saa traditsiooniliste relatsiooniandmebaaside abil hõlpsasti salvestada ja hallata.

2. Struktureerimata teave

Suurem osa suurandmetest on struktureerimata. Need. kuidas korraldada teksti, videoid, pilte jne?

3. Suurandmete analüüs

Kuidas analüüsida struktureerimata teavet? Kuidas luua lihtsaid aruandeid suurandmete põhjal, koostada ja rakendada põhjalikke ennustavaid mudeleid?

Suurandmete salvestamine ja haldamine

Suurandmeid salvestatakse ja korraldatakse tavaliselt hajutatud failisüsteemides.

Üldiselt salvestatakse teave tavaliste arvutite mitmele (mõnikord tuhandele) kõvakettale.

Niinimetatud “kaart” jälgib, kus (millisele arvutile ja/või kettale) konkreetne info on salvestatud.

Veataluvuse ja töökindluse tagamiseks salvestatakse iga infokild tavaliselt mitu korda, näiteks kolm korda.

Oletame näiteks, et kogusite üksikuid tehinguid suurest kaupluseketist. Iga tehingu üksikasjad salvestatakse erinevatele serveritele ja kõvaketastele ning “kaart” indekseerib, kuhu täpselt vastava tehingu andmed salvestatakse.

Standardsete riistvara ja avatud lähtekoodiga tarkvaratööriistade kasutamine selle hajutatud failisüsteemi haldamiseks (nt. Hadoop), on suhteliselt lihtne rakendada usaldusväärseid andmeladusid petabaitide skaalal.

Struktureerimata teave

Suurem osa hajutatud failisüsteemis kogutud teabest koosneb struktureerimata andmetest, nagu tekst, pildid, fotod või videod.

Sellel on oma eelised ja puudused.

Eeliseks on see, et suurandmete salvestamise võimalus võimaldab salvestada "kõiki andmeid", ilma et peaksite muretsema, kui suur osa andmetest on hilisemaks analüüsiks ja otsuste tegemiseks asjakohased.

Puuduseks on see, et sellistel juhtudel on kasuliku teabe hankimiseks vaja neid tohutuid andmemahtusid hiljem töödelda.

Kuigi mõned neist toimingutest võivad olla lihtsad (nt lihtsad arvutused jne), nõuavad teised keerukamaid algoritme, mis peavad olema spetsiaalselt loodud hajutatud failisüsteemis tõhusaks töötamiseks.

Üks juht ütles kord StatSoftile, et ta "kulutas IT-le ja andmesalvestusele terve varanduse ega ole ikka veel raha teenima hakanud", kuna ta pole mõelnud, kuidas neid andmeid põhitegevuse parandamiseks kõige paremini kasutada.

Seega, kuigi andmete maht võib plahvatuslikult kasvada, on teabe hankimise ja selle teabe alusel tegutsemise võimalus piiratud ja jõuab asümptootiliselt piirini.

On oluline, et koos andmesalvestussüsteemidega töötataks välja meetodid ja protseduurid mudelite loomiseks, ajakohastamiseks ja otsuste tegemise automatiseerimiseks, et tagada selliste süsteemide kasulikkus ja kasu ettevõttele.

Suurandmete analüüs

See on struktureerimata suurandmete analüütika tõesti suur probleem: kuidas seda kasulikult analüüsida. Sellest probleemist on kirjutatud palju vähem kui andmete salvestamise ja suurandmete haldustehnoloogiate kohta.

Arvestada tuleb mitmete probleemidega.

Kaardi vähendamine

Analüüsides sadu terabaite või petabaite andmeid, ei ole võimalik neid andmeid analüüsimiseks mõnesse teise kohta eraldada (näiteks STATISTICA ettevõtte analüüsi server).

Andmete ülekandmine kanalite kaudu eraldi serverisse või serveritesse (paralleelseks töötlemiseks) võtab liiga kaua aega ja nõuab liiga palju liiklust.

Selle asemel tuleb analüütilised arvutused teha füüsiliselt andmete talletuskoha lähedal.

Map-Reduce algoritm on hajutatud andmetöötluse mudel. Selle tööpõhimõte on järgmine: sisendandmed jaotatakse hajutatud failisüsteemi töötaja sõlmedesse (individuaalsetesse sõlmedesse) eeltöötluseks (kaardisamm) ja seejärel volditakse (ühendatakse) juba eeltöödeldud andmed (vähendamise samm) .

Oletame, et lõppsumma arvutamiseks arvutab algoritm paralleelselt hajutatud failisüsteemi iga sõlme vahesummad ja seejärel summeerib need vahesummad.

Internetis on saadaval tohutul hulgal teavet selle kohta, kuidas saate kaardi vähendamise mudeli abil teha erinevaid arvutusi, sealhulgas ennustava analüüsi jaoks.

Lihtne statistika, ärianalüüs (BI)

Lihtsate BI-aruannete koostamiseks on palju avatud lähtekoodiga tooteid, mis võimaldavad arvutada summasid, keskmisi, proportsioone jne. kasutades kaardi vähendamist.

See muudab aruandluse jaoks täpsete loenduste ja muu lihtsa statistika hankimise väga lihtsaks.

Ennustav modelleerimine, täiustatud statistika

Esmapilgul võib tunduda, et ennustavate mudelite loomine hajutatud failisüsteemis on keerulisem, kuid see pole sugugi nii. Vaatleme andmete analüüsi esialgseid etappe.

Andmete ettevalmistamine. Mõni aeg tagasi viis StatSoft läbi rea suuri ja edukaid projekte, mis hõlmasid väga suuri andmekogumeid, mis kirjeldavad elektrijaama protsessi minuti haaval. Analüüsi eesmärk oli parandada jaamade efektiivsust ja vähendada heitkoguseid (Electric Power Research Institute, 2009).

On oluline, et kuigi andmekogumid võivad olla väga suured, on neis sisalduv teave palju väiksema mõõtmega.

Näiteks kui andmeid kogutakse iga sekundi või minuti järel, jäävad paljud parameetrid (gaasi ja ahju temperatuurid, vooluhulgad, siibri asendid jne) pikkade ajavahemike jooksul stabiilseks. Teisisõnu, iga sekund salvestatud andmed on põhimõtteliselt sama teabe kordused.

Seega on vaja läbi viia “nutikas” andmete koondamine, saades modelleerimiseks ja optimeerimiseks andmeid, mis sisaldavad vaid vajalikku infot elektrijaama efektiivsust ja emissioonide hulka mõjutavate dünaamiliste muutuste kohta.

Teksti klassifitseerimine ja andmete eeltöötlus. Näitame veel kord, kuidas suured andmekogumid võivad sisaldada palju vähem kasulikku teavet.

Näiteks on StatSoft osalenud projektides, mis on seotud säutsude tekstikaevandamisega, mis kajastavad reisijate rahulolu lennufirmade ja nende teenustega.

Kuigi iga tund ja iga päev otsiti alla suur hulk asjakohaseid säutse, olid väljendatud tunded üsna lihtsad ja monotoonsed. Enamik sõnumeid on kaebused ja lühikesed ühelauselised sõnumid "halbade kogemuste kohta". Pealegi on nende tunnete arv ja "tugevus" suhteliselt stabiilne aja jooksul ja konkreetsete probleemide (nt kaotsiläinud pagas, kehv toit, lendude tühistamine) lõikes.

Seega vähendades tegelikke säutse peagi (skoori) meeleolule, kasutades tekstikaevetehnikaid (nagu need, mida rakendatakse STATISTICA Text Miner) annab palju väiksema andmemahu, mida saab seejärel hõlpsasti võrrelda olemasolevate struktureeritud andmetega (tegelik piletimüük või püsikliendi teave). Analüüs võimaldab jagada kliendid rühmadesse ja uurida nende tüüpilisi kaebusi.

Andmete koondamiseks (nt sentimentide skoorid) hajutatud failisüsteemis on saadaval palju tööriistu, mis muudab selle analüütilise protsessi hõlpsasti rakendatavaks.

Mudelite ehitamine

Sageli on väljakutseks hajutatud failisüsteemi salvestatud andmete jaoks kiiresti täpsete mudelite koostamine.

Erinevate andmekaeve/ennustava analüüsi algoritmide jaoks on olemas kaardivähendatud teostused, mis sobivad suuremahuliseks paralleelseks andmete töötlemiseks hajutatud failisüsteemis (mida saab platvormi abil toetada STATISTIKA StatSoft).

Kuid kas olete kindel, et saadud mudel on tõesti täpsem, kuna töötlesite nii suure hulga andmeid?

Tegelikult on tõenäoliselt mugavam luua mudeleid väikeste andmesegmentide jaoks hajutatud failisüsteemis.

Nagu hiljutises Forresteri aruandes öeldakse, "kaks pluss kaks võrdub 3,9 on tavaliselt päris hea" (Hopkins & Evelson, 2011).

Statistiline ja matemaatiline täpsus seisneb selles, et lineaarne regressioonimudel, mis sisaldab näiteks 10 ennustajat, mis põhineb õigesti tehtud tõenäosusvalim 100 000 vaatlusest on sama täpne kui 100 miljonile vaatlusele ehitatud mudel.

Prognoositi, et 2011. aastal loodud ja paljundatud andmete kogumaht võib olla umbes 1,8 zettabaiti (1,8 triljonit gigabaiti) – umbes 9 korda rohkem kui 2006. aastal loodi.

Keerulisem määratlus

Siiski` Suured andmed` hõlmavad enamat kui lihtsalt tohutute teabehulkade analüüsimist. Probleem pole mitte selles, et organisatsioonid loovad tohutuid andmemahtusid, vaid selles, et suurem osa neist on vormingus, mis ei sobi hästi traditsioonilise struktureeritud andmebaasivorminguga – veebilogid, videod, tekstidokumendid, masinkood või näiteks georuumilised andmed. . Seda kõike hoitakse paljudes erinevates hoidlates, mõnikord isegi väljaspool organisatsiooni. Selle tulemusena võivad ettevõtted pääseda juurde suurele hulgale oma andmetele ja neil puuduvad vajalikud tööriistad nende andmete vaheliste seoste loomiseks ja nende põhjal sisuliste järelduste tegemiseks. Kui lisada sellele asjaolu, et andmeid uuendatakse nüüd üha sagedamini, tekib olukord, kus traditsioonilised teabeanalüüsi meetodid ei suuda pidevalt uuendatavate andmete tohutute mahtudega sammu pidada, mis lõpuks avab tee tehnoloogiale. Suured andmed.

Parim määratlus

Sisuliselt kontseptsioon Suured andmed hõlmab tööd tohutu mahu ja mitmekesise koostisega teabega, mida väga sageli ajakohastatakse ja mis asub erinevatest allikatest, et tõsta tegevuse efektiivsust, luua uusi tooteid ja tõsta konkurentsivõimet. Konsultatsioonifirma Forrester annab lühikese sõnastuse: ` Suured andmed koondab tehnikaid ja tehnoloogiaid, mis eraldavad andmetest tähenduse praktilisuse äärmuslikel piiridel.

Kui suur on erinevus ärianalüütika ja suurandmete vahel?

Fujitsu Australia turunduse tegevdirektor ja tehnoloogiajuht Craig Bathy juhtis tähelepanu sellele, et ärianalüüs on kirjeldav protsess, mille käigus analüüsitakse ettevõtte teatud aja jooksul saavutatud tulemusi, samal ajal kui töötlemiskiirust. Suured andmed võimaldab muuta analüüsi ennustavaks, pakkudes ärisoovitusi tulevikuks. Suurandmete tehnoloogiad võimaldavad analüüsida ka rohkemat tüüpi andmeid kui ärianalüüsi tööriistu, mis võimaldab keskenduda enamale kui lihtsalt struktureeritud hoidlatele.

Matt Slocum O'Reilly Radarist usub, et kuigi Suured andmed ja ärianalüütika eesmärk on sama (küsimusele vastuste leidmine), need erinevad üksteisest kolme aspekti poolest.

  • Suurandmed on mõeldud suuremate teabemahtude käsitlemiseks kui ärianalüütika ja see sobib kindlasti suurandmete traditsioonilise definitsiooniga.
  • Suurandmed on loodud töötlema kiiremini ja kiiremini muutuvat teavet, mis tähendab põhjalikku uurimist ja interaktiivsust. Mõnel juhul luuakse tulemused kiiremini kui veebileht laaditakse.
  • Suurandmed on loodud töötlema struktureerimata andmeid, mille kasutamist hakkame alles uurima, kui oleme suutnud neid koguda ja salvestada, ning vajame algoritme ja vestlusvõimalusi, et hõlbustada nendes andmekogumites sisalduvate suundumuste leidmist.

Oracle'i avaldatud valge raamatu "Oracle Information Architecture: An Architect's Guide to Big Data" kohaselt läheneme suurandmetega töötades teabele erinevalt kui ärianalüüsi tehes.

Suurandmetega töötamine ei ole nagu tavaline ärianalüüsi protsess, kus lihtsalt teadaolevate väärtuste liitmine annab tulemuse: näiteks tasutud arvete liitmisest saab aasta müük. Suurandmetega töötamisel saadakse tulemus nende puhastamise käigus järjestikuse modelleerimisega: esiteks püstitatakse hüpotees, ehitatakse statistiline, visuaalne või semantiline mudel, mille alusel kontrollitakse püstitatud hüpoteesi täpsust. , ja siis esitatakse järgmine. See protsess nõuab, et uurija tõlgendaks visuaalseid tähendusi või koostaks teadmistel põhinevaid interaktiivseid päringuid või töötaks välja adaptiivsed "masinõppe" algoritmid, mis võivad anda soovitud tulemuse. Pealegi võib sellise algoritmi eluiga olla üsna lühike.

Suurandmete analüüsi tehnikad

Andmehulkade analüüsimiseks on palju erinevaid meetodeid, mis põhinevad statistikast ja informaatikast laenatud tööriistadel (näiteks masinõpe). Nimekiri ei pretendeeri täielikkusele, kuid kajastab kõige populaarsemaid lähenemisviise erinevates tööstusharudes. Tuleb mõista, et teadlased jätkavad tööd uute tehnikate loomise ja olemasolevate täiustamise nimel. Lisaks ei pruugi mõned loetletud tehnikad kehtida eranditult suurandmete puhul ja neid saab edukalt kasutada väiksemate massiivide jaoks (näiteks A/B testimine, regressioonanalüüs). Muidugi, mida mahukamalt ja mitmekesisemalt massiivi analüüsitakse, seda täpsemaid ja asjakohasemaid andmeid on selle tulemusel võimalik saada.

A/B testimine. Tehnika, mille puhul võrreldakse kontrollproovi vaheldumisi teistega. Seega on võimalik välja selgitada optimaalne indikaatorite kombinatsioon, et saavutada näiteks tarbijate parim reaktsioon turunduspakkumisele. Suured andmed võimaldavad teil läbi viia tohutul hulgal iteratsioone ja saada seega statistiliselt usaldusväärse tulemuse.

Ühingureeglite õppimine. Seoste tuvastamise tehnikate kogum, s.o. suurte andmehulkade muutujate vahelise seose reeglid. Kasutatakse andmete kaevandamine.

Klassifikatsioon. Tehnikakomplekt, mis võimaldab ennustada tarbija käitumist teatud turusegmendis (ostuotsused, ostuotsused, tarbimismaht jne). Kasutatakse andmete kaevandamine.

Klasteranalüüs. Statistiline meetod objektide rühmadesse klassifitseerimiseks, tuvastades varem tundmatud ühised tunnused. Kasutatakse andmete kaevandamine.

Crowdsourcing. Paljudest allikatest andmete kogumise metoodika.

Andmete liitmine ja andmete integreerimine. Tehnikakomplekt, mis võimaldab analüüsida sotsiaalvõrgustike kasutajate kommentaare ja võrrelda neid reaalajas müügitulemustega.

Andmete kaevandamine. Tehnikakomplekt, mis võimaldab teil määrata reklaamitava toote või teenuse suhtes kõige vastuvõtlikumad tarbijakategooriad, tuvastada kõige edukamate töötajate omadused ja ennustada tarbijate käitumismudelit.

Ansambliõpe. See meetod kasutab paljusid ennustavaid mudeleid, parandades seeläbi tehtud prognooside kvaliteeti.

Geneetilised algoritmid. Selles tehnikas on võimalikud lahendused esindatud "kromosoomide" kujul, mida saab kombineerida ja muteerida. Nagu loomuliku evolutsiooni käigus, jääb ellu kõige vormikam inimene.

Masinõpe. Arvutiteaduse suund (ajalooliselt on sellele antud nimetus “tehisintellekt”), mille eesmärk on luua empiiriliste andmete analüüsil põhinevaid iseõppivaid algoritme.

Loomuliku keele töötlemine (NLP). Informaatikast ja lingvistikast laenatud tehnikate kogum loomuliku inimkeele äratundmiseks.

Võrgu analüüs. Tehnikakomplekt võrkude sõlmede vaheliste ühenduste analüüsimiseks. Seoses sotsiaalvõrgustikega võimaldab see analüüsida üksikute kasutajate, ettevõtete, kogukondade jne vahelisi suhteid.

Optimeerimine. Numbriliste meetodite komplekt keerukate süsteemide ja protsesside ümberkujundamiseks, et parandada üht või mitut mõõdikut. Aitab teha strateegilisi otsuseid, näiteks turule toodava tootesarja koosseis, investeeringute analüüsi tegemine jne.

Mustri äratundmine. Iseõppivate elementidega tehnikate kogum tarbijate käitumismudeli ennustamiseks.

Ennustav modelleerimine. Tehnikakomplekt, mis võimaldab luua sündmuste arengu ettemääratud tõenäolise stsenaariumi matemaatilise mudeli. Näiteks CRM-süsteemi andmebaasi analüüs võimalike tingimuste osas, mis sunnivad tellijaid teenusepakkujat vahetama.

Regressioon. Statistiliste meetodite kogum sõltuva muutuja muutuste ja ühe või mitme sõltumatu muutuja vahelise mustri tuvastamiseks. Sageli kasutatakse ennustamiseks ja ennustamiseks. Kasutatakse andmekaevanduses.

Tundeanalüüs. Tarbijate meeleolude hindamise tehnikad põhinevad loomuliku keele tuvastamise tehnoloogiatel. Need võimaldavad isoleerida huvipakkuva teemaga (näiteks tarbekaubaga) seotud sõnumid üldisest infovoost. Järgmisena hinnake otsuse polaarsust (positiivne või negatiivne), emotsionaalsuse astet jne.

Signaali töötlemine. Raadiotehnikast laenatud tehnikate kogum, mille eesmärk on signaali tuvastamine müra taustal ja selle edasine analüüs.

Ruumianalüüs. Osaliselt statistikast laenatud meetodite kogum ruumiandmete analüüsimiseks – maastiku topoloogia, geograafilised koordinaadid, objekti geomeetria. Allikas Suured andmed Sel juhul kasutatakse sageli geograafilisi infosüsteeme (GIS).

  • Revolution Analytics (matemaatilise statistika R-keele alusel).

Selles loendis pakub erilist huvi Apache Hadoop, avatud lähtekoodiga tarkvara, mida enamik aktsiajälgijaid on viimase viie aasta jooksul andmeanalüsaatorina tõestanud. Niipea, kui Yahoo avas Hadoopi koodi avatud lähtekoodiga kogukonnale, ilmus IT-tööstuses kohe terve Hadoopil põhinevate toodete loomise liikumine. Peaaegu kõik kaasaegsed analüüsivahendid Suured andmed pakkuda Hadoopi integreerimistööriistu. Nende arendajad on nii idufirmad kui ka tuntud globaalsed ettevõtted.

Suurandmete halduslahenduste turud

Suurandmete platvormid (BDP, Big Data Platform) kui vahend digitaalse hordeerimise vastu võitlemiseks

Analüüsivõime Suured andmed, mida kõnekeeles nimetatakse Big Dataks, peetakse kasuks ja seda üheselt. Aga kas see on tõesti nii? Milleni võib tohutu andmete kogunemine kaasa tuua? Tõenäoliselt seda, mida kodumaised psühholoogid inimestega seoses nimetavad patoloogiliseks kogunemiseks, süllogomaaniaks või piltlikult öeldes "Pljuškini sündroomiks". Inglise keeles nimetatakse tigedat kirge kõike koguda hordingiks (inglise keelest hoard - “stock”). Psüühiliste haiguste klassifikatsiooni järgi liigitatakse hording psüühikahäireks. Digiajastul lisandub traditsioonilisele materjalikogumisele digitaalne kogumine, mis võib mõjutada nii üksikisikuid kui ka terveid ettevõtteid ja organisatsioone ().

Maailma ja Venemaa turg

Suurandmed Maastik – peamised tarnijad

Huvi kogumise, töötlemise, haldamise ja analüüsi tööriistade vastu Suured andmed Seda näitasid peaaegu kõik juhtivad IT-ettevõtted, mis on üsna loomulik. Esiteks puutuvad nad selle nähtusega vahetult kokku oma äris ja teiseks Suured andmed avavad suurepärased võimalused uute turuniššide arendamiseks ja uute klientide meelitamiseks.

Turule on ilmunud palju idufirmasid, mis teevad äri tohutute andmemahtude töötlemisega. Mõned neist kasutavad valmis pilveinfrastruktuuri, mida pakuvad suured mängijad, nagu Amazon.

Suurandmete teooria ja praktika tööstusharudes

Arengu ajalugu

2017

TmaxSofti prognoos: järgmine suurandmete "laine" nõuab DBMS-i moderniseerimist

Ettevõtted teavad, et tohutud andmemahud, mida nad koguvad, sisaldavad olulist teavet nende ettevõtte ja klientide kohta. Kui ettevõte suudab seda teavet edukalt rakendada, on tal konkurentide ees märkimisväärne eelis ning ta suudab pakkuda omast paremaid tooteid ja teenuseid. Paljud organisatsioonid ei suuda siiski tõhusalt kasutada Suured andmed kuna nende pärand IT-infrastruktuur ei suuda pakkuda vajalikku salvestusmahtu, andmevahetusprotsesse, utiliite ja rakendusi, mis on vajalikud suure hulga struktureerimata andmete töötlemiseks ja analüüsimiseks, et neist väärtuslikku teavet ammutada, märkis TmaxSoft.

Lisaks võib järjest suurenevate andmemahtude analüüsimiseks vajalik suurenenud töötlemisvõimsus nõuda märkimisväärseid investeeringuid organisatsiooni pärandi IT-infrastruktuuri ning täiendavaid hooldusressursse, mida saaks kasutada uute rakenduste ja teenuste arendamiseks.

5. veebruaril 2015 avaldas Valge Maja aruande, milles arutati, kuidas ettevõtted kasutavad " Suured andmed» nõuda erinevatelt klientidelt erinevaid hindu, mida nimetatakse hinnadiskrimineerimiseks või isikupärastatud hinnakujunduseks. Aruandes kirjeldatakse suurandmete eeliseid nii müüjatele kui ka ostjatele ning selle autorid järeldavad, et paljusid suurandmete ja erineva hinnakujundusega seotud probleeme saab lahendada olemasolevate tarbijaõigusi kaitsvate diskrimineerimisvastaste seaduste ja määrustega.

Aruandes märgitakse, et praegu on ainult anekdootlikke tõendeid selle kohta, kuidas ettevõtted kasutavad suuri andmeid isikupärastatud turunduse ja diferentseeritud hinnakujunduse kontekstis. See teave näitab, et müüjad kasutavad hinnakujundusmeetodeid, mida saab jagada kolme kategooriasse.

  • nõudluskõvera uurimine;
  • Demograafilistel andmetel põhinev juhtimine ja diferentseeritud hinnakujundus; Ja
  • suunatud käitumuslik turundus (käitumuslik sihtimine) ja individuaalne hinnakujundus.

Nõudluskõvera uurimine: nõudluse kindlaksmääramiseks ja tarbijate käitumise uurimiseks viivad turundajad selles valdkonnas sageli läbi eksperimente, kus kliendid määratakse juhuslikult ühte kahest võimalikust hinnakategooriast. "Tehniliselt on need katsed erineva hinnakujunduse vorm, kuna nende tulemuseks on klientide jaoks erinevad hinnad, isegi kui need on "mittediskrimineerivad" selles mõttes, et kõigil klientidel on sama tõenäosus, et "saadetakse" kõrgemale hinnale.

Juhtimine: See on tava, kus tarbijatele tooteid esitletakse nende kuuluvuse alusel teatud demograafilisse rühma. Näiteks võib arvutiettevõtte veebisait pakkuda sama sülearvutit erinevat tüüpi klientidele erinevate hindadega nende enda esitatud teabe põhjal (nt olenevalt sellest, kas kasutaja on valitsus-, akadeemiline või ärikasutaja või üksikisik) või nende geograafilisest asukohast (määratud näiteks arvuti IP-aadressi järgi).

Sihitud käitumuslik turundus ja kohandatud hinnakujundus: sellistel juhtudel kasutatakse klientide isikuandmeid teatud toodete reklaamide sihtimiseks ja hinnakujunduse kohandamiseks. Näiteks kasutavad veebireklaamijad oma reklaamide sihtimiseks andmeid, mis on kogutud reklaamivõrgustike ja kolmandate osapoolte küpsiste kaudu veebikasutajate tegevuse kohta. Ühest küljest võimaldab selline lähenemine tarbijatel saada neile huvipakkuvate kaupade ja teenuste reklaami. See võib aga tekitada muret nendele tarbijatele, kes ei soovi teatud tüüpi isikuandmeid (nt teavet veebisaitide külastuste kohta). seotud meditsiini- ja finantsküsimustega) koguti ilma nende nõusolekuta.

Kuigi suunatud käitumuslik turundus on laialt levinud, on veebikeskkonnas isikupärastatud hinnakujunduse kohta suhteliselt vähe tõendeid. Aruandes oletatakse, et see võib olla tingitud sellest, et meetodeid alles arendatakse, või sellest, et ettevõtted kõhklevad kohandatud hinnakujunduse kasutamisel (või eelistavad sellest vaikida) – võib-olla kartes tarbijate vastureaktsiooni.

Aruande autorid viitavad sellele, et "üksiktarbija jaoks kujutab suurandmete kasutamine selgelt endast nii potentsiaalset kasu kui ka riske." Mööndes, et suurandmed tõstavad läbipaistvuse ja diskrimineerimisega seotud probleeme, väidetakse raportis, et olemasolevad diskrimineerimisvastased ja tarbijakaitseseadused on nende lahendamiseks piisavad. Aruandes rõhutatakse aga ka vajadust pideva järelevalve järele, kui ettevõtted kasutavad tundlikku teavet viisil, mis ei ole läbipaistev või mida olemasolevad reguleerivad raamistikud ei hõlma.

See aruanne jätkab Valge Maja püüdlusi uurida suurandmete kasutamist ja diskrimineerivat hinnakujundust Internetis ning sellest tulenevaid tagajärgi Ameerika tarbijatele. Varem teatati, et Valge Maja suurandmete töörühm avaldas oma raporti selles küsimuses 2014. aasta mais. Föderaalne kaubanduskomisjon (FTC) käsitles neid küsimusi ka oma 2014. aasta septembris toimunud suurandmete diskrimineerimist käsitleval seminaril.

2014

Gartner lükkab ümber müüdid suurandmete kohta

Gartneri 2014. aasta sügiseses uurimuses loetletakse IT-juhtide seas palju levinud Big Data müüte ja esitatakse neile ümberlükkamisi.

  • Kõik rakendavad suurandmete töötlemise süsteeme meist kiiremini

Huvi suurandmete tehnoloogiate vastu on kõigi aegade kõrgeim: 73% Gartneri analüütikute poolt sel aastal küsitletud organisatsioonidest juba investeerib või plaanib seda teha. Kuid enamik neist algatustest on alles väga algusjärgus ja ainult 13% vastanutest on selliseid lahendusi juba rakendanud. Kõige keerulisem on kindlaks teha, kuidas Big Datast tulu ammutada, otsustada, kust alustada. Paljud organisatsioonid takerduvad katsefaasi, sest nad ei suuda uut tehnoloogiat konkreetsete äriprotsessidega siduda.

  • Meil on nii palju andmeid, et pole vaja karta nendes leiduvate pisivigade pärast

Mõned IT-juhid usuvad, et väikesed andmevead ei mõjuta tohutute mahtude analüüsi üldtulemusi. Kui andmeid on palju, mõjutab iga üksik viga tulemust tegelikult vähem, märgivad analüütikud, kuid ka vead ise muutuvad arvukamaks. Lisaks on suurem osa analüüsitavatest andmetest välised, teadmata struktuuri või päritoluga, mistõttu vigade tõenäosus suureneb. Nii et suurandmete maailmas on kvaliteet tegelikult palju olulisem.

  • Suurandmete tehnoloogiad kaotavad andmete integreerimise vajaduse

Big Data lubab võimet töödelda andmeid algses vormingus, automaatse skeemi genereerimisega nende lugemise ajal. Arvatakse, et see võimaldab samadest allikatest pärinevat teavet analüüsida mitme andmemudeli abil. Paljud usuvad, et see võimaldab ka lõppkasutajatel tõlgendada mis tahes andmekogumit oma äranägemise järgi. Tegelikkuses soovib enamik kasutajaid sageli traditsioonilist teed, kus on valmis skeem, kus andmed on õigesti vormindatud ja on kokku lepitud teabe terviklikkuse taseme ja selle kohta, kuidas see peaks seostuma kasutusjuhtumiga.

  • Keerulise analüüsi jaoks pole mõtet kasutada andmeladusid

Paljud infohaldussüsteemide administraatorid leiavad, et andmelao loomisele pole mõtet aega kulutada, kuna keerulised analüütilised süsteemid tuginevad uut tüüpi andmetele. Tegelikult kasutavad paljud keerulised analüüsisüsteemid andmelaost pärinevat teavet. Muudel juhtudel tuleb Big Data töötlemissüsteemides analüüsimiseks täiendavalt ette valmistada uut tüüpi andmed; tuleb teha otsuseid andmete sobivuse, koondamise põhimõtete ja nõutava kvaliteeditaseme üle – selline ettevalmistus võib toimuda väljaspool ladu.

  • Andmelaod asendatakse andmejärvedega

Tegelikkuses eksitavad müüjad kliente, positsioneerides andmejärved salvestusruumi asenduseks või analüütilise infrastruktuuri kriitiliste elementidena. Aluseks olevatel andmejärve tehnoloogiatel puudub ladudes leiduv funktsionaalsuse küpsus ja laius. Seetõttu peaksid andmehalduse eest vastutavad juhid Gartneri sõnul ootama, kuni järved jõuavad samale arengutasemele.

Accenture: 92% suurandmesüsteemide juurutajatest on tulemustega rahul

Suurandmete peamiste eeliste hulgas nimetasid vastajad:

  • "uute sissetulekuallikate otsimine" (56%),
  • "kliendikogemuse parandamine" (51%),
  • "uued tooted ja teenused" (50%) ja
  • "uute klientide juurdevool ja vanade klientide lojaalsuse säilitamine" (47%).

Uute tehnoloogiate juurutamisel seisavad paljud ettevõtted silmitsi traditsiooniliste probleemidega. 51% jaoks oli komistuskiviks turvalisus, 47% jaoks - eelarve, 41% - vajaliku personali puudumine ja 35% - raskused integreerumisel olemasoleva süsteemiga. Peaaegu kõik küsitletud ettevõtted (umbes 91%) plaanivad peagi lahendada personalipuuduse probleemi ja palgata suurandmete spetsialiste.

Ettevõtted on suurandmete tehnoloogiate tuleviku suhtes optimistlikud. 89% usub, et nad muudavad äri sama palju kui Internet. 79% vastanutest märkis, et ettevõtted, kes suurandmetega ei tegele, kaotavad oma konkurentsieelise.

Vastajad aga ei nõustunud sellega, mida täpselt suurandmeteks pidada. 65% vastanutest usub, et need on "suured andmefailid", 60% usuvad, et see on "täiustatud analüüs ja analüüs" ja 50% usub, et see on "andmete visualiseerimise tööriistad".

Madrid kulutab suurandmete haldamisele 14,7 miljonit eurot

2014. aasta juulis sai teatavaks, et Madrid hakkab linna infrastruktuuri haldamiseks kasutama suurandmetehnoloogiaid. Projekti maksumus on 14,7 miljonit eurot, rakendatavate lahenduste aluseks on suurandmete analüüsi ja haldamise tehnoloogiad. Nende abiga juhib linnavalitsus tööd iga teenusepakkujaga ja maksab vastavalt teenuse tasemest lähtuvalt.

Jutt on haldustöövõtjatest, kes jälgivad tänavate, valgustuse, kastmise, haljasalade seisukorda, korrastavad territooriumi ja veavad ära, samuti jäätmete taaskasutusse. Projekti käigus töötati spetsiaalselt selleks määratud inspektoritele välja 300 linnateenuste põhinäitajat, mille alusel viiakse igapäevaselt läbi 1,5 tuhat erinevat kontrolli ja mõõtmist. Lisaks hakkab linn kasutama uuenduslikku tehnoloogiaplatvormi Madrid iNTeligente (MiNT) - Targem Madrid.

2013

Eksperdid: suurandmed on haripunktis

Eranditult töötavad kõik andmehaldusturu müüjad praegu välja suurandmete haldamise tehnoloogiaid. Seda uut tehnoloogilist suundumust arutab aktiivselt ka professionaalne ringkond, nii arendajad ja tööstuse analüütikud kui ka selliste lahenduste potentsiaalsed tarbijad.

Nagu Datashift avastas, oli 2013. aasta jaanuari seisuga arutelude laine " Suured andmed"ületas kõik mõeldavad mõõtmed. Pärast sotsiaalvõrgustikes Big Data mainimiste arvu analüüsimist arvutas Datashift välja, et 2012. aastal kasutati seda terminit umbes 2 miljardit korda postitustes, mille on loonud umbes 1 miljon erinevat autorit üle maailma. See võrdub 260 postitusega tunnis, tipptasemel on 3070 mainimist tunnis.

Gartner: iga teine ​​CIO on valmis suurandmetele raha kulutama

Pärast mitut aastat kestnud katsetamist Big data tehnoloogiatega ja esimesi juurutusi 2013. aastal suureneb selliste lahenduste kohandamine oluliselt, prognoosib Gartner. Teadlased küsitlesid IT-juhte üle maailma ja leidsid, et 42% vastanutest on juba investeerinud suurandmete tehnoloogiatesse või plaanivad selliseid investeeringuid teha järgmise aasta jooksul (2013. aasta märtsi seisuga).

Ettevõtted on sunnitud kulutama raha töötlemistehnoloogiatele Suured andmed, kuna infomaastik muutub kiiresti, mis nõuab uusi lähenemisi teabe töötlemisele. Paljud ettevõtted on juba aru saanud, et suured andmemahud on kriitilise tähtsusega ning nendega töötamine võimaldab neil saavutada kasu, mida traditsiooniliste teabeallikate ja nende töötlemise meetodite abil ei saa. Lisaks õhutab meedias pidev arutelu “suurandmete” teema üle huvi asjakohaste tehnoloogiate vastu.

Gartneri asepresident Frank Buytendijk kutsus ettevõtteid isegi üles oma jõupingutusi vähendama, kuna mõned kardavad, et nad jäävad suurandmete kasutuselevõtul konkurentidest maha.

„Suurandmete tehnoloogiatel põhinevate ideede elluviimise võimalused on praktiliselt lõputud,“ ütles ta.

Gartner ennustab, et aastaks 2015 keskendub 20% ülemaailmsetest 1000 ettevõtetest strateegiliselt teabe infrastruktuurile.

Suure andmetöötlustehnoloogiaga kaasnevate uute võimaluste ootuses korraldavad paljud organisatsioonid juba praegu erinevat tüüpi teabe kogumise ja säilitamise protsessi.

Haridus-, valitsus- ja tööstusorganisatsioonide jaoks peitub suurim potentsiaal ettevõtte ümberkujundamiseks akumuleeritud andmete kombineerimises niinimetatud tumedate andmetega (sõna otseses mõttes "tumedate andmetega"), viimased hõlmavad meilisõnumeid, multimeediat ja muud sarnast sisu. Gartneri sõnul võidavad andmejooksus need, kes õpivad käsitlema erinevaid teabeallikaid.

Cisco uuring: suurandmed aitavad suurendada IT-eelarveid

2013. aasta kevadises Cisco Connected World Technology Reportis, mille viis läbi 18 riigis sõltumatu uuringufirma InsightExpress, küsitleti 1800 kolledži üliõpilast ja sama palju noori spetsialiste vanuses 18–30 aastat. Küsitlus viidi läbi IT-osakondade valmisoleku taseme väljaselgitamiseks projektide elluviimiseks Suured andmed ning saada ülevaade selliste projektidega kaasnevatest väljakutsetest, tehnoloogilistest puudujääkidest ja strateegilisest väärtusest.

Enamik ettevõtteid kogub, salvestab ja analüüsib andmeid. Aruandes öeldakse aga, et paljud ettevõtted seisavad suurte andmetega silmitsi mitmesuguste keerukate äri- ja infotehnoloogiaprobleemidega. Näiteks 60 protsenti vastanutest tunnistab, et Big Data lahendused võivad parandada otsustusprotsesse ja tõsta konkurentsivõimet, kuid vaid 28 protsenti ütles, et saavad kogunenud infost juba reaalset strateegilist kasu.

Enam kui pooled küsitletud IT-juhtidest usuvad, et suurandmete projektid aitavad suurendada nende organisatsioonide IT-eelarveid, kuna kasvavad nõudmised tehnoloogiale, personalile ja kutseoskustele. Samas eeldavad üle poole vastanutest, et sellised projektid suurendavad nende ettevõtete IT-eelarveid juba 2012. aastast. 57 protsenti on kindlad, et Big Data suurendab järgmise kolme aasta jooksul oma eelarvet.

81 protsenti vastanutest ütles, et kõik (või vähemalt mõned) suurandmete projektid nõuavad pilvandmetöötluse kasutamist. Seega võib pilvetehnoloogiate levik mõjutada Big Data lahenduste kasutuselevõtu kiirust ja nende lahenduste ärilist väärtust.

Ettevõtted koguvad ja kasutavad palju erinevat tüüpi andmeid, nii struktureeritud kui ka struktureerimata. Siin on allikad, kust uuringus osalejad oma andmed saavad (Cisco Connected World Technology Report):

Ligi pooled (48 protsenti) IT-juhtidest ennustavad, et nende võrkude koormus kahekordistub järgmise kahe aasta jooksul. (Eelkõige kehtib see Hiinas, kus jagab seda seisukohta 68 protsenti vastanutest, ja Saksamaal – 60 protsenti). 23 protsenti vastanutest eeldab, et võrgu koormus kolmekordistub järgmise kahe aasta jooksul. Samal ajal teatas vaid 40 protsenti vastanutest, et on valmis võrguliikluse mahtude plahvatuslikuks kasvuks.

27 protsenti vastanutest tunnistas, et vajavad paremaid IT-poliitikaid ja infoturbemeetmeid.

21 protsenti vajab rohkem ribalaiust.

Big Data avab IT-osakondadele uued võimalused lisandväärtuse loomiseks ja tugevate suhete loomiseks äriüksustega, võimaldades neil suurendada tulusid ja tugevdada ettevõtte finantspositsiooni. Big Data projektid muudavad IT-osakonnad äriosakondade strateegiliseks partneriks.

73 protsendi vastanute hinnangul saab IT-osakond Big Data strateegia elluviimise peamiseks veduriks. Samas usuvad vastajad, et selle strateegia elluviimisse kaasatakse ka teisi osakondi. Esiteks puudutab see finantsosakonda (nimetas 24 protsenti vastanutest), teadus- ja arendusosakonda (20 protsenti), operatiivosakonda (20 protsenti), inseneriteadusi (19 protsenti), aga ka turundust (15 protsenti) ja müüki ( 14 protsenti).

Gartner: Suurandmete haldamiseks on vaja miljoneid uusi töökohti

Ülemaailmsed IT-kulutused ulatuvad 2013. aastaks 3,7 miljardi dollarini, mis on 3,8% rohkem kui 2012. aasta kulutused infotehnoloogiale (aasta lõpu prognoos on 3,6 miljardit dollarit). Segment Suured andmed(suurandmed) arenevad palju kiiremini, öeldakse Gartneri raportis.

2015. aastaks luuakse suurandmete teenindamiseks infotehnoloogia valdkonnas 4,4 miljonit töökohta, millest 1,9 miljonit on . Veelgi enam, iga selline töökoht toob endaga kaasa kolme täiendava töökoha loomise väljaspool IT-sektorit, nii et ainuüksi USA-s töötab järgmise nelja aasta jooksul infomajanduse toetamise nimel 6 miljonit inimest.

Gartneri ekspertide sõnul on põhiprobleem selles, et tööstuses pole selleks piisavalt talente: nii era- kui ka avalik haridussüsteem ei suuda näiteks USA-s varustada tööstust piisava hulga kvalifitseeritud tööjõuga. . Nii et uutest mainitud IT-töökohtadest saab mehitada vaid üks kolmest.

Analüütikud usuvad, et kvalifitseeritud IT-töötajate kasvatamise rolli peaksid võtma otse ettevõtted, kes neid kiiresti vajavad, sest sellised töötajad on nende pilet uude tuleviku infomajandusse.

2012

Esimene skeptitsism "Big Data" suhtes

Ovumi ja Gartneri analüütikud soovitavad moeka teema jaoks 2012. a Suured andmed Võib tulla aeg vabastada end illusioonidest.

Mõiste "suured andmed" viitab praegu tavaliselt üha suurenevale teabehulgale, mis voolab võrgus sotsiaalmeediast, andurite võrkudest ja muudest allikatest, samuti kasvavale hulgale tööriistadele, mida kasutatakse andmete töötlemiseks ja ettevõtte jaoks oluliste andmete tuvastamiseks. sellest.

"Suurandmete idee ümber leviva hüppe tõttu (või vaatamata sellele) vaatasid tootjad 2012. aastal seda suundumust suure lootusega," ütles Ovumi analüütik Tony Bayer.

Bayer teatas, et DataSift viis aastal läbi suurandmete mainimiste retrospektiivse analüüsi