Suurandmed kui tööriist. Mis on suurandmed: kogusime suurandmete kohta kõik olulisemad asjad. Suurandmete analüüsi tehnikad

Tavaliselt, kui nad räägivad tõsisest analüütilisest töötlemisest, eriti kui nad kasutavad terminit Data Mining, siis nad mõtlevad, et andmeid on tohutult. Üldiselt see nii ei ole, kuna üsna sageli peate töötlema väikeseid andmekogumeid ja nendes mustrite leidmine pole lihtsam kui sadades miljonites kirjetes. Kuigi pole kahtlustki, et vajadus suurtest andmebaasidest mustreid otsida raskendab niigi mittetriviaalset analüüsiülesannet.

Selline olukord on eriti tüüpiline jaekaubanduse, telekommunikatsiooni, pankade ja Internetiga seotud ettevõtetele. Nende andmebaasidesse koguneb tohutul hulgal tehingutega seotud teavet: tšekid, maksed, kõned, logid jne.

Puuduvad universaalsed analüüsimeetodid või algoritmid, mis sobiksid kõikide juhtumite ja igasuguse teabe jaoks. Andmeanalüüsi meetodid erinevad oluliselt jõudluse, tulemuste kvaliteedi, kasutuslihtsuse ja andmenõuete poolest. Optimeerimist saab läbi viia erinevatel tasanditel: seadmed, andmebaasid, analüütiline platvorm, lähteandmete ettevalmistamine, spetsiaalsed algoritmid. Suure andmemahu analüüs nõuab erilist lähenemist, sest... Nende töötlemine ainult “toore jõu” abil on tehniliselt keeruline, s.t. kasutades võimsamaid seadmeid.

Loomulikult on tänu tõhusamale seadmestikule võimalik andmetöötluse kiirust tõsta, seda enam, et kaasaegsetes serverites ja tööjaamades kasutatakse mitmetuumalisi protsessoreid, märkimisväärset RAM-i ja võimsaid kettamassiivid. Siiski on suurte andmemahtude töötlemiseks palju muid viise, mis võimaldavad suuremat skaleeritavust ega nõua lõputuid riistvarauuendusi.

DBMS-i võimalused

Kaasaegsed andmebaasid sisaldavad erinevaid mehhanisme, mille kasutamine suurendab oluliselt analüütilise töötlemise kiirust:

Esialgsete andmete arvutamine. Analüüsiks kõige sagedamini kasutatavat teavet saab eelnevalt välja arvutada (näiteks öösel) ja salvestada andmebaasiserveris töötlemiseks ettevalmistatud kujul mitmemõõtmeliste kuubikute, materialiseeritud vaadete ja spetsiaalsete tabelite kujul.
Tabelite vahemällu salvestamine RAM-i. Andmeid, mis võtavad vähe ruumi, kuid millele analüüsiprotsessi käigus sageli juurde pääsete, näiteks kataloogid, saab andmebaasitööriistade abil vahemällu salvestada RAM-i. See vähendab kõnesid aeglasemale ketta alamsüsteemile mitu korda.
Tabelite jagamine vaheseinteks ja tabeliruumideks. Andmeid, indekseid ja abitabeleid saate paigutada eraldi ketastele. See võimaldab DBMS-il lugeda ja kirjutada teavet ketastele paralleelselt. Lisaks saab tabeleid jagada partitsioonideks, nii et andmetele juurdepääsul oleks minimaalne kettatoimingute arv. Näiteks kui analüüsime kõige sagedamini viimase kuu andmeid, siis saame loogiliselt kasutada ühte tabelit ajalooliste andmetega, kuid jagada need füüsiliselt mitmeks partitsiooniks, nii et kuuandmetele juurdepääsul loetakse väike partitsioon ja juurdepääsud puuduvad. kõigile ajaloolistele andmetele.

See on vaid osa kaasaegsete DBMS-ide pakutavatest võimalustest. Andmebaasist teabe hankimise kiirust saab suurendada veel kümnel muul viisil: ratsionaalne indekseerimine, päringuplaanide koostamine, SQL päringute paralleelne töötlemine, klastrite kasutamine, analüüsitud andmete ettevalmistamine andmebaasiserveri poolel olevate salvestatud protseduuride ja trigerite abil jne. . Lisaks saab paljusid neist mehhanismidest kasutada mitte ainult "raskete" DBMS-ide, vaid ka tasuta andmebaaside abil.

Mudelite kombineerimine

Kiiruse suurendamise võimalused ei piirdu ainult andmebaasi jõudluse optimeerimisega, palju saab ära teha erinevate mudelite kombineerimisega. On teada, et töötlemiskiirus on oluliselt seotud kasutatava matemaatilise aparaadi keerukusega. Mida lihtsamaid analüüsimehhanisme kasutatakse, seda kiiremini andmeid analüüsitakse.

Andmetöötlusstsenaariumi on võimalik konstrueerida nii, et andmed “jookstakse” läbi mudelite sõela. Siin kehtib lihtne idee: ärge raisake aega selle töötlemisele, mida teil pole vaja analüüsida.

Kõigepealt kasutatakse lihtsamaid algoritme. Osa andmetest, mida saab selliste algoritmide abil töödelda ja mida keerulisemate meetoditega on mõttetu töödelda, analüüsitakse ja jäetakse edasisest töötlemisest välja. Ülejäänud andmed kantakse üle järgmisse töötlemisetappi, kus kasutatakse keerulisemaid algoritme ja nii edasi ahelas allapoole. Töötlemisskripti viimases sõlmes kasutatakse kõige keerukamaid algoritme, kuid analüüsitavate andmete maht on kordades väiksem kui esialgsel valimil. Selle tulemusena väheneb kõigi andmete töötlemiseks kuluv koguaeg suurusjärgu võrra.

Toome selle lähenemisviisi kasutamise praktilise näite. Nõudluse prognoosimise probleemi lahendamisel on esialgu soovitatav läbi viia XYZ analüüs, mis võimaldab kindlaks teha, kui stabiilne on nõudlus erinevate kaupade järele. X grupi tooteid müüakse üsna järjepidevalt, seega võimaldab neile prognoosialgoritmide rakendamine saada kvaliteetse prognoosi. Y rühma tooteid müüakse vähem järjepidevalt, võib-olla tasub neile mudeleid ehitada mitte iga artikli, vaid grupi jaoks, see võimaldab aegridu siluda ja prognoosialgoritmi toimimist tagada. Z-grupi tooteid müüakse kaootiliselt, seega pole nende jaoks üldse vaja ennustavaid mudeleid koostada, arvutada nende vajadus lihtsate valemite alusel, näiteks kuu keskmine müük.

Statistika kohaselt moodustavad umbes 70% sortimendist Z rühma tooted. Veel umbes 25% moodustavad Y rühma tooted ja ainult umbes 5% on rühma X tooted. Seega on keerukate mudelite konstrueerimine ja rakendamine oluline. maksimaalselt 30% toodetest. Seetõttu vähendab ülalkirjeldatud lähenemisviisi kasutamine analüüsiks ja prognoosimiseks kuluvat aega 5–10 korda.

Paralleelne töötlemine

Teine tõhus strateegia suurte andmemahtude töötlemiseks on andmete jagamine segmentideks ja mudelite koostamine iga segmendi jaoks eraldi, seejärel tulemuste kombineerimine. Kõige sagedamini saab suurte andmemahtude korral tuvastada mitu üksteisest erinevat alamhulka. Need võivad olla näiteks klientide rühmad, sarnaselt käituvad tooted, mille jaoks on soovitav ehitada üks mudel.

Sel juhul saate kõigi jaoks ühe keeruka mudeli ehitamise asemel ehitada iga segmendi jaoks mitu lihtsat mudelit. See lähenemisviis võimaldab teil suurendada analüüsi kiirust ja vähendada mäluvajadust, töötledes väiksemaid andmehulki ühe käiguga. Lisaks saab sel juhul paralleelselt analüütilist töötlemist, millel on ka positiivne mõju ajakulule. Lisaks saavad erinevad analüütikud iga segmendi jaoks mudeleid ehitada.

Lisaks kiiruse suurendamisele on sellel lähenemisel veel üks oluline eelis – mitut suhteliselt lihtsat mudelit eraldi on lihtsam luua ja hooldada kui ühte suurt. Saate mudeleid käitada etapiviisiliselt, saades nii esimesed tulemused võimalikult lühikese ajaga.

Esinduslikud näidised

Kui saadaval on suured andmemahud, ei saa mudeli koostamiseks kasutada kogu teavet, vaid teatud alamhulka – esinduslikku valimit. Korrektselt koostatud esinduslik näidis sisaldab kvaliteetse mudeli koostamiseks vajalikku teavet.

Analüütiline töötlemisprotsess jaguneb 2 osaks: mudeli koostamine ja konstrueeritud mudeli rakendamine uutele andmetele. Kompleksse mudeli ehitamine on ressursimahukas protsess. Olenevalt kasutatavast algoritmist salvestatakse andmed vahemällu, skaneeritakse tuhandeid kordi, arvutatakse palju abiparameetreid jne. Juba ehitatud mudeli rakendamine uutele andmetele nõuab kümneid ja sadu kordi vähem ressursse. Väga sageli taandub see mõne lihtsa funktsiooni arvutamisele.

Seega, kui mudel on üles ehitatud suhteliselt väikestele kogumitele ja rakendatakse seejärel kogu andmekogumile, väheneb tulemuse saamiseks kuluv aeg suurusjärkude võrra võrreldes katsega kogu olemasolevat andmekogumit täielikult töödelda.

Esinduslike proovide saamiseks on spetsiaalsed meetodid, näiteks proovide võtmine. Nende kasutamine võimaldab tõsta analüütilise töötlemise kiirust ilma analüüsi kvaliteeti ohverdamata.

Jätka

Kirjeldatud lähenemisviisid on vaid väike osa meetoditest, mis võimaldavad analüüsida tohutuid andmemahtusid. On ka teisi meetodeid, näiteks spetsiaalsete skaleeritavate algoritmide kasutamine, hierarhilised mudelid, aknaõpe jne.

Hiiglaslike andmebaaside analüüsimine on mittetriviaalne ülesanne, mida enamikul juhtudel ei ole võimalik lahendada, kuid kaasaegsed andmebaasid ja analüütilised platvormid pakuvad selle probleemi lahendamiseks palju meetodeid. Targal kasutamisel on süsteemid võimelised töötlema terabaite andmeid vastuvõetava kiirusega.

Mõiste "suured andmed" võib tänapäeval olla äratuntav, kuid selle ümber on endiselt üsna segadust, mida see tegelikult tähendab. Tõepoolest, mõiste areneb pidevalt ja seda määratletakse uuesti, kuna see on jätkuvalt paljude käimasolevate digitaalse transformatsiooni lainete, sealhulgas tehisintellekti, andmeteaduse ja asjade interneti liikumapanev jõud. Mis on aga suurandmete tehnoloogia ja kuidas see meie maailma muudab? Proovime mõista Big Data tehnoloogia olemust ja selle tähendust lihtsate sõnadega.

Kõik sai alguse meie loodud andmemahu plahvatuslikust kasvust alates digiajastu koidikust. See on suuresti tingitud arvutite, Interneti ja tehnoloogiate arengust, mis suudavad meid ümbritsevast maailmast andmeid "näppama". Andmed iseenesest ei ole uus leiutis. Juba enne arvutite ja andmebaaside ajastut kasutasime paberkandjal tehingukirjeid, kliendikirjeid ja andmeid moodustavaid arhiivifaile. Arvutid, eriti arvutustabelid ja andmebaasid, on muutnud meie jaoks lihtsaks andmete suuremahulise salvestamise ja korraldamise. Järsku oli teave kättesaadav vaid ühe klõpsuga.

Algsetest tabelitest ja andmebaasidest oleme aga kaugele jõudnud. Täna loome iga kahe päeva tagant nii palju andmeid, kui saime algusest kuni 2000. aastani. Täpselt nii, iga kahe päeva tagant. Ja meie loodud andmete hulk kasvab plahvatuslikult; aastaks 2020 suureneb saadaoleva digitaalse teabe hulk ligikaudu 5 zetabaidilt 20 zetabaidile.

Tänapäeval jätab peaaegu iga meie tegevus oma jälje. Me genereerime andmeid iga kord, kui läheme võrku, kui kanname kaasas oma otsingumootoriga varustatud nutitelefone, kui räägime oma sõpradega suhtlusvõrgustike või vestluste kaudu jne. Lisaks kasvab kiiresti ka masinaga genereeritud andmete hulk. Andmeid genereeritakse ja jagatakse, kui meie nutikodu seadmed suhtlevad omavahel või oma koduserveritega. Tehaste ja tehaste tööstusseadmed on järjest enam varustatud anduritega, mis koguvad ja edastavad andmeid.

Mõiste "suurandmed" viitab kõigi nende andmete kogumisele ja meie võimele kasutada neid enda huvides paljudes valdkondades, sealhulgas äritegevuses.

Kuidas Big-Data tehnoloogia töötab?

Big Data toimib põhimõttel: mida rohkem teate konkreetsest teemast või nähtusest, seda usaldusväärsemalt saate saavutada uue arusaama ja ennustada, mis tulevikus juhtub. Kui me võrdleme rohkem andmepunkte, ilmnevad seosed, mis olid varem peidetud, ning need seosed võimaldavad meil õppida ja teha paremaid otsuseid. Enamasti tehakse seda protsessi kaudu, mis hõlmab mudelite koostamist andmete põhjal, mida saame koguda, ja seejärel simulatsioonide käivitamist, mis kohandavad iga kord andmepunktide väärtusi ja jälgivad, kuidas need meie tulemusi mõjutavad. See protsess on automatiseeritud – kaasaegne analüütikatehnoloogia käivitab miljoneid neid simulatsioone, kohandades kõiki võimalikke muutujaid, kuni nad leiavad mudeli või idee, mis aitab lahendada probleemi, mille kallal nad töötavad.

Bill Gates ripub ühe CD pabersisu kohal

Kuni viimase ajani piirdusid andmed arvutustabelite või andmebaasidega – ja kõik oli väga organiseeritud ja korralik. Kõike, mida ei saanud kergesti ridadeks ja veergudeks korraldada, peeti töötamiseks liiga keeruliseks ja seda eirati. Salvestus- ja analüüsiarengud tähendavad aga seda, et suudame jäädvustada, salvestada ja töödelda suuri koguseid erinevat tüüpi andmeid. Seetõttu võivad tänapäeval mõisted "andmed" tähendada kõike alates andmebaasidest kuni fotode, videote, helisalvestiste, kirjalike tekstide ja andurite andmeteni.

Kõigi nende segaste andmete mõtestamiseks kasutavad suurandmetel põhinevad projektid sageli tehisintellekti ja arvutiõpet kasutades tipptasemel analüütikat. Õpetades arvutusmasinaid määrama, mis konkreetsed andmed on – näiteks mustrituvastuse või loomuliku keele töötlemise abil –, saame õpetada neid mustreid tuvastama palju kiiremini ja usaldusväärsemalt kui ise suudame.

Kuidas suurandmeid kasutatakse?

See pidevalt kasvav anduriandmete, teksti-, hääle-, foto- ja videoandmete voog tähendab, et saame nüüd kasutada andmeid viisil, mida veel paar aastat tagasi poleks osanud ette kujutada. See toob ärimaailma pöördelisi muutusi peaaegu igas tööstusharus. Tänapäeval suudavad ettevõtted uskumatu täpsusega ennustada, millised konkreetsed kliendikategooriad soovivad ostu sooritada ja millal. Samuti aitavad Big Data ettevõtetel oma tegevusi palju tõhusamalt teostada.

Isegi väljaspool äritegevust aitavad suurandmetega seotud projektid meie maailma mitmel viisil muuta:

Tervishoiu parandamine – andmepõhisel meditsiinil on võimalus analüüsida tohutul hulgal meditsiinilist teavet ja pilte mudeliteks, mis aitavad haigusi varajases staadiumis tuvastada ja uusi ravimeid välja töötada.
Loodus- ja inimtegevusest tingitud katastroofide ennustamine ja neile reageerimine. Andurite andmeid saab analüüsida, et ennustada, kus maavärinad tõenäoliselt aset leiavad, ja inimeste käitumismustrid annavad vihjeid, mis aitavad organisatsioonidel ellujäänuid abistada. Big Data tehnoloogiat kasutatakse ka põgenikevoolu jälgimiseks ja kaitsmiseks sõjapiirkondadest üle kogu maailma.
Kuritegevuse ennetamine. Politseijõud kasutavad üha enam andmepõhiseid strateegiaid, mis hõlmavad nende endi luureteavet ja avalikult kättesaadavat teavet, et kasutada ressursse tõhusamalt ja võtta vajadusel heidutusmeetmeid.

Parimad raamatud Big-Data tehnoloogia kohta

Kõik valetavad. Otsingumootorid, suurandmed ja Internet teavad sinust kõike.
SUURED ANDMED. Kogu tehnika ühes raamatus.
Õnnetööstus. Kuidas Big Data ja uued tehnoloogiad aitavad toodetele ja teenustele emotsioone lisada.
Revolutsioon analüütikas. Kuidas parandada oma äritegevust suurandmete ajastul operatiivanalüütika abil.

Probleemid suurandmetega

Big Data annab meile enneolematuid ideid ja võimalusi, kuid tõstatab ka probleeme ja küsimusi, millega tuleb tegeleda:

Andmete privaatsus – täna genereeritavad suurandmed sisaldavad palju teavet meie isikliku elu kohta, mille privaatsusele on meil täielik õigus. Üha enam palutakse meil tasakaalustada avaldatavate isikuandmete hulka suurandmetel põhinevate rakenduste ja teenuste pakutava mugavusega.
Andmeturve – isegi kui otsustame, et oleme rahul sellega, et kellelgi on meie andmed kindlal eesmärgil, kas me saame usaldada teda meie andmete turvalisuse tagamisel?
Andmete diskrimineerimine – kui kogu teave on teada, kas on aktsepteeritav diskrimineerida inimesi nende isikliku elu andmete põhjal? Kasutame juba krediidiskoore, et otsustada, kes saab raha laenata, ja kindlustus on samuti suuresti andmepõhine. Peaksime eeldama, et meid analüüsitakse ja hinnatakse üksikasjalikumalt, kuid tuleb jälgida, et see ei muudaks vähemate ressurssidega ja piiratud juurdepääsuga inimeste elu keerulisemaks.

Nende ülesannete täitmine on suurandmete oluline komponent ja sellega peavad tegelema organisatsioonid, kes soovivad selliseid andmeid kasutada. Kui seda ei tehta, võib ettevõte muutuda haavatavaks mitte ainult oma maine, vaid ka juriidiliselt ja rahaliselt.

Vaadates tulevikku

Andmed muudavad meie maailma ja meie elu enneolematus tempos. Kui Big-Data on täna selleks kõigeks võimeline, siis kujutage ette, milleks see homme võimeline on. Meile saadaolevate andmete hulk ainult kasvab ja analüütikatehnoloogia muutub veelgi arenenumaks.

Ettevõtete jaoks muutub suurandmete rakendamise võimalus lähiaastatel järjest kriitilisemaks. Ainult need ettevõtted, kes peavad andmeid strateegiliseks varaks, jäävad ellu ja arenevad. Need, kes seda revolutsiooni ignoreerivad, võivad jääda maha.

Suurandmed (või suurandmed) on meetodite kogum suure hulga struktureeritud või struktureerimata teabega töötamiseks. Suurandmete spetsialistid töötlevad ja analüüsivad neid, et saada visuaalseid, inimesele tajutavaid tulemusi. Look At Me vestles professionaalidega ja uuris, kuidas on lood suurandmete töötlemisega Venemaal, kus ja mida on kõige parem õppida neil, kes soovivad sellel erialal töötada.

Alexey Ryvkin peamistest trendidest suurandmete, klientidega suhtlemise ja numbrimaailma vallas

Õppisin Moskva elektroonikatehnoloogia instituudis. Peamine, mida mul õnnestus sealt ära võtta, olid füüsika ja matemaatika põhiteadmised. Samaaegselt õpingutega töötasin teadus- ja arenduskeskuses, kus tegelesin turvalise andmeedastuse mürakindlate kodeerimisalgoritmide väljatöötamise ja juurutamisega. Pärast bakalaureuseõppe lõpetamist astusin Kõrgemasse Majanduskooli äriinformaatika magistriõppesse. Pärast seda tahtsin IBS-is töötada. Mul vedas, et sel ajal toimus suure hulga projektide tõttu täiendav praktikantide värbamine ja pärast mitut intervjuud asusin tööle Venemaa selle valdkonna ühes suurimas ettevõttes IBS. Kolme aastaga sain praktikandist ettevõttelahenduste arhitektiks. Hetkel arendan suurandmete tehnoloogiate ekspertteadmisi finants- ja telekommunikatsioonisektori klientidele.

Inimestele, kes soovivad suurandmetega töötada, on kaks peamist eriala: analüütikud ja IT-konsultandid, kes loovad tehnoloogiaid suurandmetega töötamiseks. Lisaks saame kliendi IT-platvormiga rääkida ka Big Data Analyst’i ehk otseselt andmetega töötavatest inimestest. Varem olid need tavalised matemaatilised analüütikud, kes teadsid statistikat ja matemaatikat ning kasutasid andmeanalüüsi ülesannete lahendamiseks statistikatarkvara. Tänapäeval on lisaks statistika ja matemaatika teadmistele vajalik ka arusaam tehnoloogiast ja andmete elutsüklist. See on minu arvates erinevus tänapäevaste andmeanalüütikute ja nende analüütikute vahel, kes olid varem.

Minu erialaks on IT-alane nõustamine ehk mõtlen välja ja pakun klientidele võimalusi äriprobleemide lahendamiseks IT tehnoloogiate abil. Nõustamisele tulevad erinevate kogemustega inimesed, kuid selle elukutse juures on kõige olulisemad omadused oskus mõista kliendi vajadusi, soov aidata inimesi ja organisatsioone, hea suhtlemis- ja meeskonnaoskus (kuna see on alati töö kliendiga ja meeskonnas), hea analüüsivõime. Väga oluline on sisemine motivatsioon: töötame konkurentsitihedas keskkonnas ning tellija ootab ebatavalisi lahendusi ja tööhuvi.

Suurem osa minu ajast kulub klientidega suhtlemisele, nende ärivajaduste vormistamisele ja neile sobivaima tehnoloogiaarhitektuuri väljatöötamisele aitamisele. Valikukriteeriumitel on siin oma eripära: lisaks funktsionaalsusele ja TCO-le (Total cost of ownership) on väga olulised mittefunktsionaalsed nõuded süsteemile, enamasti on nendeks reaktsiooniaeg ja infotöötlusaeg. Kliendi veenmiseks kasutame sageli kontseptsiooni tõestamise meetodit – pakume tehnoloogia toimimises veendumiseks mõne ülesande puhul, kitsa andmehulga peal tehnoloogiat tasuta “testida”. Lahendus peaks tekitama kliendile konkurentsieelise, saades lisahüvesid (näiteks x-sell, ristmüük) või lahendama mõne probleemi äris, näiteks vähendama laenupettuste kõrget taset.

Oleks palju lihtsam, kui kliendid tuleksid valmis ülesandega, aga siiani ei saa aru, et on ilmunud revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta

Milliste probleemidega te silmitsi seisate? Turg ei ole veel suurandmete tehnoloogiate kasutamiseks valmis. Märksa lihtsam oleks, kui kliendid tuleksid valmis ülesandega, kuid nad ei mõista siiani, et on ilmunud revolutsiooniline tehnoloogia, mis võib paari aastaga turgu muuta. Seetõttu töötame põhiliselt käivitusrežiimis – me ei müü ainult tehnoloogiaid, vaid veename kliente iga kord, et nad peavad nendesse lahendustesse investeerima. See on visionääride seisukoht – näitame klientidele, kuidas nad saavad andmete ja IT abil oma äri muuta. Loome seda uut turgu – suurandmete valdkonna ärilise IT-konsultatsiooni turgu.

Kui inimene soovib tegeleda suurandmete valdkonna andmeanalüüsi või IT-alase nõustamisega, siis esimese asjana on oluline matemaatika- või tehniline haridus koos hea matemaatilise ettevalmistusega. Samuti on kasulik omandada spetsiifilisi tehnoloogiaid, näiteks SAS-i, Hadoopi, R-keele või IBM-i lahendusi. Lisaks peate olema aktiivselt huvitatud suurandmete rakendustest – näiteks selle kohta, kuidas neid pangas krediidiskoori parandamiseks või kliendi elutsükli haldamiseks kasutada. Seda ja muid teadmisi saab saadaolevatest allikatest: näiteks Coursera ja Big Data University. Pennsylvania Whartoni ülikoolis tegutseb ka Customer Analytics Initiative, kus on avaldatud palju huvitavaid materjale.

Meie valdkonnas tegutseda soovijate jaoks on suureks probleemiks selge infopuudus Big Data kohta. Te ei saa minna raamatupoodi või mõnele veebisaidile ja hankida näiteks põhjalikku juhtumite kogumit kõigi suurandmete tehnoloogiate rakenduste kohta pankades. Selliseid katalooge pole. Osa teabest on raamatutes, osa kogutakse konverentsidel ja osa tuleb ise välja mõelda.

Teine probleem on see, et analüütikutel on numbrite maailmas mugav olla, kuid äris pole neil alati mugav. Need inimesed on sageli introvertsed ja neil on raskusi suhtlemisega, mistõttu neil on raske uurimistulemustest klientidele veenvalt edastada. Nende oskuste arendamiseks soovitaksin selliseid raamatuid nagu The Pyramid Principle, Speak the Language of Diagrams. Need aitavad arendada esinemisoskust ning väljendada oma mõtteid lühidalt ja selgelt.

Mind aitas palju kaasa erinevatel juhtumimeistrivõistlustel osalemine Riigiuuringute Ülikooli Kõrgemas Majanduskoolis õppides. Juhtumimeistrivõistlused on õpilaste intellektuaalsed võistlused, kus neil on vaja uurida äriprobleeme ja pakkuda neile lahendusi. Neid on kahte tüüpi: konsultatsioonifirmade meistrivõistlused, näiteks McKinsey, BCG, Accenture, aga ka sõltumatud juhtumimeistrivõistlused, nagu Changellenge. Nendes osaledes õppisin nägema ja lahendama keerulisi probleeme – alates probleemi tuvastamisest ja struktureerimisest kuni selle lahendamise soovituste kaitsmiseni.

Oleg Mihhalsky Venemaa turust ja suurandmete valdkonna uue toote loomise spetsiifikast

Enne Acronisega liitumist tegelesin juba uute toodete turuletoomisega teistele ettevõtetele. See on alati huvitav ja ühtaegu väljakutseid pakkuv, mistõttu tekkis kohe huvi võimalus töötada pilveteenuste ja andmesalvestuslahenduste kallal. Selles valdkonnas tuli kasuks kogu minu varasem IT-valdkonna kogemus, sealhulgas minu enda startup projekti I-kiirendi. Abiks oli ka ärihariduse (MBA) omamine lisaks inseneri baaskraadile.

Venemaal on suurtel ettevõtetel - pankadel, mobiilioperaatoritel jne - vajadus suurandmete analüüsi järele, nii et meie riigis on perspektiivi neil, kes soovivad selles valdkonnas töötada. Tõsi, paljud projektid on praegu integratsiooniprojektid, st tehtud välismaiste arenduste või avatud lähtekoodiga tehnoloogiate põhjal. Sellistes projektides ei looda põhimõtteliselt uusi lähenemisviise ja tehnoloogiaid, vaid pigem kohandatakse olemasolevaid arendusi. Acronises valisime teistsuguse tee ja pärast olemasolevate alternatiivide analüüsi otsustasime investeerida enda arendusse, mille tulemuseks oli suurandmete jaoks usaldusväärne salvestussüsteem, mis ei jää hinna poolest alla näiteks Amazon S3-le, kuid töötab usaldusväärselt. tõhusalt ja oluliselt väiksemas mahus. Ka suurtel internetifirmadel on oma suurandmete arendused, kuid need on rohkem keskendunud sisemistele kui välisklientide vajaduste rahuldamisele.

Oluline on mõista trende ja majandusjõude, mis suurandmete valdkonda mõjutavad. Selleks peate palju lugema, kuulama IT-valdkonna autoriteetsete ekspertide kõnesid ja osalema temaatilistel konverentsidel. Nüüd on peaaegu igal konverentsil Big Data rubriik, kuid kõik räägivad sellest erineva nurga alt: tehnoloogia, äri või turunduse vaatenurgast. Võite minna projektitööle või praktikale ettevõttesse, mis juba juhib selleteemalisi projekte. Kui oled oma võimetes kindel, siis pole veel hilja korraldada startup Big Data valdkonnas.

Ilma pideva turuga kontaktita uute arenduste puhul on oht, et neid ei taotleta

Tõsi, kui vastutad uue toote eest, kulub palju aega turuanalüüsile ja suhtlemisele potentsiaalsete klientide, partnerite ja professionaalsete analüütikutega, kes teavad klientidest ja nende vajadustest palju. Ilma pideva turuga kontaktita on oht, et uusarendus jääb kasutamata. Alati on palju ebakindlust: peate välja mõtlema, kes on varased kasutajad, mida teil on neile pakkuda ja kuidas seejärel massilist publikut meelitada. Teiseks kõige olulisemaks ülesandeks on sõnastada ja edastada arendajatele selge ja terviklik visioon lõpptootest, et motiveerida neid töötama sellistes tingimustes, kus mõned nõuded võivad veel muutuda ning prioriteedid sõltuvad esimestelt klientidelt tulevast tagasisidest. Seetõttu on oluliseks ülesandeks ühelt poolt klientide ja teiselt poolt arendajate ootuste juhtimine. Et ei üks ega teine ei kaotaks huvi ja viiks projekti lõpuni. Pärast esimest edukat projekti muutub see lihtsamaks ja peamiseks väljakutseks saab uuele ettevõttele õige kasvumudeli leidmine.

HSE õpetajate veerg suurandmetega töötamise müütidest ja juhtumitest

Järjehoidjad

Riikliku Teadusülikooli Kõrgema Majanduskooli uue meedia kooli õppejõud Konstantin Romanov ja Aleksander Pjatigorski, kes on ka Beeline'i digitransformatsiooni direktor, kirjutasid saidile veeru peamistest väärarusaamadest suurandmete kohta – näited kasutamisest. tehnoloogia ja tööriistad. Autorid soovitavad, et väljaanne aitab ettevõtete juhtidel seda kontseptsiooni mõista.

Müüdid ja väärarusaamad suurandmete kohta

Big Data ei ole turundus

Mõiste Big Data on muutunud väga moekaks – seda kasutatakse miljonites olukordades ja sadade erinevate tõlgendustega, mis pole sageli seotud sellega, mis see on. Mõisted asendatakse sageli inimeste peas ja suurandmed aetakse segamini turundustootega. Lisaks on mõnes ettevõttes Big Data turundusosakonna osa. Suurandmete analüüsi tulemus võib tõepoolest olla turundustegevuse allikas, aga ei midagi enamat. Vaatame, kuidas see toimib.

Kui tuvastasime nimekirja neist, kes ostsid meie poest kaks kuud tagasi rohkem kui kolme tuhande rubla väärtuses kaupu ja saatsid seejärel neile kasutajatele mingisuguse pakkumise, siis on see tüüpiline turundus. Tuletame struktuuriandmete põhjal selge mustri ja kasutame seda müügi suurendamiseks.

Kui aga kombineerida CRM-i andmed näiteks Instagramist voogedastusinfoga ja seda analüüsida, leiame mustri: inimene, kes on kolmapäeva õhtul aktiivsust vähendanud ja kelle viimasel fotol on kassipojad, peaks tegema kindla pakkumise. Sellest saab juba suurandmed. Leidsime päästiku, edastasime selle turundajatele ja nad kasutasid seda oma eesmärkidel.

Siit järeldub, et tehnoloogia töötab enamasti struktureerimata andmetega ja isegi kui andmed on struktureeritud, jätkab süsteem nendes peidetud mustrite otsimist, mida turundus ei tee.

Big Data ei ole IT

Selle loo teine äärmus: Big Data aetakse sageli segi IT-ga. See on tingitud asjaolust, et Venemaa ettevõtetes on IT-spetsialistid reeglina kõigi tehnoloogiate, sealhulgas suurandmete eestvedajad. Seega, kui kõik selles osakonnas juhtub, jääb ettevõttele tervikuna mulje, et tegemist on mingi IT-tegevusega.

Tegelikult on siin põhimõtteline erinevus: Big Data on konkreetse toote hankimisele suunatud tegevus, mis pole IT-ga üldse seotud, kuigi ilma selleta tehnoloogia eksisteerida ei saa.

Big Data ei ole alati teabe kogumine ja analüüs

Big Data kohta on veel üks eksiarvamus. Kõik mõistavad, et see tehnoloogia hõlmab suuri andmemahtusid, kuid alati pole selge, milliseid andmeid mõeldakse. Igaüks saab teavet koguda ja kasutada nüüd mitte ainult filmides, vaid ka igas, isegi väga väikeses ettevõttes. Küsimus on vaid selles, mida täpselt koguda ja kuidas seda enda huvides ära kasutada.

Kuid tuleb mõista, et suurandmete tehnoloogia ei ole absoluutselt igasuguse teabe kogumine ja analüüsimine. Näiteks kui kogute sotsiaalvõrgustikes andmeid konkreetse inimese kohta, siis need ei ole Big Data.

Mis on suurandmed tegelikult?

Big Data koosneb kolmest elemendist:

andmed;
analüütika;
tehnoloogiaid.

Big Data ei ole ainult üks neist komponentidest, vaid kõigi kolme elemendi kombinatsioon. Inimesed asendavad sageli mõisteid: mõned usuvad, et suurandmed on lihtsalt andmed, teised aga, et see on tehnoloogia. Kuid tegelikult, hoolimata sellest, kui palju andmeid te kogute, ei saa te ilma õige tehnoloogia ja analüütikata nendega midagi peale hakata. Kui analüüs on hea, kuid andmeid pole, on see veelgi hullem.

Kui me räägime andmetest, siis see pole ainult tekstid, vaid ka kõik Instagrami postitatud fotod ja üldiselt kõik, mida saab analüüsida ja erinevatel eesmärkidel ja ülesannetes kasutada. Teisisõnu viitavad andmed tohutule hulgale erinevate struktuuride sise- ja välisandmetele.

Vaja on ka analüüsi, sest Big Data ülesanne on mingid mustrid üles ehitada. See tähendab, et analüütika on varjatud sõltuvuste tuvastamine ning uute küsimuste ja vastuste otsimine kogu heterogeensete andmete mahu analüüsi põhjal. Lisaks tekitab suurandmed küsimusi, mida ei saa nendest andmetest otseselt tuletada.

Kui rääkida piltidest, siis see, et postitate foto, millel on seljas sinine T-särk, ei tähenda midagi. Kui aga kasutada fotograafiat Big Data modelleerimiseks, võib selguda, et just praegu tasuks laenu pakkuda, sest sinu sotsiaalses grupis viitab selline käitumine teatud nähtusele tegevuses. Seetõttu ei ole "paljad" andmed ilma analüütikata, ilma varjatud ja mitteilmsete sõltuvuste tuvastamiseta suurandmed.

Nii et meil on suured andmed. Nende hulk on tohutu. Meil on ka analüütik. Kuidas aga tagada, et nende algandmete põhjal jõuame konkreetse lahenduseni? Selleks vajame tehnoloogiaid, mis võimaldavad meil mitte ainult neid salvestada (ja see oli varem võimatu), vaid ka analüüsida.

Lihtsamalt öeldes, kui teil on palju andmeid, vajate tehnoloogiaid, näiteks Hadoopi, mis võimaldavad salvestada kogu teabe esialgsel kujul hilisemaks analüüsiks. Selline tehnoloogia tekkis Interneti-hiiglastes, kuna nad olid esimesed, kes seisid silmitsi suure hulga andmete salvestamise ja nende analüüsimise probleemiga hilisemaks monetiseerimiseks.

Lisaks optimeeritud ja odavate andmete salvestamise tööriistadele on teil vaja analüütilisi tööriistu, aga ka kasutatava platvormi lisandmooduleid. Näiteks Hadoopi ümber on juba tekkinud terve ökosüsteem seotud projekte ja tehnoloogiaid. Siin on mõned neist:

Pig on deklaratiivne andmeanalüüsi keel.
Taru – andmete analüüs SQL-ile sarnase keele abil.
Oozie – Hadoopi töövoog.
Hbase on andmebaas (mitterelatsiooniline), mis sarnaneb Google'i suure tabeliga.
Mahout – masinõpe.
Sqoop - andmete edastamine RSDB-st Hadoopi ja vastupidi.
Flume - logide ülekandmine HDFS-i.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS ja nii edasi.

Kõik need tööriistad on kõigile tasuta kättesaadavad, kuid on ka mitmeid tasulisi lisandmooduleid.

Lisaks on vaja spetsialiste: arendajat ja analüütikut (nn Data Scientist). Vaja on ka juhti, kes saab aru, kuidas seda analüütikat konkreetse probleemi lahendamiseks rakendada, sest iseenesest on see täiesti mõttetu, kui see pole äriprotsessidesse integreeritud.

Kõik kolm töötajat peavad töötama meeskonnana. Juht, kes annab andmeteaduse spetsialistile ülesande leida teatud muster, peab mõistma, et ta ei leia alati täpselt seda, mida ta vajab. Sel juhul peaks juht tähelepanelikult kuulama, mida andmeteadlane leidis, sest sageli osutuvad tema leiud ettevõtte jaoks huvitavamaks ja kasulikumaks. Teie ülesanne on rakendada seda ettevõttes ja luua sellest toode.

Vaatamata sellele, et praegu on palju erinevaid masinaid ja tehnoloogiaid, jääb lõplik otsus alati inimese enda teha. Selleks tuleb info kuidagi visualiseerida. Selleks on üsna palju tööriistu.

Kõige ilmekam näide on geoanalüütilised aruanded. Ettevõte Beeline teeb palju koostööd erinevate linnade ja piirkondade valitsustega. Väga sageli tellivad need organisatsioonid selliseid aruandeid nagu „Liiklusummikud teatud asukohas”.

On selge, et selline aruanne peaks riigiasutusteni jõudma lihtsal ja arusaadaval kujul. Kui pakume neile tohutu ja täiesti arusaamatu tabeli (st teavet sellisel kujul, nagu me selle saame), ei osta nad tõenäoliselt sellist aruannet - see on täiesti kasutu, nad ei saa sellest teadmisi, nad tahtsid saada.

Seega, hoolimata sellest, kui head on andmeteadlased ja millised mustrid nad leiavad, ei saa te nende andmetega töötada ilma heade visualiseerimisvahenditeta.

Andmeallikad

Saadud andmete massiiv on väga suur, seega võib selle jagada mitmeks rühmaks.

Ettevõttesisesed andmed

Kuigi 80% kogutud andmetest kuulub sellesse rühma, ei kasutata seda allikat alati. Sageli on need andmed, mida pealtnäha keegi üldse ei vaja, näiteks logid. Kui aga vaadata neid teise nurga alt, võib vahel leida neist ootamatuid mustreid.

Jagamisvara allikad

See hõlmab andmeid sotsiaalvõrgustikest, Internetist ja kõigest, millele on tasuta juurdepääs. Miks on see jagamisvara tasuta? Ühest küljest on need andmed kõigile kättesaadavad, aga kui tegemist on suurettevõttega, siis pole nende hankimine kümnete tuhandete, sadade või miljonite klientidega tellijabaasi suuruses enam lihtne ülesanne. Seetõttu on turul nende andmete edastamiseks tasulisi teenuseid.

Tasulised allikad

See hõlmab ettevõtteid, mis müüvad andmeid raha eest. Need võivad olla telekommunikatsioonid, DMP-d, Interneti-ettevõtted, krediidibürood ja koondajad. Venemaal telekomid andmeid ei müü. Esiteks on see majanduslikult kahjumlik, teiseks on see seadusega keelatud. Seetõttu müüvad nad oma töötlemise tulemusi, näiteks geoanalüütilisi aruandeid.

Avatud andmed

Riik on ettevõtjatele vastutulelik ja annab neile võimaluse kogutud andmeid kasutada. Seda arendatakse suuremal määral läänes, kuid ka Venemaa käib selles osas ajaga kaasas. Näiteks on olemas Moskva valitsuse avaandmete portaal, kus avaldatakse teavet erinevate linnataristu objektide kohta.

Moskva elanike ja külaliste jaoks esitatakse andmed tabeli- ja kartograafilises vormis ning arendajatele spetsiaalsetes masinloetavates vormingutes. Kui projekt töötab piiratud režiimis, siis see areneb, mis tähendab, et see on ka andmeallikas, mida saate oma äriülesannete jaoks kasutada.

Uurimine

Nagu juba märgitud, on Big Data ülesanne leida muster. Tihti võivad kogu maailmas läbiviidud uuringud saada kindla mustri leidmise tugipunktiks – saad konkreetse tulemuse ja proovida sarnast loogikat enda eesmärkidel rakendada.

Big Data on valdkond, kus kõik matemaatika seadused ei kehti. Näiteks “1” + “1” ei ole “2”, vaid palju rohkem, sest andmeallikaid segades saab efekti oluliselt suurendada.

Tootenäited

Paljudele on tuttav muusikavalikuteenus Spotify. See on suurepärane, sest see ei küsi kasutajatelt, milline on nende tänane tuju, vaid pigem arvutab selle välja talle saadaolevate allikate põhjal. Ta teab alati, mida sa praegu vajad – džässi või hard rocki. See on peamine erinevus, mis pakub sellele fänne ja eristab seda teistest teenustest.

Selliseid tooteid nimetatakse tavaliselt meeletoodeteks – need, mis tunnevad oma kliente.

Big Data tehnoloogiat kasutatakse ka autotööstuses. Näiteks Tesla teeb seda – nende uusimal mudelil on autopiloot. Ettevõte püüab luua autot, mis viib reisija ise sinna, kuhu ta peab minema. Ilma Big Datata on see võimatu, sest kui me kasutame ainult neid andmeid, mida me otse saame, nagu inimene seda teeb, siis auto ei saa paremaks muutuda.

Kui sõidame ise autoga, kasutame oma neuroneid otsuste tegemiseks paljude tegurite põhjal, mida me isegi ei märka. Näiteks ei pruugi me aru saada, miks otsustasime rohelise tulega kohe mitte kiirendada, kuid siis selgub, et otsus oli õige – auto kihutas teist meeletu kiirusega mööda ja te vältisite õnnetust.

Võid tuua ka näite Big Data kasutamisest spordis. 2002. aastal otsustas Oakland Athleticsi pesapallimeeskonna peadirektor Billy Beane murda sportlaste värbamise paradigmat – ta valis ja treenis mängijaid "numbrite järgi".

Tavaliselt vaatavad juhid mängijate edukust, kuid antud juhul oli kõik teisiti - tulemuste saavutamiseks uuris juht, milliseid sportlaste kombinatsioone ta vajab, pöörates tähelepanu individuaalsetele omadustele. Veelgi enam, ta valis sportlased, kellel iseenesest polnud palju potentsiaali, kuid meeskond tervikuna osutus nii edukaks, et võitsid kakskümmend matši järjest.

Seejärel tegi režissöör Bennett Miller sellele loole pühendatud filmi - "Mees, kes muutis kõike" Brad Pittiga peaosas.

Big Data tehnoloogia on kasulik ka finantssektoris. Mitte ükski inimene maailmas ei suuda iseseisvalt ja täpselt kindlaks teha, kas tasub kellelegi laenu anda. Otsuse langetamiseks tehakse punktiarvestus ehk ehitatakse tõenäosusmudel, millest saab aru, kas see inimene tagastab raha või mitte. Lisaks rakendatakse punktiarvestust kõigil etappidel: saate näiteks arvutada, et teatud hetkel lõpetab inimene maksmise.

Suurandmed võimaldavad teil mitte ainult raha teenida, vaid ka seda säästa. Eelkõige aitas see tehnoloogia Saksamaa tööministeeriumil vähendada töötushüvitiste kulusid 10 miljardi euro võrra, kuna pärast teabe analüüsimist selgus, et 20% hüvitistest maksti teenimatult.

Tehnoloogiaid kasutatakse ka meditsiinis (see on eriti tüüpiline Iisraelile). Big Data abil saate teha palju täpsema analüüsi, kui seda suudab teha kolmekümneaastase staažiga arst.

Iga arst tugineb diagnoosi pannes ainult oma kogemustele. Kui masin seda teeb, tuleneb see tuhandete selliste arstide kogemusest ja kõigist olemasolevatest haiguslugudest. See võtab arvesse, mis materjalist on patsiendi maja tehtud, millises piirkonnas kannatanu elab, millist suitsu seal on jne. See tähendab, et see võtab arvesse paljusid tegureid, mida arstid ei võta arvesse.

Näiteks suurandmete kasutamisest tervishoius on projekt Artemis, mille elluviijaks oli Toronto lastehaigla. See on infosüsteem, mis kogub ja analüüsib andmeid beebide kohta reaalajas. Masin võimaldab igas sekundis analüüsida iga lapse 1260 tervisenäitajat. See projekt on suunatud lapse ebastabiilse seisundi ennustamisele ja laste haiguste ennetamisele.

Suurandmeid hakatakse kasutama ka Venemaal: näiteks Yandexil on suurandmete divisjon. Ettevõte käivitas koos AstraZeneca ja Venemaa Kliinilise Onkoloogia Seltsiga RUSSCO platvormi RAY, mis on mõeldud geneetikutele ja molekulaarbioloogidele. Projekt võimaldab meil täiustada vähi diagnoosimise ja vähi eelsoodumuse tuvastamise meetodeid. Platvorm käivitatakse 2016. aasta detsembris.

Mis on juhtunud Suured andmed(sõna otseses mõttes - suured andmed)? Vaatame kõigepealt Oxfordi sõnaraamatut:

Andmed– kogused, märgid või sümbolid, mida arvuti töötab ja mida saab salvestada ja edastada magnetilisele, optilisele või mehaanilisele andmekandjale salvestatud elektriliste signaalide kujul.

Tähtaeg Suured andmed kasutatakse suure andmehulga kirjeldamiseks, mis aja jooksul plahvatuslikult kasvab. Sellise andmehulga töötlemiseks ei saa te ilma.

Big Data pakutavad eelised:

Andmete kogumine erinevatest allikatest.
Äriprotsesside täiustamine reaalajas analüütika abil.
Suurte andmemahtude salvestamine.
Insights. Big Data on struktureeritud ja poolstruktureeritud andmete kaudu peidetud teabest paremini aru saanud.
Suurandmed aitavad teil riske vähendada ja õige riskianalüütikaga arukaid otsuseid teha

Suurandmete näited

New Yorgi börs genereerib iga päev 1 terabait kauplemisandmed eelmise seansi kohta.

Sotsiaalmeedia: Statistika näitab, et Facebooki andmebaase laetakse üles iga päev. 500 terabaiti uued andmed tekivad peamiselt tänu fotode ja videote üleslaadimisele sotsiaalvõrgustike serveritesse, sõnumite saatmisele, postituste all olevatele kommentaaridele jne.

Reaktiivmootor genereerib 10 terabaiti andmed iga 30 minuti järel lennu ajal. Kuna iga päev tehakse tuhandeid lende, ulatub andmemaht petabaitideni.

Big Data klassifikatsioon

Suurandmete vormid:

Struktureeritud
Struktureerimata
Poolstruktureeritud

Struktureeritud vorm

Andmeid, mida saab fikseeritud vormingus vormis salvestada, neile juurde pääseda ja töödelda, nimetatakse struktureeritud. Aja jooksul on arvutiteadus teinud suuri edusamme seda tüüpi andmetega töötamise tehnikate täiustamisel (kus vorming on ette teada) ja õppinud, kuidas sellest kasu saada. Tänapäeval on aga juba probleeme, mis on seotud mahtude kasvuga mitme zettabaidi vahemikku mõõdetavate suurusteni.

1 zetabait võrdub miljardi terabaidiga

Neid numbreid vaadates on hästi näha mõiste Big Data õigsus ning selliste andmete töötlemise ja säilitamisega kaasnevad raskused.

Relatsiooniandmebaasi salvestatud andmed on struktureeritud ja näevad välja näiteks ettevõtte töötajate tabelid

Struktureerimata vorm

Tundmatu struktuuriga andmed liigitatakse struktureerimata. Lisaks suurele suurusele iseloomustavad seda kuju mitmed raskused kasuliku teabe töötlemisel ja hankimisel. Struktureerimata andmete tüüpiline näide on heterogeenne allikas, mis sisaldab lihtsate tekstifailide, piltide ja videote kombinatsiooni. Tänapäeval on organisatsioonidel juurdepääs suurele hulgale toor- või struktureerimata andmetele, kuid nad ei tea, kuidas neist väärtust ammutada.

Poolstruktureeritud vorm

See kategooria sisaldab mõlemat ülalkirjeldatut, nii et poolstruktureeritud andmetel on teatud vorm, kuid need ei ole tegelikult relatsiooniandmebaaside tabelitega määratletud. Selle kategooria näide on XML-failis esitatud isikuandmed.

Prashant RaoMees35 Seema R.Naine41 Satish ManeMees29 Subrato RoyMees26 Jeremiah J.Mees35

Suurandmete omadused

Suurandmete kasv aja jooksul:

Sinine värv tähistab struktureeritud andmeid (Enterprise data), mis on salvestatud relatsiooniandmebaasides. Muud värvid tähistavad erinevatest allikatest (IP-telefon, seadmed ja andurid, sotsiaalvõrgustikud ja veebirakendused) pärinevaid struktureerimata andmeid.

Gartneri sõnul on suurandmete maht, genereerimiskiirus, mitmekesisus ja varieeruvus erinev. Vaatame neid omadusi lähemalt.

Helitugevus. Mõistet suurandmed ise seostatakse suure suurusega. Andmete suurus on väljavõetava potentsiaalse väärtuse määramisel kriitiline mõõdik. Iga päev kasutab 6 miljonit inimest digitaalset meediat, genereerides hinnanguliselt 2,5 kvintiljoni baiti andmeid. Seetõttu on maht esimene omadus, mida tuleb arvesse võtta.
Mitmekesisus- järgmine aspekt. See viitab heterogeensetele allikatele ja andmete olemusele, mis võivad olla struktureeritud või struktureerimata. Varem olid enamiku rakenduste puhul ainsad teabeallikad arvutustabelid ja andmebaasid. Tänapäeval arvestatakse analüütilistes rakendustes ka andmeid e-kirjade, fotode, videote, PDF-failide ja heli kujul. Selline struktureerimata andmete mitmekesisus põhjustab probleeme ladustamisel, kaevandamisel ja analüüsimisel: 27% ettevõtetest ei ole kindlad, et nad töötavad õigete andmetega.
Põlvkonna kiirus. See, kui kiiresti andmeid nõuete täitmiseks kogutakse ja töödeldakse, määrab potentsiaali. Kiirus määrab teabevoo kiiruse allikatest - äriprotsessidest, rakenduste logidest, suhtlusvõrgustikest ja meediasaitidest, anduritest, mobiilseadmetest. Andmevoog on tohutu ja aja jooksul pidev.
Muutlikkus kirjeldab andmete muutlikkust teatud ajahetkedel, mis raskendab töötlemist ja haldamist. Näiteks on enamik andmeid olemuselt struktureerimata.

Suurandmete analüüs: millised on suurandmete eelised

Kaupade ja teenuste reklaamimine: Juurdepääs andmetele otsingumootoritest ja saitidest, nagu Facebook ja Twitter, võimaldab ettevõtetel turundusstrateegiaid täpsemalt välja töötada.

Klientide teeninduse parandamine: Traditsioonilised klientide tagasiside süsteemid asendatakse uutega, mis kasutavad klientide tagasiside lugemiseks ja hindamiseks Big Data ja Natural Language Processingut.

Riski arvutamine seotud uue toote või teenuse väljalaskmisega.

Operatsiooni efektiivsus: suurandmed on struktureeritud selleks, et saada kiiresti vajalikku teavet ja saada kiiresti täpseid tulemusi. See suurandmete ja salvestustehnoloogiate kombinatsioon aitab organisatsioonidel optimeerida oma tööd harva kasutatava teabega.