Big data na teknolohiya. Encyclopedia of Marketing. Ang pinakamahusay na mga libro tungkol sa teknolohiya ng Big-Data

Ang Big data (o Big Data) ay isang hanay ng mga pamamaraan para sa pagtatrabaho sa malalaking volume ng structured o unstructured na impormasyon. Pinoproseso at sinusuri ito ng mga dalubhasa sa malaking data upang makakuha ng mga resultang nakikita at nakikita ng tao. Ang Look At Me ay nakipag-usap sa mga propesyonal at nalaman kung ano ang sitwasyon sa malaking pagproseso ng data sa Russia, kung saan at kung ano ang pinakamahusay na pag-aralan para sa mga gustong magtrabaho sa larangang ito.

Alexey Ryvkin tungkol sa mga pangunahing uso sa larangan ng malaking data, komunikasyon sa mga customer at sa mundo ng mga numero

Nag-aral ako sa Moscow Institute of Electronic Technology. Ang pangunahing bagay na nakuha ko mula doon ay ang pangunahing kaalaman sa pisika at matematika. Kasabay ng aking pag-aaral, nagtrabaho ako sa R&D center, kung saan ako ay kasangkot sa pagbuo at pagpapatupad ng mga algorithm sa pag-coding na lumalaban sa ingay para sa ligtas na paghahatid ng data. Pagkatapos ng aking bachelor's degree, pumasok ako sa master's program sa business informatics sa Higher School of Economics. Pagkatapos noon gusto kong magtrabaho sa IBS. Ako ay mapalad na sa oras na iyon, dahil sa isang malaking bilang ng mga proyekto, mayroong isang karagdagang pangangalap ng mga intern, at pagkatapos ng ilang mga panayam ay nagsimula akong magtrabaho sa IBS, isa sa pinakamalaking kumpanya ng Russia sa larangang ito. Sa tatlong taon, nagpunta ako mula sa isang intern sa isang enterprise solutions architect. Kasalukuyan akong bumubuo ng kadalubhasaan sa mga teknolohiya ng Big Data para sa mga kumpanya ng customer mula sa sektor ng pananalapi at telekomunikasyon.

Mayroong dalawang pangunahing espesyalisasyon para sa mga taong gustong magtrabaho sa malaking data: mga analyst at IT consultant na gumagawa ng mga teknolohiya upang gumana sa malaking data. Bilang karagdagan, maaari rin nating pag-usapan ang propesyon ng Big Data Analyst, ibig sabihin, ang mga taong direktang nagtatrabaho sa data, sa IT platform ng customer. Dati, ito ay mga ordinaryong mathematical analyst na alam ang mga istatistika at matematika at gumamit ng statistical software upang malutas ang mga problema sa pagsusuri ng data. Ngayon, bilang karagdagan sa kaalaman sa mga istatistika at matematika, kailangan din ang pag-unawa sa teknolohiya at ang cycle ng buhay ng data. Ito, sa palagay ko, ang pagkakaiba sa pagitan ng mga modernong Data Analyst at ng mga analyst na nauna.

Ang aking espesyalisasyon ay IT consulting, ibig sabihin, ako ay gumagawa at nag-aalok sa mga kliyente ng mga paraan upang malutas ang mga problema sa negosyo gamit ang mga teknolohiyang IT. Ang mga taong may iba't ibang karanasan ay dumarating sa pagkonsulta, ngunit ang pinakamahalagang katangian para sa propesyon na ito ay ang kakayahang maunawaan ang mga pangangailangan ng kliyente, ang pagnanais na tulungan ang mga tao at organisasyon, mahusay na komunikasyon at mga kasanayan sa koponan (dahil ito ay palaging nakikipagtulungan sa kliyente at sa isang pangkat), mahusay na mga kasanayan sa pagsusuri. Napakahalaga ng panloob na pagganyak: nagtatrabaho kami sa isang mapagkumpitensyang kapaligiran, at inaasahan ng customer ang mga hindi pangkaraniwang solusyon at interes sa trabaho.

Karamihan sa aking oras ay ginugugol sa pakikipag-usap sa mga customer, pagpormal sa kanilang mga pangangailangan sa negosyo at pagtulong sa kanila na bumuo ng pinaka-angkop na arkitektura ng teknolohiya. Ang mga pamantayan sa pagpili dito ay may sariling kakaiba: bilang karagdagan sa pag-andar at TCO (Kabuuang halaga ng pagmamay-ari), ang mga di-functional na kinakailangan para sa system ay napakahalaga, kadalasan ito ay oras ng pagtugon at oras ng pagproseso ng impormasyon. Upang kumbinsihin ang customer, madalas kaming gumagamit ng isang patunay ng diskarte sa konsepto - nag-aalok kami na "subukan" ang teknolohiya nang libre sa ilang gawain, sa isang makitid na hanay ng data, upang matiyak na gumagana ang teknolohiya. Ang solusyon ay dapat lumikha ng isang mapagkumpitensyang kalamangan para sa customer sa pamamagitan ng pagkuha ng mga karagdagang benepisyo (halimbawa, x-sell, cross-selling) o lutasin ang ilang uri ng problema sa negosyo, halimbawa, bawasan ang mataas na antas ng pandaraya sa pautang.

Magiging mas madali kung ang mga kliyente ay dumating na may handa na gawain, ngunit sa ngayon ay hindi nila nauunawaan na ang isang rebolusyonaryong teknolohiya ay lumitaw na maaaring magbago sa merkado sa loob ng ilang taon

Anong mga problema ang kinakaharap mo? Ang merkado ay hindi pa handa na gumamit ng malalaking teknolohiya ng data. Magiging mas madali kung ang mga kliyente ay dumating na may isang handa na gawain, ngunit sa ngayon ay hindi nila naiintindihan na ang isang rebolusyonaryong teknolohiya ay lumitaw na maaaring magbago sa merkado sa loob ng ilang taon. Ito ang dahilan kung bakit mahalagang nagtatrabaho kami sa startup mode - hindi lang kami nagbebenta ng mga teknolohiya, ngunit sa tuwing kinukumbinsi namin ang mga kliyente na kailangan nilang mamuhunan sa mga solusyong ito. Ito ang posisyon ng mga visionaries - ipinapakita namin sa mga customer kung paano nila mababago ang kanilang negosyo gamit ang data at IT. Ginagawa namin ang bagong merkado na ito - ang merkado para sa komersyal na pagkonsulta sa IT sa larangan ng Big Data.

Kung nais ng isang tao na makisali sa pagsusuri ng data o pagkonsulta sa IT sa larangan ng Big Data, kung gayon ang unang bagay na mahalaga ay isang matematikal o teknikal na edukasyon na may mahusay na pagsasanay sa matematika. Kapaki-pakinabang din ang pag-master ng mga partikular na teknolohiya, halimbawa mga solusyon sa SAS, Hadoop, R language o IBM. Bilang karagdagan, kailangan mong maging aktibong interesado sa mga application para sa Big Data - halimbawa, kung paano ito magagamit para sa pinahusay na credit scoring sa isang bangko o pamamahala ng lifecycle ng customer. Ito at ang iba pang kaalaman ay maaaring makuha mula sa mga available na mapagkukunan: halimbawa, Coursera at Big Data University. Mayroon ding Customer Analytics Initiative sa Wharton University of Pennsylvania, kung saan maraming kawili-wiling materyales ang nai-publish.

Ang isang malaking problema para sa mga gustong magtrabaho sa aming larangan ay ang malinaw na kakulangan ng impormasyon tungkol sa Big Data. Hindi ka maaaring pumunta sa isang bookstore o ilang website at makakuha, halimbawa, ng isang komprehensibong koleksyon ng mga kaso sa lahat ng mga aplikasyon ng mga teknolohiya ng Big Data sa mga bangko. Walang ganoong mga direktoryo. Ang ilan sa mga impormasyon ay nasa mga libro, ang ilan ay kinokolekta sa mga kumperensya, at ang ilan ay kailangan mong alamin nang mag-isa.

Ang isa pang problema ay ang mga analyst ay komportable sa mundo ng mga numero, ngunit hindi sila palaging komportable sa negosyo. Ang mga taong ito ay madalas na introvert at nahihirapang makipag-usap, na ginagawang mahirap para sa kanila na ipaalam ang mga natuklasan sa pananaliksik nang nakakumbinsi sa mga kliyente. Upang mapaunlad ang mga kasanayang ito, magrerekomenda ako ng mga aklat tulad ng The Pyramid Principle, Speak the Language of Diagrams. Tumutulong sila na bumuo ng mga kasanayan sa pagtatanghal at maipahayag ang iyong mga saloobin nang maikli at malinaw.

Malaki ang naitulong sa akin ng pagsali sa iba't ibang case championship habang nag-aaral sa National Research University Higher School of Economics. Ang mga kampeonato sa kaso ay mga intelektwal na kompetisyon para sa mga mag-aaral kung saan kailangan nilang pag-aralan ang mga problema sa negosyo at magmungkahi ng mga solusyon sa kanila. Mayroong dalawang uri: mga case championship ng mga consulting firm, halimbawa, McKinsey, BCG, Accenture, pati na rin ang mga independent case championship gaya ng Changellenge. Habang nakikilahok sa mga ito, natutunan kong makita at lutasin ang mga kumplikadong problema - mula sa pagtukoy ng problema at pagbubuo nito hanggang sa pagtatanggol ng mga rekomendasyon para sa solusyon nito.

Oleg Mikhalsky tungkol sa merkado ng Russia at ang mga detalye ng paglikha ng isang bagong produkto sa larangan ng malaking data

Bago ako sumali sa Acronis, nakasali na ako sa paglulunsad ng mga bagong produkto para i-market sa ibang mga kumpanya. Ito ay palaging kawili-wili at mapaghamong sa parehong oras, kaya agad akong interesado sa pagkakataong magtrabaho sa mga serbisyo sa cloud at mga solusyon sa pag-iimbak ng data. Ang lahat ng aking nakaraang karanasan sa industriya ng IT, kabilang ang aking sariling startup project na I-accelerator, ay naging kapaki-pakinabang sa lugar na ito. Nakatulong din ang pagkakaroon ng business education (MBA) bilang karagdagan sa basic engineering degree.

Sa Russia, ang mga malalaking kumpanya - mga bangko, mga mobile operator, atbp. - ay nangangailangan ng malaking pagsusuri ng data, kaya sa ating bansa ay may mga prospect para sa mga gustong magtrabaho sa lugar na ito. Totoo, maraming mga proyekto ngayon ang mga proyekto ng pagsasama, ibig sabihin, ginawa batay sa mga dayuhang pag-unlad o mga teknolohiyang open source. Sa ganitong mga proyekto, sa panimula ang mga bagong diskarte at teknolohiya ay hindi nilikha, bagkus ang mga kasalukuyang pag-unlad ay iniangkop. Sa Acronis, kumuha kami ng ibang landas at, pagkatapos suriin ang mga magagamit na alternatibo, nagpasyang mamuhunan sa sarili naming pag-unlad, na nagreresulta sa isang maaasahang sistema ng imbakan para sa malaking data na hindi mas mababa sa gastos sa, halimbawa, Amazon S3, ngunit gumagana nang mapagkakatiwalaan at mahusay at sa isang makabuluhang mas maliit na sukat. Ang mga malalaking kumpanya sa Internet ay mayroon ding sariling mga pag-unlad sa malaking data, ngunit mas nakatuon sila sa mga panloob na pangangailangan kaysa sa pagtugon sa mga pangangailangan ng mga panlabas na kliyente.

Mahalagang maunawaan ang mga uso at puwersang pang-ekonomiya na nakakaimpluwensya sa larangan ng malaking data. Para magawa ito, kailangan mong magbasa ng marami, makinig sa mga talumpati ng mga makapangyarihang eksperto sa industriya ng IT, at dumalo sa mga pampakay na kumperensya. Ngayon halos bawat kumperensya ay may isang seksyon sa Big Data, ngunit lahat sila ay pinag-uusapan ito mula sa ibang anggulo: mula sa isang teknolohiya, negosyo o punto ng marketing. Maaari kang pumunta para sa trabaho sa proyekto o isang internship sa isang kumpanya na nangunguna na sa mga proyekto sa paksang ito. Kung tiwala ka sa iyong mga kakayahan, hindi pa huli ang lahat upang ayusin ang isang startup sa larangan ng Big Data.

Nang walang patuloy na pakikipag-ugnayan sa merkado mga bagong panganib sa pag-unlad na hindi inaangkin

Totoo, kapag responsable ka para sa isang bagong produkto, maraming oras ang ginugugol sa market analytics at komunikasyon sa mga potensyal na kliyente, kasosyo, at propesyonal na analyst na maraming alam tungkol sa mga kliyente at kanilang mga pangangailangan. Kung walang patuloy na pakikipag-ugnayan sa merkado, ang isang bagong pag-unlad ay nanganganib na hindi ma-claim. Palaging maraming mga kawalan ng katiyakan: kailangan mong malaman kung sino ang magiging mga unang adopter, kung ano ang maiaalok mo sa kanila, at kung paano makaakit ng maraming madla. Ang pangalawang pinakamahalagang gawain ay ang bumalangkas at ihatid sa mga developer ng isang malinaw at holistic na pananaw ng panghuling produkto upang ma-motivate silang magtrabaho sa mga ganitong kondisyon kung kailan maaaring magbago pa rin ang ilang mga kinakailangan, at ang mga priyoridad ay nakasalalay sa feedback na nagmumula sa mga unang customer. Samakatuwid, isang mahalagang gawain ang pamamahala sa mga inaasahan ng mga kliyente sa isang banda at mga developer sa kabilang banda. Upang hindi mawalan ng interes ang isa o ang isa at makumpleto ang proyekto. Pagkatapos ng unang matagumpay na proyekto, nagiging mas madali at ang pangunahing hamon ay ang paghahanap ng tamang modelo ng paglago para sa bagong negosyo.

Sa kapaligiran na nagsasalita ng Ruso ito ay ginagamit bilang isang termino Malaking Data, at ang konsepto ng "malaking data". Ang terminong "malaking data" ay isang carbon copy ng terminong Ingles. Ang malaking data ay walang mahigpit na kahulugan. Imposibleng gumuhit ng malinaw na linya - ito ba ay 10 terabytes o 10 megabytes? Ang pangalan mismo ay napaka-subjective. Ang salitang "malaki" ay parang "isa, dalawa, marami" sa mga primitive na tribo.

Gayunpaman, mayroong isang itinatag na opinyon na ang malaking data ay isang hanay ng mga teknolohiya na idinisenyo upang magsagawa ng tatlong operasyon. Una, iproseso ang mas malalaking volume ng data kumpara sa mga "karaniwan" na mga sitwasyon. Pangalawa, magagawang magtrabaho sa mabilis na pagdating ng data sa napakalaking volume. Iyon ay, mayroong hindi lamang maraming data, ngunit ito ay patuloy na nagiging mas at higit pa. Pangatlo, dapat na magagawa nila ang mga nakabalangkas at hindi maayos na data nang magkatulad sa iba't ibang aspeto. Ipinapalagay ng malaking data na ang mga algorithm ay tumatanggap ng isang stream ng impormasyon na hindi palaging nakaayos at higit sa isang ideya ang maaaring makuha mula dito.

Ang isang tipikal na halimbawa ng malaking data ay ang impormasyong nagmumula sa iba't ibang pisikal na pasilidad na pang-eksperimento - halimbawa, na may, na gumagawa ng malaking halaga ng data at patuloy na ginagawa. Ang pag-install ay patuloy na gumagawa ng malalaking volume ng data, at ginagamit ito ng mga siyentipiko upang malutas ang maraming problema nang magkatulad.

Ang paglitaw ng malaking data sa pampublikong espasyo ay dahil sa ang katunayan na ang data na ito ay nakaapekto sa halos lahat ng mga tao, at hindi lamang sa siyentipikong komunidad, kung saan ang mga naturang problema ay nalutas sa mahabang panahon. Sa pampublikong saklaw ng teknolohiya Malaking Data lumabas nang magsimula kaming mag-usap tungkol sa isang napaka-tiyak na bilang - ang bilang ng mga naninirahan sa planeta. 7 bilyon na nakolekta sa mga social network at iba pang mga proyekto na pinagsama-sama ang mga tao. YouTube, Facebook, Sa pakikipag-ugnayan sa, kung saan ang bilang ng mga tao ay sinusukat sa bilyun-bilyon, at ang bilang ng mga transaksyon na ginagawa nila nang sabay-sabay ay napakalaki. Ang daloy ng data sa kasong ito ay mga pagkilos ng user. Halimbawa, ang data mula sa parehong hosting YouTube, na dumadaloy sa network sa magkabilang direksyon. Ang pagpoproseso ay nangangahulugang hindi lamang interpretasyon, kundi pati na rin ang kakayahang iproseso nang tama ang bawat isa sa mga pagkilos na ito, iyon ay, ilagay ito sa tamang lugar at gawing available ang data na ito sa bawat user nang mabilis, dahil hindi pinahihintulutan ng mga social network ang paghihintay.

Karamihan sa kung ano ang tungkol sa malaking data, ang mga diskarte na ginagamit upang pag-aralan ito, ay talagang matagal nang umiiral. Halimbawa, ang pagproseso ng mga larawan mula sa mga surveillance camera, kapag hindi isang larawan ang pinag-uusapan, ngunit isang stream ng data. O robot nabigasyon. Ang lahat ng ito ay umiral nang mga dekada, ngunit ngayon ang mga gawain sa pagproseso ng data ay nakaapekto sa mas malaking bilang ng mga tao at ideya.

Maraming mga developer ang nakasanayan na magtrabaho sa mga static na bagay at pag-iisip sa mga tuntunin ng mga estado. Sa big data iba ang paradigm. Kailangan mong makapagtrabaho nang may tuluy-tuloy na daloy ng data, at ito ay isang kawili-wiling gawain. Nakakaapekto ito sa mas maraming lugar.

Sa ating buhay, parami nang parami ang hardware at software na nagsisimulang makabuo ng malaking halaga ng data - halimbawa, ang Internet of Things.

Ang mga bagay ay nakakabuo na ng malalaking daloy ng impormasyon. Ang sistema ng pulisya ng Potok ay nagpapadala ng impormasyon mula sa lahat ng mga camera at nagbibigay-daan sa iyong makahanap ng mga sasakyan gamit ang data na ito. Ang mga fitness bracelet, GPS tracker at iba pang bagay na nagsisilbi sa mga pangangailangan ng mga indibidwal at negosyo ay lalong nagiging uso.

Ang Moscow Department of Informatization ay nagre-recruit ng isang malaking bilang ng mga data analyst, dahil maraming mga istatistika sa mga tao ang naipon at ang mga ito ay multi-criteria (iyon ay, ang mga istatistika sa napakalaking bilang ng mga pamantayan ay nakolekta tungkol sa bawat tao, tungkol sa bawat isa. grupo ng mga tao). Kailangan mong maghanap ng mga pattern at trend sa data na ito. Para sa mga ganitong gawain, kailangan ang mga mathematician na may edukasyon sa IT. Dahil sa huli ang data ay nakaimbak sa mga structured na DBMS, at kailangan mong ma-access ang mga ito at makakuha ng impormasyon.

Dati, hindi namin itinuring na problema ang malaking data sa simpleng dahilan na walang lugar upang iimbak ito at walang mga network na magpapadala nito. Nang lumitaw ang mga pagkakataong ito, agad na napuno ng data ang buong volume na ibinigay sa kanila. Ngunit gaano man kalaki ang bandwidth at kapasidad ng pag-iimbak ng data, palaging may mga mapagkukunan, halimbawa, mga pisikal na eksperimento, mga eksperimento sa pagmomodelo ng pag-streamline ng isang pakpak, na magbubunga ng higit pang impormasyon kaysa sa maaari nating ipadala. Ayon sa batas ni Moore, ang pagganap ng mga modernong parallel computing system ay patuloy na tumataas, at ang bilis ng mga network ng paghahatid ng data ay tumataas din. Gayunpaman, ang data ay dapat na mabilis na maiimbak at makuha mula sa storage media (hard drive at iba pang mga uri ng memorya), at ito ay isa pang hamon sa pagpoproseso ng malaking data.

Malaking Data- Ingles "malaking data". Ang termino ay lumitaw bilang isang alternatibo sa DBMS at naging isa sa mga pangunahing uso sa imprastraktura ng IT nang ang karamihan sa mga higante sa industriya - IBM, Microsoft, HP, Oracle at iba pa ay nagsimulang gumamit ng konseptong ito sa kanilang mga estratehiya. Ang Big Data ay tumutukoy sa isang malaking (daan-daang terabytes) na hanay ng data na hindi maproseso gamit ang mga tradisyonal na pamamaraan; minsan – mga tool at pamamaraan para sa pagproseso ng data na ito.

Mga halimbawa ng mga mapagkukunan ng Big Data: Mga kaganapan sa RFID, mga mensahe sa mga social network, istatistika ng meteorolohiko, impormasyon tungkol sa lokasyon ng mga subscriber ng mga mobile cellular network at data mula sa mga audio/video recording device. Samakatuwid, ang "malaking data" ay malawakang ginagamit sa pagmamanupaktura, pangangalaga sa kalusugan, pangangasiwa ng gobyerno, at negosyo sa Internet - lalo na, kapag sinusuri ang target na madla.

Katangian

Ang mga palatandaan ng malaking data ay tinukoy bilang "tatlong Vs": Dami - dami (talagang malaki); iba't - heterogeneity, set; bilis – bilis (ang pangangailangan para sa napakabilis na pagproseso).

Ang malaking data ay kadalasang hindi nakaayos, at kailangan ng mga espesyal na algorithm upang maproseso ito. Kasama sa mga pamamaraan ng pagsusuri ng malaking data ang:

(“data mining”) – isang hanay ng mga diskarte para sa pagtuklas ng mga nakatagong kapaki-pakinabang na kaalaman na hindi makukuha ng mga karaniwang pamamaraan;
Crowdsourcing (crowd - "crowd", sourcing - gamitin bilang mapagkukunan) - paglutas ng mga makabuluhang problema sa pamamagitan ng magkasanib na pagsisikap ng mga boluntaryo na wala sa isang ipinag-uutos na kontrata sa trabaho o relasyon, pag-coordinate ng mga aktibidad gamit ang mga tool sa IT;
Pagsasama at Pagsasama ng Data (“paghahalo at pagpapatupad ng data”) – isang hanay ng mga pamamaraan para sa pagkonekta ng maraming pinagmumulan bilang bahagi ng isang malalim na pagsusuri;
Ang Machine Learning (“machine learning”) ay isang subsection ng artificial intelligence research na nag-aaral ng mga paraan ng paggamit ng statistical analysis at paggawa ng mga hula batay sa mga pangunahing modelo;
pagkilala sa larawan (halimbawa, pagkilala sa mga mukha sa viewfinder ng isang camera o video camera);
spatial analysis - gamit ang topology, geometry at heograpiya upang bumuo ng data;
visualization ng data - output ng analytical na impormasyon sa anyo ng mga guhit at diagram gamit ang mga interactive na tool at animation upang subaybayan ang mga resulta at bumuo ng pundasyon para sa karagdagang pagsubaybay.

Ang impormasyon ay iniimbak at sinusuri sa isang malaking bilang ng mga server na may mataas na pagganap. Ang pangunahing teknolohiya ay Hadoop, na open source.

Dahil ang dami ng impormasyon ay tataas lamang sa paglipas ng panahon, ang kahirapan ay hindi sa pagkuha ng data, ngunit sa kung paano iproseso ito nang may pinakamataas na benepisyo. Sa pangkalahatan, ang proseso ng pagtatrabaho sa Big Data ay kinabibilangan ng: pagkolekta ng impormasyon, pagbubuo nito, paggawa ng mga insight at konteksto, pagbuo ng mga rekomendasyon para sa pagkilos. Kahit na bago ang unang yugto, mahalaga na malinaw na tukuyin ang layunin ng trabaho: kung ano ang eksaktong data ay kinakailangan para sa, halimbawa, pagtukoy sa target na madla ng produkto. Kung hindi, may panganib na makatanggap ng maraming impormasyon nang hindi nauunawaan kung paano eksaktong magagamit ito.

Paunang Salita

Ang "Big data" ay isang naka-istilong termino sa kasalukuyan, na lumalabas sa halos lahat ng mga propesyonal na kumperensya na nakatuon sa pagsusuri ng data, predictive analytics, data mining, CRM. Ang termino ay ginagamit sa mga lugar kung saan ang pagtatrabaho sa qualitatively malalaking volume ng data ay may kaugnayan, kung saan mayroong patuloy na pagtaas sa bilis ng daloy ng data sa proseso ng organisasyon: ekonomiya, pagbabangko, pagmamanupaktura, marketing, telekomunikasyon, web analytics, gamot, atbp. .

Kasabay ng mabilis na pag-iipon ng impormasyon, ang mga teknolohiya sa pagsusuri ng data ay mabilis ding umuunlad. Kung ilang taon na ang nakalilipas posible, sabihin, i-segment lamang ang mga customer sa mga grupo na may katulad na mga kagustuhan, ngayon posible na bumuo ng mga modelo para sa bawat customer sa real time, pag-aaral, halimbawa, ang kanyang paggalaw sa Internet upang maghanap ng isang partikular na produkto. Maaaring masuri ang mga interes ng mamimili, at alinsunod sa itinayong modelo, ang mga angkop na advertisement o mga partikular na alok ay nakuha. Ang modelo ay maaari ding ayusin at itayo muli sa real time, na hindi maisip ilang taon lang ang nakalipas.

Sa larangan ng telekomunikasyon, halimbawa, ang mga teknolohiya ay binuo upang matukoy ang pisikal na lokasyon ng mga cell phone at ang mga may-ari ng mga ito, at ang ideyang inilarawan sa 2002 science fiction film na Minority Report, na nagpapakita ng impormasyon sa advertising sa mga shopping mall, ay tila malapit nang maging isang isinaalang-alang ang mga interes ng mga partikular na indibidwal na dumaraan.

Kasabay nito, may mga sitwasyon kung saan ang pagkahilig sa mga bagong teknolohiya ay maaaring humantong sa pagkabigo. Halimbawa, minsan kalat-kalat na data ( Kalat-kalat na data), na nagbibigay ng mahalagang insight sa realidad, ay mas mahalaga kaysa sa Malaking Data(Big Data), na naglalarawan sa mga bundok, ay kadalasang hindi naglalaman ng mahahalagang impormasyon.

Ang layunin ng artikulong ito ay linawin at pagnilayan ang mga bagong kakayahan ng Big Data at ilarawan kung paano ang analytics platform STATISTICA Matutulungan ka ng StatSoft na epektibong magamit ang Big Data para i-optimize ang mga proseso at lutasin ang mga problema.

Gaano kalaki ang Big Data?

Siyempre, ang tamang sagot sa tanong na ito ay dapat na "depende ito..."

Sa modernong mga talakayan, ang konsepto ng Big Data ay inilarawan bilang data sa pagkakasunud-sunod ng mga terabytes.

Sa pagsasagawa (kung pinag-uusapan natin ang tungkol sa mga gigabytes o terabytes), ang naturang data ay madaling iimbak at pamahalaan gamit ang "tradisyonal" na mga database at karaniwang hardware (mga server ng database).

Software STATISTICA gumagamit ng multi-threaded na teknolohiya para sa mga algorithm para sa pag-access ng data (pagbabasa), pagbabago at pagbuo ng mga predictive (at pag-scoring) na mga modelo, kaya madaling masuri ang mga sample ng data at hindi nangangailangan ng mga espesyal na tool.

Ang ilang kasalukuyang proyekto ng StatSoft ay nagpoproseso ng mga sample sa pagkakasunud-sunod ng 9-12 milyong mga hilera. I-multiply natin ang mga ito sa 1000 parameter (mga variable), na nakolekta at nakaayos sa isang data warehouse upang bumuo ng mga panganib o predictive na mga modelo. Ang ganitong uri ng file ay "lamang" ay magiging mga 100 gigabytes ang laki. Ito ay, siyempre, hindi isang maliit na bodega ng data, ngunit ang laki nito ay hindi lalampas sa mga kakayahan ng karaniwang teknolohiya ng database.

Linya ng Produkto STATISTICA para sa batch analysis at pagbuo ng mga modelo ng pagmamarka ( STATISTICA Enterprise), mga real-time na solusyon ( STATISTICA Live na Iskor), at mga tool sa pagsusuri para sa paglikha at pamamahala ng mga modelo ( STATISTICA Data Miner, Pagpapasya) madaling sumusukat sa maraming server na may mga multi-core na processor.

Sa pagsasagawa, nangangahulugan ito na ang sapat na bilis ng mga analytical na modelo (halimbawa, mga pagtataya tungkol sa panganib sa kredito, posibilidad ng pandaraya, pagiging maaasahan ng mga bahagi ng kagamitan, atbp.) upang payagan ang mabilis na mga desisyon na magawa ay halos palaging makakamit gamit ang mga karaniwang tool. STATISTICA.

Mula sa malalaking volume ng data hanggang sa Big Data

Karaniwan, ang mga talakayan ng Big Data ay nakasentro sa mga warehouse ng data (at pagsusuri batay sa mga naturang warehouse) na mas malaki kaysa sa ilang terabytes lamang.

Sa partikular, maaaring lumaki ang ilang data warehouse sa libu-libong terabytes, ibig sabihin, hanggang sa mga petabytes (1000 terabytes = 1 petabyte).

Higit pa sa mga petabytes, ang akumulasyon ng data ay maaaring masukat sa mga exabytes, halimbawa, sa sektor ng pagmamanupaktura sa buong mundo, isang kabuuang 2 exabytes ng bagong impormasyon ang tinatayang naipon noong 2010 (Manyika et al., 2011).

May mga industriya kung saan ang data ay kinokolekta at naiipon nang napakatindi.

Halimbawa, sa isang kapaligiran sa pagmamanupaktura gaya ng planta ng kuryente, nabubuo ang tuluy-tuloy na stream ng data, minsan para sa sampu-sampung libong parameter, bawat minuto o kahit na bawat segundo.

Bilang karagdagan, sa nakalipas na ilang taon, ang tinatawag na "smart grid" na mga teknolohiya ay ipinakilala, na nagpapahintulot sa mga utility na sukatin ang konsumo ng kuryente ng mga indibidwal na sambahayan bawat minuto o bawat segundo.

Para sa ganitong uri ng application, kung saan ang data ay dapat na naka-imbak nang maraming taon, ang naipon na data ay inuri bilang Extremely Big Data.

Mayroon ding dumaraming bilang ng mga application ng Big Data sa mga sektor ng komersyal at gobyerno, kung saan ang dami ng data sa storage ay maaaring daan-daang terabytes o petabytes.

Ang modernong teknolohiya ay nagbibigay-daan sa amin na "subaybayan" ang mga tao at ang kanilang pag-uugali sa iba't ibang paraan. Halimbawa, kapag gumagamit kami ng Internet, mamili sa mga online na tindahan o malalaking chain store tulad ng Walmart (ayon sa Wikipedia, ang imbakan ng data ng Walmart ay tinatantya sa higit sa 2 petabytes), o lumipat sa paligid nang naka-on ang aming mga mobile phone - iniiwan namin ang isang bakas ng ating mga aksyon na humahantong sa akumulasyon ng bagong impormasyon.

Iba't ibang paraan ng komunikasyon, mula sa simpleng mga tawag sa telepono hanggang sa pag-upload ng impormasyon sa pamamagitan ng mga social networking site tulad ng Facebook (ayon sa Wikipedia, ang impormasyon ay ipinagpapalit bawat buwan sa 30 bilyon), o pagbabahagi ng mga video sa mga site tulad ng YouTube (sinasabi ng YouTube na nag-a-upload ito ng 24 na oras ng video bawat minuto; tingnan ang Wikipedia), na bumubuo ng malaking halaga ng bagong data araw-araw.

Gayundin, ang mga modernong teknolohiyang medikal ay bumubuo ng malaking halaga ng data na nauugnay sa paghahatid ng pangangalagang pangkalusugan (mga larawan, video, real-time na pagsubaybay).

Kaya, ang pag-uuri ng mga dami ng data ay maaaring kinakatawan bilang mga sumusunod:

Malaking data set: mula 1000 megabytes (1 gigabyte) hanggang daan-daang gigabytes

Napakalaking set ng data: mula 1000 gigabytes (1 terabyte) hanggang sa ilang terabyte

Malaking Data: mula sa ilang terabytes hanggang sa daan-daang terabytes

Napakalaking Data: 1000 hanggang 10000 terabytes = 1 hanggang 10 petabytes

Mga gawaing nauugnay sa Big Data

May tatlong uri ng mga gawain na nauugnay sa Big Data:

1. Imbakan at pamamahala

Ang dami ng data na daan-daang terabytes o petabytes ay hindi madaling maimbak at mapangasiwaan gamit ang mga tradisyonal na relational database.

2. Hindi nakabalangkas na impormasyon

Ang karamihan sa lahat ng Big Data ay hindi nakaayos. Yung. paano mo maisasaayos ang teksto, video, larawan, atbp.?

3. Pagsusuri ng Malaking Data

Paano pag-aralan ang hindi nakabalangkas na impormasyon? Paano gumawa ng mga simpleng ulat batay sa Big Data, bumuo at magpatupad ng mga malalim na predictive na modelo?

Big Data storage at pamamahala

Karaniwang iniimbak at inaayos ang Big Data sa mga distributed file system.

Sa mga pangkalahatang tuntunin, ang impormasyon ay nakaimbak sa ilang (minsan libu-libo) na mga hard drive sa karaniwang mga computer.

Sinusubaybayan ng tinatawag na "mapa" kung saan (kung saang computer at/o disk) nakaimbak ang isang partikular na piraso ng impormasyon.

Upang matiyak ang pagpapahintulot sa pagkakamali at pagiging maaasahan, ang bawat piraso ng impormasyon ay karaniwang iniimbak ng ilang beses, halimbawa tatlong beses.

Kaya, halimbawa, sabihin nating nangolekta ka ng mga indibidwal na transaksyon mula sa isang malaking retail chain ng mga tindahan. Ang mga detalye ng bawat transaksyon ay iimbak sa iba't ibang mga server at hard drive, at ang "mapa" ay nag-i-index kung saan eksaktong naka-imbak ang mga detalye ng nauugnay na transaksyon.

Paggamit ng karaniwang hardware at open source software na mga tool upang pamahalaan ang distributed file system na ito (hal. Hadoop), medyo madaling ipatupad ang mga mapagkakatiwalaang data warehouse sa isang petabyte scale.

Hindi nakabalangkas na impormasyon

Karamihan sa mga nakolektang impormasyon sa isang distributed file system ay binubuo ng hindi nakaayos na data tulad ng text, mga larawan, mga litrato, o mga video.

Ito ay may mga pakinabang at disadvantages nito.

Ang kalamangan ay ang kakayahang mag-imbak ng malaking data ay nagbibigay-daan sa iyo na mag-imbak ng "lahat ng data" nang hindi nababahala tungkol sa kung aling bahagi ng data ang may kaugnayan para sa pagsusuri at paggawa ng desisyon sa ibang pagkakataon.

Ang kawalan ay na sa ganitong mga kaso, ang kasunod na pagproseso ng malalaking halaga ng data na ito ay kinakailangan upang kunin ang kapaki-pakinabang na impormasyon.

Bagama't ang ilan sa mga operasyong ito ay maaaring simple (hal. simpleng mga kalkulasyon, atbp.), ang iba ay nangangailangan ng mas kumplikadong mga algorithm na dapat ay partikular na idinisenyo upang tumakbo nang mahusay sa isang distributed file system.

Minsang sinabi ng isang executive sa StatSoft na "gumastos siya ng malaki sa IT at pag-iimbak ng data at hindi pa rin nagsimulang kumita ng pera" dahil hindi niya naisip kung paano pinakamahusay na gamitin ang data na iyon upang mapabuti ang pangunahing negosyo.

Kaya, habang ang dami ng data ay maaaring lumaki nang malaki, ang kakayahang kunin ang impormasyon at kumilos sa impormasyong iyon ay limitado at asymptotically aabot sa isang limitasyon.

Mahalaga na ang mga pamamaraan at pamamaraan para sa pagbuo, pag-update ng mga modelo, at pag-automate ng paggawa ng desisyon ay binuo kasama ng mga data storage system upang matiyak na ang mga naturang system ay kapaki-pakinabang at kapaki-pakinabang sa enterprise.

Pagsusuri ng Malaking Data

Ito ang talagang malaking problema sa hindi nakaayos na Big Data analytics: kung paano ito pag-aralan nang kapaki-pakinabang. Mas kaunti ang naisulat tungkol sa isyung ito kaysa sa tungkol sa pag-iimbak ng data at mga teknolohiya sa pamamahala ng Big Data.

Mayroong ilang mga isyu na dapat isaalang-alang.

Mapa-Bawasan

Kapag nagsusuri ng daan-daang terabytes o petabytes ng data, hindi posibleng i-extract ang data sa ibang lokasyon para sa pagsusuri (halimbawa, Server ng Pagsusuri ng Enterprise ng STATISTICA).

Ang proseso ng paglilipat ng data sa mga channel patungo sa isang hiwalay na server o mga server (para sa parallel na pagproseso) ay masyadong magtatagal at mangangailangan ng masyadong maraming trapiko.

Sa halip, ang mga analytical na kalkulasyon ay dapat gawin nang pisikal na malapit sa kung saan naka-imbak ang data.

Ang algorithm ng Map-Reduce ay isang modelo para sa distributed computing. Ang prinsipyo ng pagpapatakbo nito ay ang mga sumusunod: ang data ng pag-input ay ipinamamahagi sa mga node ng manggagawa (mga indibidwal na node) ng ipinamahagi na file system para sa paunang pagproseso (hakbang ng mapa) at, pagkatapos, ang na-preprocess na data ay nakatiklop (pinagsama) (bawasan ang hakbang) .

Kaya, upang, sabihin nating, kalkulahin ang panghuling kabuuan, ang algorithm ay parallel na kakalkulahin ang mga subtotal sa bawat isa sa mga node ng distributed file system, at pagkatapos ay ibubuod ang mga subtotal na ito.

Mayroong isang malaking halaga ng impormasyon na magagamit sa Internet tungkol sa kung paano mo magagawa ang iba't ibang mga kalkulasyon gamit ang modelo ng map-reduce, kabilang ang para sa predictive analytics.

Mga simpleng istatistika, Business Intelligence (BI)

Upang lumikha ng mga simpleng ulat ng BI, maraming open source na produkto na nagbibigay-daan sa iyong kalkulahin ang mga kabuuan, average, proporsyon, atbp. gamit ang map-reduce.

Pinapadali nitong makakuha ng tumpak na mga bilang at iba pang simpleng istatistika para sa pag-uulat.

Predictive na pagmomodelo, mga advanced na istatistika

Sa unang sulyap, maaaring mukhang mas mahirap ang pagbuo ng mga predictive na modelo sa isang distributed file system, ngunit hindi ito ang lahat ng kaso. Isaalang-alang natin ang mga paunang yugto ng pagsusuri ng data.

Paghahanda ng datos. Ilang oras na ang nakalipas, nagsagawa ang StatSoft ng isang serye ng mga malalaki at matagumpay na proyekto na kinasasangkutan ng napakalaking set ng data na naglalarawan sa bawat minutong pagganap ng isang proseso ng power plant. Ang layunin ng pagsusuri ay upang mapabuti ang kahusayan ng halaman at bawasan ang mga emisyon (Electric Power Research Institute, 2009).

Mahalaga na, kahit na ang mga set ng data ay maaaring napakalaki, ang impormasyong naglalaman ng mga ito ay mas maliit sa dimensyon.

Halimbawa, habang ang data ay naipon bawat segundo o bawat minuto, maraming mga parameter (mga temperatura ng gas at furnace, daloy, mga posisyon ng damper, atbp.) ay nananatiling stable sa mahabang agwat ng panahon. Sa madaling salita, ang data na naitala bawat segundo ay karaniwang pag-uulit ng parehong impormasyon.

Kaya, kinakailangan upang isagawa ang "matalinong" pagsasama-sama ng data, pagkuha ng data para sa pagmomodelo at pag-optimize na naglalaman lamang ng kinakailangang impormasyon tungkol sa mga dinamikong pagbabago na nakakaapekto sa kahusayan ng planta ng kuryente at ang dami ng mga emisyon.

Pag-uuri ng teksto at preprocessing ng data. Muli nating ilarawan kung paano maaaring maglaman ng hindi gaanong kapaki-pakinabang na impormasyon ang malalaking set ng data.

Halimbawa, ang StatSoft ay kasangkot sa mga proyektong nauugnay sa pagmimina ng teksto ng mga tweet na nagpapakita kung gaano nasisiyahan ang mga pasahero sa mga airline at kanilang mga serbisyo.

Bagama't maraming may-katuturang tweet ang kinukuha bawat oras at araw-araw, ang mga damdaming ipinahayag ay medyo simple at monotonous. Karamihan sa mga mensahe ay mga reklamo at maikling isang pangungusap na mensahe tungkol sa "masamang karanasan." Bukod dito, ang bilang at "lakas" ng mga damdaming ito ay medyo matatag sa paglipas ng panahon at sa mga partikular na isyu (hal., nawalang bagahe, mahinang pagkain, mga pagkansela ng flight).

Kaya, ang pagbabawas ng aktwal na mga tweet sa malapit na (score) na damdamin gamit ang mga diskarte sa pagmimina ng teksto (tulad ng mga ipinatupad sa STATISTICA Text Minero) ay nagreresulta sa mas maliit na dami ng data, na maaaring madaling itugma sa umiiral nang structured data (aktwal na pagbebenta ng ticket, o impormasyon ng madalas na flyer). Nagbibigay-daan sa iyo ang pagsusuri na hatiin ang mga customer sa mga grupo at pag-aralan ang kanilang mga karaniwang reklamo.

Mayroong maraming mga tool na magagamit upang maisagawa ang pagsasama-sama ng data na ito (tulad ng mga marka ng damdamin) sa isang distributed file system, na ginagawang madaling ipatupad ang analytical na prosesong ito.

Mga modelo ng gusali

Kadalasan ang hamon ay upang mabilis na bumuo ng mga tumpak na modelo para sa data na nakaimbak sa isang distributed file system.

Mayroong mapa-reduce na mga pagpapatupad para sa iba't ibang data mining/predictive analytics algorithm na angkop para sa malakihang parallel na pagproseso ng data sa isang distributed file system (na maaaring suportahan gamit ang platform STATISTICA StatSoft).

Gayunpaman, tiyak na dahil naproseso mo ang napakaraming data, tiwala ka ba na ang resultang modelo ay talagang mas tumpak?

Sa katunayan, malamang na mas maginhawang bumuo ng mga modelo para sa maliliit na segment ng data sa isang distributed file system.

Tulad ng sinabi ng kamakailang ulat ng Forrester, "Ang dalawa at dalawa ay katumbas ng 3.9 ay kadalasang maganda" (Hopkins & Evelson, 2011).

Ang katumpakan ng istatistika at matematika ay ang isang linear na regression na modelo kasama ang, halimbawa, 10 predictors batay sa isang wastong ginawa probability sampling sa 100,000 obserbasyon ay magiging kasing tumpak ng isang modelo na binuo sa 100 milyong obserbasyon.

Ito ay hinulaang ang kabuuang pandaigdigang dami ng data na nilikha at kinopya noong 2011 ay maaaring humigit-kumulang 1.8 zettabytes (1.8 trilyong gigabytes) - humigit-kumulang 9 na beses na mas mataas kaysa sa nilikha noong 2006.

Mas kumplikadong kahulugan

Gayunpaman` malaking data` nagsasangkot ng higit pa sa pagsusuri ng malaking halaga ng impormasyon. Ang problema ay hindi na ang mga organisasyon ay gumagawa ng malalaking volume ng data, ngunit ang karamihan sa mga ito ay nasa isang format na hindi angkop sa tradisyonal na structured database na format - mga web log, video, text document, machine code o, halimbawa, geospatial data . Ang lahat ng ito ay naka-imbak sa maraming iba't ibang mga repositoryo, kung minsan kahit sa labas ng organisasyon. Bilang resulta, ang mga korporasyon ay maaaring magkaroon ng access sa isang malaking halaga ng kanilang data at kulang sa mga kinakailangang tool upang magtatag ng mga relasyon sa pagitan ng data na ito at gumawa ng makabuluhang konklusyon mula dito. Idagdag dito ang katotohanan na ang data ay ngayon ay ina-update nang higit at mas madalas, at nakakakuha ka ng isang sitwasyon kung saan ang mga tradisyonal na pamamaraan ng pagsusuri ng impormasyon ay hindi makakasabay sa napakalaking dami ng patuloy na na-update na data, na sa huli ay nagbubukas ng daan para sa teknolohiya malaking data.

Pinakamahusay na kahulugan

Sa esensya ang konsepto malaking data nagsasangkot ng pagtatrabaho sa impormasyon ng isang malaking dami at magkakaibang komposisyon, napakadalas na na-update at matatagpuan sa iba't ibang mga mapagkukunan upang mapataas ang kahusayan sa pagpapatakbo, lumikha ng mga bagong produkto at mapataas ang pagiging mapagkumpitensya. Ang kumpanya ng pagkonsulta na Forrester ay nagbibigay ng maikling pormulasyon: ` Malaking Data pinagsasama-sama ang mga diskarte at teknolohiya na kumukuha ng kahulugan mula sa data sa sukdulang limitasyon ng pagiging praktikal.

Gaano kalaki ang pagkakaiba sa pagitan ng analytics ng negosyo at malaking data?

Itinuro ni Craig Bathy, executive director ng marketing at chief technology officer ng Fujitsu Australia, na ang pagsusuri sa negosyo ay isang mapaglarawang proseso ng pagsusuri sa mga resultang nakamit ng isang negosyo sa isang tiyak na tagal ng panahon, habang ang bilis ng pagproseso malaking data nagbibigay-daan sa iyong gawing predictive ang pagsusuri, na may kakayahang mag-alok ng mga rekomendasyon sa negosyo para sa hinaharap. Nagbibigay-daan din sa iyo ang mga teknolohiya ng malaking data na magsuri ng higit pang mga uri ng data kaysa sa mga tool sa business intelligence, na ginagawang posible na tumuon sa higit pa sa mga structured na repositoryo.

Naniniwala si Matt Slocum ng O'Reilly Radar na bagaman malaking data at ang analytics ng negosyo ay may parehong layunin (paghahanap ng mga sagot sa isang tanong), magkaiba sila sa isa't isa sa tatlong aspeto.

Idinisenyo ang malaking data upang pangasiwaan ang mas malalaking volume ng impormasyon kaysa sa analytics ng negosyo, at tiyak na akma ito sa tradisyonal na kahulugan ng malaking data.
Ang malaking data ay idinisenyo upang pangasiwaan ang mas mabilis, mas mabilis na pagbabago ng impormasyon, na nangangahulugang malalim na paggalugad at interaktibidad. Sa ilang mga kaso, ang mga resulta ay nabuo nang mas mabilis kaysa sa pag-load ng web page.
Ang malaking data ay idinisenyo upang iproseso ang hindi nakabalangkas na data na sisimulan pa lang nating tuklasin kung paano gamitin kapag nakolekta at naiimbak na natin ito, at kailangan natin ng mga algorithm at kakayahan sa pakikipag-usap upang gawing mas madali ang paghahanap ng mga trend na nasa loob ng mga set ng data na ito.

Ayon sa puting papel na "Oracle Information Architecture: An Architect's Guide to Big Data" na inilathala ng Oracle, kapag nagtatrabaho sa malaking data, iba ang diskarte namin sa impormasyon kaysa kapag nagsasagawa ng pagsusuri sa negosyo.

Ang pagtatrabaho sa malaking data ay hindi tulad ng karaniwang proseso ng business intelligence, kung saan ang pagdaragdag lamang ng mga kilalang halaga ay nagbubunga ng resulta: halimbawa, ang pagdaragdag ng mga bayad na invoice ay nagiging mga benta para sa taon. Kapag nagtatrabaho sa malaking data, ang resulta ay nakuha sa proseso ng paglilinis nito sa pamamagitan ng sunud-sunod na pagmomolde: una, ang isang hypothesis ay inilalagay sa harap, isang istatistika, visual o semantic na modelo ay binuo, sa batayan nito ang katumpakan ng inilagay na hypothesis ay nasuri. , at pagkatapos ay ilalagay ang susunod. Ang prosesong ito ay nangangailangan ng mananaliksik na bigyang-kahulugan ang mga visual na kahulugan o bumuo ng mga interactive na query batay sa kaalaman, o bumuo ng adaptive na `machine learning` na mga algorithm na makakapagdulot ng nais na resulta. Bukod dito, ang buhay ng naturang algorithm ay maaaring medyo maikli.

Mga diskarte sa pagsusuri ng malaking data

Mayroong maraming iba't ibang mga pamamaraan para sa pagsusuri ng mga set ng data, na batay sa mga tool na hiniram mula sa mga istatistika at computer science (halimbawa, machine learning). Ang listahan ay hindi nagpapanggap na kumpleto, ngunit ito ay sumasalamin sa pinakasikat na mga diskarte sa iba't ibang mga industriya. Dapat itong maunawaan na ang mga mananaliksik ay patuloy na nagtatrabaho sa paglikha ng mga bagong pamamaraan at pagpapabuti ng mga umiiral na. Bilang karagdagan, ang ilan sa mga nakalistang diskarte ay hindi kinakailangang eksklusibong nalalapat sa malaking data at maaaring matagumpay na magamit para sa mas maliliit na array (halimbawa, A/B testing, regression analysis). Siyempre, ang mas maraming dami at sari-sari ang array ay nasuri, ang mas tumpak at may-katuturang data ay maaaring makuha bilang isang resulta.

Pagsubok sa A/B. Isang pamamaraan kung saan ang isang control sample ay halili na inihahambing sa iba. Kaya, posibleng matukoy ang pinakamainam na kumbinasyon ng mga tagapagpahiwatig upang makamit, halimbawa, ang pinakamahusay na tugon ng consumer sa isang alok sa marketing. Malaking Data nagbibigay-daan sa iyo na magsagawa ng isang malaking bilang ng mga pag-ulit at sa gayon ay makakuha ng isang maaasahang resulta sa istatistika.

Pag-aaral ng panuntunan ng asosasyon. Isang hanay ng mga pamamaraan para sa pagtukoy ng mga relasyon, i.e. mga panuntunan sa pag-uugnay sa pagitan ng mga variable sa malalaking set ng data. Ginamit sa data mining.

Pag-uuri. Isang hanay ng mga diskarte na nagbibigay-daan sa iyong mahulaan ang gawi ng consumer sa isang partikular na segment ng merkado (mga desisyon sa pagbili, churn, dami ng pagkonsumo, atbp.). Ginamit sa data mining.

Pagsusuri ng cluster. Isang istatistikal na paraan para sa pag-uuri ng mga bagay sa mga pangkat sa pamamagitan ng pagtukoy sa dati nang hindi kilalang karaniwang mga tampok. Ginamit sa data mining.

Crowdsourcing. Pamamaraan para sa pagkolekta ng data mula sa isang malaking bilang ng mga mapagkukunan.

Data fusion at data integration. Isang hanay ng mga diskarte na nagbibigay-daan sa iyong pag-aralan ang mga komento mula sa mga gumagamit ng social network at ihambing ang mga ito sa mga resulta ng mga benta sa real time.

Pagmimina ng data. Isang hanay ng mga diskarte na nagbibigay-daan sa iyo upang matukoy ang mga kategorya ng mga consumer na pinaka-madaling kapitan sa pino-promote na produkto o serbisyo, tukuyin ang mga katangian ng pinakamatagumpay na empleyado, at hulaan ang modelo ng pag-uugali ng mga mamimili.

Pag-aaral ng ensemble. Gumagamit ang paraang ito ng maraming predictive na modelo, at sa gayon ay nagpapabuti sa kalidad ng mga pagtataya na ginawa.

Mga genetic algorithm. Sa pamamaraang ito, ang mga posibleng solusyon ay kinakatawan sa anyo ng mga `chromosome', na maaaring pagsamahin at i-mutate. Tulad ng sa proseso ng natural na ebolusyon, ang pinakamatibay na indibidwal ay nabubuhay.

Pag-aaral ng makina. Isang direksyon sa computer science (sa kasaysayan ay binigyan ito ng pangalang "artipisyal na katalinuhan"), na nagsusumikap sa layunin ng paglikha ng mga algorithm sa pag-aaral sa sarili batay sa pagsusuri ng empirical na data.

Natural na pagproseso ng wika (NLP). Isang hanay ng mga pamamaraan para sa pagkilala sa natural na wika ng tao na hiniram mula sa computer science at linguistics.

Pagsusuri sa network. Isang hanay ng mga diskarte para sa pagsusuri ng mga koneksyon sa pagitan ng mga node sa mga network. Kaugnay ng mga social network, pinapayagan ka nitong suriin ang mga ugnayan sa pagitan ng mga indibidwal na gumagamit, kumpanya, komunidad, atbp.

Pag-optimize. Isang hanay ng mga numerical na pamamaraan para sa muling pagdidisenyo ng mga kumplikadong system at proseso upang mapabuti ang isa o higit pang sukatan. Tumutulong sa paggawa ng mga madiskarteng desisyon, halimbawa, ang komposisyon ng linya ng produkto na ilulunsad sa merkado, pagsasagawa ng pagsusuri sa pamumuhunan, atbp.

Pagkilala sa pattern. Isang hanay ng mga diskarte na may mga elemento sa pag-aaral sa sarili para sa paghula sa modelo ng pag-uugali ng mga mamimili.

Predictive modeling. Isang hanay ng mga diskarte na nagbibigay-daan sa iyo upang lumikha ng isang mathematical na modelo ng isang paunang natukoy na posibleng senaryo para sa pagbuo ng mga kaganapan. Halimbawa, pagsusuri ng database ng CRM system para sa mga posibleng kundisyon na mag-uudyok sa mga subscriber na magpalit ng mga provider.

Regression. Isang set ng mga istatistikal na pamamaraan para sa pagtukoy ng pattern sa pagitan ng mga pagbabago sa isang dependent variable at isa o higit pang independent variable. Madalas na ginagamit para sa pagtataya at mga hula. Ginamit sa data mining.

Pagsusuri ng damdamin. Ang mga pamamaraan para sa pagtatasa ng damdamin ng mamimili ay batay sa mga natural na teknolohiya sa pagkilala ng wika. Nagbibigay-daan sa iyo ang mga ito na ihiwalay ang mga mensaheng nauugnay sa paksa ng interes (halimbawa, isang produkto ng consumer) mula sa pangkalahatang daloy ng impormasyon. Susunod, suriin ang polarity ng paghatol (positibo o negatibo), ang antas ng emosyonalidad, atbp.

Pagproseso ng signal. Isang hanay ng mga diskarte na hiniram mula sa radio engineering na naglalayong kilalanin ang isang signal laban sa background ng ingay at ang karagdagang pagsusuri nito.

Pagsusuri sa spatial. Isang hanay ng mga pamamaraan para sa pagsusuri ng spatial na data, na bahagyang hiniram mula sa mga istatistika - topology ng lupain, geographic na coordinate, geometry ng object. Pinagmulan malaking data Ang mga geographic information system (GIS) ay kadalasang ginagamit sa kasong ito.

Revolution Analytics (batay sa wikang R para sa mathematical statistics).

Ang partikular na interes sa listahang ito ay ang Apache Hadoop, isang open source software na napatunayan bilang data analyzer ng karamihan sa mga stock tracker sa nakalipas na limang taon. Sa sandaling binuksan ng Yahoo ang Hadoop code sa open source na komunidad, isang buong kilusan ng paglikha ng mga produkto batay sa Hadoop ay agad na lumitaw sa industriya ng IT. Halos lahat ng modernong tool sa pagsusuri malaking data magbigay ng mga tool sa pagsasama ng Hadoop. Ang kanilang mga developer ay parehong mga startup at kilalang mga pandaigdigang kumpanya.

Mga Merkado para sa Mga Solusyon sa Pamamahala ng Malaking Data

Mga Big Data Platform (BDP, Big Data Platform) bilang isang paraan ng paglaban sa digital hording

Kakayahang mag-analyze malaking data, na kolokyal na tinatawag na Big Data, ay itinuturing na isang benepisyo, at hindi malabo. Pero ganito ba talaga? Ano ang maaaring humantong sa talamak na akumulasyon ng data? Malamang sa tinatawag ng mga domestic psychologist, na may kaugnayan sa mga tao, na pathological hoarding, syllogomania, o sa makasagisag na paraan ay "Plyushkin syndrome." Sa Ingles, ang masasamang hilig na mangolekta ng lahat ay tinatawag na hording (mula sa English hoard - "stock"). Ayon sa pag-uuri ng mga sakit sa isip, ang hording ay inuri bilang isang mental disorder. Sa digital na panahon, ang digital hoarding ay idinagdag sa tradisyonal na pag-iimbak ng materyal na maaari itong makaapekto sa parehong mga indibidwal at buong negosyo at organisasyon ().

World at Russian market

Big data Landscape - Pangunahing mga supplier

Interes sa koleksyon, pagproseso, pamamahala at mga tool sa pagsusuri malaking data Halos lahat ng nangungunang kumpanya ng IT ay nagpakita nito, na medyo natural. Una, direktang nakatagpo nila ang hindi pangkaraniwang bagay na ito sa kanilang sariling negosyo, at pangalawa, malaking data magbukas ng mahusay na mga pagkakataon para sa pagbuo ng mga bagong market niches at pag-akit ng mga bagong customer.

Maraming mga startup ang lumitaw sa merkado na gumagawa ng negosyo sa pamamagitan ng pagproseso ng malaking halaga ng data. Ang ilan sa kanila ay gumagamit ng handa na imprastraktura ng ulap na ibinigay ng malalaking manlalaro tulad ng Amazon.

Teorya at kasanayan ng Big Data sa mga industriya

Kasaysayan ng pag-unlad

2017

TmaxSoft forecast: ang susunod na "wave" ng Big Data ay mangangailangan ng modernisasyon ng DBMS

Alam ng mga negosyo na ang napakaraming data na naipon nila ay naglalaman ng mahalagang impormasyon tungkol sa kanilang negosyo at mga customer. Kung matagumpay na mailalapat ng isang kumpanya ang impormasyong ito, magkakaroon ito ng malaking kalamangan sa mga kakumpitensya nito at makakapag-alok ng mas mahusay na mga produkto at serbisyo kaysa sa kanila. Gayunpaman, maraming mga organisasyon ang nabigo pa rin sa epektibong paggamit malaking data dahil sa katotohanan na ang kanilang legacy na imprastraktura ng IT ay hindi makapagbigay ng kinakailangang kapasidad sa pag-iimbak, mga proseso ng pagpapalitan ng data, mga kagamitan at mga aplikasyon na kinakailangan upang iproseso at pag-aralan ang malalaking halaga ng hindi nakabalangkas na data upang kunin ang mahalagang impormasyon mula sa kanila, ipinahiwatig ng TmaxSoft.

Bukod pa rito, ang tumaas na kapangyarihan sa pagpoproseso na kinakailangan upang suriin ang patuloy na pagtaas ng dami ng data ay maaaring mangailangan ng malaking pamumuhunan sa legacy na imprastraktura ng IT ng isang organisasyon, pati na rin ang mga karagdagang mapagkukunan ng pagpapanatili na maaaring magamit upang bumuo ng mga bagong application at serbisyo.

Noong Pebrero 5, 2015, ang White House ay naglabas ng isang ulat na tinalakay kung paano ginagamit ng mga kumpanya ang " malaking data» para maningil ng iba't ibang presyo sa iba't ibang customer, isang kasanayang kilala bilang "diskriminasyon sa presyo" o "naka-personalize na pagpepresyo". Inilalarawan ng ulat ang mga benepisyo ng malaking data para sa parehong mga nagbebenta at mamimili, at ang mga may-akda nito ay naghihinuha na ang marami sa mga isyung ibinangon ng malaking data at pagkakaiba sa pagpepresyo ay maaaring matugunan sa pamamagitan ng mga umiiral na batas at regulasyon laban sa diskriminasyon.

Ang ulat ay nagsasaad na sa oras na ito, mayroon lamang anecdotal na katibayan kung paano gumagamit ang mga kumpanya ng malaking data sa konteksto ng personalized na marketing at pagkakaiba-iba ng pagpepresyo. Ipinapakita ng impormasyong ito na ang mga nagbebenta ay gumagamit ng mga paraan ng pagpepresyo na maaaring hatiin sa tatlong kategorya:

pag-aaral ng demand curve;
Pagpipiloto at pagkakaiba-iba ng pagpepresyo batay sa demograpikong data; At
naka-target na marketing sa asal (behavioral targeting) at indibidwal na pagpepresyo.

Pag-aaral ng Demand Curve: Upang matukoy ang demand at pag-aralan ang gawi ng consumer, madalas na nagsasagawa ng mga eksperimento ang mga marketer sa lugar na ito kung saan random na itinatalaga ang mga customer sa isa sa dalawang posibleng kategorya ng presyo. "Sa teknikal na paraan, ang mga eksperimentong ito ay isang anyo ng differential pricing dahil nagreresulta ang mga ito sa iba't ibang presyo para sa mga customer, kahit na ang mga ito ay "non-discriminatory" sa kahulugan na ang lahat ng mga customer ay may parehong posibilidad na "ipadala" sa mas mataas na presyo."

Pagpipiloto: Ito ay ang kasanayan ng pagpapakita ng mga produkto sa mga mamimili batay sa kanilang pagiging miyembro sa isang partikular na demograpikong grupo. Halimbawa, ang website ng kumpanya ng computer ay maaaring mag-alok ng parehong laptop sa iba't ibang uri ng mga customer sa iba't ibang presyo batay sa kanilang sariling-ulat na impormasyon (halimbawa, depende sa kung ang gumagamit ay isang gobyerno, akademiko, o komersyal na gumagamit, o isang indibidwal) o sa kanilang heograpikal na lokasyon (halimbawa, tinutukoy ng IP address ng isang computer).

Naka-target na marketing sa pag-uugali at naka-customize na pagpepresyo: Sa mga kasong ito, ginagamit ang personal na impormasyon ng mga customer upang i-target ang advertising at i-customize ang pagpepresyo para sa ilang partikular na produkto. Halimbawa, ang mga online na advertiser ay gumagamit ng data na kinokolekta ng mga network ng advertising at sa pamamagitan ng third-party na cookies tungkol sa aktibidad ng online na user upang i-target ang kanilang mga advertisement. Ang diskarte na ito, sa isang banda, ay nagbibigay-daan sa mga mamimili na makatanggap ng pag-advertise ng mga kalakal at serbisyo na interesado sa kanila, gayunpaman, maaaring magdulot ng pag-aalala para sa mga mamimili na ayaw ng ilang uri ng kanilang personal na data (tulad ng impormasyon tungkol sa mga pagbisita sa mga website. naka-link sa mga usaping medikal at pinansyal) ay nakolekta nang walang pahintulot nila.

Bagama't laganap ang naka-target na pagmemerkado sa pag-uugali, may kaunting ebidensya ng personalized na pagpepresyo sa online na kapaligiran. Ang ulat ay nag-isip na maaaring ito ay dahil ang mga pamamaraan ay ginagawa pa rin, o dahil ang mga kumpanya ay nag-aalangan na gumamit ng custom na pagpepresyo (o mas gusto na manahimik tungkol dito) - marahil ay natatakot sa isang backlash mula sa mga mamimili.

Iminumungkahi ng mga may-akda ng ulat na "para sa indibidwal na mamimili, ang paggamit ng malaking data ay malinaw na nagpapakita ng parehong potensyal na mga gantimpala at mga panganib." Bagama't kinikilala na ang malaking data ay nagpapataas ng mga isyu sa transparency at diskriminasyon, ang ulat ay nangangatwiran na ang mga umiiral na batas laban sa diskriminasyon at proteksyon ng consumer ay sapat upang matugunan ang mga ito. Gayunpaman, itinatampok din ng ulat ang pangangailangan para sa "patuloy na pangangasiwa" kapag ang mga kumpanya ay gumagamit ng sensitibong impormasyon sa mga paraang hindi transparent o sa mga paraang hindi saklaw ng umiiral na mga balangkas ng regulasyon.

Ipinagpapatuloy ng ulat na ito ang mga pagsisikap ng White House na suriin ang paggamit ng malaking data at diskriminasyong pagpepresyo sa Internet at ang mga resultang kahihinatnan para sa mga mamimiling Amerikano. Nauna nang naiulat na inilathala ng White House Big Data Working Group ang ulat nito sa isyung ito noong Mayo 2014. Tinutugunan din ng Federal Trade Commission (FTC) ang mga isyung ito noong Setyembre 2014 workshop nito sa diskriminasyon sa malaking data.

2014

Tinatanggal ni Gartner ang mga alamat tungkol sa Big Data

Ang isang tala sa pananaliksik noong taglagas 2014 mula sa Gartner ay naglilista ng ilang karaniwang mga alamat ng Big Data sa mga pinuno ng IT at nagbibigay ng mga pagtanggi sa kanila.

Ang lahat ay nagpapatupad ng mga sistema ng pagpoproseso ng Big Data nang mas mabilis kaysa sa amin

Nasa pinakamataas ang interes sa mga teknolohiya ng Big Data: 73% ng mga organisasyong sinuri ng mga analyst ng Gartner sa taong ito ay namumuhunan na o nagpaplanong gawin ito. Ngunit karamihan sa mga hakbangin na ito ay nasa mga unang yugto pa lamang, at 13% lamang ng mga respondent ang nakapagpatupad na ng mga ganitong solusyon. Ang pinakamahirap na bagay ay upang matukoy kung paano kunin ang kita mula sa Big Data, upang magpasya kung saan magsisimula. Maraming organisasyon ang natigil sa pilot stage dahil hindi nila maitali ang bagong teknolohiya sa mga partikular na proseso ng negosyo.

Mayroon kaming napakaraming data na hindi na kailangang mag-alala tungkol sa maliliit na error dito

Ang ilang mga tagapamahala ng IT ay naniniwala na ang mga maliliit na bahid ng data ay hindi nakakaapekto sa pangkalahatang mga resulta ng pagsusuri ng malalaking volume. Kapag mayroong maraming data, ang bawat indibidwal na error ay talagang may mas kaunting epekto sa resulta, ang mga analyst ay tandaan, ngunit ang mga error mismo ay nagiging mas marami. Bilang karagdagan, karamihan sa nasuri na data ay panlabas, ng hindi kilalang istraktura o pinagmulan, kaya tumataas ang posibilidad ng mga error. Kaya sa mundo ng Big Data, ang kalidad ay talagang mas mahalaga.

Aalisin ng mga teknolohiya ng Big Data ang pangangailangan para sa pagsasama ng data

Nangangako ang Big Data ng kakayahang magproseso ng data sa orihinal nitong format, na may awtomatikong pagbuo ng schema habang binabasa ito. Ito ay pinaniniwalaan na ito ay magbibigay-daan sa impormasyon mula sa parehong mga mapagkukunan na masuri gamit ang maramihang mga modelo ng data. Maraming naniniwala na magbibigay-daan din ito sa mga end user na bigyang-kahulugan ang anumang set ng data ayon sa kanilang nakikitang akma. Sa katotohanan, kadalasang gusto ng karamihan sa mga user ang tradisyonal na paraan na may handa na schema, kung saan ang data ay na-format nang naaangkop at may mga kasunduan sa antas ng integridad ng impormasyon at kung paano ito dapat nauugnay sa kaso ng paggamit.

Walang saysay ang paggamit ng mga data warehouse para sa kumplikadong analytics

Maraming mga tagapangasiwa ng sistema ng pamamahala ng impormasyon ang naniniwala na walang saysay na gumugol ng oras sa paglikha ng isang warehouse ng data, dahil umaasa ang mga kumplikadong sistema ng analytical sa mga bagong uri ng data. Sa katunayan, maraming kumplikadong analytics system ang gumagamit ng impormasyon mula sa isang data warehouse. Sa ibang mga kaso, ang mga bagong uri ng data ay kailangang ihanda para sa pagsusuri sa mga sistema ng pagproseso ng Big Data; ang mga pagpapasya ay kailangang gawin tungkol sa pagiging angkop ng data, ang mga prinsipyo ng pagsasama-sama at ang kinakailangang antas ng kalidad - ang naturang paghahanda ay maaaring mangyari sa labas ng bodega.

Ang mga data warehouse ay papalitan ng mga data lakes

Sa totoo lang, nililinlang ng mga vendor ang mga customer sa pamamagitan ng pagpoposisyon sa mga lawa ng data bilang kapalit ng storage o bilang mga kritikal na elemento ng analytical na imprastraktura. Ang mga pinagbabatayan na teknolohiya ng data lake ay kulang sa maturity at lawak ng functionality na makikita sa mga warehouse. Samakatuwid, ang mga tagapamahala na responsable para sa pamamahala ng data ay dapat maghintay hanggang maabot ng mga lawa ang parehong antas ng pag-unlad, ayon kay Gartner.

Accenture: 92% ng mga nagpatupad ng malalaking data system ay nasiyahan sa mga resulta

Kabilang sa mga pangunahing bentahe ng malaking data, pinangalanan ng mga respondent ang:

"paghahanap ng mga bagong mapagkukunan ng kita" (56%),
"pagpapabuti ng karanasan ng customer" (51%),
“mga bagong produkto at serbisyo” (50%) at
"isang pagdagsa ng mga bagong customer at pagpapanatili ng katapatan ng mga luma" (47%).

Kapag nagpapakilala ng mga bagong teknolohiya, maraming kumpanya ang nahaharap sa mga tradisyunal na problema. Para sa 51%, ang hadlang ay seguridad, para sa 47% - badyet, para sa 41% - kakulangan ng kinakailangang tauhan, at para sa 35% - mga paghihirap sa pagsasama sa umiiral na sistema. Halos lahat ng kumpanyang na-survey (mga 91%) ay nagpaplanong lutasin sa lalong madaling panahon ang problema ng mga kakulangan sa kawani at umarkila ng mga dalubhasa sa malalaking data.

Ang mga kumpanya ay maasahin sa mabuti tungkol sa hinaharap ng malalaking teknolohiya ng data. Naniniwala ang 89% na babaguhin nila ang negosyo gaya ng Internet. Napansin ng 79% ng mga sumasagot na ang mga kumpanyang hindi nakikibahagi sa malaking data ay mawawala ang kanilang kalamangan sa kompetisyon.

Gayunpaman, hindi sumang-ayon ang mga sumasagot tungkol sa kung ano ang eksaktong dapat ituring na malaking data. 65% ng mga respondent ang naniniwala na ang mga ito ay "malaking data file", 60% ang naniniwala na ito ay "advanced analytics at analysis", at 50% ang naniniwala na ito ay "data visualization tools".

Gumastos ang Madrid ng €14.7 milyon sa pamamahala ng malaking data

Noong Hulyo 2014, naging kilala na ang Madrid ay gagamit ng malalaking teknolohiya ng data upang pamahalaan ang imprastraktura ng lungsod. Ang halaga ng proyekto ay 14.7 milyong euro, ang batayan ng mga ipinatupad na solusyon ay mga teknolohiya para sa pagsusuri at pamamahala ng malaking data. Sa kanilang tulong, pamamahalaan ng administrasyon ng lungsod ang trabaho sa bawat service provider at magbabayad nang naaayon depende sa antas ng mga serbisyo.

Pinag-uusapan natin ang tungkol sa mga kontratista ng administrasyon na sumusubaybay sa kalagayan ng mga kalye, ilaw, irigasyon, mga berdeng espasyo, nililinis ang teritoryo at nag-aalis, pati na rin ang pag-recycle ng basura. Sa panahon ng proyekto, 300 pangunahing tagapagpahiwatig ng pagganap ng mga serbisyo ng lungsod ang binuo para sa mga espesyal na itinalagang inspektor, batay sa kung saan 1.5 libong iba't ibang mga pagsusuri at pagsukat ang isasagawa araw-araw. Bilang karagdagan, magsisimula ang lungsod sa paggamit ng isang makabagong platform ng teknolohiya na tinatawag na Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Mga Eksperto: Nasa uso ang Big Data

Nang walang pagbubukod, ang lahat ng mga vendor sa merkado ng pamamahala ng data ay kasalukuyang bumubuo ng mga teknolohiya para sa pamamahala ng Big Data. Ang bagong teknolohikal na kalakaran na ito ay aktibong tinatalakay din ng propesyonal na komunidad, parehong mga developer at analyst ng industriya at mga potensyal na mamimili ng mga naturang solusyon.

Tulad ng nalaman ng Datashift, noong Enero 2013, nagkaroon ng isang alon ng mga talakayan tungkol sa " malaking data"lumampas sa lahat ng maiisip na sukat. Matapos suriin ang bilang ng mga pagbanggit ng Big Data sa mga social network, kinalkula ng Datashift na noong 2012 ang termino ay ginamit nang humigit-kumulang 2 bilyong beses sa mga post na ginawa ng humigit-kumulang 1 milyong iba't ibang mga may-akda sa buong mundo. Katumbas ito ng 260 post kada oras, na may peak na 3,070 pagbanggit kada oras.

Gartner: Bawat segundong CIO ay handang gumastos ng pera sa Big data

Pagkatapos ng ilang taon ng pag-eeksperimento sa mga teknolohiya ng Big data at ang mga unang pagpapatupad noong 2013, ang adaptasyon ng naturang mga solusyon ay tataas nang malaki, hula ni Gartner. Sinuri ng mga mananaliksik ang mga pinuno ng IT sa buong mundo at nalaman na 42% ng mga respondent ay namuhunan na sa mga teknolohiya ng Big data o planong gumawa ng mga naturang pamumuhunan sa loob ng susunod na taon (data noong Marso 2013).

Ang mga kumpanya ay napipilitang gumastos ng pera sa pagpoproseso ng mga teknolohiya malaking data, dahil ang landscape ng impormasyon ay mabilis na nagbabago, na nangangailangan ng mga bagong diskarte sa pagproseso ng impormasyon. Napagtanto na ng maraming kumpanya na ang malaking halaga ng data ay kritikal, at ang pakikipagtulungan sa kanila ay nagpapahintulot sa kanila na makamit ang mga benepisyo na hindi magagamit gamit ang mga tradisyonal na mapagkukunan ng impormasyon at mga pamamaraan ng pagproseso nito. Bilang karagdagan, ang patuloy na pagtalakay sa paksa ng "malaking data" sa media ay nagpapasigla ng interes sa mga nauugnay na teknolohiya.

Si Frank Buytendijk, isang bise presidente sa Gartner, ay hinimok pa ang mga kumpanya na huminahon sa kanilang mga pagsisikap dahil ang ilan ay nag-aalala na sila ay nasa likod ng mga kakumpitensya sa kanilang pagpapatibay ng Big Data.

"Hindi kailangang mag-alala; ang mga posibilidad para sa pagpapatupad ng mga ideya batay sa malalaking teknolohiya ng data ay halos walang katapusang," sabi niya.

Hinuhulaan ni Gartner na sa 2015, 20% ng Global 1000 na kumpanya ay magkakaroon ng estratehikong pagtutok sa "imprastruktura ng impormasyon."

Bilang pag-asa sa mga bagong pagkakataon na idudulot ng malalaking teknolohiya sa pagproseso ng data, maraming organisasyon ang nag-oorganisa na ng proseso ng pagkolekta at pag-iimbak ng iba't ibang uri ng impormasyon.

Para sa mga organisasyong pang-edukasyon, gobyerno, at pang-industriya, ang pinakamalaking potensyal para sa pagbabago ng negosyo ay nakasalalay sa kumbinasyon ng mga naipon na data na may tinatawag na dark data (literal, "dark data"), ang huli ay kasama ang mga mensaheng email, multimedia at iba pang katulad na nilalaman. Ayon kay Gartner, ang mga mananalo sa data race ay ang mga matututong harapin ang iba't ibang mapagkukunan ng impormasyon.

Cisco survey: Makakatulong ang Big Data na mapataas ang mga IT budget

Ang Spring 2013 Cisco Connected World Technology Report, na isinagawa sa 18 bansa ng independent research firm na InsightExpress, ay nag-survey sa 1,800 mga mag-aaral sa kolehiyo at isang pantay na bilang ng mga batang propesyonal sa pagitan ng edad na 18 at 30. Isinagawa ang survey upang malaman ang antas ng kahandaan ng mga IT department sa pagpapatupad ng mga proyekto Malaking Data at makakuha ng insight sa mga hamon, teknolohikal na pagkukulang at estratehikong halaga ng mga naturang proyekto.

Karamihan sa mga kumpanya ay nangongolekta, nagtatala at nagsusuri ng data. Gayunpaman, sabi ng ulat, maraming kumpanya ang nahaharap sa isang hanay ng mga kumplikadong hamon sa negosyo at teknolohiya ng impormasyon sa Big Data. Halimbawa, 60 porsiyento ng mga sumasagot ay umamin na ang mga solusyon sa Big Data ay maaaring mapabuti ang mga proseso ng paggawa ng desisyon at pataasin ang pagiging mapagkumpitensya, ngunit 28 porsiyento lamang ang nagsabi na sila ay nakakatanggap na ng mga tunay na madiskarteng benepisyo mula sa naipon na impormasyon.

Mahigit sa kalahati ng mga IT executive na na-survey ay naniniwala na ang mga proyekto ng Big Data ay makakatulong na mapataas ang mga badyet ng IT sa kanilang mga organisasyon, dahil magkakaroon ng mas mataas na mga pangangailangan sa teknolohiya, mga tauhan at propesyonal na kasanayan. Kasabay nito, higit sa kalahati ng mga sumasagot ay umaasa na ang mga naturang proyekto ay magtataas ng mga badyet sa IT sa kanilang mga kumpanya sa unang bahagi ng 2012. 57 porsyento ang nagtitiwala na ang Big Data ay tataas ang kanilang mga badyet sa susunod na tatlong taon.

81 porsyento ng mga sumasagot ang nagsabi na ang lahat (o hindi bababa sa ilan) na proyekto ng Big Data ay mangangailangan ng paggamit ng cloud computing. Kaya, ang pagkalat ng mga teknolohiya sa ulap ay maaaring makaapekto sa bilis ng paggamit ng mga solusyon sa Big Data at ang halaga ng negosyo ng mga solusyong ito.

Kinokolekta at ginagamit ng mga kumpanya ang maraming iba't ibang uri ng data, parehong nakabalangkas at hindi nakabalangkas. Narito ang mga mapagkukunan kung saan natatanggap ng mga kalahok sa survey ang kanilang data (Cisco Connected World Technology Report):

Halos kalahati (48 porsyento) ng mga pinuno ng IT ang hinuhulaan na ang load sa kanilang mga network ay doble sa susunod na dalawang taon. (Ito ay totoo lalo na sa China, kung saan 68 porsiyento ng mga respondent ang nagbabahagi ng pananaw na ito, at sa Germany – 60 porsiyento). Inaasahan ng 23 porsiyento ng mga sumasagot ang pag-load ng network na triple sa susunod na dalawang taon. Kasabay nito, 40 porsiyento lamang ng mga respondent ang nagpahayag ng kanilang kahandaan para sa paputok na paglaki sa dami ng trapiko sa network.

Inamin ng 27 porsiyento ng mga sumasagot na kailangan nila ng mas mahusay na mga patakaran sa IT at mga hakbang sa seguridad ng impormasyon.

21 porsiyento ay nangangailangan ng mas maraming bandwidth.

Ang Big Data ay nagbubukas ng mga bagong pagkakataon para sa mga departamento ng IT na magdagdag ng halaga at bumuo ng matibay na ugnayan sa mga yunit ng negosyo, na nagpapahintulot sa kanila na mapataas ang kita at palakasin ang posisyon sa pananalapi ng kumpanya. Ginagawa ng mga proyekto ng Big Data ang mga kagawaran ng IT na isang madiskarteng kasosyo sa mga departamento ng negosyo.

Ayon sa 73 porsyento ng mga sumasagot, ang departamento ng IT ay magiging pangunahing driver ng pagpapatupad ng diskarte sa Big Data. Kasabay nito, naniniwala ang mga sumasagot na ang ibang mga departamento ay kasangkot din sa pagpapatupad ng estratehiyang ito. Una sa lahat, ito ay may kinalaman sa mga departamento ng pananalapi (pinangalanan ng 24 porsiyento ng mga respondent), pananaliksik at pagpapaunlad (20 porsiyento), mga operasyon (20 porsiyento), engineering (19 porsiyento), pati na rin ang marketing (15 porsiyento) at mga benta ( 14 porsyento).

Gartner: Milyun-milyong bagong trabaho ang kailangan para pamahalaan ang malaking data

Ang pandaigdigang paggasta sa IT ay aabot sa $3.7 bilyon sa 2013, na 3.8% na higit pa kaysa sa paggasta sa teknolohiya ng impormasyon noong 2012 (ang pagtataya sa pagtatapos ng taon ay $3.6 bilyon). Segment malaking data(malaking data) ay bubuo sa mas mabilis na bilis, sabi ng isang ulat ng Gartner.

Pagsapit ng 2015, 4.4 milyong trabaho sa teknolohiya ng impormasyon ang malilikha upang magserbisyo ng malaking data, kung saan 1.9 milyong trabaho ang mapupunta sa . Bukod dito, ang bawat ganoong trabaho ay mangangailangan ng paglikha ng tatlong karagdagang trabaho sa labas ng sektor ng IT, upang sa Estados Unidos lamang, 6 na milyong tao ang magtatrabaho upang suportahan ang ekonomiya ng impormasyon sa susunod na apat na taon.

Ayon sa mga dalubhasa sa Gartner, ang pangunahing problema ay walang sapat na talento sa industriya para dito: parehong pribado at pampublikong sistema ng edukasyon, halimbawa sa Estados Unidos, ay hindi nakakapagbigay sa industriya ng sapat na bilang ng mga kwalipikadong tauhan. . Kaya sa mga bagong IT jobs na nabanggit, isa lang sa tatlo ang magiging staff.

Naniniwala ang mga analyst na ang papel ng pag-aalaga ng mga kwalipikadong tauhan ng IT ay dapat na direktang kunin ng mga kumpanyang agarang nangangailangan sa kanila, dahil ang mga naturang empleyado ang kanilang magiging tiket sa bagong ekonomiya ng impormasyon sa hinaharap.

2012

Ang unang pag-aalinlangan tungkol sa "Big Data"

Iminumungkahi ng mga analyst mula sa Ovum at Gartner na para sa isang naka-istilong paksa noong 2012 malaking data maaaring dumating ang oras upang palayain ang iyong sarili mula sa mga ilusyon.

Ang terminong "Big Data" sa ngayon ay karaniwang tumutukoy sa patuloy na dumaraming impormasyon na dumadaloy online mula sa social media, mga sensor network at iba pang mapagkukunan, pati na rin ang lumalaking hanay ng mga tool na ginagamit upang iproseso ang data at tukuyin ang data na nauugnay sa negosyo. mula dito.

"Dahil sa (o sa kabila) ng hype sa paligid ng ideya ng malaking data, ang mga tagagawa noong 2012 ay tumingin sa trend na ito nang may malaking pag-asa," sabi ni Tony Bayer, isang analyst sa Ovum.

Iniulat ng Bayer na ang DataSift ay nagsagawa ng retrospective analysis ng malalaking data na binanggit sa