Analytical system OLAP. Paglalapat ng mga teknolohiya ng OLAP bilang isang tool para sa analytics ng negosyo Kasama ang mga espesyal na tampok ng teknolohiya ng olap

Noong 1993, ang nagtatag ng relational na diskarte sa pagtatayo ng database, si Edgar Codd at ang kanyang mga kasosyo (Edgar Codd, isang mathematician at IBM Fellow), ay naglathala ng isang artikulo na pinasimulan ng Arbor Software (ngayon ang sikat na kumpanyang Hyperion Solutions), na pinamagatang "Providing OLAP ( online analytical processing) para sa analytical na mga user", na bumuo ng 12 feature ng OLAP technology, na kasunod ay dinagdagan ng anim pa. Ang mga probisyong ito ay naging pangunahing nilalaman ng isang bago at napaka-promising na teknolohiya.

Mga pangunahing tampok ng OLAP (Basic) na teknolohiya:

multidimensional na konseptong representasyon ng data;
intuitive na pagmamanipula ng data;
availability at detalye ng data;
batch data extraction kumpara sa interpretasyon;
Mga modelo ng pagsusuri ng OLAP;
arkitektura ng client-server (maa-access ang OLAP mula sa desktop);
transparency (transparent na pag-access sa panlabas na data);
suporta sa maraming gumagamit.

Espesyal na katangian:

pagproseso ng hindi pormal na data;
pag-save ng mga resulta ng OLAP: pag-iimbak ng mga ito nang hiwalay sa source data;
pagbubukod ng mga nawawalang halaga;
Pangangasiwa sa mga nawawalang halaga.

Mga tampok ng pagtatanghal ng ulat:

kakayahang umangkop sa pag-uulat;
karaniwang pagganap ng pag-uulat;
awtomatikong pagsasaayos ng layer ng pagkuha ng pisikal na data.

Pamamahala ng dimensyon:

pagiging pandaigdigan ng mga sukat;
walang limitasyong bilang ng mga sukat at antas ng pagsasama-sama;
walang limitasyong bilang ng mga operasyon sa pagitan ng mga sukat.

Sa kasaysayan, ngayon ang terminong "OLAP" ay nagpapahiwatig hindi lamang isang multidimensional na view ng data mula sa end user, kundi pati na rin isang multidimensional na view ng data sa target na database. Ito ang dahilan kung bakit lumitaw ang mga terminong "Relational OLAP" (ROLAP) at "Multidimensional OLAP" (MOLAP) bilang mga independiyenteng termino.

Ang serbisyo ng OLAP ay isang tool para sa pagsusuri ng malalaking volume ng data sa real time. Sa pamamagitan ng pakikipag-ugnayan sa OLAP system, magagawa ng user na flexible na tingnan ang impormasyon, kumuha ng mga arbitrary na hiwa ng data at magsagawa ng mga analytical na operasyon ng drill-down, roll-up, end-to-end na pamamahagi, at paghahambing sa paglipas ng panahon gamit ang maraming parameter nang sabay-sabay. Ang lahat ng trabaho sa sistema ng OLAP ay nangyayari sa mga tuntunin ng lugar ng paksa at nagbibigay-daan sa iyo na bumuo ng mga istatistikal na mahuhusay na modelo ng sitwasyon ng negosyo.

Ang OLAP software ay isang tool para sa operational analysis ng data na nakapaloob sa isang warehouse. Ang pangunahing tampok ay ang mga tool na ito ay inilaan para sa paggamit hindi ng isang espesyalista sa larangan ng teknolohiya ng impormasyon, hindi ng isang dalubhasang istatistika, ngunit ng isang propesyonal sa inilapat na larangan ng pamamahala - isang tagapamahala ng isang departamento, departamento, pamamahala, at , sa wakas, isang direktor. Ang mga tool ay idinisenyo upang payagan ang analyst na makipag-usap sa problema, hindi sa computer. Sa Fig. Ipinapakita ng Figure 6.14 ang isang pangunahing OLAP cube na nagbibigay-daan sa iyong suriin ang data kasama ang tatlong dimensyon.

Ang isang multidimensional na OLAP cube at isang sistema ng mga kaukulang mathematical algorithm para sa pagpoproseso ng istatistika ay nagbibigay-daan sa iyo upang pag-aralan ang data ng anumang kumplikado sa anumang agwat ng oras.

kanin. 6.14. Elementarya OLAP cube

Ang pagkakaroon ng nababaluktot na mga mekanismo para sa pagmamanipula ng data at visual na pagpapakita sa kanyang pagtatapon (Larawan 6.15, Larawan. 6.16), sinusuri muna ng manager mula sa iba't ibang anggulo ang data na maaaring (o maaaring hindi) nauugnay sa problemang niresolba.

Susunod, inihambing niya ang iba't ibang mga tagapagpahiwatig ng negosyo sa bawat isa, sinusubukang kilalanin ang mga nakatagong relasyon; maaaring tingnan ang data nang mas malapit, nang detalyado, halimbawa, paghahati-hati nito sa mga bahagi ayon sa oras, rehiyon o customer, o, sa kabaligtaran, higit pang gawing pangkalahatan ang presentasyon ng impormasyon upang alisin ang mga nakakagambalang detalye. Pagkatapos nito, gamit ang statistical evaluation at simulation module, maraming mga opsyon para sa pagbuo ng mga kaganapan ay itinayo, at ang pinaka-katanggap-tanggap na opsyon ay pinili mula sa kanila.

kanin. 6.15.

Ang isang manager ng kumpanya, halimbawa, ay maaaring may hypothesis na ang pagkalat ng paglago ng asset sa iba't ibang sangay ng kumpanya ay nakasalalay sa ratio ng mga espesyalista na may teknikal at pang-ekonomiyang edukasyon sa kanila. Upang subukan ang hypothesis na ito, maaaring hilingin ng manager mula sa bodega at ipakita sa isang graph ang ratio ng interes para sa mga sangay na ang paglago ng asset sa kasalukuyang quarter ay bumaba ng higit sa 10% kumpara noong nakaraang taon, at para sa mga tumaas ng higit sa 25%. Dapat siyang gumamit ng isang simpleng seleksyon mula sa ibinigay na menu. Kung ang mga resultang nakuha ay makabuluhang nahuhulog sa dalawang kaukulang grupo, ito ay dapat na maging isang insentibo para sa karagdagang pagsubok ng hypothesis na iniharap.

Sa kasalukuyan, ang isang direksyon na tinatawag na dynamic na pagmomodelo (Dynamic Simulation), na ganap na nagpapatupad ng nabanggit na prinsipyo ng FASMI, ay nakatanggap ng mabilis na pag-unlad.

Gamit ang dynamic na pagmomodelo, ang analyst ay bubuo ng isang modelo ng isang sitwasyon ng negosyo na bubuo sa paglipas ng panahon, ayon sa isang partikular na senaryo. Bukod dito, ang resulta ng naturang pagmomodelo ay maaaring maging ilang mga bagong sitwasyon sa negosyo, na bumubuo ng isang puno ng mga posibleng solusyon na may pagtatasa ng posibilidad at mga prospect ng bawat isa.

kanin. 6.16. Analytical IS para sa data extraction, processing at presentation ng impormasyon

Ipinapakita ng talahanayan 6.3 ang mga paghahambing na katangian ng static at dynamic na pagsusuri.

Ang mekanismo ng OLAP ay isa sa mga tanyag na pamamaraan ng pagsusuri ng data ngayon. Mayroong dalawang pangunahing paraan upang malutas ang problemang ito. Ang una sa kanila ay tinatawag na Multidimensional OLAP (MOLAP) - pagpapatupad ng mekanismo gamit ang isang multidimensional database sa gilid ng server, at ang pangalawang Relational OLAP (ROLAP) - pagtatayo ng mga cube sa mabilisang batay sa mga query sa SQL sa isang relational na DBMS. Ang bawat isa sa mga pamamaraang ito ay may mga kalamangan at kahinaan nito. Ang kanilang paghahambing na pagsusuri ay lampas sa saklaw ng artikulong ito. Ilalarawan namin ang aming pagpapatupad ng core ng desktop ROLAP module.

Ang gawaing ito ay lumitaw pagkatapos gumamit ng isang ROLAP system na binuo batay sa mga bahagi ng Decision Cube na kasama sa Borland Delphi. Sa kasamaang palad, ang paggamit ng hanay ng mga bahaging ito ay nagpakita ng mahinang pagganap sa malaking halaga ng data. Ang problemang ito ay maaaring pagaanin sa pamamagitan ng pagsisikap na putulin ang mas maraming data hangga't maaari bago ito i-feed sa mga cube. Ngunit ito ay hindi palaging sapat.

Makakakita ka ng maraming impormasyon tungkol sa mga sistema ng OLAP sa Internet at sa press, ngunit halos wala kahit saan na sinasabi tungkol sa kung paano ito gumagana sa loob. Samakatuwid, ang solusyon sa karamihan ng mga problema ay ibinigay sa amin sa pamamagitan ng pagsubok at pagkakamali.

Scheme ng trabaho

Ang pangkalahatang pamamaraan ng pagpapatakbo ng isang desktop OLAP system ay maaaring katawanin bilang mga sumusunod:

Ang operating algorithm ay ang mga sumusunod:

Pagtanggap ng data sa anyo ng flat table o resulta ng pagsasagawa ng SQL query.
Pag-cache ng data at pag-convert nito sa isang multidimensional na kubo.
Pagpapakita ng itinayong kubo gamit ang isang crosstab o tsart, atbp. Sa pangkalahatan, maaaring ikonekta ang isang arbitrary na bilang ng mga view sa isang cube.

Isaalang-alang natin kung paano maaaring ayusin ang gayong sistema sa loob. Magsisimula tayo sa gilid na makikita at mahahawakan, iyon ay, mula sa mga display.

Ang mga display na ginagamit sa mga OLAP system ay kadalasang may dalawang uri: mga cross-tab at chart. Tingnan natin ang isang crosstab, na siyang pangunahing at pinakakaraniwang paraan upang magpakita ng cube.

Cross table

Sa figure sa ibaba, ang mga row at column na naglalaman ng mga pinagsama-samang resulta ay ipinapakita sa dilaw, ang mga cell na naglalaman ng mga katotohanan ay nasa light grey, at ang mga cell na naglalaman ng dimensional na data ay nasa dark gray.

Kaya, ang talahanayan ay maaaring nahahati sa mga sumusunod na elemento, na gagana namin sa hinaharap:

Kapag pinupunan ang matrix ng mga katotohanan, dapat tayong magpatuloy tulad ng sumusunod:

Batay sa data ng pagsukat, tukuyin ang mga coordinate ng elementong idaragdag sa matrix.
Tukuyin ang mga coordinate ng mga column at row ng mga kabuuan na apektado ng idinagdag na elemento.
Magdagdag ng elemento sa matrix at ang katumbas na kabuuang mga column at row.

Dapat pansinin na ang resultang matrix ay magiging napaka-kalat, kaya naman ang organisasyon nito sa anyo ng isang two-dimensional array (ang opsyon na nakahiga sa ibabaw) ay hindi lamang hindi makatwiran, ngunit, malamang, imposible dahil sa malaking dimensyon ng matrix na ito, para sa pag-iimbak na walang Walang sapat na halaga ng RAM. Halimbawa, kung ang aming cube ay naglalaman ng impormasyon tungkol sa mga benta sa loob ng isang taon, at kung mayroon lamang itong 3 dimensyon - Mga Customer (250), Mga Produkto (500) at Petsa (365), makakakuha tayo ng fact matrix ng mga sumusunod na dimensyon:

Bilang ng mga elemento = 250 x 500 x 365 = 45,625,000

At ito sa kabila ng katotohanan na maaaring mayroong ilang libong punong elemento sa matrix. Bukod dito, mas malaki ang bilang ng mga dimensyon, magiging mas kalat ang matrix.

Samakatuwid, upang gumana sa matrix na ito, kailangan mong gumamit ng mga espesyal na mekanismo para sa pagtatrabaho sa mga kalat-kalat na matrice. Ang iba't ibang mga pagpipilian para sa pag-aayos ng isang kalat-kalat na matrix ay posible. Ang mga ito ay mahusay na inilarawan sa literatura ng programming, halimbawa, sa unang dami ng klasikong aklat na "The Art of Programming" ni Donald Knuth.

Isaalang-alang natin ngayon kung paano natin matutukoy ang mga coordinate ng isang katotohanan, alam ang mga sukat na naaayon dito. Upang gawin ito, tingnan natin ang istraktura ng header:

Sa kasong ito, madali kang makakahanap ng paraan upang matukoy ang mga numero ng kaukulang cell at ang mga kabuuan kung saan ito nahuhulog. Maraming mga diskarte ang maaaring imungkahi dito. Ang isa sa mga ito ay ang paggamit ng isang puno upang makahanap ng katugmang mga cell. Ang punong ito ay maaaring itayo sa pamamagitan ng pagtawid sa pagpili. Bilang karagdagan, ang isang analytical recurrence formula ay madaling matukoy upang kalkulahin ang kinakailangang coordinate.

Paghahanda ng datos

Ang data na nakaimbak sa talahanayan ay kailangang baguhin upang magamit. Kaya, upang mapabuti ang pagganap kapag nagtatayo ng hypercube, kanais-nais na makahanap ng mga natatanging elemento na nakaimbak sa mga haligi na mga sukat ng kubo. Bilang karagdagan, maaari kang magsagawa ng paunang pagsasama-sama ng mga katotohanan para sa mga talaan na may parehong mga halaga ng dimensyon. Gaya ng nabanggit sa itaas, ang mga natatanging value na available sa mga field ng pagsukat ay mahalaga sa amin. Pagkatapos ay maaaring imungkahi ang sumusunod na istraktura para sa pag-iimbak ng mga ito:

Sa pamamagitan ng paggamit ng istrukturang ito, makabuluhang binabawasan namin ang kinakailangan sa memorya. Na medyo may kaugnayan, dahil... Upang madagdagan ang bilis ng pagpapatakbo, ipinapayong mag-imbak ng data sa RAM. Bilang karagdagan, maaari ka lamang mag-imbak ng isang hanay ng mga elemento, at itapon ang kanilang mga halaga sa disk, dahil kakailanganin lamang namin ang mga ito kapag ipinapakita ang cross-tab.

CubeBase Component Library

Ang mga ideya na inilarawan sa itaas ay ang batayan para sa paglikha ng CubeBase component library.

TCubeSource nagsasagawa ng caching at conversion ng data sa isang panloob na format, pati na rin ang paunang pagsasama-sama ng data. Component TcubeEngine nagsasagawa ng mga kalkulasyon ng hypercube at mga operasyon kasama nito. Sa katunayan, ito ay isang OLAP engine na nagpapalit ng flat table sa isang multidimensional na set ng data. Component TcubeGrid ipinapakita ang cross-tab at kinokontrol ang pagpapakita ng hypercube. TcubeChart nagbibigay-daan sa iyo upang makita ang hypercube sa anyo ng mga graph, at ang bahagi TcubePivote kinokontrol ang operasyon ng cube core.

Paghahambing ng Pagganap

Ang hanay ng mga bahagi na ito ay nagpakita ng mas mataas na pagganap kaysa sa Decision Cube. Kaya, sa isang hanay ng 45 libong mga tala, ang mga bahagi ng Desisyon Cube ay nangangailangan ng 8 minuto. para bumuo ng pivot table. Nag-load ng data ang CubeBase sa loob ng 7 segundo. at pagbuo ng pivot table sa loob ng 4 na segundo. Sa pagsubok sa 700 libong Decision Cube record, hindi kami nakatanggap ng tugon sa loob ng 30 minuto, pagkatapos ay kinansela namin ang gawain. Nag-load ng data sa CubeBase sa loob ng 45 segundo. at pagbuo ng isang kubo sa loob ng 15 segundo.

Sa dami ng data ng libu-libong record, ang CubeBase ay nagproseso ng sampu-sampung beses na mas mabilis kaysa sa Decision Cube. Sa mga talahanayan na may daan-daang libong mga talaan - daan-daang beses na mas mabilis. At ang mataas na pagganap ay isa sa pinakamahalagang tagapagpahiwatig ng mga OLAP system.

Mga pangunahing tampok ng teknolohiya OLAP (Basic):

multidimensional na konseptong representasyon ng data;
intuitive na pagmamanipula ng data;
availability at detalye ng data;
batch pagkuha ng data laban sa interpretasyon;
Mga modelo ng pagsusuri ng OLAP;
arkitektura ng client-server (maa-access ang OLAP mula sa desktop);
transparency (transparent na pag-access sa panlabas na data);
suporta sa maraming gumagamit.

Espesyal na katangian(Espesyal):

pagproseso ng hindi pormal na data;
pag-save ng mga resulta ng OLAP: pag-iimbak ng mga ito nang hiwalay sa source data;
pagbubukod ng mga nawawalang halaga;
Pangangasiwa sa mga nawawalang halaga.

Mga tampok ng pag-uulat(Ulat):

kakayahang umangkop sa pag-uulat;
karaniwang pagganap ng pag-uulat;
awtomatikong pagsasaayos ng layer ng pagkuha ng pisikal na data.

Pamamahala ng sukat(Dimensyon):

pagiging pandaigdigan ng mga sukat;
walang limitasyong bilang ng mga sukat at antas ng pagsasama-sama;
walang limitasyong bilang ng mga operasyon sa pagitan ng mga sukat.

Sa kasaysayan, ngayon ang terminong "OLAP" ay nagpapahiwatig hindi lamang isang multidimensional na view ng data mula sa end user, kundi pati na rin isang multidimensional na view ng data sa target na database. Ito ay tiyak kung bakit ang paglitaw bilang mga independiyenteng termino ay konektado "Relational OLAP"(ROLAP) at "Multidimensional OLAP"(MOLAP).

Ang serbisyo ng OLAP ay isang tool para sa pagsusuri ng malalaking volume ng data sa real time. Sa pamamagitan ng pakikipag-ugnayan sa OLAP system, magagawa ng user na flexible na tingnan ang impormasyon, kumuha ng mga arbitrary na hiwa ng data at magsagawa ng analytical operations ng pagdedetalye, convolution, end-to-end na pamamahagi, at paghahambing sa paglipas ng panahon gamit ang maraming parameter nang sabay-sabay. Ang lahat ng trabaho sa sistema ng OLAP ay nangyayari sa mga tuntunin ng lugar ng paksa at nagbibigay-daan sa iyo na bumuo ng mga istatistikal na mahuhusay na modelo ng sitwasyon ng negosyo.

OLAP software - ay isang tool para sa operational data analysis nakapaloob sa imbakan. Ang pangunahing tampok ay ang mga tool na ito ay inilaan para sa paggamit hindi ng isang espesyalista sa larangan ng teknolohiya ng impormasyon, hindi ng isang dalubhasang istatistika, ngunit ng isang propesyonal sa inilapat na larangan ng pamamahala - isang tagapamahala ng isang departamento, departamento, pamamahala, at , sa wakas, isang direktor. Ang mga tool ay idinisenyo para sa komunikasyon ng analyst sa problema, hindi sa computer. Sa Fig. Ipinapakita ng Figure 6.14 ang elementary OLAP cube na nagbibigay-daan sa iyong suriin ang data kasama ang tatlong dimensyon.

kanin.

6.14.

Ang pagkakaroon ng kakayahang umangkop na mga mekanismo para sa pagmamanipula ng data at visual na pagpapakita (Larawan 6.15, Larawan. 6.16), sinusuri muna ng manager ang data mula sa iba't ibang anggulo na maaaring (o maaaring hindi) nauugnay sa problemang niresolba. Susunod, inihambing niya ang iba't ibang mga tagapagpahiwatig ng negosyo sa bawat isa, sinusubukang kilalanin ang mga nakatagong relasyon; maaaring tingnan ang data nang mas malapit, nang detalyado, halimbawa, paghahati-hati nito sa mga bahagi ayon sa oras, rehiyon o customer, o, sa kabaligtaran, higit pang gawing pangkalahatan ang presentasyon ng impormasyon upang alisin ang mga nakakagambalang detalye. Pagkatapos nito, gamit ang modyul istatistikal na pagsusuri at simulation modeling

Maraming mga pagpipilian para sa pagbuo ng mga kaganapan ay itinayo, at ang pinaka-katanggap-tanggap na pagpipilian ay pinili mula sa kanila.

Ang isang manager ng kumpanya, halimbawa, ay maaaring may hypothesis na ang pagkalat ng paglago ng asset sa iba't ibang sangay ng kumpanya ay nakasalalay sa ratio ng mga espesyalista na may teknikal at pang-ekonomiyang edukasyon sa kanila. Upang subukan ang hypothesis na ito, maaaring hilingin ng manager mula sa bodega at ipakita sa isang graph ang ratio ng interes para sa mga sangay na ang paglago ng asset sa kasalukuyang quarter ay bumaba ng higit sa 10% kumpara noong nakaraang taon, at para sa mga tumaas ng higit sa 25%. Dapat ay magagamit niya ang isang simpleng seleksyon mula sa ibinigay na menu. Kung ang mga resultang nakuha ay makabuluhang nahuhulog sa dalawang kaukulang grupo, ito ay dapat na maging isang insentibo para sa karagdagang pagsubok ng hypothesis na iniharap.

Sa kasalukuyan, tinawag ang isang direksyon dynamic na pagmomodelo(Dynamic Simulation), na ganap na nagpapatupad sa itaas na prinsipyo ng FASMI.

kanin.

6.16.

Ipinapakita ng talahanayan 6.3 ang mga paghahambing na katangian ng static at dynamic na pagsusuri.

Talahanayan 6.3.	Katangian	Static na pagsusuri
Dynamic na pagsusuri	Mga uri ng tanong	WHO? Ano? Ilan? Paano? Kailan? saan?
Bakit ganon? Ano kaya ang mangyayari kung...? Ano ang mangyayari kung…?	Oras ng pagtugon	Hindi binabantayan
Mga segundo	Mga karaniwang operasyon ng data	Regulated na ulat, tsart, talahanayan, pagguhit
Pagkakasunud-sunod ng mga interactive na ulat, diagram, screen form. Dynamic na pagbabago ng mga antas ng pagsasama-sama at mga hiwa ng data	Antas ng mga kinakailangan sa pagsusuri	Katamtaman
Mataas	Uri ng mga screen form	Karaniwang paunang natukoy, kinokontrol
Tinukoy ng user, nako-customize	Antas ng pagsasama-sama ng data	Detalyadong at buod
Tinukoy ng user	"Edad" ng data	Makasaysayan at kasalukuyang
Makasaysayan, kasalukuyan at inaasahang	Mga uri ng kahilingan	Karamihan ay predictable
Hindi mahuhulaan - mula sa kaso hanggang sa kaso	Layunin	Regulated Analytical Processing

Multi-pass analysis, pagmomodelo at pagtataya Halos palaging, ang gawain ng pagbuo ng isang analytical system para sa multidimensional data analysis ay ang gawain ng pagbuo. At ang pagpili ng mga paraan para sa pagpapatupad ng IP ay nagiging isang napakahirap na gawain. Maraming mga kadahilanan ang dapat isaalang-alang dito, kabilang ang pagkakatugma sa isa't isa ng iba't ibang mga bahagi ng software, kadalian ng kanilang pag-unlad, paggamit at pagsasama, kahusayan sa pagpapatakbo, katatagan at kahit na mga anyo, antas at potensyal na mga prospect ng mga relasyon sa pagitan ng iba't ibang mga kumpanya ng pagmamanupaktura.

Naaangkop ang OLAP saanman mayroong gawain sa pagsusuri ng multivariate na data. Sa pangkalahatan, kung mayroon kang talahanayan ng data na may kahit man lang isang naglalarawang column at isang column na may mga numero, magiging epektibong tool ang OLAP tool para sa pagsusuri at pagbuo ng mga ulat. Bilang halimbawa ng paggamit ng teknolohiyang OLAP, isaalang-alang ang pag-aaral ng mga resulta ng proseso ng pagbebenta.

Mga pangunahing tanong: "Magkano ang naibenta?", "Para sa anong halaga ang naibenta?" palawakin habang nagiging mas kumplikado ang negosyo at naiipon ang makasaysayang data sa isang tiyak na bilang ng mga salik, o mga seksyon: “..sa St. Petersburg, Moscow, ang Urals, Siberia...”, “.. sa huling quarter, kumpara sa ang kasalukuyang," " ..mula sa supplier A kumpara sa supplier B...", atbp.

Ang mga sagot sa mga naturang katanungan ay kinakailangan para sa paggawa ng mga desisyon sa pamamahala: sa pagbabago ng assortment, mga presyo, pagsasara at pagbubukas ng mga tindahan, mga sangay, pagwawakas at pagpirma ng mga kasunduan sa mga dealer, pagsasagawa o pagtatapos ng mga kampanya sa advertising, atbp.

Kung susubukan mong i-highlight ang mga pangunahing figure (katotohanan) at mga seksyon (mga argumento sa pagsukat) na manipulahin ng analyst, sinusubukang palawakin o i-optimize ang negosyo ng kumpanya, makakakuha ka ng isang talahanayan na angkop para sa pagsusuri sa mga benta bilang isang uri ng template na nangangailangan ng naaangkop na mga pagsasaayos para sa bawat partikular na negosyo.

Oras. Bilang isang tuntunin, ito ay ilang mga panahon: Taon, Quarter, Buwan, Dekada, Linggo, Araw. Maraming mga tool sa OLAP ang awtomatikong kinakalkula ang pinakamataas na panahon mula sa isang petsa at kinakalkula ang mga kabuuan para sa mga ito.

Kategorya ng Produkto. Maaaring may ilang kategorya, magkakaiba ang mga ito para sa bawat uri ng negosyo: Variety, Modelo, Uri ng packaging, atbp. Kung isang produkto lang ang ibinebenta o napakaliit ng assortment, hindi na kailangan ng kategorya.

produkto. Minsan ginagamit ang pangalan ng produkto (o serbisyo), code o numero ng artikulo nito. Sa mga kaso kung saan ang assortment ay napakalaki (at ang ilang mga negosyo ay may sampu-sampung libong mga item sa kanilang listahan ng presyo), ang paunang pagsusuri para sa lahat ng mga uri ng mga produkto ay maaaring hindi isagawa, ngunit pangkalahatan sa ilang mga napagkasunduang kategorya.

Rehiyon. Depende sa globalidad ng negosyo, maaari mong sabihin ang Kontinente, Grupo ng mga bansa, Bansa, Teritoryo, Lungsod, Distrito, Kalye, Bahagi ng kalye. Siyempre, kung mayroon lamang isang outlet, kung gayon ang dimensyon na ito ay nawawala.

Tindero. Ang pagsukat na ito ay nakasalalay din sa istraktura at sukat ng negosyo. Ito ay maaaring: Sangay, Tindahan, Dealer, Sales Manager. Sa ilang mga kaso, walang pagsukat, halimbawa, kapag ang nagbebenta ay hindi nakakaimpluwensya sa dami ng mga benta, mayroon lamang isang tindahan, at iba pa.

Mamimili. Sa ilang mga kaso, tulad ng retail, ang mamimili ay hindi personal at walang pagsukat sa ibang mga kaso, ang impormasyon tungkol sa mamimili ay magagamit at mahalaga para sa mga benta. Maaaring naglalaman ang dimensyong ito ng pangalan ng kumpanyang bumibili o maraming grupo at katangian ng mga kliyente: Industriya, Grupo ng Mga Negosyo, May-ari, at iba pa. Para dito, maginhawang gamitin, halimbawa, isang diagram ng uri ng "Pie" sa mga kumplikadong kaso kapag ang 3 dimensyon ay sinusuri nang sabay-sabay - "Mga Haligi". Halimbawa, sa tindahan ng Computer Equipment para sa quarter, ang mga benta ng mga computer ay nagkakahalaga ng $100,000, photographic equipment - $10,000, at consumables - $4,500. Konklusyon: ang turnover ng tindahan ay nakasalalay sa isang malaking lawak sa pagbebenta ng mga computer (sa katunayan, marahil ang mga consumable ay kinakailangan upang magbenta ng mga computer, ngunit ito ay isang pagsusuri ng mga panloob na dependency).

Pagsusuri ng dinamika ( pagsusuri ng regression- pagtukoy ng mga uso). Pagkilala sa mga uso at pana-panahong pagbabagu-bago. Ang dynamics ay malinaw na ipinapakita ng isang "Line" type graph. Halimbawa, bumagsak ang mga benta ng mga produkto ng Intel sa taon, habang lumaki ang mga benta ng Microsoft. Marahil ay bumuti ang kapakanan ng karaniwang customer, o nagbago ang imahe ng tindahan, at kasama nito ang komposisyon ng mga customer. Kailangang ayusin ang assortment. Isa pang halimbawa: sa loob ng 3 taon, bumababa ang benta ng mga video camera sa taglamig.

Pagsusuri ng Dependency(pagsusuri ng ugnayan). Paghahambing ng mga dami ng benta ng iba't ibang mga produkto sa paglipas ng panahon upang matukoy ang kinakailangang assortment - "basket". Maginhawa ring gumamit ng tsart na "Linya" para sa layuning ito. Halimbawa, kapag ang mga printer ay inalis mula sa hanay sa loob ng unang dalawang buwan, ang mga benta ng mga powder cartridge ay natagpuang bumaba.

Sa serye ng mga artikulong “Introduction to Databases,” na inilathala kamakailan (tingnan ang ComputerPress No. 3'2000 - 3'2001), tinalakay namin ang iba't ibang teknolohiya at software na ginagamit sa paglikha ng mga sistema ng impormasyon - desktop at server DBMS, mga tool sa disenyo ng data , pagbuo ng application mga tool, pati na rin ang Business Intelligence - enterprise-scale data analysis at processing tools, na kasalukuyang nagiging popular sa mundo, kasama na sa ating bansa. Napansin namin, gayunpaman, na ang mga isyu sa paggamit ng mga tool sa Business Intelligence at ang mga teknolohiyang ginamit upang lumikha ng mga aplikasyon ng klase na ito ay hindi pa sapat na saklaw sa lokal na literatura. Sa isang bagong serye ng mga artikulo, susubukan naming punan ang puwang na ito at pag-usapan kung ano ang mga teknolohiyang pinagbabatayan ng mga naturang aplikasyon. Bilang mga halimbawa ng pagpapatupad, pangunahing gagamitin namin ang mga teknolohiya ng Microsoft OLAP (pangunahin ang Mga Serbisyo sa Pagsusuri sa Microsoft SQL Server 2000), ngunit inaasahan namin na ang karamihan ng materyal ay magiging kapaki-pakinabang sa mga gumagamit ng iba pang mga tool.

Ang unang artikulo sa seryeng ito ay nakatuon sa mga pangunahing kaalaman ng OLAP (On-Line Analytical Processing) - isang teknolohiya para sa multidimensional na pagsusuri ng data. Dito, titingnan natin ang mga konsepto ng data warehousing at OLAP, ang mga kinakailangan para sa data warehousing at mga tool ng OLAP, ang lohikal na organisasyon ng OLAP data, at ang mga pangunahing termino at konsepto na ginagamit kapag tinatalakay ang multidimensional na pagsusuri.

Ano ang data warehouse

Ang enterprise-scale information system, bilang panuntunan, ay naglalaman ng mga application na idinisenyo para sa kumplikadong multidimensional na pagsusuri ng data, ang dynamics nito, mga uso, atbp. Ang nasabing pagsusuri ay sa huli ay inilaan upang suportahan ang paggawa ng desisyon. Ang mga sistemang ito ay madalas na tinatawag na mga sistema ng suporta sa desisyon.

Imposibleng gumawa ng anumang desisyon sa pamamahala nang walang kinakailangang impormasyon, kadalasang dami. Nangangailangan ito ng paglikha ng mga Data warehouse, iyon ay, ang proseso ng pagkolekta, pagsasala at paunang pagproseso ng data upang maibigay ang nagreresultang impormasyon sa mga user para sa pagsusuri sa istatistika (at kadalasan ay ang paglikha ng mga analytical na ulat).

Si Ralph Kimball, isa sa mga nagpasimula ng konsepto ng data warehouse, ay inilarawan ang isang data warehouse bilang “isang lugar kung saan maa-access ng mga tao ang kanilang data” (tingnan, halimbawa, Ralph Kimball, “The Data Warehouse Toolkit: Practical Techniques for Building Dimensions Data Warehouses ", John Wiley & Sons, 1996 at "The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse", John Wiley & Sons, 2000). Binabalangkas din niya ang mga pangunahing kinakailangan para sa mga warehouse ng data:

suporta para sa mataas na bilis ng pagkuha ng data mula sa imbakan;
pagpapanatili ng panloob na pagkakapare-pareho ng data;
ang kakayahang makakuha at paghambingin ang tinatawag na data slices (slice and dice);
pagkakaroon ng maginhawang mga kagamitan para sa pagtingin ng data sa imbakan;
pagkakumpleto at pagiging maaasahan ng nakaimbak na data;
suporta para sa isang de-kalidad na proseso ng muling pagdadagdag ng data.

Kadalasan hindi posible na matugunan ang lahat ng mga kinakailangan sa itaas sa loob ng parehong produkto. Samakatuwid, upang ipatupad ang mga warehouse ng data, maraming mga produkto ang karaniwang ginagamit, ang ilan sa mga ito ay aktwal na mga tool sa pag-iimbak ng data, ang iba ay mga tool para sa pagkuha at pagtingin sa mga ito, ang iba ay mga tool para sa muling pagdaragdag ng mga ito, atbp.

Ang isang tipikal na data warehouse ay karaniwang naiiba sa isang tipikal na relational database. Una, ang mga regular na database ay idinisenyo upang tulungan ang mga user na magsagawa ng pang-araw-araw na gawain, habang ang mga data warehouse ay idinisenyo para sa paggawa ng desisyon. Halimbawa, ang pagbebenta ng mga kalakal at ang pag-iisyu ng mga invoice ay isinasagawa gamit ang isang database na idinisenyo para sa pagproseso ng transaksyon, at ang pagsusuri ng mga dynamics ng benta sa loob ng ilang taon, na nagpapahintulot sa pagpaplano ng trabaho sa mga supplier, ay isinasagawa gamit ang isang data warehouse.

Pangalawa, habang ang mga tradisyunal na database ay napapailalim sa patuloy na pagbabago habang nagtatrabaho ang mga user, ang data warehouse ay medyo stable: ang data sa loob nito ay karaniwang ina-update ayon sa isang iskedyul (halimbawa, lingguhan, araw-araw, o oras-oras, depende sa mga pangangailangan). Sa isip, ang proseso ng pagpapayaman ay simpleng pagdaragdag ng bagong data sa loob ng isang yugto ng panahon nang hindi binabago ang nakaraang impormasyon na nasa repositoryo na.

At pangatlo, ang mga regular na database ay kadalasang pinagmumulan ng data na napupunta sa bodega. Bilang karagdagan, ang repository ay maaaring mapunan mula sa mga panlabas na mapagkukunan, tulad ng mga istatistikang ulat.

Ano ang OLAP

Ang mga sistema ng suporta sa pagpapasya ay karaniwang may paraan upang mabigyan ang gumagamit ng pinagsama-samang data para sa iba't ibang mga sample mula sa orihinal na hanay sa isang form na maginhawa para sa pang-unawa at pagsusuri. Karaniwan, ang mga naturang pinagsama-samang function ay bumubuo ng isang multidimensional (at samakatuwid ay hindi nauugnay) set ng data (kadalasang tinatawag na hypercube o metacube), na ang mga ax ay naglalaman ng mga parameter, at ang mga cell ay naglalaman ng pinagsama-samang data na nakasalalay sa kanila. Sa bawat axis, maaaring ayusin ang data sa isang hierarchy, na kumakatawan sa iba't ibang antas ng detalye. Salamat sa modelong ito ng data, ang mga user ay maaaring magbalangkas ng mga kumplikadong query, bumuo ng mga ulat, at makakuha ng mga subset ng data.

Ang teknolohiya para sa kumplikadong multidimensional na pagsusuri ng data ay tinatawag na OLAP (On-Line Analytical Processing). Ang OLAP ay isang mahalagang bahagi ng data warehousing. Ang konsepto ng OLAP ay inilarawan noong 1993 ni Edgar Codd, isang kilalang database researcher at may-akda ng relational data model (tingnan ang E.F. Codd, S.B. Codd, at C.T. Salley, Providing OLAP (on-line analytical processing) sa mga user-analyst: Isang Ulat sa IT, 1993). Noong 1995, batay sa mga kinakailangan na itinakda ng Codd, ang tinatawag na FASMI test (Fast Analysis of Shared Multidimensional Information) ay binuo, kasama ang mga sumusunod na kinakailangan para sa mga aplikasyon para sa multidimensional analysis:

pagbibigay sa user ng mga resulta ng pagsusuri sa isang katanggap-tanggap na oras (karaniwan ay hindi hihigit sa 5 s), kahit na sa halaga ng isang hindi gaanong detalyadong pagsusuri;
ang kakayahang magsagawa ng anumang lohikal at istatistikal na pagsusuri na tiyak sa isang naibigay na aplikasyon at i-save ito sa isang form na naa-access ng end user;
multi-user na pag-access sa data na may suporta para sa naaangkop na mekanismo ng pag-lock at awtorisadong paraan ng pag-access;
multidimensional na konseptong representasyon ng data, kabilang ang buong suporta para sa mga hierarchy at maramihang hierarchies (ito ay isang pangunahing kinakailangan ng OLAP);
ang kakayahang ma-access ang anumang kinakailangang impormasyon, anuman ang dami nito at lokasyon ng imbakan.

Dapat tandaan na ang pag-andar ng OLAP ay maaaring ipatupad sa iba't ibang paraan, mula sa pinakasimpleng mga tool sa pagsusuri ng data sa mga aplikasyon ng opisina hanggang sa mga distributed analytical system batay sa mga produkto ng server. Ngunit bago natin pag-usapan ang iba't ibang pagpapatupad ng functionality na ito, tingnan natin kung ano ang mga OLAP cube mula sa lohikal na pananaw.

Multidimensional na mga cube

Sa seksyong ito, titingnan natin ang konsepto ng OLAP at multidimensional na mga cube. Bilang halimbawa ng relational database na gagamitin namin para ilarawan ang mga prinsipyo ng OLAP, gagamitin namin ang Northwind database, na kasama sa Microsoft SQL Server o Microsoft Access at isang tipikal na database na nag-iimbak ng impormasyon sa pangangalakal para sa isang pakyawan na kumpanya ng pamamahagi ng pagkain. Kasama sa naturang data ang impormasyon tungkol sa mga supplier, kliyente, kumpanya ng paghahatid, isang listahan ng mga ibinibigay na produkto at kanilang mga kategorya, data tungkol sa mga order at inorder na produkto, isang listahan ng mga empleyado ng kumpanya. Ang isang detalyadong paglalarawan ng Northwind database ay matatagpuan sa Microsoft SQL Server o Microsoft Access help system - hindi namin ito ibinibigay dito dahil sa kakulangan ng espasyo.

Upang galugarin ang konsepto ng OLAP, gagamitin namin ang view ng Mga Invoice at ang mga talahanayan ng Mga Produkto at Kategorya mula sa database ng Northwind upang lumikha ng query na magreresulta sa detalyadong impormasyon tungkol sa lahat ng inorder na produkto at mga invoice na ibinigay:

PUMILI ng dbo.Invoices.Country, dbo.Invoices.City, dbo.Invoices.CustomerName, dbo.Invoices.Salesperson, dbo.Invoices.OrderDate, dbo.Categories.CategoryName, dbo.Invoices.ProductName, dbo.Invoices.ProductName, dbo.Invoices. .Invoices.ExtendedPrice MULA sa dbo.Products INNER JOIN dbo.Category ON dbo.Products.CategoryID = dbo.Categories.CategoryID INNER JOIN dbo.Invoice ON dbo.Products.ProductID = dbo.Invoices.ProductID

Sa Access 2000, ganito ang hitsura ng isang katulad na query:

PUMILI ng Invoices.Country, Invoices.City, Invoices.Customers.CompanyName AS CustomerName, Invoices.Salesperson, Invoices.OrderDate, Categories.CategoryName, Invoices.ProductName, Invoices.Shippers.CompanyName.Invoices.CompanyName mga boses INNER JOIN Products ON Invoices.ProductID = Products.ProductID) ON Categories.CategoryID = Products.CategoryID;

Ina-access ng query na ito ang view ng Mga Invoice, na naglalaman ng impormasyon tungkol sa lahat ng mga invoice na ibinigay, pati na rin ang mga talahanayan ng Mga Kategorya at Produkto, na naglalaman ng impormasyon tungkol sa mga kategorya ng mga produktong inorder at ang mga produkto mismo, ayon sa pagkakabanggit. Ang resulta ng kahilingang ito ay isang set ng data ng order na kinabibilangan ng kategorya at pangalan ng item na inorder, ang petsa kung kailan inilagay ang order, ang pangalan ng taong nag-invoice, ang lungsod, bansa at pangalan ng kumpanya ng kumpanyang nag-order, pati na rin bilang pangalan ng kumpanya ng pagpapadala.

Para sa kaginhawahan, i-save natin ang kahilingang ito bilang isang view, na tinatawag itong Mga Invoice1. Ang resulta ng pag-access sa representasyong ito ay ipinapakita sa Fig. 1 .

Anong pinagsama-samang data ang makukuha natin mula sa view na ito? Kadalasan ito ay mga sagot sa mga tanong tulad ng:

Ano ang kabuuang halaga ng mga order na inilagay ng mga customer mula sa France?
Ano ang kabuuang halaga ng mga order na inilagay ng mga customer sa France at inihatid ng Speedy Express?
Ano ang kabuuang halaga ng mga order na inilagay ng mga customer sa France noong 1997 at inihatid ng Speedy Express?

Isalin natin ang mga tanong na ito sa mga query sa SQL (Talahanayan 1).

Ang resulta ng alinman sa mga query sa itaas ay isang numero. Kung sa unang query ay papalitan mo ang parameter na 'France' ng 'Austria' o ang pangalan ng ibang bansa, maaari mong patakbuhin muli ang query na ito at makakuha ng ibang numero. Sa pamamagitan ng pagsasagawa ng pamamaraang ito sa lahat ng bansa, nakukuha namin ang sumusunod na set ng data (isang fragment ang ipinapakita sa ibaba):

Bansa	SUM (ExtendedPrice)
Argentina	7327.3
Austria	110788.4
Belgium	28491.65
Brazil	97407.74
Canada	46190.1
Denmark	28392.32
Finland	15296.35
France	69185.48
Alemanya	209373.6
…	…

Ang resultang hanay ng mga pinagsama-samang halaga (sa kasong ito, mga kabuuan) ay maaaring bigyang-kahulugan bilang isang one-dimensional na set ng data. Ang parehong set ng data ay maaari ding makuha bilang resulta ng isang query na may GROUP BY clause ng sumusunod na form:

PUMILI NG Bansa, SUM (ExtendedPrice) MULA sa mga invoice1 GROUP BY Country

Ngayon tingnan natin ang pangalawang query sa itaas, na naglalaman ng dalawang kundisyon sa sugnay na WHERE. Kung patakbuhin namin ang query na ito, na isinasaksak ang lahat ng posibleng halaga para sa mga parameter ng Bansa at ShipperName, makakakuha kami ng dalawang-dimensional na set ng data na ganito ang hitsura (isang snippet ang ipinapakita sa ibaba):

	Pangalan ng Shipper
Bansa	Pederal na Pagpapadala	Mabilis na Express	United Package
Argentina	1 210.30	1 816.20	5 092.60
Austria	40 870.77	41 004.13	46 128.93
Belgium	11 393.30	4 717.56	17 713.99
Brazil	16 514.56	35 398.14	55 013.08
Canada	19 598.78	5 440.42	25 157.08
Denmark	18 295.30	6 573.97	7 791.74
Finland	4 889.84	5 966.21	7 954.00
France	28 737.23	21 140.18	31 480.90
Alemanya	53 474.88	94 847.12	81 962.58
…	…	…	…

Ang nasabing set ng data ay tinatawag na pivot table o cross table. Maraming mga spreadsheet at desktop DBMS ang nagpapahintulot sa iyo na lumikha ng mga naturang talahanayan - mula sa Paradox para sa DOS hanggang sa Microsoft Excel 2000. Halimbawa, ito ang hitsura ng isang katulad na query sa Microsoft Access 2000:

TRANSFORM Sum(Invoice1.ExtendedPrice) BILANG SumOfExtendedPrice SELECT Invoice1.Bansa MULA SA Mga Invoice1 GROUP BY Invoice1.Country PIVOT Invoice1.ShipperName;

Ang pinagsama-samang data para sa naturang pivot table ay maaari ding makuha gamit ang isang regular na GROUP BY query:

SELECT Country,ShipperName, SUM (ExtendedPrice) FROM invoice1 GROUP BY COUNTRY,ShipperName Tandaan, gayunpaman, na ang resulta ng query na ito ay hindi ang pivot table mismo, ngunit isang set lamang ng pinagsama-samang data para sa pagbuo nito (isang fragment ang ipinapakita sa ibaba ):

Bansa	Pangalan ng Shipper	SUM (ExtendedPrice)
Argentina	Pederal na Pagpapadala	845.5
Austria	Pederal na Pagpapadala	35696.78
Belgium	Pederal na Pagpapadala	8747.3
Brazil	Pederal na Pagpapadala	13998.26
…	…	…

Ang pangatlo sa mga query na tinalakay sa itaas ay mayroon nang tatlong parameter sa kondisyong WHERE. Sa pamamagitan ng pag-iiba-iba ng mga ito, nakakakuha kami ng three-dimensional na set ng data (Fig. 2).

Mga cell ng cube na ipinapakita sa Fig. 2 ay naglalaman ng pinagsama-samang data na naaayon sa mga halaga ng mga parameter ng query sa sugnay na WHERE na matatagpuan sa mga cube axes.

Makakakuha ka ng isang set ng mga two-dimensional na talahanayan sa pamamagitan ng pagputol ng isang kubo na may mga eroplanong kahanay ng mga mukha nito (ang mga terminong cross-section at hiwa ay ginagamit upang tukuyin ang mga ito).

Malinaw, ang data na nakapaloob sa mga cube cell ay maaari ding makuha gamit ang naaangkop na query na may GROUP BY clause. Bilang karagdagan, ang ilang mga spreadsheet (lalo na ang Microsoft Excel 2000) ay nagbibigay-daan din sa iyo na mag-plot ng isang three-dimensional na set ng data at tingnan ang iba't ibang mga cross-section ng cube na kahanay sa mukha nito tulad ng ipinapakita sa workbook sheet.

Kung ang sugnay na WHERE ay naglalaman ng apat o higit pang mga parameter, ang resultang hanay ng mga halaga (tinatawag ding OLAP cube) ay maaaring 4-dimensional, 5-dimensional, atbp.

Nang tingnan kung ano ang mga multidimensional na OLAP cube, lumipat tayo sa ilang mahahalagang termino at konsepto na ginagamit sa pagsusuri ng multidimensional na data.

Ilang termino at konsepto

Kasama ng mga kabuuan, ang mga cell ng isang OLAP cube ay maaaring maglaman ng mga resulta ng pagsasagawa ng iba pang pinagsama-samang mga function ng wikang SQL, tulad ng MIN, MAX, AVG, COUNT, at sa ilang mga kaso, iba pa (variance, standard deviation, atbp.). Upang ilarawan ang mga halaga ng data sa mga cell, ang terminong buod ay ginagamit (sa pangkalahatan, maaaring mayroong ilan sa mga ito sa isang kubo), ang terminong sukat ay ginagamit upang tukuyin ang pinagmulan ng data batay sa kung saan sila kinakalkula, at ang term na dimensyon ay ginagamit upang tukuyin ang mga parameter ng query (isinalin sa Russian na karaniwang tinutukoy bilang "dimensyon" kapag pinag-uusapan ang tungkol sa mga OLAP cube, at bilang "dimensyon" kapag pinag-uusapan ang mga warehouse ng data). Ang mga halagang naka-plot sa mga palakol ay tinatawag na mga miyembro ng dimensyon.

Kapag pinag-uusapan ang mga sukat, ito ay nagkakahalaga ng pagbanggit na ang mga halaga na naka-plot sa mga palakol ay maaaring magkaroon ng iba't ibang antas ng detalye. Halimbawa, maaaring interesado tayo sa kabuuang halaga ng mga order na ginawa ng mga customer sa iba't ibang bansa, o sa kabuuang halaga ng mga order na ginawa ng mga customer sa labas ng bayan o kahit na mga indibidwal na customer. Naturally, ang magreresultang set ng pinagsama-samang data sa pangalawa at pangatlong kaso ay magiging mas detalyado kaysa sa una. Tandaan na ang kakayahang makakuha ng pinagsama-samang data na may iba't ibang antas ng detalye ay nakakatugon sa isa sa mga kinakailangan para sa mga warehouse ng data - ang kinakailangan para sa pagkakaroon ng iba't ibang mga hiwa ng data para sa paghahambing at pagsusuri.

Dahil sa halimbawang isinasaalang-alang, sa pangkalahatan, ang bawat bansa ay maaaring magkaroon ng ilang mga lungsod, at ang isang lungsod ay maaaring magkaroon ng ilang mga kliyente, maaari nating pag-usapan ang mga hierarchy ng mga halaga sa mga sukat. Sa kasong ito, ang mga bansa ay matatagpuan sa unang antas ng hierarchy, ang mga lungsod ay nasa pangalawa, at ang mga kliyente ay nasa pangatlo (Larawan 3).

Tandaan na ang mga hierarchy ay maaaring balanse, tulad ng hierarchy na ipinapakita sa Fig. 3, pati na rin ang mga hierarchy batay sa petsa-oras at hindi balanseng data. Ang isang tipikal na halimbawa ng isang hindi balanseng hierarchy ay isang "superior-subordinate" na hierarchy (maaari itong buuin, halimbawa, gamit ang mga halaga ng field ng Salesperson ng orihinal na set ng data mula sa halimbawang tinalakay sa itaas), na ipinapakita sa Fig. 4 .

Minsan ang terminong Parent-child hierarchy ay ginagamit para sa mga naturang hierarchy.

Mayroon ding mga hierarchy na sumasakop sa isang intermediate na posisyon sa pagitan ng balanse at hindi balanse (sila ay itinalaga ng terminong gulanit). Karaniwang naglalaman ang mga ito ng mga miyembro na ang lohikal na "mga magulang" ay wala sa agad na mataas na antas (halimbawa, ang isang heograpikong hierarchy ay may mga antas ng Bansa, Lungsod, at Estado, ngunit may mga bansa sa dataset na walang mga estado o rehiyon sa pagitan ng Bansa at Mga antas ng lungsod ;

Tandaan na ang hindi balanse at "hindi pantay" na mga hierarchy ay hindi sinusuportahan ng lahat ng OLAP tool. Halimbawa, sinusuportahan ng Microsoft Analysis Services 2000 ang parehong uri ng hierarchy, ngunit ang Microsoft OLAP Services 7.0 ay sumusuporta lamang sa mga balanse. Ang bilang ng mga antas ng hierarchy, ang maximum na pinapayagang bilang ng mga miyembro ng isang antas, at ang maximum na posibleng bilang ng mga dimensyon mismo ay maaaring mag-iba sa iba't ibang mga tool sa OLAP.

Konklusyon

Sa artikulong ito natutunan namin ang mga pangunahing kaalaman ng OLAP. Natutunan namin ang mga sumusunod:

Ang layunin ng mga warehouse ng data ay magbigay sa mga user ng impormasyon para sa pagsusuri sa istatistika at paggawa ng desisyon sa pamamahala.
Dapat tiyakin ng mga warehouse ng data ang mataas na bilis ng pagkuha ng data, ang kakayahang makakuha at maghambing ng tinatawag na mga hiwa ng data, pati na rin ang pagkakapare-pareho, pagkakumpleto at pagiging maaasahan ng data.
Ang OLAP (On-Line Analytical Processing) ay isang mahalagang bahagi ng pagbuo at paggamit ng mga warehouse ng data. Ang teknolohiyang ito ay batay sa pagbuo ng mga multidimensional na set ng data - OLAP cube, ang mga axes nito ay naglalaman ng mga parameter, at ang mga cell ay naglalaman ng pinagsama-samang data na nakasalalay sa kanila.
Ang mga application na may functionality ng OLAP ay dapat magbigay sa user ng mga resulta ng pagsusuri sa isang katanggap-tanggap na oras, magsagawa ng lohikal at istatistikal na pagsusuri, suportahan ang multi-user na access sa data, magbigay ng multi-dimensional na konseptong representasyon ng data, at ma-access ang anumang kinakailangang impormasyon.

Bilang karagdagan, sinuri namin ang mga pangunahing prinsipyo ng lohikal na organisasyon ng mga OLAP cube, at natutunan din ang mga pangunahing termino at konsepto na ginagamit sa multidimensional na pagsusuri. Sa wakas, nalaman namin kung ano ang iba't ibang uri ng hierarchies sa mga dimensyon ng OLAP cube.

Sa susunod na artikulo sa seryeng ito, titingnan natin ang tipikal na istruktura ng mga data warehouse, pag-uusapan kung ano ang OLAP ng kliyente at server, at tututuon din ang ilang teknikal na aspeto ng multidimensional na pag-iimbak ng data.

ComputerPress 4"2001

Ang online analytical processing, o OLAP, ay isang epektibong teknolohiya sa pagpoproseso ng data na gumagawa ng buod ng impormasyon batay sa malaking halaga ng lahat ng uri ng data. Ito ay isang mahusay na produkto na tumutulong sa iyong i-access, kunin at tingnan ang impormasyon sa iyong PC sa pamamagitan ng pagsusuri nito mula sa iba't ibang pananaw.

Ang OLAP ay isang tool na nagbibigay ng isang madiskarteng posisyon para sa pangmatagalang pagpaplano at tumitingin sa pinagbabatayan na impormasyon ng data ng pagpapatakbo para sa hinaharap na 5, 10 o higit pang mga taon. Ang data ay nakaimbak sa isang database na may dimensyon, na siyang katangian nito. Maaaring tingnan ng mga user ang parehong set ng data na may iba't ibang katangian, depende sa layunin ng pagsusuri.

Kasaysayan ng OLAP

Ang OLAP ay hindi isang bagong konsepto at ginamit sa loob ng ilang dekada. Sa katunayan, ang mga pinagmulan ng teknolohiya ay maaaring masubaybayan noong 1962. Ngunit ang termino ay nilikha lamang noong 1993 ng may-akda ng database na si Ted Coddom, na nagtatag din ng 12 panuntunan para sa produkto. Tulad ng maraming iba pang mga aplikasyon, ang konsepto ay sumailalim sa ilang mga yugto ng ebolusyon.

Ang kasaysayan ng teknolohiya ng OLAP mismo ay nagsimula noong 1970, nang ang mga mapagkukunan ng impormasyon ng Express at ang unang server ng Olap ay inilabas. Ang mga ito ay nakuha ng Oracle noong 1995 at pagkatapos ay naging batayan para sa online analytical processing ng multi-dimensional computing engine na ibinigay ng sikat na computer brand sa database nito. Noong 1992, isa pang kilalang produkto sa pagpoproseso ng online na analytics, ang Essbase, ay inilabas ng Arbor Software (nakuha ng Oracle noong 2007).

Noong 1998, inilabas ng Microsoft ang online analytical data processing server na MS Analysis Services. Nag-ambag ito sa katanyagan ng teknolohiya at nag-udyok sa pagbuo ng iba pang mga produkto. Sa ngayon ay may ilang kilalang vendor sa mundo na nag-aalok ng mga aplikasyon ng Olap, kabilang ang IBM, SAS, SAP, Essbase, Microsoft, Oracle, IcCube.

Online analytical processing

Ang OLAP ay isang tool na nagbibigay-daan sa iyong gumawa ng mga desisyon tungkol sa mga nakaplanong kaganapan. Ang isang hindi tipikal na pagkalkula ng Olap ay maaaring maging mas kumplikado kaysa sa simpleng pagsasama-sama ng data. Ginagamit ang mga analytical query per minute (AQM) bilang karaniwang benchmark upang ihambing ang pagganap ng iba't ibang tool. Dapat protektahan ng mga system na ito ang mga user mula sa kumplikadong syntax ng query hangga't maaari at magbigay ng pare-parehong oras ng pagtugon para sa lahat (gaano man kakomplikado).

Mayroong mga sumusunod na pangunahing katangian ng OLAP:

Multidimensional na representasyon ng data.
Sinusuportahan ang mga kumplikadong kalkulasyon.
Pansamantalang reconnaissance.

Ang multidimensional na view ay nagbibigay ng batayan para sa analytical processing sa pamamagitan ng flexible na access sa data ng enterprise. Nagbibigay-daan ito sa mga user na suriin ang data sa anumang dimensyon at sa anumang antas ng pagsasama-sama.

Ang suporta para sa mga kumplikadong kalkulasyon ay ang core ng OLAP software.

Ginagamit ang time intelligence upang suriin ang performance ng anumang analytics application sa loob ng isang yugto ng panahon. Halimbawa, ngayong buwan kumpara noong nakaraang buwan, ngayong buwan kumpara sa parehong buwan noong nakaraang taon.

Multidimensional na istraktura ng data

Ang isa sa mga pangunahing katangian ng online analytical processing ay ang multidimensional na istraktura ng data. Ang isang kubo ay maaaring magkaroon ng ilang mga sukat. Salamat sa modelong ito, ang buong proseso ng pagmimina ng OLAP ay simple para sa mga manager at executive dahil ang mga bagay na kinakatawan sa mga cell ay mga real-world na bagay sa negosyo. Bilang karagdagan, ang modelo ng data na ito ay nagbibigay-daan sa mga user na magproseso hindi lamang ng mga structured na array, kundi pati na rin ng mga hindi structured at semi-structured. Ang lahat ng ito ay ginagawa silang lalo na sikat para sa pagsusuri ng data at mga aplikasyon ng BI.

Mga pangunahing katangian ng mga OLAP system:

Gumamit ng mga multidimensional na pamamaraan ng pagsusuri ng data.
Magbigay ng advanced na suporta sa database.
Lumikha ng madaling gamitin na mga interface ng end-user.
Sinusuportahan ang arkitektura ng kliyente/server.

Ang isa sa mga pangunahing bahagi ng mga konsepto ng OLAP ay ang client-side server. Bilang karagdagan sa pagsasama-sama at preprocessing ng data mula sa isang relational database, nagbibigay ito ng advanced na pagkalkula at mga opsyon sa pagre-record, karagdagang mga function, mga pangunahing advanced na kakayahan sa query, at iba pang mga function.

Depende sa halimbawa ng application na pipiliin mo, available ang iba't ibang modelo at tool ng data, kabilang ang real-time na pag-aalerto, mga what-if na sitwasyon, pag-optimize, at sopistikadong pag-uulat ng OLAP.

Kubiko na hugis

Ang konsepto ay batay sa isang kubiko na hugis. Ipinapakita ng layout ng data kung paano sumusunod ang OLAP sa prinsipyo ng multidimensional analysis, na nagreresulta sa isang istraktura ng data na idinisenyo para sa mabilis at mahusay na pagsusuri.

Ang isang OLAP cube ay tinatawag ding "hypercube". Inilarawan ito bilang binubuo ng mga numerical na katotohanan (mga sukat) na inuri sa mga facet (mga sukat). Ang mga sukat ay tumutukoy sa mga katangian na tumutukoy sa isang problema sa negosyo. Sa madaling salita, ang dimensyon ay isang label na naglalarawan sa isang sukat. Halimbawa, sa mga ulat sa pagbebenta, ang sukat ay magiging dami ng mga benta, at ang mga sukat ay kinabibilangan ng panahon ng pagbebenta, mga salespeople, produkto o serbisyo, at rehiyon ng pagbebenta. Sa pag-uulat ng mga operasyon sa pagmamanupaktura, ang panukala ay maaaring kabuuang gastos sa pagmamanupaktura at mga yunit ng produksyon. Ang mga sukat ay ang petsa o oras ng produksyon, ang yugto o yugto ng produksyon, maging ang mga manggagawang kasangkot sa proseso ng produksyon.

Ang OLAP data cube ay ang pundasyon ng system. Ang data sa isang cube ay isinaayos gamit ang alinman sa isang star o snowflake schema. Sa gitna ay may isang talahanayan ng katotohanan na naglalaman ng mga pinagsama-samang (mga panukala). Ito ay nauugnay sa isang serye ng mga talahanayan ng dimensyon na naglalaman ng impormasyon tungkol sa mga sukat. Inilalarawan ng mga sukat kung paano masusuri ang mga panukalang ito. Kung ang isang kubo ay naglalaman ng higit sa tatlong dimensyon, madalas itong tinatawag na hypercube.

Ang isa sa mga pangunahing tampok na kabilang sa kubo ay ang static na katangian nito, na nagpapahiwatig na ang kubo ay hindi na mababago kapag ito ay binuo. Samakatuwid, ang proseso ng pag-assemble ng kubo at pag-set up ng modelo ng data ay isang kritikal na hakbang patungo sa naaangkop na pagproseso ng data sa arkitektura ng OLAP.

Pagsasama ng data

Ang paggamit ng mga pagsasama-sama ay ang pangunahing dahilan kung bakit mas mabilis na naproseso ang mga query sa mga tool ng OLAP (kumpara sa OLTP). Ang mga pagsasama-sama ay mga buod ng data na paunang nakalkula sa panahon ng pagproseso. Tinutukoy ng lahat ng miyembrong nakaimbak sa mga talahanayan ng dimensyon ng OLAP ang mga query na matatanggap ng cube.

Sa isang kubo, ang mga akumulasyon ng impormasyon ay naka-imbak sa mga cell, ang mga coordinate na kung saan ay tinukoy ng mga tiyak na sukat. Ang bilang ng mga pinagsama-samang maaaring maglaman ng isang cube ay depende sa lahat ng posibleng kumbinasyon ng mga miyembro ng dimensyon. Samakatuwid, ang isang tipikal na cube sa isang application ay maaaring maglaman ng napakalaking bilang ng mga pinagsama-samang. Ang paunang pagkalkula ay isasagawa lamang para sa mga pangunahing aggregate na ibinabahagi sa buong online analytics cube. Ito ay makabuluhang bawasan ang oras na kinakailangan upang tukuyin ang anumang mga pagsasama-sama kapag nagpapatakbo ng isang query sa modelo ng data.

Mayroon ding dalawang opsyon na nauugnay sa mga pagsasama-sama na maaari mong gamitin upang pahusayin ang pagganap ng iyong out-of-the-box na cube: lumikha ng isang capability cache aggregation at gumamit ng user query-based aggregation.

Prinsipyo ng operasyon

Karaniwan, ang pagsusuri ng impormasyon sa pagpapatakbo na nakuha mula sa mga transaksyon ay maaaring isagawa gamit ang isang simpleng spreadsheet (ang mga halaga ng data ay ipinakita sa mga hilera at haligi). Ito ay mabuti dahil sa dalawang-dimensional na katangian ng data. Sa kaso ng OLAP may mga pagkakaiba, na nauugnay sa isang multidimensional na hanay ng data. Dahil madalas silang nagmumula sa iba't ibang pinagmulan, hindi palaging maproseso ng spreadsheet ang mga ito nang mahusay.

Niresolba ng cube ang problemang ito at pinapagana din ang OLAP data warehouse sa lohikal at maayos na paraan. Kinokolekta ng mga negosyo ang data mula sa maraming pinagmumulan at may iba't ibang format, tulad ng mga text file, multimedia file, Excel spreadsheet, Access database, at kahit na OLTP database.

Ang lahat ng data ay kinokolekta sa isang warehouse na pinunan nang direkta mula sa mga mapagkukunan. Sa loob nito, ang hilaw na impormasyon na nakuha mula sa OLTP at iba pang mga mapagkukunan ay tatanggalin sa anumang mga mali, hindi kumpleto at hindi pare-parehong mga transaksyon.

Kapag nalinis at nabago, ang impormasyon ay maiimbak sa isang relational database. Pagkatapos ay ia-upload ito sa isang multidimensional na OLAP server (o Olap cube) para sa pagsusuri. Ang mga end user na responsable para sa mga application ng negosyo, data mining at iba pang operasyon ng negosyo ay magkakaroon ng access sa impormasyong kailangan nila mula sa Olap cube.

Mga Bentahe ng Array Model

Ang OLAP ay isang tool na nagbibigay ng mabilis na pagganap ng query, na nakakamit sa pamamagitan ng na-optimize na storage, multidimensional indexing at caching, na kabilang sa mga makabuluhang bentahe ng system. Bilang karagdagan, ang mga pakinabang ay:

Mas maliit na laki ng data sa disk.
Awtomatikong pagkalkula ng mas mataas na antas ng mga pinagsama-samang data.
Nagbibigay ang mga modelo ng array ng natural na pag-index.
Ang mabisang pagkuha ng data ay nakakamit sa pamamagitan ng paunang pag-istruktura.
Compactness para sa mga low-dimensional na set ng data.

Kasama sa mga disadvantage ng OLAP ang katotohanan na ang ilang mga desisyon (mga hakbang sa pagproseso) ay maaaring tumagal ng mahabang panahon, lalo na sa malalaking volume ng impormasyon. Ito ay karaniwang itinatama sa pamamagitan ng pagsasagawa lamang ng incremental na pagproseso (pag-aaral mula sa data na nagbago).

Pangunahing analitikal na operasyon

Convolution(roll-up/drill-up) ay kilala rin bilang “consolidation”. Kasama sa pag-collapse ang pagkuha ng lahat ng data na maaaring makuha at pag-compute ng lahat sa isa o higit pang mga dimensyon. Kadalasan, maaaring mangailangan ito ng paggamit ng isang mathematical formula. Bilang halimbawa ng OLAP, maaari naming isaalang-alang ang isang retail chain na may mga outlet sa iba't ibang lungsod. Upang matukoy ang mga pattern at mahulaan ang mga trend sa pagbebenta sa hinaharap, ang data ng mga benta mula sa lahat ng lokasyon ay "i-roll up" sa pangunahing departamento ng pagbebenta ng kumpanya para sa pagsasama-sama at pagkalkula.

Pagbubunyag(drill-down). Ito ay kabaligtaran ng rolling up. Ang proseso ay nagsisimula sa isang malaking set ng data at pagkatapos ay pinaghiwa-hiwalay ito sa mas maliliit na bahagi, na nagbibigay-daan sa mga user na tingnan ang mga detalye. Sa halimbawa ng retail chain, susuriin ng analyst ang data ng mga benta at titingnan ang mga indibidwal na brand o produkto na itinuturing na pinakamahusay na nagbebenta sa bawat outlet sa iba't ibang lungsod.

Seksyon(Slice and dice). Ito ay isang proseso kung saan ang mga analytical na operasyon ay may kasamang dalawang aksyon: pagkuha ng isang partikular na hanay ng data mula sa isang OLAP cube (ang "pagputol" na aspeto ng pagsusuri) at pagtingin dito mula sa iba't ibang punto ng view o anggulo. Ito ay maaaring mangyari kapag ang lahat ng data ng punto ng pagbebenta ay natanggap at ipinasok sa hypercube. Pinutol ng isang analyst ang isang set ng data na nauugnay sa mga benta mula sa isang OLAP Cube. Susunod, ito ay titingnan kapag sinusuri ang mga benta ng mga indibidwal na yunit sa bawat rehiyon. Sa panahong ito, maaaring tumuon ang ibang mga user sa pagtatasa sa pagiging epektibo sa gastos ng mga benta o pagtatasa sa pagiging epektibo ng isang kampanya sa marketing at advertising.

Lumiko(Pivot). Pinaikot nito ang mga axes ng data upang magbigay ng kapalit na representasyon ng impormasyon.

Mga uri ng database

Karaniwan, ito ay isang tipikal na OLAP cube na nagpapatupad ng analytical processing ng multi-dimensional na data gamit ang OLAP Cube o anumang data cube upang ang analytical na proseso ay makapagdagdag ng mga dimensyon kung kinakailangan. Ang anumang impormasyon na na-load sa isang multidimensional na database ay iimbak o i-archive at maaaring maalala kapag kinakailangan.

	Ibig sabihin
Relational OLAP (ROLAP)	Ang ROLAP ay isang advanced na DBMS kasama ang multidimensional na data mapping upang maisagawa ang karaniwang relational na operasyon
Multidimensional OLAP (MOLAP)	MOLAP - nagpapatupad ng trabaho sa multidimensional na data
Hybrid Online Analytical Processing (HOLAP)	Sa diskarte sa HOLAP, ang mga pinagsama-samang kabuuan ay iniimbak sa isang multidimensional na database at ang detalyadong impormasyon ay nakaimbak sa isang relational database. Nagbibigay ito ng parehong kahusayan ng modelong ROLAP at ang pagganap ng modelong MOLAP
Desktop OLAP (DOLAP)	Sa Desktop OLAP, nagda-download ang user ng isang piraso ng data mula sa isang database nang lokal o sa kanyang desktop at sinusuri ito. Ang DOLAP ay medyo mas mura upang i-deploy dahil nag-aalok ito ng napakakaunting functionality kumpara sa ibang mga OLAP system
Web OLAP (WOLAP)	Ang Web OLAP ay isang OLAP system na naa-access sa pamamagitan ng isang web browser. Ang WOLAP ay isang three-tier na arkitektura. Binubuo ito ng tatlong bahagi: client, middleware at database server
Mobile OLAP	Tinutulungan ng Mobile OLAP ang mga user na ma-access at suriin ang data ng OLAP gamit ang kanilang mga mobile device
Spatial na OLAP	Ang SOLAP ay nilikha upang mapadali ang pamamahala ng parehong spatial at non-spatial na data sa isang geographic information system (GIS)

Mayroong hindi gaanong kilalang mga sistema o teknolohiya ng OLAP, ngunit ito ang mga pangunahing ginagamit sa kasalukuyan ng malalaking korporasyon, negosyo, at maging ng mga pamahalaan.

Mga Tool ng OLAP

Ang mga tool sa online na analytics ay napakahusay na naroroon sa Internet sa parehong bayad at libreng mga bersyon.

Ang pinakasikat sa kanila:

Ang Dundas BI mula sa Dundas Data Visualization ay isang browser-based na platform para sa business intelligence at data visualization na kinabibilangan ng mga pinagsama-samang dashboard, pag-uulat ng OLAP, at data analytics.
Ang Yellowfin ay isang business intelligence platform na nagbibigay ng isang pinagsamang solusyon na idinisenyo para sa mga kumpanyang may iba't ibang industriya at laki. Ang sistemang ito ay na-customize para sa mga negosyo sa larangan ng accounting, advertising, at agrikultura.
Ang ClicData ay isang business intelligence (BI) na solusyon na idinisenyo para sa pangunahing paggamit ng maliliit at katamtamang laki ng mga negosyo. Ang tool ay nagbibigay-daan sa mga end user na gumawa ng mga ulat at dashboard. Ang Board ay idinisenyo upang pagsamahin ang business intelligence, corporate performance management at ito ay isang full-feature na system na nagsisilbi sa mid-market at enterprise na mga kumpanya.
Ang Domo ay isang cloud-based na business management suite na sumasama sa maraming data source, kabilang ang mga spreadsheet, database, social media, at anumang umiiral na cloud o on-premises na software solution.
Ang InetSoft Style Intelligence ay isang software platform para sa mga business analyst na nagbibigay-daan sa mga user na lumikha ng mga dashboard, visual OLAP analysis technology at mga ulat gamit ang isang mashup engine.
Ang Birst mula sa Infor Company ay isang web-based na business intelligence at analytics solution na nag-uugnay sa mga insight ng magkakaibang team para tulungan kang gumawa ng matalinong mga desisyon. Nagbibigay-daan ang tool sa mga desentralisadong user na palakihin ang modelo ng enterprise team.
Ang Halo ay isang komprehensibong supply chain management at business intelligence system na tumutulong sa pagpaplano ng negosyo at pagtataya ng imbentaryo para sa pamamahala ng supply chain. Gumagamit ang system ng data mula sa lahat ng pinagmumulan - malaki, maliit at nasa pagitan.
Ang Chartio ay isang cloud-based na business intelligence solution na nagbibigay sa mga founder, business team, data analyst, at product team ng mga tool sa organisasyon para sa kanilang pang-araw-araw na gawain.
Ang Exago BI ay isang web-based na solusyon na idinisenyo para sa pagpapatupad sa mga web application. Ang pagpapatupad ng Exago BI ay nagbibigay-daan sa mga kumpanya sa lahat ng laki na magbigay sa kanilang mga kliyente ng angkop, napapanahon at interactive na pag-uulat.

Epekto sa negosyo

Mahahanap ng user ang OLAP sa karamihan ng mga application ng negosyo sa mga industriya. Ang pagsusuri ay ginagamit hindi lamang ng negosyo, kundi pati na rin ng iba pang mga interesadong partido.

Ang ilan sa mga pinakakaraniwang application nito ay kinabibilangan ng:

Pagsusuri ng data ng OLAP sa marketing.
Pag-uulat sa pananalapi, na sumasaklaw sa mga benta at gastos, pagbabadyet at pagpaplano sa pananalapi.
Pamamahala ng proseso ng negosyo.
Pagsusuri ng benta.
Pagmemerkado sa database.

Ang mga industriya ay patuloy na lumalaki, na nangangahulugan na ang mga gumagamit ay malapit nang makakita ng higit pang mga aplikasyon ng OLAP. Nagbibigay ang multidimensional adaptive processing ng mas dynamic na pagsusuri. Ito ang dahilan kung bakit ginagamit ang mga sistema at teknolohiyang ito ng OLAP upang suriin ang mga what-if na sitwasyon at mga alternatibong sitwasyon sa negosyo.