Paraan ng operational analytical processing. On-line na analytical processing

Ang istraktura ng database ng bodega ay karaniwang idinisenyo sa paraang gawing madali ang pagsusuri ng impormasyon hangga't maaari. Dapat itong maging maginhawa upang "ilagay" ang data sa iba't ibang direksyon (tinatawag na mga sukat). Halimbawa, ngayon gusto ng isang user na makakita ng buod ng mga pagpapadala ng mga bahagi ng supplier upang ihambing ang kanilang mga aktibidad. Bukas, ang parehong user ay mangangailangan ng larawan ng mga pagbabago sa dami ng mga supply ng mga bahagi ayon sa buwan upang masubaybayan ang dynamics ng mga supply. Dapat suportahan ng istruktura ng database ang mga ganitong uri ng pagsusuri sa pamamagitan ng pagpayag sa pagkuha ng data na tumutugma sa isang ibinigay na hanay ng mga sukat.

Ang batayan ng operational analytical data processing ay ang prinsipyo ng pag-aayos ng impormasyon sa isang hypercubic na modelo. Ang pinakasimpleng three-dimensional na data cube para sa supply ng mga bahagi para sa naunang tinalakay na database ng pagsubok ay ipinapakita sa Fig. 3.11. Ang bawat cell ay tumutugma sa isang "katotohanan" - halimbawa, ang dami ng paghahatid ng isang bahagi. Sa isang gilid ng kubo (isang dimensyon) ay ang mga buwan kung kailan ginawa ang mga paghahatid na sinasalamin ng kubo. Ang pangalawang dimensyon ay binubuo ng mga uri ng bahagi, at ang ikatlong dimensyon ay tumutugma sa mga supplier. Ang bawat cell ay naglalaman ng dami ng paghahatid para sa kaukulang kumbinasyon ng mga halaga sa lahat ng tatlong dimensyon. Dapat tandaan na kapag pinupunan ang kubo, ang mga halaga para sa mga paghahatid ng bawat buwan mula sa database ng pagsubok ay pinagsama-sama.


3.11. Isang pinasimpleng opsyon sa hypercube para sa pagsusuri ng supply ng mga bahagi

Ang mga sistema ng klase ng OLAP ay naiiba sa paraan ng pagpapakita ng mga ito ng data.

Multidimensional na OLAP (MOLAP) – ang mga system na ito ay batay sa isang multidimensional na istraktura ng data batay sa mga dynamic na array na may kaukulang mga paraan ng pag-access. Ang MOLAP ay ipinatupad gamit ang mga patented na teknolohiya para sa pag-aayos ng multidimensional na DBMS. Ang bentahe ng diskarteng ito ay ang kaginhawaan ng pagsasagawa ng mga kalkulasyon sa mga hypercube cell, dahil Ang mga kaukulang cell ay nilikha para sa lahat ng kumbinasyon ng mga sukat (tulad ng sa isang spreadsheet). Kasama sa mga klasikong kinatawan ng naturang mga sistema ang Oracle Express at SAS Institute MDDB.



Relational OLAP (ROLAP)– Sinusuportahan ang multidimensional analytical na mga modelo sa mga relational database. Kasama sa klase ng mga system ang Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Desktop OLAP– mga tool para sa pagbuo ng mga multidimensional na query at ulat para sa mga lokal na sistema ng impormasyon (spreadsheet, flat file). Ang mga sumusunod na sistema ay maaaring makilala: Mga Bagay sa Negosyo, Cognos Power Play.

E.F. Tinukoy ni Codd ang labindalawang panuntunan na dapat matugunan ng isang produkto ng OLAP, kabilang ang multidimensional na konseptong representasyon ng data, transparency, availability, matatag na performance, arkitektura ng client-server, dimensional equality, dynamic na pagproseso ng mga sparse matrice, multi-user support, walang limitasyong suporta para sa cross-dimensional mga operasyon, intuitive na pagmamanipula ng data , flexible na mekanismo ng pagbuo ng ulat, walang limitasyong bilang ng mga dimensyon at antas ng pagsasama-sama.



Ang pinakakaraniwang mga sistema ay ang klase ng ROLAP. Nagbibigay-daan sa iyo ang mga ito na mag-ayos ng isang modelo ng impormasyon sa isang relational-full storage ng anumang istraktura o sa isang espesyal na data mart.

kanin. 3.12. Star-type na diagram ng isang analytical showcase para sa supply ng mga bahagi

Para sa karamihan ng mga warehouse ng data, ang pinakamabisang paraan upang magmodelo ng isang N-dimensional na cube ay bilang isang bituin. Sa Fig. Ang Figure 3.11 ay nagpapakita ng isang hypercube na modelo para sa pagsusuri ng supply ng mga bahagi, kung saan ang impormasyon ay pinagsama-sama sa apat na dimensyon (supplier, bahagi, buwan, taon). Ang star schema ay batay sa isang talahanayan ng katotohanan. Ang talahanayan ng katotohanan ay naglalaman ng isang column na nagsasaad ng dami ng ibinigay, gayundin ng mga column na nagsasaad ng mga dayuhang key para sa lahat ng mga talahanayan ng dimensyon. Ang bawat dimensyon ng kubo ay kinakatawan ng isang talahanayan ng mga halaga, na isang sanggunian na may kaugnayan sa talahanayan ng katotohanan. Upang ayusin ang mga antas ng generalization ng impormasyon, ang mga kategoryang input ay isinaayos sa itaas ng mga reference na libro sa pagsukat (halimbawa, "materyal-part", "supplier city").

Ang dahilan kung bakit ang diagram sa Fig. Ang 3.12 ay tinatawag na "bituin", medyo halata. Ang mga dulo ng bituin ay nabuo sa pamamagitan ng mga talahanayan ng sukat, at ang kanilang mga koneksyon sa talahanayan ng katotohanan na matatagpuan sa gitna ay bumubuo ng mga sinag. Sa istraktura ng database na ito, karamihan sa mga query sa pagsusuri ng negosyo ay pinagsama ang isang central fact table na may isa o higit pang mga talahanayan ng dimensyon. Halimbawa, ang isang query upang makuha ang dami ng mga pagpapadala ng lahat ng bahagi noong 2004 ayon sa buwan, na pinaghiwa-hiwalay ayon sa supplier, ay ganito ang hitsura:

PUMILI NG SUM(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

FROM FACT, SUPPLIER

WHERE FACT.YEAR_ID=2004

AT FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

Sa Fig. Ipinapakita ng Figure 3.13 ang isang fragment ng ulat na nabuo bilang resulta ng tinukoy na kahilingan.

Analytical na teknolohiya ng mga proseso ng negosyo

Pinagsasama ng mga sistema ng Business Intelligence (BI) ang iba't ibang mga tool at teknolohiya para sa pagsusuri at pagproseso ng enterprise-scale na data. Batay sa mga tool na ito, ang mga sistema ng BI ay nilikha, ang layunin nito ay upang mapabuti ang kalidad ng impormasyon para sa paggawa ng mga desisyon sa pamamahala.

Kasama sa BI ang mga produkto ng software ng mga sumusunod na klase:

· online analytical processing (OLAP) system;

· mga tool sa data mining (DM);

Ang mga produkto ng software ng bawat klase ay gumaganap ng isang partikular na hanay ng mga function o pagpapatakbo gamit ang mga espesyal na teknolohiya.

OLAP (On-Line Analytical Processing) - online analytical processing - ay hindi ang pangalan ng isang partikular na produkto, ngunit ng isang buong teknolohiya. Ang konsepto ng OLAP ay batay sa isang multidimensional na representasyon ng data.

12 pamantayan ng teknolohiya ng OLAP, na naging pangunahing nilalaman ng isang bago at napaka-promising na teknolohiya.

Ang mga ito sa kalaunan ay binuo sa pagsubok ng FASMI, na tumutukoy sa mga kinakailangan para sa mga produkto ng OLAP:

· MABILIS (mabilis). Ang OLAP application ay dapat magbigay ng kaunting oras ng pag-access sa analytical data - sa average na mga 5 segundo;

· PAGSUSURI (analysis). Ang isang OLAP application ay dapat magbigay-daan sa user na magsagawa ng numerical at statistical analysis;

· Ibinahagi (nakabahaging pag-access). Ang isang OLAP application ay dapat na payagan ang maraming mga gumagamit na magtrabaho sa impormasyon nang sabay-sabay;

· MULTIDIMENSIONAL (multidimensionality);

· IMPORMASYON (impormasyon). Dapat bigyang-daan ng isang OLAP na application ang user na makuha ang impormasyong kailangan nila, saanman ito naninirahan sa electronic data store.

Batay sa FASMI, maaaring ibigay ang sumusunod na kahulugan: Mga aplikasyon ng OLAP - Ito ay mga system para sa mabilis na multi-user na pag-access sa multidimensional na analytical na impormasyon na may mga kakayahan sa numerical at statistical analysis.

Ang pangunahing ideya ng OLAP ay ang pagbuo ng mga multidimensional na cube na magiging available para sa mga query ng user. Ang mga multidimensional na cube (Larawan 5.3) ay binuo batay sa pinagmulan at pinagsama-samang data, na maaaring maimbak sa parehong relational at multidimensional na mga database. Samakatuwid, ang tatlong paraan ng pag-iimbak ng data ay kasalukuyang ginagamit: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) at HOLAP (Hybrid OLAP).



Alinsunod dito, ang mga produkto ng OLAP ay nahahati sa tatlong magkakatulad na kategorya batay sa paraan ng pag-iimbak ng data:

1. Sa kaso ng MOLAP, ang pinagmulan at multidimensional na data ay iniimbak sa isang multidimensional na database o sa isang multidimensional na lokal na cube. Tinitiyak ng paraan ng pag-iimbak na ito ang mataas na bilis ng mga operasyon ng OLAP. Ngunit ang multidimensional na base sa kasong ito ay kadalasang magiging kalabisan. Ang isang kubo na binuo sa batayan nito ay lubos na nakasalalay sa bilang ng mga sukat. Habang tumataas ang bilang ng mga dimensyon, tataas ang dami ng kubo. Minsan ito ay maaaring humantong sa pagsabog ng data.

2. Sa mga produkto ng ROLAP, ang source data ay iniimbak sa mga relational database o sa flat local table sa isang file server. Maaaring ilagay ang pinagsama-samang data sa mga talahanayan ng serbisyo sa parehong database. Ang conversion ng data mula sa isang relational database sa multidimensional na mga cube ay nangyayari sa kahilingan ng isang OLAP tool. Sa kasong ito, ang bilis ng pagbuo ng isang cube ay lubos na magdedepende sa uri ng data source.

3. Sa kaso ng paggamit ng hybrid na arkitektura, ang pinagmulan ng data ay nananatili sa relational database, at ang mga pinagsama-sama ay inilalagay sa multidimensional. Ang isang OLAP cube ay binuo sa kahilingan ng isang OLAP tool batay sa relational at multidimensional na data. Iniiwasan ng diskarteng ito ang sumasabog na paglaki ng data. Sa kasong ito, posibleng makamit ang pinakamainam na oras ng pagpapatupad para sa mga kahilingan ng kliyente.

Gamit ang mga teknolohiya ng OLAP, ang user ay maaaring magsagawa ng nababaluktot na pagtingin sa impormasyon, kumuha ng iba't ibang mga hiwa ng data, magsagawa ng analytical operations ng pagdedetalye, convolution, end-to-end distribution, paghahambing sa paglipas ng panahon, i.e. mag-compile at dynamic na mag-publish ng mga ulat at dokumento.

Sa loob ng maraming taon, ang teknolohiya ng impormasyon ay nakatuon sa pagbuo ng mga sistema upang suportahan ang pagproseso ng mga transaksyon sa korporasyon. Ang ganitong mga sistema ay dapat na visually fault-tolerant at nagbibigay ng mabilis na pagtugon. Isang epektibong solusyon ang ibinigay ng OLTP, na nakatuon sa isang distributed relational database environment.

Ang isang mas kamakailang pag-unlad sa lugar na ito ay ang pagdaragdag ng isang arkitektura ng client-server. Maraming mga tool ang nai-publish para sa pagbuo ng mga OLTP application.

Ang pag-access sa data ay madalas na kinakailangan ng parehong OLTP application at mga sistema ng impormasyon ng suporta sa desisyon. Sa kasamaang-palad, maaaring maging problema ang pagsubok na pagsilbihan ang parehong uri ng mga kahilingan. Samakatuwid, pinili ng ilang kumpanya ang landas ng paghahati ng database sa uri ng OLTP at uri ng OLAP.

OLAP (Online Analytical Processing - online analytical processing) ay isang proseso ng impormasyon na nagbibigay-daan sa user na mag-query sa system, magsagawa ng pagsusuri, atbp. sa operational mode (online). Ang mga resulta ay nabuo sa loob ng ilang segundo.

Sa kabilang banda, sa isang OLTP system, ang malalaking volume ng data ay naproseso nang mabilis hangga't natanggap ang mga ito bilang input.

Ang mga OLAP system ay ginawa para sa mga end user, habang ang OLTP system ay ginawa para sa mga propesyonal na IS user. Kasama sa OLAP ang mga aktibidad tulad ng pagbuo ng mga query, pag-query ng mga ad hoc na ulat, pagsasagawa ng statistical analysis, at pagbuo ng mga multimedia application.

Ang pagbibigay ng OLAP ay nangangailangan ng pagtatrabaho sa isang data warehouse (o multidimensional warehouse) pati na rin sa isang hanay ng mga tool, karaniwang multidimensional na mga kakayahan. Ang mga tool na ito ay maaaring mga query tool, spreadsheet, data mining tool, data visualization tool, atbp.

Ang konsepto ng OLAP ay batay sa prinsipyo ng multidimensional na representasyon ng data. Sinuri ni E. Codd ang mga pagkukulang ng relational na modelo, una sa lahat na itinuturo ang kawalan ng kakayahang pagsamahin, tingnan at pag-aralan ang data mula sa punto ng view ng maraming dimensyon, iyon ay, sa pinaka-naiintindihan na paraan para sa mga corporate analyst, at natukoy ang mga pangkalahatang kinakailangan para sa mga OLAP system na nagpapalawak ng functionality ng mga relational na DBMS at kasama ang multidimensional analysis bilang isa sa mga katangian nito.

Sa isang malaking bilang ng mga publikasyon, ang acronym na OLAP ay nagpapahiwatig hindi lamang ng isang multidimensional na view ng data, kundi pati na rin ang pag-imbak ng data mismo sa isang multidimensional na database. Sa pangkalahatan, hindi ito totoo, dahil sinabi mismo ni Codd na ang mga relational database ay, ay at magiging pinaka-angkop na teknolohiya para sa pag-iimbak ng data ng enterprise. Ang pangangailangan ay hindi para sa bagong teknolohiya ng database, ngunit sa halip para sa mga tool sa pagsusuri na umakma sa functionality ng mga umiiral na DBMS at sapat na kakayahang umangkop upang ma-accommodate at i-automate ang iba't ibang uri ng pagmimina na likas sa OLAP.

Ayon kay Codd, ang multidimensional na konseptwal na pananaw ay isang maramihang pananaw na binubuo ng ilang independiyenteng dimensyon kung saan maaaring masuri ang mga partikular na hanay ng data. Ang sabay-sabay na pagsusuri sa maraming dimensyon ay tinukoy bilang multivariate analysis. Kasama sa bawat dimensyon ang mga lugar ng pagsasama-sama ng data, na binubuo ng isang serye ng mga sunud-sunod na antas ng generalization, kung saan ang bawat mas mataas na antas ay tumutugma sa isang mas mataas na antas ng pagsasama-sama ng data para sa kaukulang dimensyon. Kaya, ang dimensyon ng Performer ay maaaring matukoy sa pamamagitan ng direksyon ng pagsasama-sama, na binubuo ng mga antas ng generalization "enterprise - division - department - employee". Ang dimensyon ng Oras ay maaari pang magsama ng dalawang direksyon ng pagsasama-sama - "taon - quarter - buwan - araw" at "linggo - araw", dahil hindi tugma ang pagbibilang ng oras ayon sa buwan at linggo. Sa kasong ito, nagiging posible na arbitraryong piliin ang nais na antas ng detalye ng impormasyon para sa bawat isa sa mga sukat. Ang operasyon ng pagbaba ay tumutugma sa paggalaw mula sa pinakamataas na yugto ng pagsasama-sama hanggang sa pinakamababa; sa kabaligtaran, ang pagpapatakbo ng pag-akyat ay nangangahulugan ng paggalaw mula sa mas mababang antas patungo sa mas mataas.

Tinukoy ni Codd ang 12 panuntunan na dapat matugunan ng isang produkto ng software ng klase ng OLAP. Ang mga patakarang ito:

1. Multidimensional na konseptong representasyon ng data.

2. Transparency.

3. Availability.

4. Panay ang pagganap.

5. Kliyente - arkitektura ng server.

6. Pagkakapantay-pantay ng mga sukat.

7. Dynamic na pagproseso ng mga kalat-kalat na matrice.

8. Suporta para sa multi-user mode.

9. Walang limitasyong suporta para sa mga cross-dimensional na operasyon.

10. Intuitive na pagmamanipula ng data.

11. Flexible na mekanismo ng pagbuo ng ulat.

12. Walang limitasyong bilang ng mga sukat at antas ng pagsasama-sama.

Ang hanay ng mga kinakailangang ito, na nagsilbing aktwal na kahulugan ng OLAP, ay dapat isaalang-alang bilang isang gabay, at ang mga partikular na produkto ay dapat masuri ayon sa antas ng pagiging malapit sa perpektong ganap na pagsunod sa lahat ng mga kinakailangan.

Pagmimina ng data.

Ang data mining (DMA), o Data Mining, ay isang terminong ginamit upang ilarawan ang pagtuklas ng kaalaman sa mga database, pagkuha ng kaalaman, data mining, data mining, data sample processing, data cleaning at data mining; Nangangahulugan din ito ng kasamang software. Ang lahat ng mga pagkilos na ito ay awtomatikong isinasagawa at pinapayagan kahit na hindi programmer na makakuha ng mabilis na mga resulta.

Ang kahilingan ay ginawa ng end user, posibleng sa natural na wika. Ang kahilingan ay na-convert sa SQL na format. Ang kahilingan ng SQL ay ipinadala sa network sa DBMS, na namamahala sa database o imbakan ng data. Hinahanap ng DBMS ang sagot sa kahilingan at ibinabalik ito. Ang gumagamit ay maaaring magdisenyo ng pagtatanghal o ulat ayon sa kanilang mga kinakailangan.

Maraming mahahalagang desisyon sa halos anumang lugar ng negosyo at panlipunang globo ay batay sa pagsusuri ng malaki at kumplikadong mga database. Malaki ang maitutulong ng IBP sa mga kasong ito.

Ang mga pamamaraan ng data mining ay malapit na nauugnay sa mga teknolohiya ng OLAP at mga teknolohiya ng data warehouse. Samakatuwid, ang pinakamahusay na pagpipilian ay isang pinagsamang diskarte sa kanilang pagpapatupad.

Upang ang mga umiiral na warehouse ng data ay mapadali ang paggawa ng desisyon sa pamamahala, ang impormasyon ay dapat na iharap sa analyst sa kinakailangang form, iyon ay, dapat na mayroon siyang mga tool para sa pag-access at pagproseso ng data ng warehouse.

Kadalasan, ang mga sistema ng impormasyon at analytical, na nilikha na may inaasahang direktang paggamit ng mga gumagawa ng desisyon, ay nagiging napakadaling gamitin, ngunit lubhang limitado sa pag-andar. Ang ganitong mga static na sistema ay tinatawag na Executive Information Systems. Naglalaman ang mga ito ng mga paunang natukoy na hanay ng mga query at, bagama't sapat para sa pang-araw-araw na pagsusuri, ay hindi masasagot ang lahat ng tanong tungkol sa available na data na maaaring lumabas kapag gumagawa ng mga desisyon. Ang mga resulta ng naturang sistema, bilang panuntunan, ay mga ulat ng maraming pahina, pagkatapos ng maingat na pag-aaral kung saan ang analyst ay may bagong serye ng mga tanong. Gayunpaman, ang bawat bagong kahilingan na hindi na-foreseen kapag nagdidisenyo ng naturang sistema ay dapat munang pormal na inilarawan, i-code ng programmer, at pagkatapos ay isakatuparan. Ang oras ng paghihintay sa kasong ito ay maaaring mga oras at araw, na hindi palaging katanggap-tanggap. Kaya, ang panlabas na pagiging simple ng mga sistema ng impormasyon sa suporta sa istatistika ng desisyon, kung saan ang karamihan sa mga customer ng impormasyon at analytical system ay aktibong nakikipaglaban, ay nagreresulta sa pagkawala ng flexibility.

Ang mga dynamic na sistema ng suporta sa pagpapasya, sa kabaligtaran, ay nakatuon sa pagproseso ng mga hindi regulated (ad hoc) na kahilingan ng analyst para sa data. Ang gawain ng mga analyst sa mga system na ito ay binubuo ng isang interactive na pagkakasunud-sunod ng pagbuo ng mga query at pag-aaral ng kanilang mga resulta.

Ngunit ang mga dynamic na sistema ng suporta sa desisyon ay maaaring gumana hindi lamang sa larangan ng online analytical processing (OLAP). Ang suporta para sa paggawa ng mga desisyon sa pamamahala batay sa naipon na data ay maaaring isagawa sa tatlong pangunahing lugar.

1. Saklaw ng detalyadong data. Ito ang saklaw ng karamihan sa mga sistema ng pagkuha ng impormasyon. Sa karamihan ng mga kaso, ang mga relational na DBMS ay nakayanan nang maayos ang mga gawaing lumabas dito. Ang karaniwang tinatanggap na pamantayan para sa wika para sa pagmamanipula ng relational data ay SQL. Ang mga information retrieval system na nagbibigay ng end-user interface sa mga gawain ng paghahanap ng detalyadong impormasyon ay maaaring gamitin bilang mga add-on sa mga indibidwal na database ng mga transactional system at sa isang pangkalahatang imbakan ng data.

2. Ang saklaw ng pinagsama-samang mga tagapagpahiwatig. Ang isang komprehensibong pagtingin sa impormasyong nakolekta sa isang data warehouse, ang generalization at aggregation nito, at multidimensional analysis ay ang mga gawain ng mga OLAP system. Dito maaari kang tumuon sa mga espesyal na multidimensional na DBMS, o manatili sa loob ng balangkas ng mga teknolohiyang may kaugnayan. Sa pangalawang kaso, ang paunang pinagsama-samang data ay maaaring kolektahin sa isang database na hugis bituin, o ang pagsasama-sama ng impormasyon ay maaaring isagawa sa proseso ng pag-scan ng mga detalyadong talahanayan ng isang relational database.

3. Ang globo ng mga pattern. Ang pagpoproseso ng intelektwal ay isinasagawa gamit ang mga pamamaraan ng pagmimina ng data, ang pangunahing layunin nito ay upang maghanap ng mga functional at lohikal na pattern sa naipon na impormasyon, bumuo ng mga modelo at panuntunan na nagpapaliwanag sa mga nakitang anomalya at/o hulaan ang pagbuo ng ilang mga proseso.

Ang kumpletong istraktura ng impormasyon at analytical system na binuo batay sa isang data warehouse ay ipinapakita sa Fig. 3.2. Sa mga partikular na pagpapatupad, ang mga indibidwal na bahagi ng circuit na ito ay madalas na nawawala.

Fig.3.2. Istraktura ng corporate information at analytical system.

3.4 Mga paraan ng analytical data processing

Upang ang mga umiiral na data warehouse ay mapadali ang paggawa ng desisyon sa pamamahala, ang impormasyon ay dapat na iharap sa analyst sa kinakailangang form, ibig sabihin, dapat siyang bumuo ng mga tool para sa pag-access at pagproseso ng data ng warehouse.

Kadalasan, ang impormasyon at analytical system na nilikha na may inaasahang direktang paggamit ng mga gumagawa ng desisyon ay nagiging napakadaling gamitin, ngunit lubhang limitado sa pag-andar. Ang ganitong mga static na sistema ay tinatawag na Executive Information Systems (IIS), o Executive Information Systems (EIS). Naglalaman ang mga ito ng maraming query at, bagama't sapat para sa pang-araw-araw na pagsusuri, ay hindi masasagot ang lahat ng mga tanong na maaaring lumabas kapag gumagawa ng mga desisyon. Ang resulta ng naturang sistema, bilang panuntunan, ay mga ulat sa maraming pahina, pagkatapos ng maingat na pag-aaral kung saan ang analyst ay may bagong serye ng mga tanong. Gayunpaman, ang bawat bagong kahilingan na hindi na-foreseen kapag nagdidisenyo ng naturang sistema ay dapat munang pormal na inilarawan, i-code ng programmer, at pagkatapos ay isakatuparan. Ang oras ng paghihintay sa kasong ito ay maaaring mga oras at araw, na hindi palaging katanggap-tanggap.

On-line na analytical processing. O On-Line Analytical Processing, ang OLAP ay isang mahalagang bahagi ng pag-aayos ng mga warehouse ng data. Ang konsepto ng OLAP ay inilarawan noong 1993 ni Edgar Codd at mayroong mga sumusunod na kinakailangan para sa mga aplikasyon ng multidimensional na pagsusuri:

– multidimensional na konseptong representasyon ng data, kabilang ang buong suporta para sa mga hierarchy at maramihang hierarchies (isang pangunahing kinakailangan ng OLAP);

– pagbibigay sa user ng mga resulta ng pagsusuri sa isang katanggap-tanggap na oras (karaniwan ay hindi hihigit sa 5 s), kahit na sa halaga ng hindi gaanong detalyadong pagsusuri;

– ang kakayahang magsagawa ng anumang lohikal at istatistikal na pagsusuri na tiyak sa isang naibigay na aplikasyon at i-save ito sa isang form na naa-access ng end user;

– multi-user na pag-access sa data na may suporta para sa naaangkop na mekanismo ng pag-lock at awtorisadong paraan ng pag-access;

– ang kakayahang ma-access ang anumang kinakailangang impormasyon, anuman ang dami nito at lokasyon ng imbakan.

Ang isang OLAP system ay binubuo ng maraming bahagi. Sa pinakamataas na antas ng presentasyon, ang system ay may kasamang data source, isang multidimensional database (MDB), na nagbibigay ng kakayahang magpatupad ng mekanismo ng pag-uulat batay sa teknolohiya ng OLAP, isang OLAP server at isang kliyente. Ang system ay binuo sa prinsipyo ng client-server at nagbibigay ng remote at multi-user na access sa MDB server.

Tingnan natin ang mga bahagi ng isang OLAP system.

Mga pinagmumulan. Ang pinagmulan sa mga OLAP system ay ang server na nagbibigay ng data para sa pagsusuri. Depende sa lugar ng paggamit ng produkto ng OLAP, ang pinagmulan ay maaaring isang data warehouse, isang minanang database na naglalaman ng karaniwang data, isang set

mga talahanayan na pinagsasama-sama ang data sa pananalapi o anumang kumbinasyon ng nasa itaas.

Imbakan ng data. Kinokolekta at iniimbak ang source data sa isang warehouse na idinisenyo ayon sa mga prinsipyo ng data warehousing. Ang data warehouse ay isang relational database (RDB). Ang pangunahing talahanayan ng data (talahanayan ng katotohanan) ay naglalaman ng mga numerong halaga ng mga tagapagpahiwatig kung saan kinokolekta ang istatistikal na impormasyon.

Multidimensional na database.Ang isang data warehouse ay nagsisilbing tagapagbigay ng impormasyon sa isang multidimensional na database, na isang koleksyon ng mga bagay. Ang mga pangunahing klase ng mga bagay na ito ay mga sukat at sukat. Kasama sa mga sukat ang mga hanay ng mga halaga (parameter) kung saan ini-index ang data, halimbawa, oras, rehiyon, uri ng institusyon, atbp. Ang bawat dimensyon ay puno ng mga halaga mula sa kaukulang mga talahanayan ng dimensyon ng data warehouse. Tinutukoy ng hanay ng mga sukat ang espasyo ng prosesong pinag-aaralan. Ang mga tagapagpahiwatig ay tumutukoy sa mga multidimensional na data cube (hypercubes). Ang hypercube ay naglalaman ng data mismo, pati na rin ang mga pinagsama-samang kabuuan para sa mga sukat na kasama sa indicator. Ang mga tagapagpahiwatig ay bumubuo sa pangunahing nilalaman ng MDB at pinupunan alinsunod sa talahanayan ng katotohanan. Sa bawat axis ng isang hypercube, maaaring ayusin ang data sa isang hierarchy na kumakatawan sa iba't ibang antas ng detalye. Nagbibigay-daan ito sa iyo na lumikha ng mga hierarchical na dimensyon, na gagamitin upang pagsama-samahin o i-drill down ang presentasyon ng data sa panahon ng kasunod na pagsusuri ng data. Ang karaniwang halimbawa ng hierarchical na dimensyon ay isang listahan ng mga teritoryal na bagay na nakapangkat ayon sa mga distrito, rehiyon, at distrito.

server. Ang bahagi ng application ng OLAP system ay ang OLAP server. Ginagawa ng bahaging ito ang lahat ng gawain (depende sa modelo ng system), at iniimbak ang lahat ng impormasyon kung saan ibinibigay ang aktibong pag-access. Ang arkitektura ng server ay pinamamahalaan ng iba't ibang mga konsepto. Sa partikular, ang pangunahing functional na katangian ng mga produkto ng OLAP ay ang paggamit ng MDB o RDB para sa pag-iimbak ng data.

Aplikasyon ng Kliyente.Ang data na nakaayos nang naaayon at nakaimbak sa MDB ay magagamit para sa pagsusuri gamit ang isang client application. Nagkakaroon ng pagkakataon ang user na malayuang ma-access ang data, bumuo ng mga kumplikadong query, bumuo ng mga ulat, at makakuha ng mga arbitrary na subset ng data. Ang pagkuha ng isang ulat ay bumababa sa pagpili ng mga partikular na halaga ng pagsukat at pagbuo ng isang seksyon ng isang hypercube. Ang cross section ay tinutukoy ng mga napiling halaga ng pagsukat. Ang data para sa iba pang mga sukat ay buod.

OLAPsa kliyente at sa server. Maaaring isagawa ang pagsusuri ng multidimensional na data gamit ang iba't ibang mga tool, na maaaring nahahati sa mga tool ng OLAP ng kliyente at server.

Ang mga tool ng kliyente ng OLAP (halimbawa, Mga Pivot Table sa Excel 2000 mula sa Microsoft o ProClarity mula sa Knosys) ay mga application na kinakalkula ang pinagsama-samang data at ipinapakita ang mga ito. Kasabay nito, ang pinagsama-samang data mismo ay nakapaloob sa isang cache sa loob ng address space ng naturang OLAP tool.

Kung ang source data ay nakapaloob sa isang desktop DBMS, ang pagkalkula ng pinagsama-samang data ay ginagawa ng OLAP tool mismo. Kung ang pinagmulan ng paunang data ay isang server DBMS, marami sa mga tool ng OLAP ng kliyente ang nagpapadala ng mga query sa SQL sa server at bilang resulta ay tumatanggap ng pinagsama-samang data na kinakalkula sa server.

Kadalasan, ipinapatupad ang functionality ng OLAP sa mga tool sa pagpoproseso ng data ng istatistika at sa ilang mga spreadsheet.

Maraming mga tool sa pag-develop ang naglalaman ng mga library ng mga klase o bahagi na nagbibigay-daan sa iyong lumikha ng mga application na nagpapatupad ng simpleng functionality ng OLAP (tulad ng mga bahagi ng Decision Cube sa Borland Delphi at Borland C++ Builder). Bilang karagdagan, maraming kumpanya ang nag-aalok ng mga kontrol ng ActiveX at iba pang mga aklatan na nagpapatupad ng katulad na pagpapagana.

Ginagamit ang mga tool ng OLAP ng kliyente, bilang panuntunan, na may maliit na bilang ng mga dimensyon (karaniwang hindi hihigit sa anim) at isang maliit na iba't ibang mga halaga para sa mga parameter na ito - dahil ang resultang pinagsama-samang data ay dapat magkasya sa address space ng naturang tool , at ang kanilang bilang ay lumalaki nang husto habang tumataas ang bilang ng mga dimensyon.

Maraming mga tool sa kliyente ng OLAP ang nagpapahintulot sa iyo na i-save ang mga nilalaman ng cache na may pinagsama-samang data bilang isang file, upang hindi muling kalkulahin ang mga ito. Gayunpaman, ang pagkakataong ito ay kadalasang ginagamit upang ihiwalay ang pinagsama-samang data para sa layunin ng paglilipat nito sa ibang mga organisasyon o para sa paglalathala.

Ang ideya ng pag-iimbak ng isang cache ng pinagsama-samang data sa isang file ay higit na binuo sa mga tool ng OLAP ng server (halimbawa, Oracle Express Server o Microsoft OLAP Services), kung saan ang pag-save at pagbabago ng pinagsama-samang data, pati na rin ang pagpapanatili ng imbakan na naglalaman ng mga ito. , ay isinasagawa ng isang hiwalay na aplikasyon o proseso na tinatawag na OLAP server. Maaaring humiling ang mga application ng kliyente ng naturang multidimensional na storage at makatanggap ng ilang partikular na data bilang tugon. Ang ilang application ng kliyente ay maaari ding gumawa ng mga naturang tindahan o i-update ang mga ito batay sa binagong data ng pinagmulan.

Ang mga bentahe ng paggamit ng mga tool ng OLAP ng server kumpara sa mga tool ng OLAP ng kliyente ay katulad ng mga pakinabang ng paggamit ng mga DBMS ng server kumpara sa mga desktop: kapag gumagamit ng mga tool sa server, ang pagkalkula at pag-iimbak ng pinagsama-samang data ay nangyayari sa server, at ang application ng kliyente ay tumatanggap lamang ng mga resulta ng mga query laban sa kanila, na nagbibigay-daan sa pangkalahatan, bawasan ang trapiko sa network, humiling ng oras ng pagpapatupad, at mga kinakailangan sa mapagkukunan na ginagamit ng application ng kliyente.

3.5 Mga teknikal na aspeto ng multidimensional na pag-iimbak ng data

Ang multidimensionality sa mga aplikasyon ng OLAP ay maaaring nahahati sa tatlong antas:

1. Multidimensional na representasyon ng data– mga tool ng end-user na nagbibigay ng multidimensional visualization at pagmamanipula ng data; Ang layer ng multidimensional na representasyon ay kumukuha mula sa pisikal na istraktura ng data at tinatrato ang data bilang multidimensional.

    Multidimensional na pagproseso– isang paraan (wika) para sa pagbabalangkas ng mga multidimensional na query (ang tradisyonal na relational na wika na SQL ay hindi angkop dito) at isang processor na maaaring magproseso at magsagawa ng naturang query.

    Multidimensional na imbakan– paraan ng pisikal na organisasyon ng data, tinitiyak ang epektibong pagpapatupad ng mga multidimensional na query.

Ang unang dalawang antas ay sapilitan sa lahat ng OLAP tool. Ang ikatlong antas, bagaman laganap, ay hindi kinakailangan, dahil ang data para sa isang multidimensional na representasyon ay maaaring makuha mula sa mga ordinaryong istrukturang pamanggit. Ang multidimensional na processor ng query, sa kasong ito, ay nagsasalin ng mga multidimensional na query sa mga query sa SQL na isinasagawa ng relational na DBMS.

Sa anumang data warehouse - parehong ordinaryo at multidimensional - kasama ang mga detalyadong data na nakuha mula sa mga operating system, ang pinagsama-samang mga tagapagpahiwatig (kabuuang mga tagapagpahiwatig), tulad ng kabuuan ng mga volume ng benta ayon sa buwan, ayon sa kategorya ng produkto, atbp., ay nakaimbak din tahasan para sa nag-iisang layunin na mapabilis ang pagpapatupad ng query. Pagkatapos ng lahat, sa isang banda, ang isang napakalaking halaga ng data, bilang isang patakaran, ay naipon sa bodega, at sa kabilang banda, ang mga analyst sa karamihan ng mga kaso ay interesado hindi sa detalyado, ngunit sa mga pangkalahatang tagapagpahiwatig. At kung milyon-milyong indibidwal na benta ang kailangang idagdag sa bawat oras upang kalkulahin ang kabuuang benta para sa taon, malamang na hindi katanggap-tanggap ang bilis. Samakatuwid, kapag naglo-load ng data sa isang multidimensional na database, lahat ng kabuuang indicator o bahagi ng mga ito ay kinakalkula at iniimbak.

Gayunpaman, may mga disadvantages sa paggamit ng pinagsama-samang data. Ang mga pangunahing kawalan ay ang pagtaas sa dami ng nakaimbak na impormasyon (kapag nagdadagdag ng mga bagong dimensyon, ang dami ng data na bumubuo sa cube ay lumalaki nang husto) at ang oras na kinakailangan upang mai-load ang mga ito. Bukod dito, ang dami ng impormasyon ay maaaring tumaas ng sampu at kahit daan-daang beses. Halimbawa, sa isa sa mga nai-publish na standard na pagsubok, ang kumpletong pagkalkula ng mga pinagsama-sama para sa 10 MB ng raw data ay nangangailangan ng 2.4 GB, ibig sabihin, ang data ay lumago nang 240 beses!

Ang antas ng pagtaas sa dami ng data kapag kinakalkula ang mga pinagsama-samang ay depende sa bilang ng mga sukat ng kubo at ang istraktura ng mga sukat na ito, iyon ay, ang ratio ng bilang ng "mga magulang" at "mga anak" sa iba't ibang antas ng pagsukat. Upang malutas ang problema ng pag-iimbak ng mga pinagsama-samang, ang mga kumplikadong scheme ay ginagamit, na ginagawang posible upang makamit ang isang makabuluhang pagtaas sa pagganap ng query kapag kinakalkula ang hindi lahat ng posibleng mga pinagsama-samang.

Parehong raw at pinagsama-samang data ay maaaring iimbak alinman sa

relational o sa multidimensional na istruktura. Kaugnay nito, tatlong paraan ng pag-iimbak ng multidimensional na data ang kasalukuyang ginagamit:

MOLAP (Multidimensional OLAP) – ang pinagmulan at pinagsama-samang data ay iniimbak sa isang multidimensional na database. Ang pag-iimbak ng data sa mga multidimensional na istruktura ay nagbibigay-daan sa iyong manipulahin ang data bilang isang multidimensional array, dahil sa kung saan ang bilis ng pagkalkula ng mga pinagsama-samang halaga ay pareho para sa alinman sa mga sukat. Gayunpaman, sa kasong ito, ang multidimensional na database ay kalabisan, dahil ang multidimensional na data ay ganap na naglalaman ng orihinal na relational data.

Nagbibigay ang mga system na ito ng buong cycle ng pagpoproseso ng OLAP. Maaaring kasama nila, bilang karagdagan sa bahagi ng server, ang sarili nilang pinagsama-samang interface ng kliyente, o gumamit ng mga panlabas na programa ng spreadsheet upang makipag-ugnayan sa user.

ROLAP (Relational OLAP) - ang orihinal na data ay nananatili sa parehong relational database kung saan ito orihinal na matatagpuan. Ang pinagsama-samang data ay inilalagay sa mga talahanayan ng serbisyo na espesyal na nilikha para sa pag-iimbak nito sa parehong database.

HOLAP (Hybrid OLAP) – ang orihinal na data ay nananatili sa parehong relational database kung saan ito orihinal na matatagpuan, at ang pinagsama-samang data ay iniimbak sa isang multidimensional na database.

Sinusuportahan ng ilang tool ng OLAP ang pag-iimbak ng data lamang sa mga istrukturang may kaugnayan, ang ilan ay sa mga multidimensional lamang. Gayunpaman, karamihan sa mga modernong tool ng OLAP ng server ay sumusuporta sa lahat ng tatlong paraan ng pag-iimbak ng data. Ang pagpili ng paraan ng pag-iimbak ay depende sa dami at istraktura ng pinagmumulan ng data, mga kinakailangan para sa bilis ng pagsasagawa ng query at ang dalas ng pag-update ng mga OLAP cube.

3.6 Pagmimina ng data (DataPagmimina)

Ang terminong Data Mining ay tumutukoy sa proseso ng paghahanap ng mga ugnayan, trend at relasyon sa pamamagitan ng iba't ibang matematikal at istatistikal na algorithm: clustering, regression at correlation analysis, atbp. para sa mga sistema ng suporta sa desisyon. Sa kasong ito, ang naipon na impormasyon ay awtomatikong pangkalahatan sa impormasyon na maaaring mailalarawan bilang kaalaman.

Ang modernong teknolohiya ng Data Mining ay batay sa konsepto ng mga template na nagpapakita ng mga pattern na likas sa mga subsample ng data at bumubuo sa tinatawag na nakatagong kaalaman.

Ang paghahanap ng mga pattern ay isinasagawa gamit ang mga pamamaraan na hindi gumagamit ng anumang apriori na pagpapalagay tungkol sa mga subsample na ito. Ang isang mahalagang tampok ng Data Mining ay ang hindi karaniwan at hindi halatang katangian ng mga pattern na hinahanap. Sa madaling salita, ang mga tool sa Data Mining ay naiiba sa mga tool sa pagpoproseso ng istatistika ng data at mga tool sa OLAP sa halip na suriin ang mga relasyon na paunang ipinapalagay ng mga user

sa pagitan ng data, sila, batay sa magagamit na data, ay nakapag-iisa na makahanap ng gayong mga ugnayan, pati na rin bumuo ng mga hypotheses tungkol sa kanilang kalikasan.

Sa pangkalahatan, ang proseso ng Data Mining ay binubuo ng tatlong yugto

    pagtukoy ng mga pattern (libreng paghahanap);

    gamit ang mga natukoy na pattern upang mahulaan ang mga hindi kilalang halaga (predictive modeling);

    pagsusuri ng exception, na idinisenyo upang tukuyin at bigyang-kahulugan ang mga anomalya sa mga nakitang pattern.

Minsan ang isang intermediate na yugto ng pagsuri sa pagiging maaasahan ng mga nahanap na pattern sa pagitan ng kanilang pagtuklas at paggamit (stage ng pagpapatunay) ay tahasang tinutukoy.

Mayroong limang karaniwang uri ng mga pattern na natukoy ng mga pamamaraan ng Data Mining:

1.Association nagbibigay-daan sa iyo na tukuyin ang mga matatag na grupo ng mga bagay kung saan mayroong mga implicit na koneksyon. Ang dalas ng paglitaw ng isang indibidwal na item o grupo ng mga item, na ipinahayag bilang isang porsyento, ay tinatawag na prevalence. Ang mababang rate ng pagkalat (mas mababa sa isang ikalibo ng isang porsyento) ay nagpapahiwatig na ang asosasyon ay hindi makabuluhan. Ang mga asosasyon ay nakasulat sa anyo ng mga patakaran: A=> B, Saan A- pakete, SA - kahihinatnan. Upang matukoy ang kahalagahan ng bawat resultang tuntunin ng asosasyon, kinakailangan upang kalkulahin ang isang halaga na tinatawag na kumpiyansa A Upang SA(o relasyon A at B). Ang kumpiyansa ay nagpapakita kung gaano kadalas kung kailan A lilitaw SA. Halimbawa, kung d(A/B)=20%, nangangahulugan ito na kapag bumibili ng isang produkto A sa bawat ikalimang kaso ang mga kalakal ay binibili din SA.

Ang isang tipikal na halimbawa ng paggamit ng asosasyon ay ang pagsusuri ng mga pattern ng pagbili. Halimbawa, kapag nagsasagawa ng isang pag-aaral sa isang supermarket, makikita mo na 65% ng mga bumibili ng potato chips ay bumibili din ng Coca-Cola, at kung may diskwento para sa naturang set, bumili sila ng Coke sa 85% ng mga kaso. Ang ganitong mga resulta ay mahalaga sa paghubog ng mga estratehiya sa marketing.

2.Pagkasunod-sunod - ito ay isang paraan ng pagtukoy ng mga asosasyon sa paglipas ng panahon. Sa kasong ito, tinukoy ang mga panuntunan na naglalarawan sa sunud-sunod na paglitaw ng ilang partikular na grupo ng mga kaganapan. Ang ganitong mga patakaran ay kinakailangan para sa pagbuo ng mga senaryo. Bilang karagdagan, maaari silang magamit, halimbawa, upang bumalangkas ng isang tipikal na hanay ng mga nakaraang benta na maaaring humantong sa mga kasunod na benta ng isang partikular na produkto.

3.Pag-uuri - kasangkapan sa paglalahat. Ito ay nagpapahintulot sa amin na lumipat mula sa pagsasaalang-alang ng mga indibidwal na bagay patungo sa mga pangkalahatang konsepto na nagpapakilala sa ilang mga koleksyon ng mga bagay at sapat na upang makilala ang mga bagay na kabilang sa mga koleksyon na ito (mga klase). Ang kakanyahan ng proseso ng pagbuo ng konsepto ay ang paghahanap ng mga pattern na katangian ng mga klase. Maraming iba't ibang mga tampok (attribute) ang ginagamit upang ilarawan ang mga bagay. Ang problema sa pagbuo ng mga konsepto batay sa mga paglalarawan ng tampok ay binuo ni M.M. Bonart. Ang solusyon nito ay batay sa aplikasyon ng dalawang pangunahing pamamaraan: pagsasanay at pagsubok. Sa mga pamamaraan ng pagsasanay, ang isang panuntunan sa pag-uuri ay itinayo batay sa pagproseso ng hanay ng pagsasanay ng mga bagay. Ang pamamaraan ng pag-verify (pagsusuri) ay binubuo ng paggamit ng nagresultang panuntunan sa pag-uuri upang makilala ang mga bagay mula sa isang bagong sample (pagsusuri). Kung ang mga resulta ng pagsusulit ay itinuturing na kasiya-siya, kung gayon ang proseso ng pag-aaral ay matatapos kung hindi, ang panuntunan sa pag-uuri ay pino sa proseso ng muling pagsasanay.

4.Clustering – ito ang pamamahagi ng impormasyon (record) mula sa database sa mga grupo (cluster) o mga segment na may sabay-sabay na kahulugan ng mga pangkat na ito. Hindi tulad ng pag-uuri, ang pagsusuri dito ay hindi nangangailangan ng paunang pagtatalaga ng mga klase.

5.Pagtataya ng serye ng oras ay isang tool para sa pagtukoy ng mga uso sa mga pagbabago sa mga katangian ng mga bagay na isinasaalang-alang sa paglipas ng panahon. Ang pagsusuri sa pag-uugali ng mga serye ng oras ay nagbibigay-daan sa amin upang mahulaan ang mga halaga ng mga katangian sa ilalim ng pag-aaral.

Upang malutas ang mga naturang problema, ginagamit ang iba't ibang mga pamamaraan at algorithm ng Data Mining. Dahil sa katotohanan na ang Data Mining ay umunlad at umuunlad sa intersection ng mga disiplinang tulad ng statistics, information theory, machine learning, at database theory, natural lang na karamihan sa Data Mining algorithm at pamamaraan ay binuo batay sa iba't ibang pamamaraan mula sa mga ito. mga disiplina.

Mula sa iba't ibang mga umiiral na pamamaraan ng data mining, ang mga sumusunod ay maaaring makilala:

    regression, variance at correlation analysis(ipinatupad sa karamihan sa modernong mga pakete ng istatistika, sa partikular, sa mga produkto ng SAS Institute, StatSoft, atbp.);

    pamamaraan ng pagsusuri sa isang partikular na lugar ng paksa, batay sa mga empirical na modelo (kadalasang ginagamit, halimbawa, sa mga murang tool sa pagsusuri sa pananalapi);

    mga algorithm ng neural network– isang paraan ng pagtulad sa mga proseso at phenomena na nagbibigay-daan sa isa na magparami ng mga kumplikadong dependencies. Ang pamamaraan ay batay sa paggamit ng isang pinasimple na modelo ng biological na utak at binubuo sa katotohanan na ang mga paunang parameter ay isinasaalang-alang bilang mga signal na binago alinsunod sa mga umiiral na koneksyon sa pagitan ng "neuron", at ang tugon na resulta ng ang pagsusuri ay ang tugon ng buong network sa paunang data. Sa kasong ito, ang mga koneksyon ay nilikha gamit ang tinatawag na pagsasanay sa network sa pamamagitan ng isang malaking sukat ng sample na naglalaman ng parehong paunang data at mga tamang sagot. Ang mga neural network ay malawakang ginagamit upang malutas ang mga problema sa pag-uuri;

    malabo na lohika ginagamit upang iproseso ang data na may malabo na mga halaga ng katotohanan na maaaring katawanin ng iba't ibang mga variable ng linggwistika. Ang malabong representasyon ng kaalaman ay malawakang ginagamit upang malutas ang mga problema sa pag-uuri at pagtataya, halimbawa, sa XpertRule Miner system (Attar Software Ltd., UK), gayundin sa AIS, NeuFuz, atbp.;

    induktibong hinuha nagbibigay-daan sa iyo na makakuha ng mga generalization ng mga katotohanan na nakaimbak sa database. Ang proseso ng inductive learning ay maaaring magsama ng isang espesyalista na nagbibigay ng mga hypotheses. Ang pamamaraang ito ay tinatawag na supervised learning. Ang paghahanap para sa mga panuntunan sa paglalahat ay maaaring isagawa nang walang guro sa pamamagitan ng awtomatikong pagbuo ng mga hypotheses. Ang mga modernong tool ng software, bilang panuntunan, ay pinagsama ang parehong mga pamamaraan, at ang mga istatistikal na pamamaraan ay ginagamit upang subukan ang mga hypotheses. Ang isang halimbawa ng isang system na gumagamit ng mga inductive lead ay ang XpertRule Miner, na binuo ng Attar Software Ltd. (United Kingdom);

    pangangatwiran batay sa katulad na mga kaso(“pinakamalapit na kapitbahay” na pamamaraan) (Case-based na pangangatwiran – CBR) ay batay sa paghahanap sa database ng mga sitwasyon na ang mga paglalarawan ay katulad sa ilang paraan sa isang partikular na sitwasyon. Ang prinsipyo ng pagkakatulad ay nagpapahintulot sa amin na ipalagay na ang mga resulta ng mga katulad na sitwasyon ay magiging malapit din sa isa't isa. Ang kawalan ng diskarteng ito ay hindi ito lumilikha ng anumang mga modelo o panuntunan na nagsa-generalize ng nakaraang karanasan. Bilang karagdagan, ang pagiging maaasahan ng mga hinuha na resulta ay nakasalalay sa pagkakumpleto ng paglalarawan ng mga sitwasyon, tulad ng sa mga proseso ng inductive inference. Ang mga halimbawa ng mga system na gumagamit ng CBR ay: KATE Tools (Acknosoft, France), Pattern Recognition Workbench (Unica, USA);

    mga puno ng desisyon– isang paraan ng pagbubuo ng isang problema sa anyo ng isang tree graph, ang mga vertice nito ay tumutugma sa mga panuntunan sa produksyon na nagbibigay-daan sa iyo upang pag-uri-uriin ang data o pag-aralan ang mga kahihinatnan ng mga desisyon. Ang pamamaraang ito ay nagbibigay ng visual na representasyon ng sistema ng mga panuntunan sa pag-uuri, kung hindi masyadong marami sa kanila. Ang mga simpleng problema ay maaaring malutas gamit ang pamamaraang ito nang mas mabilis kaysa sa paggamit ng mga neural network. Para sa mga kumplikadong problema at para sa ilang uri ng data, maaaring hindi angkop ang mga decision tree. Bilang karagdagan, ang pamamaraang ito ay nailalarawan sa pamamagitan ng problema ng kahalagahan. Ang isa sa mga kahihinatnan ng hierarchical data clustering ay ang kakulangan ng isang malaking bilang ng mga halimbawa ng pagsasanay para sa maraming mga espesyal na kaso, at samakatuwid ang pag-uuri ay hindi maituturing na maaasahan. Ang mga pamamaraan ng decision tree ay ipinapatupad sa maraming software tool, katulad ng: C5.0 (RuleQuest, Australia), Clementine (Integral Solutions, UK), SIPINA (University of Lyon, France), IDIS (Information Discovery, USA);

    evolutionary programming– paghahanap at pagbuo ng isang algorithm na nagpapahayag ng interdependence ng data, batay sa isang unang tinukoy na algorithm, na binago sa panahon ng proseso ng paghahanap; kung minsan ang paghahanap para sa mga interdependencies ay isinasagawa sa ilang mga uri ng mga function (halimbawa, polynomials);

limitadong mga algorithm sa paghahanap, pag-compute ng mga kumbinasyon ng mga simpleng lohikal na kaganapan sa mga subgroup ng data.

3.7 IntegrasyonOLAPAtDataPagmimina

Ang online analytical processing (OLAP) at data mining (Data Mining) ay dalawang bahagi ng proseso ng suporta sa desisyon. Gayunpaman, ngayon, ang karamihan sa mga system ng OLAP ay nakatuon lamang sa pagbibigay ng access sa multidimensional na data, at karamihan sa mga tool sa pagmimina ng pattern ay nakikitungo sa isang-dimensional na pananaw ng data. Upang mapataas ang kahusayan ng pagpoproseso ng data para sa mga sistema ng suporta sa desisyon, ang dalawang uri ng pagsusuri na ito ay dapat pagsamahin.

Sa kasalukuyan, lumalabas ang tambalang terminong “OLAP Data Mining” (multidimensional mining) na tumutukoy sa naturang kumbinasyon.

Mayroong tatlong pangunahing paraan upang mabuo ang "OLAP Data Mining":

    "Cubing pagkatapos ay pagmimina". Ang kakayahang magsagawa ng matalinong pagsusuri ay dapat ibigay sa anumang resulta ng isang query sa isang multidimensional na konseptong representasyon, iyon ay, sa anumang fragment ng anumang projection ng hypercube ng mga indicator.

    "Pagmimina tapos cubing". Tulad ng data na nakuha mula sa isang warehouse, ang mga resulta ng pagmimina ay dapat ipakita sa hypercube form para sa kasunod na multidimensional na pagsusuri.

    "Cubing habang nagmimina". Ang nababaluktot na paraan ng pagsasama-sama ay nagbibigay-daan sa iyo upang awtomatikong i-activate ang parehong uri ng mga mekanismo sa pagproseso ng intelektwal sa resulta ng bawat hakbang ng multidimensional na pagsusuri (transition) sa pagitan ng mga antas ng generalization, pagkuha ng isang bagong fragment ng isang hypercube, atbp.).

    ika-11 baitang [Text... sila Paano Bahagi lahat mga sistema ... associate professor ... Cheboksary, 2009. Blg. 10. P. 44 -49... . Mga may-akda- mga compiler: N... mga talamga lecture, ...

  • Manual na pang-edukasyon at pamamaraan

    ... mga lecture. Paghahanda mga lecture sa matematika. Pagsusulat mga talamga lecture mga lecture. Paggamit impormasyonmga teknolohiya ...

  • At si Kondaurova kasama si Lebedev, mga aktibidad sa pananaliksik ng hinaharap na guro ng matematika, mga malikhaing gawain sa elementarya na matematika at mga pamamaraan ng pagtuturo nito

    Manual na pang-edukasyon at pamamaraan

    ... mga lecture. Paghahanda mga lecture sa matematika. Pagsusulat mga talamga lecture. Paghahanda ng mga visual aid. Teknik sa pagbasa mga lecture. Paggamit impormasyonmga teknolohiya ...

  • M MEDIA MONITORING Modernization ng vocational education Marso - Agosto 2011

    Buod

    ... 11 .08.2011 "Dead Souls-2" SA RNIMU sila ... 3,11 -3,44 . ... pampubliko mga lecture mga pinuno... Cheboksary... at sumulat mga tala madla - ... impormasyonmga sistema At mga teknolohiya. ... sistema edukasyon, sabi associate professor ... mga compiler ... mga bahagi pagtaas sa tunay nilalaman ...

Ang OLAP (Online Analytical Processing) ay isang proseso ng impormasyon na nagpapahintulot sa user na mag-query sa system, magsagawa ng pagsusuri, atbp. sa operational mode (online). Ang mga resulta ay nabuo sa loob ng ilang segundo.

Ang mga OLAP system ay ginawa para sa mga end user, habang ang OLTP system ay ginawa para sa mga propesyonal na IS user. Kasama sa OLAP ang mga aktibidad tulad ng pagbuo ng mga query, pag-query ng mga ad hoc na ulat, pagsasagawa ng statistical analysis, at pagbuo ng mga multimedia application.

Ang pagbibigay ng OLAP ay nangangailangan ng pagtatrabaho sa isang data warehouse (o multidimensional warehouse) pati na rin sa isang set ng mga tool, kadalasang may mga multidimensional na kakayahan. Ang mga tool na ito ay maaaring mga query tool, spreadsheet, data mining tool, data visualization tool, atbp.

Ang konsepto ng OLAP ay batay sa prinsipyo ng multidimensional na representasyon ng data. Sinuri ni E. Codd ang mga pagkukulang ng relational na modelo, una sa lahat na itinuturo ang kawalan ng kakayahang pagsamahin, tingnan at pag-aralan ang data mula sa punto ng view ng maraming dimensyon, iyon ay, sa pinaka-naiintindihan na paraan para sa mga corporate analyst, at natukoy ang mga pangkalahatang kinakailangan para sa mga OLAP system na nagpapalawak ng functionality ng mga relational na DBMS at kasama ang multidimensional analysis bilang isa sa mga katangian nito.

12 panuntunan na dapat matugunan ng isang produkto ng software ng klase ng OLAP. Ang mga patakarang ito:

1. Multidimensional na konseptong representasyon ng data.

2. Transparency.

3. Availability.

4. Panay ang pagganap.

5. Kliyente - arkitektura ng server.

6. Pagkakapantay-pantay ng mga sukat.

7. Dynamic na pagproseso ng mga kalat-kalat na matrice.

8. Suporta para sa multi-user mode.

9. Walang limitasyong suporta para sa mga cross-dimensional na operasyon.

10. Intuitive na pagmamanipula ng data.

11. Flexible na mekanismo ng pagbuo ng ulat.

12. Walang limitasyong bilang ng mga sukat at antas ng pagsasama-sama.

Ang hanay ng mga kinakailangang ito, na nagsilbing aktwal na kahulugan ng OLAP, ay dapat isaalang-alang bilang isang gabay, at ang mga partikular na produkto ay dapat masuri ayon sa antas ng pagiging malapit sa perpektong ganap na pagsunod sa lahat ng mga kinakailangan.


Pagmimina ng Data at Pagmimina ng Kaalaman. Pamamahala at pagsusuri ng malalaking volume ng data (Big data). Business intelligence system (BI).

Ang data mining (IDA) ay isang pangkalahatang termino para sa pagsusuri ng data na may aktibong paggamit ng mga pamamaraan at algorithm ng matematika (mga pamamaraan ng pag-optimize, genetic algorithm, pagkilala ng pattern, mga pamamaraan ng istatistika, Data Mining, atbp.), gamit ang mga resulta ng paglalapat ng mga pamamaraan para sa visual na presentasyon ng data.



Sa pangkalahatan, ang proseso ng IAD ay binubuo ng tatlong yugto:

1) pagtukoy ng mga pattern (libreng paghahanap);

2) gamit ang mga natukoy na pattern upang mahulaan ang hindi kilalang mga halaga (pagtataya);

3) pagsusuri ng mga eksepsiyon upang matukoy at mabigyang-kahulugan ang mga anomalya sa mga nahanap na pattern.

Minsan mayroong isang intermediate na yugto ng pagsuri sa pagiging maaasahan ng mga nahanap na pattern (stage ng pagpapatunay) sa pagitan ng kanilang pagtuklas at paggamit.

Ang lahat ng mga pamamaraan ng IDA, batay sa prinsipyo ng pagtatrabaho sa source data, ay nahahati sa dalawang grupo:

Mga diskarte sa pangangatwiran na nakabatay sa kaso – maaaring maimbak ang raw data sa tahasang butil-butil na anyo at direktang gamitin para sa paghuhula at/o pagsusuri sa pagbubukod. Ang kawalan ng grupong ito ng mga pamamaraan ay ang kahirapan ng paggamit ng mga ito sa malaking halaga ng data.

Mga pamamaraan para sa pagtukoy at paggamit ng mga pormal na pattern na nangangailangan ng pagkuha ng impormasyon mula sa pangunahing data at pag-convert nito sa ilang mga pormal na istruktura, ang uri nito ay nakasalalay sa partikular na pamamaraan.

Ang Data Mining (DM) ay isang teknolohiya para sa pag-detect sa "raw" na data na dati nang hindi kilala, hindi mahalaga, praktikal na kapaki-pakinabang at naa-access na interpretasyon ng kaalaman na kinakailangan para sa paggawa ng desisyon sa iba't ibang larangan ng aktibidad ng tao. Ang mga algorithm na ginamit sa Data Mining ay nangangailangan ng isang malaking bilang ng mga kalkulasyon, na dati ay isang salik na naglilimita para sa malawakang praktikal na paggamit ng mga pamamaraang ito, ngunit ang tumaas na pagganap ng mga modernong processor ay nagpapagaan sa problemang ito.

Ang Business Intelligence market ay binubuo ng 5 sektor:

1. Mga produkto ng OLAP;

2. Mga tool sa pagmimina ng data;

3. Mga tool para sa pagbuo ng Data Warehousing at Data Showcase;

4. Mga sistema at aplikasyon ng impormasyon sa pamamahala;

5. Mga tool ng end user para sa pagtatanong at pag-uulat.

Sa kasalukuyan, kabilang sa mga pinuno ng mga corporate BI platform maaari naming i-highlight ang MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute at iba pa (Ang Appendix B ay nagbibigay ng comparative analysis ng ilan sa mga functionality ng BI system).