Menganjurkan data mart sebagai teknik reka bentuk. Etalase yang logik untuk mengakses data besar. Apa yang akan kita lakukan dengan bahan yang diterima?

Data Mart ) ialah subsistem yang sangat khusus bagi Gudang Data, elemennya yang berasingan.

Sekiranya kawasan tertentu aktiviti syarikat secara praktikal tidak berkaitan dengan yang lain, maka adalah mungkin untuk membina pasar data bebas yang beroperasi secara autonomi, tanpa terikat dengan storan korporat berpusat. Atau mula mengautomasikan syarikat bukan dengan mencipta gudang data korporat, tetapi dengan data mart bebas untuk bidang subjek, yang paling mendapat permintaan dalam syarikat.

Dalam kes ini, data mart difahami sebagai gudang data yang sangat khusus yang menyediakan salah satu bidang aktiviti syarikat.

Data mart, mengikut definisi, jauh lebih murah dan lebih mudah untuk dibina daripada gudang data; pelaksanaannya tidak memerlukan banyak masa dan membawa kesan yang cepat dan ketara. Pada masa yang sama, adalah perlu untuk memahami bahawa dengan pendekatan ini, data mart bebas tidak akan mewujudkan sistem maklumat syarikat bersatu; tidak akan ada sistem bersatu pengekstrakan maklumat, penyatuan, pengurusan dan penyelenggaraan.

Jika syarikat itu kecil, ia boleh pergi untuk penciptaan data mart autonomi dengan selamat. Jika syarikat itu besar, maka penciptaan data mart autonomi harus diselaraskan daripada pusat tunggal untuk akhirnya mencapai penciptaan gudang data syarikat bersatu.

Mencipta data mart

Mencipta data mart bermakna mencipta pangkalan data yang sepadan dan sistem untuk memuatkannya. Jika mencipta pangkalan data adalah isu teknikal semata-mata, mencipta sistem pemuatan adalah kesukaran utama. Sistem ini mengandungi tiga peringkat:

1. Pengekstrakan data memerlukan pengetahuan yang tepat tentang struktur sistem sumber. Struktur dan hubungan jadual, struktur maklumat dalam sistem sumber. Anda perlu mengetahui dengan jelas daripada jadual dan medan yang anda perlukan untuk mengekstrak data dan apakah struktur data ini.

2. Sistem sumber pada mulanya tidak direka bentuk untuk berfungsi dengan data mart dan data yang diekstrak daripadanya tidak bertujuan untuk kegunaan langsung dan mesti menjalani beberapa transformasi. Proses transformasi ini bergantung pada kedua-dua struktur sistem sumber dan pada keperluan untuk data mart itu sendiri; ia boleh merangkumi banyak fungsi:

  • Mencipta Data Agregat
  • Menukar format data.
  • Memeriksa kebolehpercayaan dan integriti data.
  • Mengalih keluar data berlebihan
  • Dan lain-lain.

Semua transformasi ini dijalankan hanya pada peringkat kemasukan data ke etalase, yang memastikan kelajuan tinggi mengekstrak data daripada pasar dan menyampaikan data tersebut dengan terbaik daripada perspektif pengguna. Akhirnya, ini membawa kepada penyediaan maklumat yang lebih baik untuk pengguna dan membantunya membuat keputusan yang betul dengan cepat. keputusan pengurusan.

3. Data dalam etalase mesti sepadan dengan data dalam sistem sumber, yang secara semula jadi berubah dari semasa ke semasa. Oleh itu, alatan yang melakukan transformasi dan memuatkan data ke dalam etalase mesti dilancarkan secara berkala apabila perubahan tertentu data daripada sistem sumber dan/atau secara automatik mengikut jadual tertentu.

Kesimpulan yang agak penting berikutan dari perkara di atas. Anda tidak boleh membeli data mart siap sedia untuk syarikat anda. Pameran data ialah produk tersuai eksklusif yang mesti dibuat terus untuk syarikat tertentu, untuk semua spesifikasinya.

Mengurangkan kos mereka bentuk dan membangunkan gudang data boleh dicapai dengan mencipta data mart (DW). VD ialah versi ringkas bagi gudang data, hanya mengandungi data gabungan secara tematik (Rajah 3).

Rajah 3. Struktur DSS dengan ID bebas

VD mengandungi data yang disasarkan kepada pengguna tertentu, volumnya jauh lebih kecil dan pelaksanaannya memerlukan kos yang lebih rendah. VD boleh dibina sama ada secara bebas atau bersama-sama dengan HD. VD dilaksanakan dengan lebih pantas dan kesan penggunaannya dapat dilihat dengan lebih cepat. Kelemahan storan data ialah penyimpanan berulang data yang sama dalam fail data yang berbeza dan kekurangan penyatuan pada peringkat domain.

Biasanya, maklumat memasuki VD dari gudang data; dalam kes ini, VD dipanggil bergantung. Mungkin juga sumber maklumat untuk menambah VD adalah terus daripada sistem OLTP. ED sedemikian, dipanggil yang bebas, biasanya dianggap sebagai penyelesaian sementara yang memungkinkan untuk menyelesaikan masalah yang paling sukar dengan cepat dan pada kos yang rendah. tugas penting, menilai kelebihan pendekatan baharu dan merumuskan beberapa cadangan untuk projek yang lebih besar untuk membangunkan gudang data am.

Ia juga mungkin untuk menggabungkan HD dan VD dalam satu DSS. Gudang data dalam kes ini ialah satu sumber data untuk keseluruhan kawasan subjek, dan domain data ialah subset data daripada repositori, yang disusun untuk membentangkan maklumat mengenai bahagian tematik kawasan tertentu. Sekiranya pengguna yang VD dicipta tidak mempunyai data yang mencukupi, dia boleh beralih kepada DW (Rajah 4).

Rajah 4. Struktur DSS dengan HD dan VD

Kelebihan penyelesaian ini ialah kemudahan mencipta dan mengisi gudang data, kerana pengisian datang daripada sumber data yang dibersihkan piawai - daripada gudang data, kemudahan pengembangan dengan menambah fail data baharu, dan juga mengurangkan beban pada gudang data utama.

Kelemahannya ialah redundansi, kerana data disimpan dalam kedua-dua gudang data dan gudang data, serta kos tambahan untuk membangunkan DSS dengan gudang data dan gudang data.

    1. konsep olap dan model data

      1. Konsep olap

OLAP (Pemprosesan Analitik Dalam Talian) ialah teknologi untuk pemprosesan data analisis dalam talian yang menggunakan kaedah dan alatan untuk mengumpul, menyimpan dan menganalisis data berbilang dimensi untuk menyokong proses membuat keputusan.

Tujuan utama sistem OLAP adalah untuk menyokong aktiviti analisis dan permintaan sewenang-wenang daripada pengguna - penganalisis. Tujuan analisis OLAP adalah untuk menguji hipotesis yang muncul.

      1. Kategori data dalam storan data

Semua data dalam gudang data dibahagikan kepada tiga kategori (Rajah 5):

Rajah 5. Seni bina storan data

    data terperinci – data dipindahkan terus daripada subsistem OLTP. Sepadan dengan peristiwa asas yang direkodkan dalam sistem OLTP. Dibahagikan kepada:

    dimensi – set data yang diperlukan untuk menerangkan peristiwa (produk, penjual, pembeli, kedai, ...);

    fakta – data yang mencerminkan intipati peristiwa (kuantiti barang yang dijual, jumlah jualan, ...);

data agregat (umum) - data yang diperoleh berdasarkan data terperinci dengan merumuskan dimensi tertentu;

metadata – data tentang data yang terkandung dalam gudang data. Boleh menerangkan:

  • objek kawasan subjek, maklumat tentang yang terkandung dalam gudang data;

    tempat dan kaedah penyimpanan data;

    tindakan yang dilakukan pada data;

    masa memimpin pelbagai tindakan atas data;

    sebab untuk melakukan pelbagai tindakan pada data.

Untuk perwakilan yang mencukupi bagi kawasan subjek, kemudahan pembangunan dan penyelenggaraan pangkalan data, perhubungan mesti dikurangkan kepada bentuk normal ketiga, iaitu, mereka mesti dinormalisasikan dengan tinggi. Walau bagaimanapun, perhubungan yang dinormalisasi dengan lemah juga mempunyai kelebihannya, yang utama adalah jika pangkalan data diakses terutamanya hanya dengan pertanyaan, dan pengubahsuaian dan penambahan data jarang dilakukan, maka pensampelan mereka adalah lebih cepat. Ini dijelaskan oleh fakta bahawa dalam hubungan normal yang lemah sambungan mereka telah dibuat dan masa pemproses tidak terbuang untuk ini.

Terdapat dua kelas teknologi asas maklumat yang mana hubungan normal yang kuat dan lemah adalah lebih sesuai:

· OLTP (Dalam talian Pemprosesan Transaksi) - pemprosesan transaksi dalam talian, menggunakan kaedah mengatur DBMS di mana sistem berfungsi dengan urus niaga yang bersaiz kecil tetapi mengalir dalam kuantiti yang banyak, dan pada masa yang sama pelanggan memerlukan masa tindak balas terpantas mungkin daripada sistem;

· OLAP (Pemprosesan Analitikal Dalam Talian) - pemprosesan analitikal maklumat dalam masa nyata, termasuk penyusunan dan penerbitan dinamik laporan dan dokumen serta melaksanakan prinsip pembinaan sistem sokongan keputusan – Sistem Sokongan Keputusan (DSS) Dan sistem perlombongan data – Perlombongan Data .

Apabila melaksanakan teknologi OLAP dan OLTP digunakan bentuk baru organisasi intramachine pangkalan maklumat, mewakili satu set komponen yang saling berkaitan: Pangkalan Operasi Gudang Data (DW) dan Pameran Data (Gamb. 5.6).

nasi. 5.6 - Organisasi pangkalan maklumat IS dalaman

Sistem pangkalan data pengendalian OLTP (Pemprosesan Transaksi Dalam Talian) - pemprosesan transaksi dalam talian, merupakan sumber utama maklumat. Mereka dilengkapkan data luaran , biasanya dibentangkan dalam format teks.

Gudang Data mengikut definisi orang yang mencadangkannya Bill Inmon - pengumpulan data yang khusus subjek, terikat masa dan tidak berubah untuk menyokong proses membuat keputusan pengurusan.

Hartanah storan data:

· orientasi subjek – data mewakili subjek, bukan proses;

· integrasi;

· kronologi yang ketat dan seragam – rujukan masa wajib bagi data;

· tidak berubah – data tidak berubah, tetapi diisi semula oleh OBD dan data luaran.

Struktur data dalam stor data:

· data meta (data tentang data) – maklumat tentang sumber dan operasi yang dilakukan pada data asal;

· data asal (terperinci) – biasanya data dinyahnormalkan dengan redundansi, yang membolehkan meningkatkan kelajuan akses kepada data yang diperlukan, walaupun ia memerlukan kapasiti storan yang lebih besar;



· Data agregat.

mempertimbangkan organisasi tipikal storan maya , mari kita bezakan dua peringkat - logik dan fizikal.

Tahap logik ditentukan oleh pilihan model data dan bahasa pertanyaan untuk model ini. Model yang dipilih digunakan untuk mewakili data yang diekstrak daripada semua sumber. Oleh itu, pengguna sistem integrasi mendapat peluang untuk mempunyai akses bersatu kepada semua data bersepadu.

seni bina ini berdasarkan biasa konsep mediator. Mari kita lihat dua jenis komponen dalam seni bina ini. Pembalut digunakan untuk menyimpan maklumat tentang sumber luaran dan mengatur akses kepadanya. Apabila menerima permintaan, pembungkus menghubungi sumber melalui antara muka yang disediakannya. Data yang diterima daripada sumber ditukar kepada format data dalaman gudang (iaitu, ke dalam model data gudang). Adalah jelas bahawa setiap sumber memerlukan pembungkusnya sendiri. Pengantara mengintegrasikan data daripada pelbagai sumber (daripada pelbagai pembalut). Pengantara boleh berinteraksi dengan kedua-dua pembalut dan pengantara lain. Oleh itu, adalah mungkin untuk membina rangkaian kompleks perantara yang berinteraksi antara satu sama lain, yang akan membolehkan data digeneralisasikan. cara yang berbeza untuk memenuhi keperluan pelbagai aplikasi yang berinteraksi dengan storan maya.

Istimewa bahasa deklaratif , yang menerangkan pembalut dan perantara pada tahap fizikal mengatur storan maya.

Pameran (kiosk data)- gudang data kecil yang meliputi beberapa bidang subjek dan mempunyai sejarah yang lebih pendek. Sumber data untuk etalase ialah data gudang, yang biasanya diagregatkan dan disatukan merentas tahap hierarki yang berbeza. Oleh itu, data mart boleh dianggap sebagai subset yang dipisahkan secara logik dan fizikal bagi gudang data.

Seni bina pangkalan maklumat IS mempunyai enam peringkat (Rajah 5.7) (walaupun komponen itu sendiri mungkin hilang, tahap itu dikekalkan dalam satu bentuk atau yang lain):

nasi. 5.7 – Enam lapisan seni bina gudang data

Tahap pertama dibentangkan sumber data , yang merupakan sistem transaksi dan warisan, arkib, fail berselerak dengan format yang diketahui, dokumen MS Office, serta sebarang sumber data berstruktur yang lain.

Di tingkat kedua ada sistem untuk mengekstrak, mengubah dan memuatkan data (ETL - Ekstrak, Transformasi dan Beban). Tugas utama ETL adalah untuk mengekstrak data daripada sistem yang berbeza, bawanya ke dalam bentuk yang konsisten dan muat naik ke repositori.

Peranan peringkat seterusnya– boleh dipercayai, dilindungi daripada akses yang tidak dibenarkan, simpanan data . Selaras dengan strategi triple yang dicadangkan, sistem untuk mengekalkan metadata dan maklumat rujukan peraturan (RNI) . Stor Data Operasi adalah perlu apabila akses terpantas mungkin kepada data yang tidak lengkap, tidak konsisten sepenuhnya diperlukan, tersedia dengan paling sedikit kemungkinan kelewatan. Kawasan pementasan diperlukan untuk melaksanakan proses perniagaan tertentu, contohnya, apabila sebelum memuatkan data, pengawal data mesti menyemaknya dan memberi kebenaran untuk memuatkannya ke dalam storan.

Sistem peringkat pengagihan data melaksanakan tugas yang berbeza dengan ketara daripada tugas ETL, iaitu, pensampelan, penstrukturan semula dan penghantaran data (SRD – Sample, Restructure, Deliver). ETL mengekstrak data daripada set sistem luaran. SRD mendapatkan semula dari satu stor data. ETL menerima data tidak konsisten yang perlu ditukar kepada format bersatu. SRD berurusan dengan data yang dibersihkan yang strukturnya mesti dibawa ke dalam pematuhan pelbagai aplikasi. ETL memuatkan data ke dalam gudang pusat. SRD mesti menghantar data ke pelbagai data mart mengikut hak akses, jadual penghantaran dan keperluan kandungan.

Tahap menyediakan data direka untuk memisahkan fungsi storan dan fungsi perkhidmatan untuk pelbagai tugas. Data mart harus mempunyai struktur data yang paling memenuhi keperluan tugasan yang disampaikan. Memandangkan tiada struktur data universal yang optimum untuk sebarang tugas, data mart harus dikumpulkan mengikut ciri wilayah, tematik, organisasi, gunaan, fungsian dan lain-lain.

Tahap aplikasi perniagaan dibentangkan oleh pengiraan senario dan Analisis statistik, analisis pelbagai dimensi, alat perancangan dan pelaporan. Sememangnya, senarai aplikasi perniagaan tidak berakhir di sana.

Kedua-dua data mentah dan agregat boleh disimpan dalam pangkalan data sama ada hubungan atau multidimensi. Oleh itu, mereka kini digunakan tiga cara untuk menyimpan data :

· MOLAP (OLAP berbilang dimensi) atau OLAP dengan banyak dimensi - sumber dan data agregat disimpan dalam pangkalan data berbilang dimensi;

· ROLAP (OLAP Hubungan) atau OLAP hubungan - data sumber terletak dalam pangkalan data hubungannya sendiri, data agregat diletakkan dalam jadual perkhidmatan yang dicipta khas dalam pangkalan data yang sama;

HOLAP (OLAP Hibrida) atau OLAP hibrid - data sumber terletak dalam pangkalan data hubungannya sendiri, data agregat disimpan dalam pangkalan data berbilang dimensi.

Satu lagi cara untuk memastikan bersatu ruang maklumat ialah penggunaan gudang data.

Satu ciri sistem maklumat bank adalah keperluan untuk memproses dua jenis data, iaitu operasi dan analisis. Oleh itu, dalam proses fungsi IBS, dua kelas masalah perlu diselesaikan: memastikan kerja harian bank memasukkan dan memproses maklumat dan mengatur gudang maklumat untuk tujuan menganalisis data untuk mengenal pasti trend pembangunan, keadaan ramalan, menilai dan menguruskan risiko, dsb. Masalah kelas pertama diselesaikan sepenuhnya oleh sistem OLTP (OnLine Transactional Processing - pemprosesan operasi urus niaga). Untuk bekerja dengan data analisis, sistem OLAP (OnLine Analytical Processing) direka bentuk, yang dibina menggunakan teknologi gudang data dan berfungsi untuk analisis agregat jumlah yang besar data. Sistem ini adalah sebahagian sistem membuat keputusan atau sistem pengurusan kelas pengurusan pertengahan dan atasan, i.e. sistem yang direka untuk purata dan tingkat atas pengurusan bank.

Oleh itu, keupayaan IHD boleh diperluaskan dengan perkongsian sistem OLTP transaksional dan gudang data (Data Warehouse).

Ciri tersendiri bagi gudang data ialah:

  • · orientasi bidang subjek - Hanya maklumat yang boleh berguna untuk kerja diletakkan dalam gudang data sistem analisis;
  • · keselamatan- maklumat boleh ditambah ke repositori, tetapi ia tidak boleh diubah, diubah suai atau diselaraskan;
  • · sokongan data sejarah - analisis memerlukan maklumat terkumpul dalam jangka masa yang panjang;
  • · integrasi ke dalam repositori tunggal data terputus sebelum ini, yang datang dari pelbagai sumber, serta pengesahan, penyelarasan dan pengurangannya kepada format bersatu;
  • · pengagregatan- penyimpanan serentak data agregat dan primer dalam pangkalan data, supaya permintaan untuk menentukan jumlah nilai diselesaikan dengan cukup cepat.

Oleh itu, gudang data ialah pangkalan data khusus di mana maklumat dikumpul dan disimpan. perlu bagi pengurus bank untuk menyediakan keputusan pengurusan (mengenai pelanggan bank, hal kredit, kadar faedah, kadar pertukaran, sebut harga saham, keadaan portfolio pelaburan, hari operasi cawangan, dll.).

Gudang data biasanya digambarkan sebagai kubus pelbagai dimensi. Nilai yang disimpan dalam sel kubus ini dan dipanggil fakta adalah penunjuk kuantitatif yang mencirikan aktiviti institusi kredit. Khususnya, ini mungkin data mengenai perolehan dan baki akaun, struktur perbelanjaan dan pendapatan, status dan pergerakan Wang dan lain-lain. Dimensi kubus yang membentuk salah satu mukanya ialah satu set data daripada jenis yang sama direka untuk menerangkan fakta (contohnya, cawangan bank, hari dagangan, pelanggan dan mata wang). Pengagregatan data dilakukan sepanjang dimensi kubus, jadi elemen dimensi biasanya digabungkan ke dalam struktur hierarki. Oleh itu, cawangan selalunya dikumpulkan mengikut asas wilayah, pelanggan - mengikut industri, tarikh dikumpulkan ke dalam minggu, bulan, suku tahun dan tahun. Setiap sel kubus yang diberi"bertanggungjawab" untuk set nilai tertentu mengikut dimensi individunya, sebagai contoh, pusing ganti akaun kunci kira-kira setiap hari, suku tahun, tahun mengikut cawangan. Fakta berangka yang disimpan dalam sel boleh digunakan untuk melaksanakan pelbagai matematik dan operasi logik, membolehkan anda melihat maklumat yang dibentangkan dari sudut yang berbeza. Operasi dijalankan menggunakan teknik pengurusan data. Keseluruhan koleksi kaedah dipanggil repositori kaedah gudang data.

Data dimuatkan ke dalam storan daripada sistem operasi pemprosesan data (sistem OLTP ibu pejabat dan cawangan individu) dan daripada sumber luar (laporan rasmi perusahaan dan bank, hasil perdagangan pertukaran, dll.). Apabila memuatkan data ke dalam repositori, integriti, kebolehbandingan dan kesempurnaan data yang dimuatkan diperiksa, dan penukaran dan transformasi yang diperlukannya dijalankan.

Gudang data ditujukan kepada pengurusan kanan dan pertengahan bank, yang bertanggungjawab untuk membuat keputusan dan pembangunan perniagaan. Ini ialah ketua jabatan struktur, kewangan dan pelanggan, serta jabatan pemasaran, analisis dan perancangan.

Untuk bekerja dengan gudang data, istimewa produk perisian, kerana pelayan SQL tidak menyediakan kelajuan yang diperlukan untuk mengakses data. Bahasa pertanyaan semasa bekerja dengan gudang data juga berbeza daripada SQL.

Salah satu pilihan untuk melaksanakan gudang data secara praktikal ialah pembinaan data mart (Data Mart). Mereka kadangkala juga dipanggil data mart. Data mart ialah koleksi data berorientasikan subjek yang mempunyai organisasi tertentu. Kandungan data mart, sebagai peraturan, bertujuan untuk menyelesaikan pelbagai masalah homogen tertentu dalam satu kawasan atau beberapa bidang subjek yang berkaitan. Sebagai contoh, untuk menyelesaikan masalah yang berkaitan dengan analisis perkhidmatan kredit bank, satu pameran digunakan, dan untuk kerja menganalisis aktiviti bank di pasaran saham - yang lain.

Oleh itu, data mart ialah gudang data khusus yang agak kecil yang mengandungi hanya data khusus topik dan bertujuan untuk digunakan oleh unit berfungsi tertentu. Jadi, data mart berorientasikan fungsi ialah struktur data yang menyediakan penyelesaian tugasan analitikal dalam bidang fungsi tertentu atau bahagian syarikat (pengurusan keuntungan, analisis pasaran, analisis sumber, analisis aliran tunai, pengurusan aset dan liabiliti, dsb.). Oleh itu, data mart boleh dianggap sebagai repositori kecil yang dicipta untuk tujuan sokongan maklumat tugas analisis bahagian pengurusan tertentu syarikat.

Penciptaan data mart ditentukan oleh keperluan untuk menyediakan keupayaan untuk menganalisis data dari kawasan subjek tertentu menggunakan cara yang paling optimum.

Data mart dan data warehouse agak berbeza antara satu sama lain. Gudang data dicipta untuk menyelesaikan masalah perusahaan yang terdapat dalam model data perusahaan. Biasanya, gudang data dicipta dan diperoleh oleh organisasi dikawal berpusat, seperti organisasi klasik teknologi maklumat, contohnya bank. Gudang data disusun oleh seluruh perbadanan. data gudang maklumat transaksional

Data mart dibangunkan untuk memenuhi keperluan untuk menyelesaikan pelbagai masalah homogen tertentu. Oleh itu, satu bank boleh mempunyai banyak data mart yang berbeza, setiap satunya mempunyai sendiri penampilan dan kandungannya.

Perbezaan seterusnya ialah tahap kebutiran data, memandangkan data mart mengandungi data yang telah diagregatkan. Sebaliknya, gudang data mengandungi data yang paling terperinci. Oleh kerana tahap penyepaduan dalam data mart adalah lebih tinggi daripada di gudang, butiran data mart tidak boleh diuraikan dengan mudah ke dalam butiran gudang. Tetapi anda sentiasa boleh mengikuti arah terbalik dan agregat data individu ke dalam petunjuk ringkasan.

Tidak seperti gudang, data mart hanya mengandungi sejumlah kecil maklumat sejarah, yang terikat hanya pada tempoh masa yang kecil dan penting hanya pada masa ia memenuhi keperluan untuk menyelesaikan masalah. Data mart boleh dianggap sebagai subset yang dipisahkan secara logik atau fizikal bagi gudang data.

Data mart biasanya dibuat menggunakan teknologi berlapis, yang optimum untuk fleksibiliti analisis, tetapi tidak optimum untuk volum data yang besar. Data dalam pameran sedemikian disediakan jumlah yang besar indeks.

Struktur data mart juga tertumpu pada organisasi multidimensi data dalam bentuk kubus. Walau bagaimanapun, pembinaan mereka, disebabkan oleh julat maklumat terhad yang memenuhi keperluan satu kawasan berfungsi, adalah lebih mudah dan lebih menguntungkan daripada mencipta gudang data. Struktur fizikal pangkalan data dalam data mart dicipta mengikut model "bintang", yang optimum untuk menyelesaikan kumpulan masalah yang mana mart itu dibina, kerana ia memastikan pelaksanaan pertanyaan berkelajuan tinggi dengan membahagikan data. Skema bintang melibatkan mempunyai satu jadual fakta pusat, yang mengandungi ringkasan atau data fakta, dan jadual dimensi sekeliling, yang mencerminkan maklumat deskriptif. Jadual fakta dan jadual dimensi saling berkaitan dengan mengenal pasti pautan, dan medan utama jadual fakta terdiri sepenuhnya daripada semua kunci utama jadual ukuran.

Terdapat dua jenis data mart: bergantung dan bebas. Tanggungan Data mart ialah yang sumbernya ialah gudang data. Sumber bebas data mart ialah persekitaran utama aplikasi perisian. Pasar data bergantung adalah stabil dan mempunyai seni bina yang mantap. Data mart bebas tidak stabil dan mempunyai seni bina yang tidak stabil, menurut sekurang-kurangnya, semasa menghantar data.

Perlu diingatkan bahawa data mart dibentangkan penyelesaian yang ideal Konflik paling ketara dalam reka bentuk gudang data ialah prestasi berbanding fleksibiliti. Secara umum, model gudang data yang lebih standard dan fleksibel, semakin kurang produktifnya dalam menjawab pertanyaan. Ini disebabkan oleh fakta bahawa permintaan untuk memasuki sistem yang direka bentuk standard memerlukan operasi awal yang jauh lebih banyak daripada dalam sistem yang direka bentuk secara optimum. Dengan mengarahkan semua pertanyaan pengguna ke data mart sambil mengekalkan model gudang data yang fleksibel, pembangun boleh mencapai fleksibiliti dan kestabilan jangka panjang dalam reka bentuk gudang, serta prestasi optimum untuk pertanyaan pengguna.

Data, sekali dalam storan, boleh diedarkan di antara banyak data mart untuk akses oleh pertanyaan pengguna. Data mart ini boleh terima pelbagai bentuk- daripada pangkalan data pelayan pelanggan kepada pangkalan data desktop, kiub OLAP atau pun dinamik hamparan. Pilihan alatan untuk pertanyaan pengguna boleh luas dan mencerminkan pilihan dan pengalaman pengguna tertentu. Pilihan yang luas Alat sedemikian dan kemudahan penggunaannya akan menjadikannya bahagian paling murah dalam melaksanakan projek gudang data. Jika data dalam storan mempunyai struktur yang baik dan kualiti yang terbukti, pemindahan mereka ke data mart lain akan menjadi operasi rutin dan kos rendah.

Penggunaan teknologi data mart, bergantung dan bebas, membolehkan kami menyelesaikan masalah menyatukan data daripada pelbagai sumber untuk paling banyak. penyelesaian yang berkesan tugasan analisis data. Dalam kes ini, sumbernya mungkin sistem perakaunan dan perakaunan yang berbeza dalam seni bina dan fungsi. sistem bantuan, termasuk yang tersebar secara geografi.

Apabila membangunkan gudang data, soalan berikut timbul dan mesti diselesaikan:
1) data apa yang perlu diletakkan dalam storan
2) Bagaimana untuk mencari dan mengekstrak data ini
3) Bagaimana untuk memastikan ketepatan data.

Pada asasnya, jika anda mengetahui jawapan kepada soalan-soalan ini, maka anda menentukan julat tugas yang bertujuan untuk pangkalan data yang anda reka bentuk dan, dengan itu, julat pengguna. Maka timbullah tugas pengumpulan, penyucian dan pengumpulan.

Pengumpulan data merujuk kepada proses mengatur pemindahan data daripada sumber luar dalam simpanan. Hari ini proses ini tidak menimbulkan sebarang kesulitan asas. Hampir mana-mana pengaturcara boleh memindahkan dari satu pangkalan data ke pangkalan data yang lain.

Bahagian kedua yang berkaitan dengan kutipan ialah pengisian semula berkala. Di sini anda perlu memutuskan bagaimana Pangkalan Data akan diisi semula setiap bulan, suku tahunan, dsb. Ini biasanya diselesaikan menggunakan mekanisme acara; di sini, sudah tentu, tiada siapa yang melakukan apa-apa secara manual. Satu program disusun yang, berdasarkan beberapa acara, melakukan ini secara automatik. Memasukkan data ini ke dalam gudang bukanlah proses yang paling mudah, kerana data itu perlu diatur - untuk memastikan ia tiba dengan kerap dan dalam bentuk yang diperlukan. Sebagai contoh: bandar Moscow harus ditulis sama (ada yang akan menulis dalam huruf kecil, yang lain dalam huruf besar). Masalah pengecualian pendua, maklumat sedemikian mungkin boleh dilakukan. Masalah kedua dengan ini ialah pemulihan data yang hilang. Sebagai contoh: ia adalah tipikal untuk institusi perubatan dan disebabkan oleh satu penyakit atau yang lain, doktor tidak memasukkan semua data. Terdapat ujian air kencing - bacaan diambil bukan untuk semua parameter, tetapi untuk penyakit tertentu. Kami mengambil 5 data... dan terdapat 20 penunjuk dalam jadual. Memulihkan data yang hilang adalah sangat masalah besar, kerana tidak jelas untuk membuat keputusan. Kerana apa yang hendak diletakkan di mana. Di satu pihak, ini menghalang generalisasi daripada kekurangan data, kerana data kosong perlu disimpulkan dengan beberapa data khusus dan serta-merta penunjuk untuk beberapa lajur merosot. Sebaliknya, adalah rekaan untuk menulis sesuatu yang tidak sesuai dengan realiti; untuk satu penyakit penunjuk itu penting, tetapi untuk yang lain tidak. (oh dia pergi lebih jauh). Mengalih keluar aksara yang tidak diingini, membawa kepada satu format. Oleh itu, apabila mengumpul data, sangat penting untuk dibangunkan sistem yang kompleks, yang mula membawa kepada penampilan umum. Ia tidak rumit, tetapi teliti dan kerja panjang mengambil kira semua nuansa. Contohnya: penjual di tempat berbeza Mereka boleh memanggil kaset yang sama secara berbeza.

Data mart

Konsep data mart telah dicadangkan pada tahun 1992. Kemunculan konsep data mart adalah disebabkan oleh fakta bahawa, walaupun fakta bahawa gudang data adalah perkara yang baik, pembangunan dan pelaksanaannya berlaku selama beberapa tahun. Dan ini menjejaskan kos perusahaan, yang tidak membayar sendiri untuk masa yang lama. Oleh kerana sering struktur maklumat syarikat boleh menjadi rumit dan mengelirukan - mencipta gudang data tidak boleh dilakukan dalam satu kejadian. Masalah kedua, seperti yang telah disebutkan, adalah dengan pelaburan. Ketiga, sangat kerap wujud OS OLTP juga perlu direka bentuk semula supaya mereka juga menyimpan atau mengingati data yang diperlukan untuk kiub. Perkara penting ialah teknologi sedia ada dalam membuat keputusan adalah sukar untuk diubah suai dan diubah dan oleh itu anda perlu menyesuaikan diri dengan mereka, iaitu, menyesuaikan data anda kepada teknologi sedia ada. Oleh itu, kemunculan data mart adalah percubaan untuk melembutkan keperluan untuk gudang data. Pada dasarnya, data mart merujuk kepada kemudahan storan khusus yang menyediakan salah satu bidang aktiviti. Contohnya: pemasaran, perakaunan inventori, dsb. Arah diasingkan daripada keseluruhan gudang data dan diautomatikkan. Sebagai peraturan, proses yang mudah diautomatikkan, dikaji dengan baik, dan tidak begitu kompleks diambil di tempat pertama, dan pelaksanaan data mart ini membolehkan anda mendapatkan bayaran balik dengan cepat menggunakan contoh kecil. Oleh itu, selalunya pembangunan gudang data dan data mart berjalan secara selari, iaitu, pada masa akan datang gudang data diperlukan, tetapi etalase dibangunkan yang mula menghasilkan hasil, sebaliknya, mereka membenarkan pemaju untuk menunjukkan kepada pelanggan. bahawa ada kesan. Sama seperti untuk gudang data, standardnya ialah struktur bintang dan jadual fakta.

Data mart mempunyai beberapa kelebihan yang tidak diragui:
-baik, pertama, penganalisis yang bekerja dengan data mart sentiasa bekerja dengan data yang mudah difahami dan kelihatan. Contohnya: seorang penganalisis dari bahagian jualan. Dia tidak kisah tentang bekalan, pengeluaran dan sebagainya. Perkara utama ialah dia mempunyai satu set syarikat di mana dia menjual beberapa produk. Dia tidak sakit kepala tentang bagaimana, apa, pengeluaran, dll.

“Selain itu, memandangkan data mart jauh lebih kecil daripada pangkalan data, pelaburan besar dalam kuasa pengkomputeran sudah diperlukan.

Hari ini terdapat agak banyak sistem perindustrian, yang sesuai dengan konsep data mart. Pertama sekali, syarikat sains komputer mengeluarkan produk PowerMarcSuit. Seterusnya, Stgentehnology mengeluarkan DataMapSollution. Oracale telah mengeluarkan produk DataMapSuit. Pada '94, ia dicadangkan untuk menggabungkan konsep data mart dan data warehouse dan menggunakan warehouse untuk data mart. Kerana ia perisian untuk analisis gudang data ia mengambil masa yang sangat lama untuk menyusun, dan gudang itu sendiri sukar dibuat, mengumpul data ke dalam pangkalan data tidak begitu sukar, sukar untuk melampirkan perisian kepadanya yang akan melakukan analisis, jadi tujuan penyatuan adalah bahawa data mart itu sendiri akan berdasarkan data yang disimpan dalam kemudahan storan. Nah, ia telah dicadangkan yang dipanggil seni bina berlapis daripada tiga peringkat.

Tahap pertama pangkalan data korporat am berdasarkan DBMS teragih.

Peringkat kedua pangkalan data jabatan. Biasanya berdasarkan DBMS desktop. Data agregat disimpan di sini, iaitu pangkalan data hubungan data menyimpan data operasi, dan data agregat dibuang ke tahap 2, di mana DBMS Desktop boleh digunakan.

Dan tahap ketiga ialah tempat khusus penganalisis pengguna. Pengguna yang membuat beberapa kesimpulan berdasarkan data mart.