Perwakilan data berbilang dimensi. Skim umum untuk mengatur gudang data. Ciri, jenis dan perbezaan utama antara teknologi OLAP dan OLTP. Corak bintang dan kepingan salji. Pengagregatan. Pengenalan kepada pilihan pelaksanaan OLAP olap

Keadaan persaingan yang tinggi dan dinamik persekitaran luaran yang semakin meningkat menentukan peningkatan permintaan terhadap sistem pengurusan perusahaan. Perkembangan teori dan amalan pengurusan telah disertai dengan kemunculan kaedah, teknologi dan model baharu yang bertujuan untuk meningkatkan kecekapan operasi. Kaedah dan model, seterusnya, menyumbang kepada kemunculan sistem analisis. Permintaan untuk sistem analisis di Rusia adalah tinggi. Dari sudut pandangan aplikasi, sistem ini paling menarik dalam sektor kewangan: bank, perniagaan insurans, syarikat pelaburan. Hasil kerja sistem analisis adalah perlu, pertama sekali, untuk orang yang keputusan pembangunan syarikat bergantung: pengurus, pakar, penganalisis. Sistem analisis membolehkan anda menyelesaikan masalah penyatuan, pelaporan, pengoptimuman dan ramalan. Sehingga kini, belum ada klasifikasi akhir sistem analisis, sama seperti tiada sistem definisi umum dari segi istilah yang digunakan dalam bidang ini. Struktur maklumat perusahaan boleh diwakili oleh urutan peringkat, setiap satunya dicirikan oleh cara pemprosesan dan pengurusan maklumatnya sendiri, dan mempunyai fungsi tersendiri dalam proses pengurusan. Oleh itu, sistem analisis akan ditempatkan secara hierarki pada tahap yang berbeza dari infrastruktur ini.

Tahap sistem transaksi

Lapisan Gudang Data

Lapisan data mart

Tahap sistem OLAP

Lapisan aplikasi analisis

Sistem OLAP - (Pemprosesan Analitikal Dalam Talian, pemprosesan analitikal pada masa kini) - ialah teknologi untuk analisis data berbilang dimensi yang kompleks. Sistem OLAP boleh digunakan apabila terdapat tugas menganalisis data berbilang faktor. Ia adalah kaedah analisis dan penjanaan laporan yang berkesan. Gudang data, data mart dan sistem OLAP yang dibincangkan di atas tergolong dalam sistem risikan perniagaan (BI).

Selalunya, sistem maklumat dan analisis yang dibuat dengan jangkaan penggunaan langsung oleh pembuat keputusan ternyata sangat mudah untuk digunakan, tetapi sangat terhad dalam fungsi. Sistem statik sedemikian dipanggil dalam literatur Sistem Maklumat Eksekutif (IIS), atau Sistem Maklumat Eksekutif (EIS). Ia mengandungi set pertanyaan yang dipratentukan dan, walaupun mencukupi untuk semakan setiap hari, tidak dapat menjawab semua soalan tentang data yang tersedia yang mungkin timbul semasa membuat keputusan. Hasil daripada sistem sedemikian, sebagai peraturan, adalah laporan berbilang halaman, selepas kajian teliti yang mana penganalisis mempunyai siri soalan baru. Walau bagaimanapun, setiap permintaan baharu yang tidak dijangka semasa mereka bentuk sistem sedemikian mesti terlebih dahulu diterangkan secara rasmi, dikodkan oleh pengaturcara, dan hanya kemudian dilaksanakan. Masa menunggu dalam kes ini boleh menjadi beberapa jam dan hari, yang tidak selalu boleh diterima. Oleh itu, kesederhanaan luaran DSS statik, yang mana kebanyakan pelanggan sistem maklumat dan analisis sedang giat berjuang, bertukar menjadi kehilangan fleksibiliti yang dahsyat.



DSS dinamik, sebaliknya, tertumpu pada pemprosesan permintaan penganalisis yang tidak dikawal (ad hoc) untuk data. Keperluan untuk sistem sedemikian dianggap paling mendalam oleh E. F. Codd dalam artikel yang meletakkan asas untuk konsep OLAP. Kerja penganalisis dengan sistem ini terdiri daripada urutan interaktif membentuk pertanyaan dan mengkaji keputusannya.

Tetapi DSS dinamik boleh beroperasi bukan sahaja dalam bidang pemprosesan analisis dalam talian (OLAP); sokongan untuk membuat keputusan pengurusan berdasarkan data terkumpul boleh dilakukan dalam tiga bidang asas.

Skop data terperinci. Ini adalah skop kebanyakan sistem pencarian maklumat. Dalam kebanyakan kes, DBMS perhubungan mengatasi tugas yang timbul di sini dengan baik. Piawaian yang diterima umum untuk bahasa untuk memanipulasi data hubungan ialah SQL. Sistem perolehan maklumat yang menyediakan antara muka pengguna akhir dalam tugas mencari maklumat terperinci boleh digunakan sebagai alat tambah baik ke atas pangkalan data individu sistem transaksi dan di gudang data umum.

Skop penunjuk agregat. Pandangan menyeluruh pada maklumat yang dikumpul dalam gudang data, generalisasi dan pengagregatannya, perwakilan hiperkubus dan analisis berbilang dimensi adalah tugas sistem pemprosesan analisis dalam talian (OLAP). Di sini anda boleh menumpukan pada DBMS berbilang dimensi khas, atau kekal dalam rangka kerja teknologi perhubungan. Dalam kes kedua, data pra-agregat boleh dikumpulkan dalam pangkalan data berbentuk bintang, atau pengumpulan maklumat boleh dilakukan dengan cepat sambil mengimbas jadual terperinci dalam pangkalan data hubungan.

Sfera corak. Pemprosesan intelek dijalankan dengan kaedah analisis data pintar (IDA, Perlombongan Data), tugas utamanya adalah untuk mencari corak berfungsi dan logik dalam maklumat terkumpul, membina model dan peraturan yang menjelaskan anomali yang ditemui dan/atau meramalkan pembangunan proses tertentu.

Pemprosesan data analisis operasi

Konsep OLAP adalah berdasarkan prinsip perwakilan data berbilang dimensi. Dalam artikel 1993, E. F. Codd menangani kelemahan model hubungan, terutamanya menunjukkan ketidakupayaan untuk "menggabungkan, melihat dan menganalisis data dari segi pelbagai dimensi, iaitu, dengan cara yang paling mudah difahami untuk penganalisis perusahaan," dan mentakrifkan keperluan am untuk sistem OLAP yang memanjangkan kefungsian DBMS hubungan dan termasuk analisis multidimensi sebagai salah satu cirinya.

Pengelasan produk OLAP mengikut kaedah persembahan data.

Pada masa ini, terdapat sejumlah besar produk di pasaran yang menyediakan kefungsian OLAP pada satu tahap atau yang lain. Kira-kira 30 daripada yang paling terkenal disenaraikan pada pelayan Web ulasan http://www.olapreport.com/. Menyediakan pandangan konsep berbilang dimensi daripada antara muka pengguna kepada pangkalan data sumber, semua produk OLAP dibahagikan kepada tiga kelas berdasarkan jenis pangkalan data sumber.

Sistem pemprosesan analisis dalam talian yang pertama (contohnya, Essbase dari Arbor Software, Oracle Express Server dari Oracle) tergolong dalam kelas MOLAP, iaitu, mereka hanya boleh berfungsi dengan pangkalan data berbilang dimensi mereka sendiri. Ia berdasarkan teknologi proprietari untuk DBMS berbilang dimensi dan merupakan yang paling mahal. Sistem ini menyediakan kitaran penuh pemprosesan OLAP. Mereka sama ada termasuk, sebagai tambahan kepada komponen pelayan, antara muka klien bersepadu mereka sendiri, atau menggunakan program hamparan luaran untuk berkomunikasi dengan pengguna. Untuk mengekalkan sistem sedemikian, kakitangan khas pekerja diperlukan untuk memasang, menyelenggara sistem dan membuat paparan data untuk pengguna akhir.

Sistem pemprosesan analitik dalam talian (ROLAP) perhubungan membenarkan data yang disimpan dalam pangkalan data perhubungan diwakili dalam bentuk multidimensi, memberikan transformasi maklumat kepada model multidimensi melalui lapisan metadata perantaraan. Sistem ROLAP sangat sesuai untuk bekerja dengan kemudahan storan yang besar. Seperti sistem MOLAP, mereka memerlukan penyelenggaraan yang ketara oleh pakar teknologi maklumat dan melibatkan operasi berbilang pengguna.

Akhir sekali, sistem hibrid (Hybrid OLAP, HOLAP) direka untuk menggabungkan kelebihan dan meminimumkan kelemahan yang wujud dalam kelas sebelumnya. Speedware's Media/MR termasuk dalam kelas ini. Menurut pembangun, ia menggabungkan fleksibiliti analisis dan kelajuan tindak balas MOLAP dengan akses berterusan kepada data sebenar yang wujud dalam ROLAP.

OLAP berbilang dimensi (MOLAP)

Dalam DBMS khusus berdasarkan perwakilan multidimensi data, data disusun bukan dalam bentuk jadual hubungan, tetapi dalam bentuk tatasusunan berbilang dimensi yang tersusun:

1) hiperkubus (semua sel yang disimpan dalam pangkalan data mesti mempunyai dimensi yang sama, iaitu, berada dalam asas pengukuran yang paling lengkap) atau

2) polycubes (setiap pembolehubah disimpan dengan set ukurannya sendiri, dan semua kesukaran pemprosesan yang berkaitan dipindahkan ke mekanisme dalaman sistem).

Penggunaan pangkalan data multidimensi dalam sistem pemprosesan analisis dalam talian mempunyai kelebihan berikut.

Apabila menggunakan DBMS berbilang dimensi, mencari dan mendapatkan semula data adalah lebih pantas berbanding dengan pandangan konseptual berbilang dimensi bagi pangkalan data hubungan, memandangkan pangkalan data berbilang dimensi dinyahnormalkan, mengandungi langkah pra-agregat dan menyediakan akses yang dioptimumkan kepada sel yang diminta.

DBMS multidimensi dengan mudah mengatasi tugas termasuk pelbagai fungsi terbina dalam dalam model maklumat, manakala batasan bahasa SQL yang sedia ada secara objektif menjadikan melaksanakan tugas ini berdasarkan DBMS hubungan agak sukar dan kadangkala mustahil.

Sebaliknya, terdapat batasan yang ketara.

DBMS berbilang dimensi tidak membenarkan bekerja dengan pangkalan data yang besar. Di samping itu, disebabkan penyahnormalan dan pengagregatan pra-laksana, volum data dalam pangkalan data berbilang dimensi, sebagai peraturan, sepadan (mengikut anggaran Codd) kepada 2.5-100 kali kurang daripada volum data terperinci asal.

Berbanding dengan DBMS hubungan, DBMS pelbagai dimensi menggunakan memori luaran dengan sangat tidak cekap. Dalam kebanyakan kes, hiperkubus maklumat adalah sangat jarang, dan oleh kerana data disimpan dalam bentuk tersusun, nilai yang tidak ditentukan hanya boleh dialih keluar dengan memilih susunan isihan optimum, yang membolehkan anda menyusun data menjadi yang terbesar. kumpulan yang mungkin bersebelahan. Tetapi walaupun dalam kes ini, masalah itu hanya diselesaikan sebahagiannya. Selain itu, susunan isihan optimum untuk menyimpan data jarang kemungkinan besar bukan susunan yang paling kerap digunakan dalam pertanyaan. Oleh itu, dalam sistem sebenar adalah perlu untuk mencari kompromi antara prestasi dan redundansi ruang cakera yang diduduki oleh pangkalan data.

Akibatnya, penggunaan DBMS berbilang dimensi adalah wajar hanya di bawah syarat berikut.

Jumlah data sumber untuk analisis tidak terlalu besar (tidak lebih daripada beberapa gigabait), iaitu tahap pengagregatan data agak tinggi.

Set dimensi maklumat adalah stabil (memandangkan sebarang perubahan dalam strukturnya hampir selalu memerlukan penstrukturan semula hypercube yang lengkap).

Masa tindak balas sistem kepada permintaan yang tidak dikawal adalah parameter yang paling kritikal.

Memerlukan penggunaan meluas fungsi terbina dalam yang kompleks untuk melaksanakan pengiraan silang dimensi pada sel hiperkubus, termasuk keupayaan untuk menulis fungsi tersuai.

OLAP Perhubungan (ROLAP)

Penggunaan langsung pangkalan data hubungan dalam sistem pemprosesan analisis dalam talian mempunyai kelebihan berikut.

Dalam kebanyakan kes, gudang data korporat dilaksanakan menggunakan alat DBMS hubungan, dan alat ROLAP membenarkan analisis terus padanya. Pada masa yang sama, saiz storan bukanlah parameter kritikal seperti dalam kes MOLAP.

Dalam kes masalah dimensi berubah-ubah, apabila perubahan kepada struktur pengukuran perlu dibuat agak kerap, sistem ROLAP dengan perwakilan dinamik dimensi adalah penyelesaian yang optimum, kerana pengubahsuaian tersebut tidak memerlukan penyusunan semula fizikal pangkalan data.

DBMS perhubungan menyediakan tahap perlindungan data yang jauh lebih tinggi dan keupayaan yang baik untuk membezakan hak akses.

Kelemahan utama ROLAP berbanding DBMS berbilang dimensi ialah prestasi yang lebih rendah. Untuk memberikan prestasi yang setanding dengan MOLAP, sistem perhubungan memerlukan reka bentuk yang teliti bagi skema pangkalan data dan konfigurasi indeks, iaitu, banyak usaha dari pihak pentadbir pangkalan data. Hanya dengan menggunakan skema bintang, prestasi sistem hubungan yang ditala dengan baik boleh mendekati sistem berdasarkan pangkalan data multidimensi.

Dalam siri artikel "Pengenalan kepada Pangkalan Data," yang diterbitkan baru-baru ini (lihat ComputerPress No. 3'2000 - 3'2001), kami membincangkan pelbagai teknologi dan perisian yang digunakan dalam mencipta sistem maklumat - DBMS desktop dan pelayan, alat reka bentuk data , pembangunan aplikasi alatan, serta Perisikan Perniagaan - alat analisis dan pemprosesan data skala perusahaan, yang kini semakin popular di dunia, termasuk di negara kita. Kami ambil perhatian, walau bagaimanapun, bahawa isu penggunaan alatan Perisikan Perniagaan dan teknologi yang digunakan untuk mencipta aplikasi kelas ini belum lagi diliputi dalam literatur domestik. Dalam siri artikel baharu kami akan cuba mengisi jurang ini dan bercakap tentang teknologi yang mendasari aplikasi tersebut. Sebagai contoh pelaksanaan, kami terutamanya akan menggunakan teknologi Microsoft OLAP (terutamanya Perkhidmatan Analisis dalam Microsoft SQL Server 2000), tetapi kami berharap bahawa sebahagian besar bahan akan berguna kepada pengguna alatan lain.

Artikel pertama dalam siri ini ditumpukan kepada asas OLAP (On-Line Analytical Processing) - teknologi untuk analisis data multidimensi. Di dalamnya, kita akan melihat konsep pergudangan data dan OLAP, keperluan untuk pergudangan data dan alatan OLAP, organisasi logik data OLAP, dan istilah dan konsep asas yang digunakan semasa membincangkan analisis multidimensi.

Apakah itu gudang data

Sistem maklumat skala perusahaan, sebagai peraturan, mengandungi aplikasi yang direka untuk analisis data multidimensi yang kompleks, dinamik, arah alirannya, dsb. Analisis sedemikian akhirnya bertujuan untuk menyokong pembuatan keputusan. Sistem ini sering dipanggil sistem sokongan keputusan.

Adalah mustahil untuk membuat sebarang keputusan pengurusan tanpa mempunyai maklumat yang diperlukan, biasanya kuantitatif. Ini memerlukan penciptaan gudang Data, iaitu, proses mengumpul, menapis dan pra-pemprosesan data untuk menyediakan maklumat yang terhasil kepada pengguna untuk analisis statistik (dan selalunya penciptaan laporan analisis).

Ralph Kimball, salah seorang pencetus konsep gudang data, menggambarkan gudang data sebagai "tempat di mana orang ramai boleh mengakses data mereka" (lihat, sebagai contoh, Ralph Kimball, "The Data Warehouse Toolkit: Practical Techniques for Building Dimensions Data Warehouses ", John Wiley & Sons, 1996 dan "The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse", John Wiley & Sons, 2000). Beliau juga merumuskan keperluan asas untuk gudang data:

  • sokongan untuk mendapatkan semula data berkelajuan tinggi dari storan;
  • mengekalkan ketekalan data dalaman;
  • keupayaan untuk mendapatkan dan membandingkan apa yang dipanggil kepingan data (hirisan dan dadu);
  • ketersediaan utiliti yang mudah untuk melihat data dalam storan;
  • kesempurnaan dan kebolehpercayaan data yang disimpan;
  • sokongan untuk proses penambahan data berkualiti tinggi.

Selalunya tidak mungkin untuk memenuhi semua keperluan di atas dalam produk yang sama. Oleh itu, untuk melaksanakan gudang data, beberapa produk biasanya digunakan, beberapa daripadanya adalah alat penyimpanan data sebenar, yang lain adalah alat untuk mendapatkan dan melihatnya, yang lain adalah alat untuk menambahnya, dsb.

Gudang data biasa biasanya berbeza daripada pangkalan data hubungan biasa. Pertama, pangkalan data biasa direka untuk membantu pengguna melakukan kerja seharian, manakala gudang data direka untuk membuat keputusan. Sebagai contoh, penjualan barangan dan pengeluaran invois dijalankan menggunakan pangkalan data yang direka untuk pemprosesan transaksi, dan analisis dinamik jualan selama beberapa tahun, yang membolehkan kerja perancangan dengan pembekal, dijalankan menggunakan gudang data.

Kedua, sementara pangkalan data tradisional tertakluk kepada perubahan berterusan semasa pengguna bekerja, gudang data agak stabil: data di dalamnya biasanya dikemas kini mengikut jadual (contohnya, mingguan, harian atau setiap jam, bergantung pada keperluan). Sebaik-baiknya, proses pengayaan hanyalah menambah data baharu dalam tempoh masa tanpa mengubah maklumat sebelumnya yang sudah ada di gudang.

Dan ketiga, pangkalan data biasa selalunya merupakan sumber data yang berakhir di gudang. Di samping itu, repositori boleh diisi semula daripada sumber luaran, seperti laporan statistik.

Apa itu OLAP

Sistem sokongan keputusan biasanya mempunyai cara untuk menyediakan pengguna dengan data agregat untuk pelbagai sampel daripada set asal dalam bentuk yang mudah untuk persepsi dan analisis. Lazimnya, fungsi agregat sedemikian membentuk set data berbilang dimensi (dan oleh itu bukan hubungan) (sering dipanggil hypercube atau metacube), yang paksinya mengandungi parameter dan sel yang mengandungi data agregat yang bergantung padanya. Di sepanjang setiap paksi, data boleh disusun ke dalam hierarki, mewakili tahap perincian yang berbeza. Terima kasih kepada model data ini, pengguna boleh merumuskan pertanyaan kompleks, menjana laporan dan mendapatkan subset data.

Teknologi untuk analisis data berbilang dimensi yang kompleks dipanggil OLAP (On-Line Analytical Processing). OLAP ialah komponen utama pergudangan data. Konsep OLAP telah diterangkan pada tahun 1993 oleh Edgar Codd, seorang penyelidik pangkalan data terkenal dan pengarang model data hubungan (lihat E.F. Codd, S.B. Codd, dan C.T. Salley, Menyediakan OLAP (pemprosesan analitik dalam talian) kepada penganalisis pengguna: An mandat IT. Laporan teknikal, 1993). Pada tahun 1995, berdasarkan keperluan yang ditetapkan oleh Codd, apa yang dipanggil ujian FASMI (Analisis Pantas Maklumat Multidimensi Dikongsi) telah dirumuskan, termasuk keperluan berikut untuk aplikasi untuk analisis multidimensi:

  • menyediakan pengguna dengan keputusan analisis dalam masa yang boleh diterima (biasanya tidak lebih daripada 5 s), walaupun pada kos analisis yang kurang terperinci;
  • keupayaan untuk melakukan sebarang analisis logik dan statistik khusus untuk aplikasi tertentu dan menyimpannya dalam bentuk yang boleh diakses oleh pengguna akhir;
  • capaian berbilang pengguna kepada data dengan sokongan untuk mekanisme penguncian yang sesuai dan cara capaian yang dibenarkan;
  • perwakilan konseptual multidimensi data, termasuk sokongan penuh untuk hierarki dan berbilang hierarki (ini adalah keperluan utama OLAP);
  • keupayaan untuk mengakses sebarang maklumat yang diperlukan, tanpa mengira volum dan lokasi penyimpanannya.

Perlu diingatkan bahawa fungsi OLAP boleh dilaksanakan dalam pelbagai cara, daripada alat analisis data yang paling mudah dalam aplikasi pejabat kepada sistem analisis teragih berdasarkan produk pelayan. Tetapi sebelum kita bercakap tentang pelaksanaan yang berbeza bagi fungsi ini, mari kita lihat apakah kiub OLAP dari sudut pandangan logik.

Kiub berbilang dimensi

Dalam bahagian ini, kita akan melihat dengan lebih dekat konsep OLAP dan kiub berbilang dimensi. Sebagai contoh pangkalan data hubungan yang akan kami gunakan untuk menggambarkan prinsip OLAP, kami akan menggunakan pangkalan data Northwind, yang disertakan dengan Microsoft SQL Server atau Microsoft Access dan merupakan pangkalan data biasa yang menyimpan maklumat perdagangan untuk syarikat pengedaran makanan borong. Data tersebut termasuk maklumat tentang pembekal, pelanggan, syarikat penghantaran, senarai barangan yang dibekalkan dan kategorinya, data tentang pesanan dan barang yang dipesan, senarai pekerja syarikat. Penerangan terperinci tentang pangkalan data Northwind boleh didapati dalam sistem bantuan Microsoft SQL Server atau Microsoft Access - kami tidak menyediakannya di sini kerana kekurangan ruang.

Untuk meneroka konsep OLAP, kami akan menggunakan paparan Invois dan jadual Produk dan Kategori daripada pangkalan data Northwind untuk membuat pertanyaan yang akan menghasilkan maklumat terperinci tentang semua barangan yang dipesan dan invois dikeluarkan:

PILIH dbo.Invoices.Country, dbo.Invoices.City, dbo.Invois.CustomerName, dbo.Invois.Jurujual, dbo.Invois.OrderDate, dbo.Categories.CategoryName, dbo.Invois.ProductName, dbo.Invoices.ProductName, dbo.Invois. .Invois.Harga Lanjutan DARI dbo.Produk INNER JOIN dbo.Categories ON dbo.Products.CategoryID = dbo.Categories.CategoryID INNER JOIN dbo.Invois ON dbo.Products.ProductID = dbo.Invois.ProductID

Dalam Access 2000, pertanyaan serupa kelihatan seperti ini:

PILIH Invois.Negara, Invois.City, Invois.Customers.CompanyName AS CustomerName, Invois.Jurujual, Invois.OrderDate, Categories.CategoryName, Invois.ProductName, Invois.Shippers.CompanyName.Invois.Shippers.CompanyName.Invois.OrderDate, Categories.CategoryName, Invois.ProductName, Invois.Shippers.CompanyName.Invois.Shippers.CompanyName. voices INNER JOIN Produk PADA Invois.ProductID = Produk.ProductID) PADA Kategori.CategoryID = Produk.CategoryID;

Pertanyaan ini mengakses paparan Invois, yang mengandungi maklumat tentang semua invois yang dikeluarkan, serta jadual Kategori dan Produk, yang masing-masing mengandungi maklumat tentang kategori produk yang dipesan dan produk itu sendiri. Hasil permintaan ini ialah satu set data pesanan yang merangkumi kategori dan nama item yang dipesan, tarikh pesanan dibuat, nama orang yang membuat invois, bandar, negara dan nama syarikat syarikat yang membuat pesanan, serta sebagai nama syarikat perkapalan.

Untuk kemudahan, mari simpan permintaan ini sebagai paparan, memanggilnya Invois1. Hasil daripada mengakses perwakilan ini ditunjukkan dalam Rajah. 1 .

Apakah data agregat yang boleh kita peroleh daripada paparan ini? Biasanya ini adalah jawapan kepada soalan seperti:

  • Berapakah jumlah nilai pesanan yang dibuat oleh pelanggan dari Perancis?
  • Berapakah jumlah nilai pesanan yang dibuat oleh pelanggan di Perancis dan dihantar oleh Speedy Express?
  • Berapakah jumlah nilai pesanan yang dibuat oleh pelanggan di Perancis pada tahun 1997 dan dihantar oleh Speedy Express?

Mari terjemahkan soalan ini kepada pertanyaan dalam SQL (Jadual 1).

Hasil daripada mana-mana pertanyaan di atas ialah nombor. Jika dalam pertanyaan pertama anda menggantikan parameter 'Perancis' dengan 'Austria' atau nama negara lain, anda boleh menjalankan pertanyaan ini sekali lagi dan mendapatkan nombor lain. Dengan melaksanakan prosedur ini dengan semua negara, kami mendapat set data berikut (serpihan ditunjukkan di bawah):

Negara SUM (Harga Lanjutan)
Argentina 7327.3
Austria 110788.4
Belgium 28491.65
Brazil 97407.74
Kanada 46190.1
Denmark 28392.32
Finland 15296.35
Perancis 69185.48
Jerman 209373.6

Set nilai agregat yang terhasil (dalam kes ini, jumlah) boleh ditafsirkan sebagai set data satu dimensi. Set data yang sama juga boleh diperoleh hasil daripada pertanyaan dengan klausa GROUP BY dalam bentuk berikut:

PILIH Negara, JUMLAH (Harga Lanjutan) DARIPADA invois1 KUMPULAN MENGIKUT Negara

Sekarang mari kita lihat pertanyaan kedua di atas, yang mengandungi dua syarat dalam klausa WHERE. Jika kami menjalankan pertanyaan ini, memasukkan semua nilai yang mungkin untuk parameter Country dan ShipperName, kami akan mendapat set data dua dimensi yang kelihatan seperti ini (coretan ditunjukkan di bawah):

Nama Penghantar
Negara Perkapalan Persekutuan Speedy Express Pakej Bersatu
Argentina 1 210.30 1 816.20 5 092.60
Austria 40 870.77 41 004.13 46 128.93
Belgium 11 393.30 4 717.56 17 713.99
Brazil 16 514.56 35 398.14 55 013.08
Kanada 19 598.78 5 440.42 25 157.08
Denmark 18 295.30 6 573.97 7 791.74
Finland 4 889.84 5 966.21 7 954.00
Perancis 28 737.23 21 140.18 31 480.90
Jerman 53 474.88 94 847.12 81 962.58

Set data sedemikian dipanggil jadual pangsi atau jadual silang. Banyak hamparan dan DBMS desktop membenarkan anda mencipta jadual sedemikian - daripada Paradox untuk DOS kepada Microsoft Excel 2000. Contohnya, beginilah rupa pertanyaan serupa dalam Microsoft Access 2000:

TRANSFORM Sum(Invois1.ExtendedPrice) AS SumOfExtendedPrice PILIH Invois1.Negara DARIPADA Invois1 KUMPULAN MENGIKUT Invois1.Invois PIVOT Negara1.Nama Penghantar;

Data agregat untuk jadual pangsi sedemikian juga boleh diperoleh menggunakan pertanyaan GROUP BY biasa:

PILIH Negara,Nama Penghantar, SUM (Harga Lanjutan) DARI invois1 KUMPULAN MENGIKUT NEGARA,Nama Penghantar Perhatikan, bagaimanapun, bahawa hasil pertanyaan ini bukan jadual pangsi itu sendiri, tetapi hanya satu set data agregat untuk pembinaannya (serpihan ditunjukkan di bawah ):

Negara Nama Penghantar SUM (Harga Lanjutan)
Argentina Perkapalan Persekutuan 845.5
Austria Perkapalan Persekutuan 35696.78
Belgium Perkapalan Persekutuan 8747.3
Brazil Perkapalan Persekutuan 13998.26

Pertanyaan ketiga yang dibincangkan di atas sudah mempunyai tiga parameter dalam keadaan WHERE. Dengan mengubahnya, kami memperoleh set data tiga dimensi (Rajah 2).

Sel-sel kubus ditunjukkan dalam Rajah. 2 mengandungi data agregat yang sepadan dengan nilai parameter pertanyaan dalam klausa WHERE yang terletak pada paksi kubus.

Anda boleh mendapatkan satu set jadual dua dimensi dengan memotong kubus dengan satah selari dengan mukanya (istilah keratan rentas dan hirisan digunakan untuk menandakannya).

Jelas sekali, data yang terkandung dalam sel kubus juga boleh diperoleh menggunakan pertanyaan yang sesuai dengan klausa GROUP BY. Selain itu, sesetengah hamparan (terutamanya Microsoft Excel 2000) juga membenarkan anda memplot set data tiga dimensi dan melihat keratan rentas berbeza bagi kiub selari dengan mukanya seperti yang ditunjukkan pada helaian buku kerja.

Jika klausa WHERE mengandungi empat atau lebih parameter, set nilai yang terhasil (juga dipanggil kiub OLAP) boleh menjadi 4-dimensi, 5-dimensi, dsb.

Setelah melihat apakah kiub OLAP berbilang dimensi, mari kita beralih kepada beberapa istilah dan konsep utama yang digunakan dalam analisis data berbilang dimensi.

Beberapa istilah dan konsep

Bersama-sama dengan jumlah, sel kubus OLAP mungkin mengandungi hasil pelaksanaan fungsi agregat lain bahasa SQL, seperti MIN, MAX, AVG, COUNT dan dalam beberapa kes, yang lain (varian, sisihan piawai, dll.). Untuk menerangkan nilai data dalam sel, istilah ringkasan digunakan (secara amnya, mungkin terdapat beberapa daripadanya dalam satu kiub), istilah ukuran digunakan untuk menandakan data sumber berdasarkan pengiraannya, dan dimensi istilah digunakan untuk menandakan parameter pertanyaan (diterjemahkan ke dalam bahasa Rusia biasanya dirujuk sebagai "dimensi" apabila bercakap tentang kiub OLAP, dan sebagai "dimensi" apabila bercakap tentang gudang data). Nilai yang diplot pada paksi dipanggil ahli dimensi.

Apabila bercakap tentang ukuran, perlu dinyatakan bahawa nilai yang diplot pada paksi boleh mempunyai tahap perincian yang berbeza. Sebagai contoh, kami mungkin berminat dengan jumlah nilai pesanan yang dibuat oleh pelanggan di negara yang berbeza, atau jumlah nilai pesanan yang dibuat oleh pelanggan luar bandar atau pelanggan individu. Sememangnya, set data agregat yang terhasil dalam kes kedua dan ketiga akan lebih terperinci daripada yang pertama. Ambil perhatian bahawa keupayaan untuk mendapatkan data agregat dengan darjah perincian yang berbeza-beza memenuhi salah satu keperluan untuk gudang data - keperluan untuk ketersediaan pelbagai kepingan data untuk perbandingan dan analisis.

Oleh kerana dalam contoh yang dipertimbangkan, secara amnya, setiap negara boleh mempunyai beberapa bandar, dan bandar boleh mempunyai beberapa pelanggan, kita boleh bercakap tentang hierarki nilai dalam dimensi. Dalam kes ini, negara terletak di peringkat pertama hierarki, bandar berada di peringkat kedua, dan pelanggan berada di peringkat ketiga (Rajah 3).

Ambil perhatian bahawa hierarki boleh diseimbangkan, seperti hierarki yang ditunjukkan dalam Rajah. 3, serta hierarki berdasarkan tarikh-masa dan data tidak seimbang. Contoh tipikal hierarki tidak seimbang ialah hierarki "superior-subordinate" (ia boleh dibina, sebagai contoh, menggunakan nilai medan Jurujual set data asal daripada contoh yang dibincangkan di atas), ditunjukkan dalam Rajah. 4 .

Kadangkala istilah hierarki ibu bapa-anak digunakan untuk hierarki sedemikian.

Terdapat juga hierarki yang menduduki kedudukan pertengahan antara seimbang dan tidak seimbang (ia ditetapkan dengan istilah ragged). Mereka biasanya mengandungi ahli yang logik "ibu bapa" mereka tidak berada pada tahap unggul serta-merta (contohnya, hierarki geografi mempunyai peringkat Negara, Bandar dan Negeri, tetapi terdapat negara dalam set data yang tidak mempunyai negeri atau wilayah antara Negara dan Aras bandar; Rajah 5).

Ambil perhatian bahawa hierarki tidak seimbang dan "tidak sekata" tidak disokong oleh semua alatan OLAP. Contohnya, Microsoft Analysis Services 2000 menyokong kedua-dua jenis hierarki, tetapi Microsoft OLAP Services 7.0 hanya menyokong yang seimbang. Bilangan tahap hierarki, bilangan ahli maksimum yang dibenarkan bagi satu tahap dan bilangan maksimum yang mungkin bagi dimensi itu sendiri boleh berbeza dalam alatan OLAP yang berbeza.

Kesimpulan

Dalam artikel ini kami mempelajari asas OLAP. Kami belajar perkara berikut:

  • Tujuan gudang data adalah untuk menyediakan pengguna dengan maklumat untuk analisis statistik dan membuat keputusan pengurusan.
  • Gudang data mesti memastikan kelajuan tinggi perolehan data, keupayaan untuk mendapatkan dan membandingkan apa yang dipanggil kepingan data, serta ketekalan, kesempurnaan dan kebolehpercayaan data.
  • OLAP (On-Line Analytical Processing) ialah komponen utama dalam membina dan menggunakan gudang data. Teknologi ini berdasarkan pembinaan set data berbilang dimensi - kiub OLAP, paksi yang mengandungi parameter dan sel mengandungi data agregat yang bergantung padanya.
  • Aplikasi dengan fungsi OLAP mesti memberikan pengguna hasil analisis dalam masa yang boleh diterima, melaksanakan analisis logik dan statistik, menyokong akses berbilang pengguna kepada data, menyediakan perwakilan konseptual berbilang dimensi bagi data dan dapat mengakses sebarang maklumat yang diperlukan.

Di samping itu, kami menyemak prinsip asas organisasi logik kiub OLAP, dan juga mempelajari istilah dan konsep asas yang digunakan dalam analisis multidimensi. Akhir sekali, kami mengetahui jenis hierarki yang berbeza dalam dimensi kiub OLAP.

Dalam artikel seterusnya dalam siri ini, kita akan melihat struktur tipikal gudang data, bercakap tentang apa itu OLAP pelanggan dan pelayan, dan juga memberi tumpuan kepada beberapa aspek teknikal storan data berbilang dimensi.

ComputerPress 4"2001

Perbezaan utama antara fakta dan maklumat ialah kami menerima dan mengambil kira data, dan kami boleh menggunakan maklumat untuk mendapat manfaat. Secara kasarnya, maklumat dianalisis dan data yang sistematik. Terima kasih kepada maklumat yang diterima tepat pada masanya, banyak syarikat berjaya bertahan dalam kedua-dua krisis kewangan dan persaingan yang paling sengit. Ia tidak mencukupi untuk mengumpul fakta dan mempunyai semua data yang diperlukan. Anda juga perlu dapat menganalisisnya. Untuk memudahkan mereka yang perlu membuat keputusan perniagaan yang penting, pelbagai sistem sokongan telah dibangunkan. Untuk tujuan ini pelbagai sistem kompleks telah dibangunkan yang membolehkan menganalisis sejumlah besar data heterogen dan mengubahnya menjadi maklumat yang berguna untuk pengguna perniagaan. Bidang analisis perniagaan baharu bertujuan untuk meningkatkan kawalan proses sistem perniagaan melalui penggunaan pergudangan data dan teknologi.

Pasaran untuk sistem maklumat perniagaan hari ini menawarkan pelbagai pilihan penyelesaian yang membantu perusahaan mengatur perakaunan pengurusan, memastikan pengurusan operasi pengeluaran dan jualan, dan menjalankan interaksi yang berkesan dengan pelanggan dan pembekal.

Niche yang berasingan dalam pasaran sistem perniagaan diduduki oleh produk perisian analisis yang direka untuk menyokong pembuatan keputusan di peringkat strategik pengurusan perusahaan. Perbezaan utama antara alat tersebut dan sistem pengurusan operasi ialah yang kedua menyediakan pengurusan perusahaan dalam "mod berfungsi", iaitu, pelaksanaan program pengeluaran yang jelas, manakala sistem analisis peringkat strategik membantu pengurusan perusahaan membangunkan keputusan dalam "mod pembangunan."

Skala perubahan yang dijalankan mungkin berbeza daripada penstrukturan semula yang mendalam kepada pengemaskinian separa teknologi di tapak pengeluaran individu, tetapi, dalam apa jua keadaan, pembuat keputusan mempertimbangkan alternatif pembangunan yang bergantung kepada nasib perusahaan dalam jangka panjang.

Tidak kira betapa berkuasa dan membangunkan sistem maklumat perusahaan, ia tidak dapat membantu dalam menyelesaikan isu-isu ini, pertama, kerana ia dikonfigurasikan untuk pegun, proses perniagaan yang mantap, dan kedua, ia tidak dan tidak boleh mengandungi maklumat untuk membuat keputusan mengenai bidang baru perniagaan, teknologi baharu, keputusan organisasi baharu.

Terima kasih kepada teknologi pemprosesan dan analisis data OLAP (On-Line Analytical Processing), mana-mana organisasi boleh hampir serta-merta (dalam masa lima saat) mendapatkan data yang diperlukan untuk kerja. OLAP boleh ditakrifkan secara ringkas oleh lima kata kunci.

CEPAT (Fast) - ini bermakna masa untuk mencari dan memberikan maklumat yang diperlukan mengambil masa tidak lebih daripada lima saat. Permintaan paling mudah diproses dalam satu saat, dan beberapa permintaan kompleks mempunyai masa pemprosesan lebih daripada dua puluh saat. Untuk mencapai keputusan ini, pelbagai kaedah digunakan, daripada bentuk storan data khas kepada pra-pengiraan yang meluas. Dengan cara ini, anda boleh mendapatkan laporan dalam satu minit yang sebelum ini mengambil masa beberapa hari untuk disediakan.

ANALISIS (Analitik) mengatakan bahawa sistem boleh melakukan sebarang analisis, kedua-dua statistik dan logik, dan kemudian menyimpannya dalam bentuk yang boleh diakses.

SHARED bermaksud sistem menyediakan privasi yang diperlukan sehingga ke peringkat sel

MULTIDIMENSI (Multidimensi) adalah ciri utama OLAP. Sistem mesti menyokong sepenuhnya hierarki dan berbilang hierarki, kerana ini adalah cara paling logik untuk menganalisis kedua-dua aktiviti perniagaan dan organisasi.

MAKLUMAT. Maklumat yang betul mesti dihantar ke tempat yang diperlukan.

Apabila organisasi beroperasi, data yang berkaitan dengan bidang aktivitinya sentiasa terkumpul, yang kadangkala disimpan di tempat yang sama sekali berbeza, dan menyatukannya adalah sukar dan memakan masa. Ia adalah untuk mempercepatkan pemerolehan data untuk menguji hipotesis perniagaan yang baru muncul bahawa teknologi pemprosesan data analisis interaktif, atau OLAP, telah dibangunkan. Tujuan utama sistem OLAP sedemikian adalah untuk bertindak balas dengan cepat kepada permintaan pengguna sewenang-wenangnya. Keperluan ini sering timbul apabila membangunkan beberapa projek perniagaan yang penting, apabila pemaju memerlukan hipotesis kerja yang telah timbul. Selalunya, maklumat yang diperlukan pengguna harus dibentangkan dalam bentuk beberapa jenis pergantungan - contohnya, bagaimana volum jualan bergantung pada kategori produk, pada wilayah jualan, pada masa tahun, dan sebagainya. Terima kasih kepada OLAP, dia dapat segera mendapatkan data yang diperlukan dalam susun atur yang dikehendaki untuk tempoh yang dipilih.

Teknologi OLAP interaktif membolehkan anda mengubah timbunan besar laporan dan gunung data kepada maklumat yang berguna dan tepat yang akan membantu pekerja membuat keputusan perniagaan atau kewangan yang termaklum pada masa yang tepat.

Di samping itu, terima kasih kepada OLAP, kecekapan pemprosesan meningkat, dan pengguna boleh menerima jumlah besar maklumat yang disusun (agregat) hampir serta-merta. Terima kasih kepada OLAP, pengguna dapat melihat dengan jelas betapa cekap organisasinya beroperasi, mempunyai keupayaan untuk bertindak balas dengan cepat dan fleksibel terhadap perubahan luaran, dan mempunyai keupayaan untuk meminimumkan kerugian kewangan organisasinya. OLAP menyediakan maklumat tepat yang meningkatkan kualiti keputusan yang dibuat.

Satu-satunya kelemahan sistem analisis perniagaan ialah kosnya yang tinggi. Mencipta storan maklumat peribadi memerlukan masa dan wang yang banyak.

Penggunaan teknologi OLAP dalam perniagaan membolehkan anda mendapatkan maklumat yang diperlukan dengan cepat, yang, atas permintaan pengguna, boleh dibentangkan dalam bentuk biasa - laporan, graf atau jadual.

Prosedur penyepaduan sistem untuk struktur perniagaan adalah berdasarkan penggunaan penyelesaian ERP, CRM dan SCM bersama. Dalam kebanyakan kes, sistem dibekalkan oleh pengeluar yang berbeza, dan data yang diimport mesti menjalani penyelarasan data dan dibentangkan sebagai data heterogen. Dalam persekitaran perniagaan, terdapat keperluan yang tidak jelas - analisis data yang lengkap, yang melibatkan melihat laporan yang disatukan dari sudut pandangan yang berbeza.

Pengeluar yang berbeza mempunyai mekanisme pelaporan data yang berbeza. Prosedur perwakilan heterogen melibatkan ekstrak, transformasi dan beban (ETL). Sebagai contoh, dalam Perkhidmatan Analisis Microsoft SQL Server 2005, masalah penyatuan data dilaksanakan menggunakan Pandangan Sumber Data - jenis sumber data yang menerangkan model persembahan analisis.

Aplikasi perniagaan berdasarkan teknologi OLAP, contoh produk. Aplikasi yang paling biasa bagi teknologi OLAP ialah:

Analisis data.

Tugas yang mana alat OLAP paling popular digunakan pada asalnya dan masih kekal. Model data berbilang dimensi, keupayaan untuk menganalisis sejumlah besar data dan respons pantas kepada permintaan menjadikan sistem sedemikian amat diperlukan untuk menganalisis jualan, aktiviti pemasaran, pengedaran dan tugasan lain dengan jumlah data sumber yang besar.

Contoh produk: Microsoft Excel Pivot Tables, Microsoft Analysis Services, SAP BW, Oracle Essbase, Oracle OLAP, Cognos PowerPlay, MicroStrategy, Business Objects.

Perancangan kewangan-belanjawan.

Model multidimensi membolehkan anda memasukkan data secara serentak dan menganalisisnya dengan mudah (contohnya, merancang analisis fakta). Oleh itu, beberapa produk CPM (Pengurusan Prestasi Korporat) moden menggunakan model OLAP%. Tugas penting ialah pengiraan songsang berbilang dimensi (penyelesaian balik, pecahan, tulis balik), yang membolehkan anda mengira perubahan yang diperlukan dalam sel terperinci apabila nilai agregat berubah. Ia adalah alat untuk analisis bagaimana jika, i.e. untuk bermain pelbagai pilihan untuk acara semasa perancangan.

Contoh produk: Microsoft PerformancePint, Oracle EPB, Oracle OFA, Oracle Hyperion Planning, SAP SEM, Cognos Enterprise Planning, Geac.

Penyatuan kewangan.

Penyatuan data mengikut piawaian perakaunan antarabangsa, dengan mengambil kira saham pemilikan, mata wang yang berbeza dan perolehan dalaman, adalah tugas yang mendesak berkaitan dengan keperluan badan pemeriksaan yang semakin ketat (SOX, Basel II) dan syarikat yang diumumkan. Teknologi OLAP membolehkan anda mempercepatkan pengiraan laporan yang disatukan dan meningkatkan ketelusan keseluruhan proses.

Contoh produk: Oracle FCH, Oracle Hyperion FM, Pengawal Cognos.

Teknologi Pergudangan Data dan Pemprosesan Analitik Dalam Talian (OLAP).
adalah elemen penting dalam sokongan keputusan perniagaan, yang semakin menjadi sebahagian daripada mana-mana industri. Penggunaan teknologi OLAP sebagai alat untuk analisis perniagaan memberikan lebih kawalan dan akses yang tepat pada masanya kepada strategik
maklumat yang memudahkan membuat keputusan yang berkesan.
Ini memberi peluang untuk mensimulasikan ramalan kehidupan sebenar dan menggunakan sumber dengan lebih cekap. OLAP membolehkan organisasi bertindak balas dengan lebih cepat kepada permintaan pasaran.

Bibliografi:

1. Erik Thomsen. Penyelesaian OLAP: Membina Sistem Maklumat Berbilang Dimensi Edisi Kedua. Penerbitan Komputer Wiley John Wiley & Sons, Inc., 2002.

2. Kertas putih majlis OLAP, http://www.olapcouncil.org/research/whtpaply.htm

3. Gerd Stumme dan Bernhard Ganter. Analisis Konsep Formal _ Asas Matematik.

Hantar kerja baik anda di pangkalan pengetahuan adalah mudah. Gunakan borang di bawah

Pelajar, pelajar siswazah, saintis muda yang menggunakan pangkalan pengetahuan dalam pengajian dan kerja mereka akan sangat berterima kasih kepada anda.

Disiarkan pada http://www.allbest.ru/

Kerja kursus

disiplin: Pangkalan data

Subjek: TeknologiOLAP

Selesai:

Chizhikov Alexander Alexandrovich

pengenalan

1. Klasifikasi produk OLAP

2. Pelanggan OLAP - pelayan OLAP: kebaikan dan keburukan

3. Sistem teras OLAP

3.1 Prinsip reka bentuk

Kesimpulan

Senarai sumber yang digunakan

Aplikasi

DALAMmenjalankan

Sukar untuk mencari seseorang dalam dunia komputer yang, sekurang-kurangnya pada tahap intuitif, tidak memahami apa itu pangkalan data dan mengapa ia diperlukan. Tidak seperti DBMS hubungan tradisional, konsep OLAP tidak begitu diketahui secara meluas, walaupun hampir semua orang mungkin pernah mendengar istilah misteri "kiub OLAP". Apakah Pemprosesan Analitik Dalam Talian?

OLAP bukanlah produk perisian yang berasingan, bukan bahasa pengaturcaraan, malah teknologi tertentu. Jika kita cuba merangkumi OLAP dalam semua manifestasinya, maka ia adalah satu set konsep, prinsip dan keperluan yang mendasari produk perisian yang memudahkan penganalisis mengakses data. Walaupun tiada siapa yang akan tidak bersetuju dengan definisi sedemikian, adalah diragui bahawa ia akan membawa bukan pakar sedikit pun lebih dekat untuk memahami subjek. Oleh itu, dalam usaha anda untuk memahami OLAP, adalah lebih baik untuk mengambil laluan yang berbeza. Pertama, kita perlu mengetahui sebab penganalisis perlu entah bagaimana secara khusus memudahkan akses kepada data.

Hakikatnya ialah penganalisis adalah pengguna khas maklumat korporat. Tugas penganalisis adalah untuk mencari corak dalam jumlah data yang besar. Oleh itu, penganalisis tidak akan memberi perhatian kepada satu fakta; dia memerlukan maklumat mengenai ratusan dan ribuan peristiwa. Ngomong-ngomong, salah satu perkara penting yang membawa kepada kemunculan OLAP ialah produktiviti dan kecekapan. Mari bayangkan apa yang berlaku apabila penganalisis perlu mendapatkan maklumat, tetapi tiada alat OLAP dalam perusahaan. Penganalisis secara bebas (yang tidak mungkin) atau dengan bantuan pengaturcara membuat pertanyaan SQL yang sesuai dan menerima data yang diminati dalam bentuk laporan atau mengeksportnya ke hamparan. Banyak masalah yang timbul dalam kes ini. Pertama, penganalisis terpaksa melakukan sesuatu selain daripada tugasnya (pengaturcaraan SQL) atau menunggu pengaturcara menyelesaikan tugas untuknya - semua ini menjejaskan produktiviti buruh secara negatif, kadar serangan jantung dan strok meningkat, dan sebagainya. Kedua, satu laporan atau jadual, sebagai peraturan, tidak menyelamatkan gergasi pemikiran dan bapa analisis Rusia - dan keseluruhan prosedur perlu diulang lagi dan lagi. Ketiga, seperti yang telah kita ketahui, penganalisis tidak bertanya tentang perkara kecil - mereka memerlukan semuanya sekaligus. Ini bermakna (walaupun teknologi semakin maju dengan pesat) bahawa pelayan DBMS hubungan korporat yang diakses oleh penganalisis boleh berfikir secara mendalam dan untuk masa yang lama, menyekat urus niaga lain.

Konsep OLAP muncul tepat untuk menyelesaikan masalah tersebut. Kiub OLAP pada asasnya adalah laporan meta. Dengan memotong laporan meta (kiub, iaitu) sepanjang dimensi, penganalisis sebenarnya menerima laporan dua dimensi "biasa" yang menarik minatnya (ini tidak semestinya laporan dalam erti kata biasa - kita bercakap tentang struktur data dengan fungsi yang sama). Kelebihan kiub adalah jelas - data perlu diminta daripada DBMS hubungan sekali sahaja - apabila membina kiub. Oleh kerana penganalisis, sebagai peraturan, tidak bekerja dengan maklumat yang ditambah dan diubah dengan cepat, kiub yang dihasilkan adalah relevan untuk masa yang agak lama. Terima kasih kepada ini, bukan sahaja gangguan dalam operasi pelayan DBMS hubungan dihapuskan (tidak ada pertanyaan dengan beribu-ribu dan berjuta-juta talian tindak balas), tetapi kelajuan akses kepada data untuk penganalisis sendiri juga meningkat dengan mendadak. Di samping itu, seperti yang telah dinyatakan, prestasi juga dipertingkatkan dengan mengira subsum hierarki dan nilai agregat lain pada masa kubus dibina.

Sudah tentu, anda perlu membayar untuk meningkatkan produktiviti dengan cara ini. Kadangkala dikatakan bahawa struktur data hanya "meletup" - kiub OLAP boleh mengambil ruang berpuluh atau bahkan ratusan kali lebih banyak daripada data asal.

Memandangkan kita mempunyai sedikit pemahaman tentang cara OLAP berfungsi dan fungsinya, ia masih berbaloi untuk memformalkan pengetahuan kita dan memberikan kriteria OLAP tanpa terjemahan serentak ke dalam bahasa manusia biasa. Kriteria ini (12 kesemuanya) telah dirumuskan pada tahun 1993 oleh E.F. Codd - pencipta konsep DBMS hubungan dan, serentak, OLAP. Kami tidak akan mempertimbangkannya secara langsung, kerana ia kemudiannya diolah semula ke dalam apa yang dipanggil ujian FASMI, yang menentukan keperluan untuk produk OLAP. FASMI ialah akronim untuk nama setiap item ujian:

Cepat (cepat). Sifat ini bermakna sistem mesti memberikan respons kepada permintaan pengguna dalam purata lima saat; walau bagaimanapun, kebanyakan permintaan diproses dalam masa satu saat, dan permintaan yang paling kompleks harus diproses dalam masa dua puluh saat. Kajian terbaru menunjukkan bahawa pengguna mula meragui kejayaan permintaan jika ia mengambil masa lebih daripada tiga puluh saat.

Analisis (analitik). Sistem mesti boleh mengendalikan sebarang analisis logik dan statistik yang tipikal bagi aplikasi perniagaan, dan memastikan bahawa hasilnya disimpan dalam bentuk yang boleh diakses oleh pengguna akhir. Alat analisis mungkin termasuk prosedur untuk menganalisis siri masa, pengagihan kos, penukaran mata wang, perubahan model dalam struktur organisasi dan beberapa yang lain.

Dikongsi. Sistem harus menyediakan peluang yang mencukupi untuk menyekat akses kepada data dan operasi serentak banyak pengguna.

Berbilang dimensi (multidimensi). Sistem mesti menyediakan pandangan data berbilang dimensi secara konsep, termasuk sokongan penuh untuk berbilang hierarki.

Maklumat. Kuasa pelbagai produk perisian dicirikan oleh jumlah data input yang diproses. Sistem OLAP yang berbeza mempunyai kapasiti yang berbeza: penyelesaian OLAP lanjutan boleh mengendalikan sekurang-kurangnya seribu kali lebih banyak data daripada yang paling berkuasa. Apabila memilih alat OLAP, terdapat beberapa faktor yang perlu dipertimbangkan, termasuk pertindihan data, keperluan memori, penggunaan ruang cakera, metrik prestasi, penyepaduan dengan gudang maklumat dan sebagainya.

1. Klasifikasi produk OLAP

Jadi, intipati OLAP ialah sumber maklumat untuk analisis dibentangkan dalam bentuk kiub multidimensi, dan adalah mungkin untuk memanipulasinya secara sewenang-wenangnya dan mendapatkan bahagian maklumat yang diperlukan - laporan. Dalam kes ini, pengguna akhir melihat kubus sebagai jadual dinamik berbilang dimensi yang secara automatik meringkaskan data (fakta) dalam pelbagai bahagian (dimensi) dan membenarkan pengurusan pengiraan dan bentuk laporan secara interaktif. Operasi ini dilakukan oleh enjin OLAP (atau enjin pengiraan OLAP).

Hari ini, banyak produk telah dibangunkan di seluruh dunia yang melaksanakan teknologi OLAP. Untuk menjadikannya lebih mudah untuk menavigasi antara mereka, klasifikasi produk OLAP digunakan: dengan kaedah menyimpan data untuk analisis dan dengan lokasi mesin OLAP. Mari kita lihat dengan lebih dekat setiap kategori produk OLAP.

Saya akan mulakan dengan klasifikasi berdasarkan kaedah penyimpanan data. Biar saya ingatkan anda bahawa kiub berbilang dimensi dibina berdasarkan data sumber dan agregat. Kedua-dua sumber dan data agregat untuk kubus boleh disimpan dalam kedua-dua pangkalan data hubungan dan multidimensi. Oleh itu, tiga kaedah storan data sedang digunakan: MOLAP (Multidimensi OLAP), ROLAP (Relational OLAP) dan HOLAP (Hybrid OLAP). Sehubungan itu, produk OLAP dibahagikan kepada tiga kategori yang serupa berdasarkan kaedah penyimpanan data:

1. Dalam kes MOLAP, data sumber dan agregat disimpan dalam pangkalan data berbilang dimensi atau dalam kiub tempatan berbilang dimensi.

2.Dalam produk ROLAP, data sumber disimpan dalam pangkalan data hubungan atau dalam jadual tempatan rata pada pelayan fail. Data agregat boleh diletakkan dalam jadual perkhidmatan dalam pangkalan data yang sama. Penukaran data daripada pangkalan data hubungan kepada kiub berbilang dimensi berlaku atas permintaan alat OLAP.

3. Apabila menggunakan seni bina HOLAP, data sumber kekal dalam pangkalan data hubungan, dan agregat diletakkan dalam satu multidimensi. Kubus OLAP dibina atas permintaan alat OLAP berdasarkan data hubungan dan multidimensi.

Klasifikasi seterusnya adalah berdasarkan lokasi mesin OLAP. Berdasarkan ciri ini, produk OLAP dibahagikan kepada pelayan OLAP dan pelanggan OLAP:

Dalam alat OLAP pelayan, pengiraan dan penyimpanan data agregat dilakukan oleh proses berasingan - pelayan. Aplikasi klien hanya menerima hasil pertanyaan terhadap kiub multidimensi yang disimpan pada pelayan. Sesetengah pelayan OLAP menyokong penyimpanan data hanya dalam pangkalan data hubungan, beberapa hanya dalam pangkalan data berbilang dimensi. Banyak pelayan OLAP moden menyokong ketiga-tiga kaedah penyimpanan data: MOLAP, ROLAP dan HOLAP.

Pelanggan OLAP direka secara berbeza. Pembinaan kiub multidimensi dan pengiraan OLAP dilakukan dalam ingatan komputer pelanggan. Pelanggan OLAP juga dibahagikan kepada ROLAP dan MOLAP. Dan sesetengah mungkin menyokong kedua-dua pilihan akses data.

Setiap pendekatan ini mempunyai kebaikan dan keburukan tersendiri. Bertentangan dengan kepercayaan popular tentang kelebihan alat pelayan berbanding alat klien, dalam beberapa kes, menggunakan klien OLAP untuk pengguna boleh menjadi lebih berkesan dan menguntungkan daripada menggunakan pelayan OLAP.

2. Pelanggan OLAP - pelayan OLAP: kebaikan dan keburukan

Apabila membina sistem maklumat, fungsi OLAP boleh dilaksanakan menggunakan kedua-dua alat OLAP pelayan dan klien. Dalam amalan, pilihan adalah pertukaran antara prestasi dan kos perisian.

Jumlah data ditentukan oleh gabungan ciri-ciri berikut: bilangan rekod, bilangan dimensi, bilangan elemen dimensi, panjang dimensi dan bilangan fakta. Adalah diketahui bahawa pelayan OLAP boleh memproses volum data yang lebih besar daripada klien OLAP dengan kuasa komputer yang sama. Ini kerana pelayan OLAP menyimpan pangkalan data berbilang dimensi yang mengandungi kiub prakiraan pada cakera keras.

Apabila menjalankan operasi OLAP, program klien melaksanakan pertanyaan padanya dalam bahasa seperti SQL, tidak menerima keseluruhan kiub, tetapi serpihan yang dipaparkan. Pelanggan OLAP mesti mempunyai keseluruhan kiub dalam RAM pada masa operasi. Dalam kes seni bina ROLAP, pertama sekali anda perlu memuatkan keseluruhan tatasusunan data yang digunakan untuk mengira kubus ke dalam memori. Selain itu, apabila bilangan dimensi, fakta atau ahli dimensi bertambah, bilangan agregat berkembang dengan pesat. Oleh itu, jumlah data yang diproses oleh klien OLAP secara langsung bergantung pada jumlah RAM pada PC pengguna.

Walau bagaimanapun, ambil perhatian bahawa kebanyakan pelanggan OLAP menyediakan pengkomputeran teragih. Oleh itu, bilangan rekod yang diproses, yang mengehadkan kerja alat OLAP pelanggan, difahami bukan sebagai jumlah data utama dalam pangkalan data korporat, tetapi sebagai saiz sampel agregat daripadanya. Pelanggan OLAP menjana permintaan kepada DBMS, yang menerangkan keadaan penapisan dan algoritma untuk pengumpulan awal data utama. Pelayan mencari, mengumpulkan rekod dan mengembalikan pilihan padat untuk pengiraan OLAP selanjutnya. Saiz sampel ini boleh berpuluh-puluh atau ratusan kali lebih kecil daripada volum rekod primer dan tidak terkumpul. Akibatnya, keperluan untuk klien OLAP sedemikian dalam sumber PC berkurangan dengan ketara.

Di samping itu, bilangan dimensi tertakluk kepada batasan dalam persepsi manusia. Adalah diketahui bahawa orang biasa boleh beroperasi secara serentak dengan 3-4, maksimum 8 dimensi. Dengan bilangan dimensi yang lebih besar dalam jadual dinamik, persepsi maklumat menjadi jauh lebih sukar. Faktor ini perlu diambil kira semasa pengiraan awal RAM yang mungkin diperlukan oleh klien OLAP.

Panjang dimensi juga mempengaruhi saiz ruang alamat enjin OLAP apabila mengira kiub OLAP. Lebih panjang dimensi, lebih banyak sumber diperlukan untuk menyusun semula tatasusunan berbilang dimensi, dan sebaliknya. Hanya ukuran pendek dalam data sumber adalah satu lagi hujah yang memihak kepada klien OLAP.

Ciri ini ditentukan oleh dua faktor yang dibincangkan di atas: jumlah data yang diproses dan kuasa komputer. Apabila bilangan, sebagai contoh, dimensi meningkat, prestasi semua alat OLAP berkurangan disebabkan oleh peningkatan ketara dalam bilangan agregat, tetapi kadar penurunan adalah berbeza. Mari kita tunjukkan pergantungan ini pada graf.

Skim 1. Kebergantungan prestasi alat OLAP klien dan pelayan pada peningkatan volum data

Ciri-ciri kelajuan pelayan OLAP kurang sensitif terhadap pertumbuhan data. Ini dijelaskan oleh teknologi yang berbeza untuk memproses permintaan pengguna oleh pelayan OLAP dan klien OLAP. Contohnya, semasa operasi latih tubi, pelayan OLAP mengakses data yang disimpan dan "menarik" data daripada "cawangan" ini. Pelanggan OLAP mengira keseluruhan set agregat pada masa pemuatan. Walau bagaimanapun, sehingga jumlah data tertentu, prestasi alat pelayan dan klien adalah setanding. Untuk pelanggan OLAP yang menyokong pengkomputeran teragih, skop kebolehbandingan prestasi boleh dilanjutkan kepada volum data yang meliputi keperluan analisis OLAP bagi sejumlah besar pengguna. Ini disahkan oleh keputusan ujian dalaman MS OLAP Server dan klien OLAP "Kontur Standard". Ujian telah dilakukan pada IBM PC Pentium Celeron 400 MHz, 256 Mb untuk sampel 1 juta rekod unik (iaitu, agregat) dengan 7 dimensi yang mengandungi daripada 10 hingga 70 ahli. Masa pemuatan kiub dalam kedua-dua kes tidak melebihi 1 saat, dan pelbagai operasi OLAP (gerudi ke atas, gerudi ke bawah, bergerak, penapis, dll.) diselesaikan dalam seperseratus saat.

Apabila saiz sampel melebihi jumlah RAM, pertukaran dengan cakera bermula dan prestasi klien OLAP menurun dengan mendadak. Hanya dari saat ini kita boleh bercakap tentang kelebihan pelayan OLAP.

Harus diingat bahawa "titik pecah" menentukan had kenaikan mendadak dalam kos penyelesaian OLAP. Untuk tugas setiap pengguna tertentu, titik ini mudah ditentukan oleh ujian prestasi klien OLAP. Ujian sedemikian boleh didapati daripada syarikat pembangunan.

Di samping itu, kos penyelesaian OLAP pelayan meningkat apabila bilangan pengguna meningkat. Hakikatnya ialah pelayan OLAP melakukan pengiraan untuk semua pengguna pada satu komputer. Oleh itu, lebih ramai pengguna, lebih banyak RAM dan kuasa pemprosesan. Oleh itu, jika jumlah data yang diproses berada dalam bidang prestasi setanding sistem pelayan dan pelanggan, maka, perkara lain yang sama, menggunakan klien OLAP akan lebih menguntungkan.

Menggunakan pelayan OLAP dalam ideologi "klasik" melibatkan memuat naik data DBMS hubungan ke dalam pangkalan data berbilang dimensi. Muat naik dilakukan dalam tempoh tertentu, jadi data pelayan OLAP tidak menggambarkan keadaan semasa. Hanya pelayan OLAP yang menyokong mod operasi ROLAP bebas daripada kelemahan ini.

Begitu juga, beberapa pelanggan OLAP membenarkan anda melaksanakan seni bina ROLAP dan Desktop dengan akses terus kepada pangkalan data. Ini memastikan analisis dalam talian bagi data sumber.

Pelayan OLAP meletakkan keperluan minimum pada kuasa terminal klien. Secara objektif, keperluan pelanggan OLAP lebih tinggi, kerana... ia melakukan pengiraan dalam RAM PC pengguna. Keadaan armada perkakasan organisasi tertentu ialah penunjuk paling penting yang mesti diambil kira semasa memilih alat OLAP. Tetapi terdapat juga "kebaikan" dan "keburukan" di sini. Pelayan OLAP tidak menggunakan kuasa pengkomputeran besar komputer peribadi moden. Jika organisasi sudah mempunyai kumpulan PC moden, adalah tidak berkesan untuk menggunakannya hanya sebagai terminal paparan dan pada masa yang sama menanggung kos tambahan untuk pelayan pusat.

Jika kuasa komputer pengguna "meninggalkan banyak yang diingini", pelanggan OLAP akan berfungsi dengan perlahan atau tidak dapat berfungsi langsung. Membeli satu pelayan berkuasa mungkin lebih murah daripada menaik taraf semua PC anda.

Di sini adalah berguna untuk mengambil kira trend dalam pembangunan perkakasan. Memandangkan volum data untuk analisis boleh dikatakan malar, peningkatan yang stabil dalam kuasa PC akan membawa kepada pengembangan keupayaan pelanggan OLAP dan anjakan pelayan OLAP mereka ke dalam segmen pangkalan data yang sangat besar.

Apabila menggunakan pelayan OLAP melalui rangkaian, hanya data yang akan dipaparkan dipindahkan ke PC klien, manakala klien OLAP menerima keseluruhan volum data primer.

Oleh itu, apabila klien OLAP digunakan, trafik rangkaian akan menjadi lebih tinggi.

Tetapi, apabila menggunakan pelayan OLAP, operasi pengguna, contohnya, memperincikan, menjana pertanyaan baharu kepada pangkalan data berbilang dimensi, dan, oleh itu, pemindahan data baharu. Pelaksanaan operasi OLAP oleh klien OLAP dilakukan dalam RAM dan, oleh itu, tidak menyebabkan aliran data baharu dalam rangkaian.

Ia juga harus diperhatikan bahawa perkakasan rangkaian moden menyediakan tahap pemprosesan yang tinggi.

Oleh itu, dalam kebanyakan kes, menganalisis pangkalan data bersaiz "sederhana" menggunakan klien OLAP tidak akan melambatkan kerja pengguna.

Kos pelayan OLAP agak tinggi. Ini juga harus termasuk kos komputer khusus dan kos berterusan untuk mentadbir pangkalan data pelbagai dimensi. Selain itu, pelaksanaan dan penyelenggaraan pelayan OLAP memerlukan kakitangan yang cukup berkelayakan tinggi.

Kos pelanggan OLAP ialah susunan magnitud yang lebih rendah daripada kos pelayan OLAP. Tiada pentadbiran atau peralatan teknikal tambahan diperlukan untuk pelayan. Tiada keperluan tinggi untuk kelayakan kakitangan semasa melaksanakan pelanggan OLAP. Pelanggan OLAP boleh dilaksanakan dengan lebih pantas daripada pelayan OLAP.

Pembangunan aplikasi analisis menggunakan alat OLAP pelanggan adalah proses yang pantas dan tidak memerlukan latihan khas. Pengguna yang mengetahui pelaksanaan fizikal pangkalan data boleh membangunkan aplikasi analisis secara bebas, tanpa penglibatan pakar IT. Apabila menggunakan pelayan OLAP, anda perlu mempelajari 2 sistem yang berbeza, kadangkala daripada vendor yang berbeza - untuk membuat kiub pada pelayan dan untuk membangunkan aplikasi klien. Pelanggan OLAP menyediakan antara muka visual tunggal untuk menerangkan kiub dan menyediakan antara muka pengguna untuknya.

Mari kita jalani proses mencipta aplikasi OLAP menggunakan alat klien.

Rajah 2. Mencipta aplikasi OLAP menggunakan alat klien ROLAP

Prinsip operasi pelanggan ROLAP ialah penerangan awal lapisan semantik, di belakangnya struktur fizikal data sumber disembunyikan. Dalam kes ini, sumber data boleh menjadi: jadual tempatan, RDBMS. Senarai sumber data yang disokong ditentukan oleh produk perisian tertentu. Selepas ini, pengguna boleh secara bebas memanipulasi objek yang dia fahami dari segi kawasan subjek untuk mencipta kiub dan antara muka analitik.

Prinsip pengendalian klien pelayan OLAP adalah berbeza. Dalam pelayan OLAP, apabila mencipta kiub, pengguna memanipulasi penerangan fizikal pangkalan data.

Pada masa yang sama, perihalan tersuai dibuat dalam kiub itu sendiri. Pelanggan pelayan OLAP dikonfigurasikan hanya untuk kiub.

Mari kita terangkan prinsip operasi pelanggan ROLAP menggunakan contoh mencipta laporan jualan dinamik (lihat Rajah 2). Biarkan data awal untuk analisis disimpan dalam dua jadual: Jualan dan Tawaran.

Apabila membuat lapisan semantik, sumber data - jadual Jualan dan Tawaran - diterangkan dalam istilah yang boleh difahami oleh pengguna akhir dan bertukar menjadi "Produk" dan "Tawaran". Medan "ID" daripada jadual "Produk" dinamakan semula kepada "Kod", dan "Nama" kepada "Produk", dsb.

Kemudian objek perniagaan Jualan dicipta. Objek perniagaan ialah jadual rata yang berasaskannya sebuah kubus berbilang dimensi dibentuk. Apabila membuat objek perniagaan, jadual "Produk" dan "Transaksi" digabungkan dengan medan "Kod" produk. Memandangkan semua medan jadual tidak diperlukan untuk paparan dalam laporan, objek perniagaan hanya menggunakan medan "Item", "Tarikh" dan "Jumlah".

Seterusnya, laporan OLAP dibuat berdasarkan objek perniagaan. Pengguna memilih objek perniagaan dan menyeret atributnya ke kawasan lajur atau baris jadual laporan. Dalam contoh kami, berdasarkan objek perniagaan "Jualan", laporan tentang jualan produk mengikut bulan telah dibuat.

Apabila bekerja dengan laporan interaktif, pengguna boleh menetapkan syarat penapisan dan pengumpulan dengan pergerakan tetikus mudah yang sama. Pada ketika ini, klien ROLAP mengakses data dalam cache. Pelanggan pelayan OLAP menjana pertanyaan baharu kepada pangkalan data berbilang dimensi. Contohnya, dengan menggunakan penapis mengikut produk dalam laporan jualan, anda boleh mendapatkan laporan tentang jualan produk yang menarik minat kami.

Semua tetapan aplikasi OLAP boleh disimpan dalam repositori metadata khusus, dalam aplikasi, atau dalam repositori sistem pangkalan data berbilang dimensi. Pelaksanaan bergantung pada produk perisian tertentu.

Jadi, dalam kes apakah penggunaan klien OLAP boleh menjadi lebih berkesan dan menguntungkan bagi pengguna daripada menggunakan pelayan OLAP?

Kebolehlaksanaan ekonomi untuk menggunakan pelayan OLAP timbul apabila volum data sangat besar dan memberangsangkan untuk klien OLAP, jika tidak, penggunaan yang terakhir adalah lebih wajar. Dalam kes ini, pelanggan OLAP menggabungkan ciri prestasi tinggi dan kos rendah.

PC yang berkuasa untuk penganalisis ialah satu lagi hujah yang memihak kepada pelanggan OLAP. Apabila menggunakan pelayan OLAP, kapasiti ini tidak digunakan. Antara kelebihan pelanggan OLAP adalah seperti berikut:

Kos untuk melaksanakan dan menyelenggara klien OLAP jauh lebih rendah daripada kos pelayan OLAP.

Apabila menggunakan klien OLAP dengan mesin terbenam, data dipindahkan melalui rangkaian sekali. Semasa menjalankan operasi OLAP, tiada aliran data baharu dijana.

Menyediakan pelanggan ROLAP dipermudahkan dengan menghapuskan langkah perantaraan - mencipta pangkalan data berbilang dimensi.

3. Sistem teras OLAP

3.1 Prinsip reka bentuk

data teras klien aplikasi

Daripada apa yang telah diperkatakan, jelas bahawa mekanisme OLAP adalah salah satu kaedah analisis data yang popular hari ini. Terdapat dua pendekatan utama untuk menyelesaikan masalah ini. Yang pertama dipanggil OLAP Multidimensional (MOLAP) - pelaksanaan mekanisme menggunakan pangkalan data berbilang dimensi di bahagian pelayan, dan OLAP Perhubungan kedua (ROLAP) - membina kiub dengan cepat berdasarkan pertanyaan SQL kepada DBMS hubungan. Setiap pendekatan ini mempunyai kebaikan dan keburukan. Analisis perbandingan mereka berada di luar skop kerja ini. Hanya pelaksanaan teras modul ROLAP desktop akan diterangkan di sini.

Tugas ini timbul selepas menggunakan sistem ROLAP yang dibina berdasarkan komponen Decision Cube yang disertakan dalam Borland Delphi. Malangnya, penggunaan set komponen ini menunjukkan prestasi yang lemah pada jumlah data yang besar. Masalah ini boleh dikurangkan dengan cuba memotong sebanyak mungkin data sebelum memasukkannya ke dalam kiub. Tetapi ini tidak selalu mencukupi.

Anda boleh mendapatkan banyak maklumat tentang sistem OLAP di Internet dan dalam akhbar, tetapi hampir tidak ada yang dikatakan tentang cara ia berfungsi di dalam.

Skim kerja:

Skim umum operasi sistem OLAP desktop boleh diwakili seperti berikut:

Rajah 3. Pengendalian sistem OLAP desktop

Algoritma operasi adalah seperti berikut:

1. Mendapatkan data dalam bentuk jadual rata atau hasil daripada melaksanakan pertanyaan SQL.

2.Caching data dan menukarkannya kepada kiub multidimensi.

3.Memaparkan kiub yang dibina menggunakan tab silang atau carta, dsb. Secara umum, bilangan paparan sewenang-wenangnya boleh disambungkan kepada satu kiub.

Mari kita pertimbangkan bagaimana sistem sedemikian boleh diatur secara dalaman. Kita akan bermula dari sisi yang boleh dilihat dan disentuh, iaitu dari paparan. Paparan yang digunakan dalam sistem OLAP selalunya datang dalam dua jenis - tab silang dan carta. Mari lihat tab silang, yang merupakan cara asas dan paling biasa untuk memaparkan kiub.

Dalam rajah di bawah, baris dan lajur yang mengandungi hasil agregat ditunjukkan dalam warna kuning, sel yang mengandungi fakta adalah dalam kelabu muda dan sel yang mengandungi data dimensi adalah dalam kelabu gelap.

Oleh itu, jadual boleh dibahagikan kepada elemen berikut, yang akan kami bekerjasama pada masa hadapan:

Apabila mengisi matriks dengan fakta, kita mesti meneruskan seperti berikut:

Berdasarkan data ukuran, tentukan koordinat unsur yang akan ditambah dalam matriks.

Tentukan koordinat lajur dan baris bagi jumlah yang dipengaruhi oleh elemen tambahan.

Tambahkan elemen pada matriks dan jumlah lajur dan baris yang sepadan.

Perlu diingatkan bahawa matriks yang dihasilkan akan sangat jarang, itulah sebabnya organisasinya dalam bentuk tatasusunan dua dimensi (pilihan yang terletak di permukaan) bukan sahaja tidak rasional, tetapi, kemungkinan besar, mustahil kerana besarnya. dimensi matriks ini, untuk menyimpan yang tiada Jumlah RAM tidak mencukupi. Sebagai contoh, jika kiub kami mengandungi maklumat tentang jualan selama satu tahun, dan jika ia hanya mempunyai 3 dimensi - Pelanggan (250), Produk (500) dan Tarikh (365), maka kami akan mendapat matriks fakta bagi dimensi berikut: nombor daripada unsur = 250 x 500 x 365 = 45,625,000. Dan ini walaupun pada hakikatnya mungkin terdapat hanya beberapa ribu elemen terisi dalam matriks. Lebih-lebih lagi, semakin besar bilangan dimensi, semakin jarang matriks itu.

Oleh itu, untuk bekerja dengan matriks ini, anda perlu menggunakan mekanisme khas untuk bekerja dengan matriks jarang. Pelbagai pilihan untuk mengatur matriks jarang adalah mungkin. Mereka digambarkan dengan baik dalam kesusasteraan pengaturcaraan, contohnya, dalam jilid pertama buku klasik "The Art of Programming" oleh Donald Knuth.

Sekarang mari kita pertimbangkan bagaimana kita boleh menentukan koordinat fakta, mengetahui dimensi yang sepadan dengannya. Untuk melakukan ini, mari kita lihat dengan lebih dekat struktur pengepala:

Dalam kes ini, anda boleh dengan mudah mencari cara untuk menentukan nombor sel yang sepadan dan jumlah di mana ia jatuh. Beberapa pendekatan boleh dicadangkan di sini. Salah satunya ialah menggunakan pokok untuk mencari sel yang sepadan. Pokok ini boleh dibina dengan melintasi pemilihan. Di samping itu, formula ulangan analitik boleh ditakrifkan dengan mudah untuk mengira koordinat yang diperlukan.

Data yang disimpan dalam jadual perlu diubah untuk digunakan. Oleh itu, untuk meningkatkan prestasi apabila membina hiperkubus, adalah wajar untuk mencari elemen unik yang disimpan dalam lajur yang merupakan dimensi kubus. Selain itu, anda boleh melakukan pengagregatan awal fakta untuk rekod yang mempunyai nilai dimensi yang sama. Seperti yang dinyatakan di atas, nilai unik yang tersedia dalam medan pengukuran adalah penting bagi kami. Kemudian struktur berikut boleh dicadangkan untuk menyimpannya:

Skim 4. Struktur untuk menyimpan nilai unik

Dengan menggunakan struktur ini, kami mengurangkan keperluan memori dengan ketara. Yang agak relevan, kerana... Untuk meningkatkan kelajuan operasi, adalah dinasihatkan untuk menyimpan data dalam RAM. Di samping itu, anda hanya boleh menyimpan pelbagai elemen, dan membuang nilainya ke cakera, kerana kami hanya memerlukannya apabila memaparkan tab silang.

Idea yang diterangkan di atas adalah asas untuk mencipta perpustakaan komponen CubeBase.

Rajah 5. Struktur perpustakaan komponen CubeBase

TСubeSource melaksanakan caching dan penukaran data ke dalam format dalaman, serta pengagregatan awal data. Komponen TCubeEngine melakukan pengiraan dan operasi hypercube dengannya. Malah, ia adalah enjin OLAP yang mengubah jadual rata kepada set data berbilang dimensi. Komponen TcubeGrid memaparkan tab silang dan mengawal paparan hypercube. TСubeChart membolehkan anda melihat hiperkubus dalam bentuk graf, dan komponen TСubePivote mengawal operasi teras kubus.

Jadi, saya melihat seni bina dan interaksi komponen yang boleh digunakan untuk membina mesin OLAP. Sekarang mari kita lihat dengan lebih dekat struktur dalaman komponen.

Peringkat pertama sistem akan memuatkan data dan menukarnya ke dalam format dalaman. Soalan logik ialah: mengapa ini perlu, kerana anda boleh menggunakan data dari jadual rata, melihatnya semasa membina kepingan kiub. Untuk menjawab soalan ini, mari kita lihat struktur jadual dari sudut pandangan mesin OLAP. Untuk sistem OLAP, lajur jadual boleh sama ada fakta atau dimensi. Walau bagaimanapun, logik untuk bekerja dengan lajur ini akan berbeza. Dalam hypercube, dimensi sebenarnya adalah paksi, dan nilai dimensi ialah koordinat pada paksi tersebut. Dalam kes ini, kiub akan diisi dengan sangat tidak sekata - akan terdapat gabungan koordinat yang tidak sepadan dengan mana-mana rekod dan akan ada kombinasi yang sepadan dengan beberapa rekod dalam jadual asal, dan situasi pertama adalah lebih biasa, iaitu , kubus akan serupa dengan alam semesta - ruang kosong, di beberapa tempat yang terdapat gugusan titik (fakta). Oleh itu, jika kami melakukan pengagregatan data semasa pemuatan data awal, iaitu, kami menggabungkan rekod yang mempunyai nilai pengukuran yang sama, sambil mengira nilai fakta agregat awal, maka pada masa hadapan kami perlu bekerja dengan lebih sedikit rekod, yang akan meningkatkan kelajuan kerja dan mengurangkan keperluan kepada jumlah RAM.

Untuk membina kepingan hypercube, kita memerlukan keupayaan berikut - menentukan koordinat (sebenarnya nilai pengukuran) untuk rekod jadual, serta mentakrifkan rekod yang mempunyai koordinat tertentu (nilai ukuran). Mari kita pertimbangkan bagaimana kemungkinan ini boleh direalisasikan. Cara paling mudah untuk menyimpan hypercube ialah menggunakan pangkalan data format dalamannya sendiri.

Secara skematik, transformasi boleh diwakili seperti berikut:

Rajah 6: Menukar Pangkalan Data Format Dalaman kepada Pangkalan Data Ternormal

Iaitu, bukannya satu jadual, kami mendapat pangkalan data yang dinormalkan. Sebenarnya, normalisasi mengurangkan kelajuan sistem, pakar pangkalan data mungkin berkata, dan dalam hal ini mereka pastinya betul, sekiranya kita perlu mendapatkan nilai untuk elemen kamus (dalam kes kita, nilai pengukuran). Tetapi masalahnya ialah kita tidak memerlukan nilai ini sama sekali pada peringkat membina kepingan. Seperti yang dinyatakan di atas, kami hanya berminat dengan koordinat dalam hypercube kami, jadi kami akan menentukan koordinat untuk nilai pengukuran. Perkara paling mudah untuk dilakukan ialah menomborkan semula nilai elemen. Agar penomboran menjadi jelas dalam satu dimensi, kami mula-mula mengisih senarai nilai dimensi (kamus, dalam istilah pangkalan data) dalam susunan abjad. Di samping itu, kami akan menomborkan semula fakta, dan fakta adalah pra-agregat. Kami mendapat rajah berikut:

Skim 7. Menomborkan semula pangkalan data ternormal untuk menentukan koordinat nilai pengukuran

Sekarang yang tinggal hanyalah menyambungkan unsur-unsur jadual yang berbeza antara satu sama lain. Dalam teori pangkalan data hubungan, ini dilakukan menggunakan jadual perantaraan khas. Cukuplah untuk kita mengaitkan setiap entri dalam jadual ukuran dengan senarai, unsur-unsurnya akan menjadi bilangan fakta dalam pembentukan yang mana ukuran ini digunakan (iaitu, untuk menentukan semua fakta yang mempunyai nilai yang sama koordinat yang diterangkan oleh ukuran ini). Untuk fakta, setiap rekod akan dipadankan dengan nilai koordinat di mana ia terletak dalam hypercube. Pada masa hadapan, koordinat rekod dalam hiperkubus akan difahami sebagai nombor rekod yang sepadan dalam jadual nilai ukuran. Kemudian untuk contoh hipotetikal kami, kami mendapat set berikut yang mentakrifkan perwakilan dalaman hypercube:

Rajah 8. Perwakilan dalaman hiperkubus

Ini akan menjadi perwakilan dalaman kami bagi hypercube. Oleh kerana kami tidak menjadikannya untuk pangkalan data hubungan, kami hanya menggunakan medan dengan panjang berubah-ubah sebagai medan untuk menyambungkan nilai ukuran (kami tidak akan dapat melakukan ini dalam RDB, kerana bilangan lajur jadual telah ditentukan di sana).

Kami boleh cuba menggunakan set jadual sementara untuk melaksanakan hypercube, tetapi kaedah ini akan memberikan prestasi yang terlalu rendah (contohnya, satu set komponen Decision Cube), jadi kami akan menggunakan struktur penyimpanan data kami sendiri.

Untuk melaksanakan hypercube, kita perlu menggunakan struktur data yang akan memastikan prestasi maksimum dan penggunaan RAM yang minimum. Jelas sekali, struktur utama kami adalah untuk menyimpan kamus dan jadual fakta. Mari kita lihat tugas yang mesti dilakukan oleh kamus pada kelajuan maksimum:

menyemak kehadiran unsur dalam kamus;

menambah elemen pada kamus;

cari nombor rekod yang mempunyai nilai koordinat tertentu;

cari koordinat mengikut nilai pengukuran;

mencari nilai ukuran mengikut koordinatnya.

Pelbagai jenis data dan struktur boleh digunakan untuk melaksanakan keperluan ini. Sebagai contoh, anda boleh menggunakan tatasusunan struktur. Dalam kes sebenar, tatasusunan ini memerlukan mekanisme pengindeksan tambahan yang akan meningkatkan kelajuan memuatkan data dan mendapatkan maklumat.

Untuk mengoptimumkan operasi hypercube, adalah perlu untuk menentukan tugas mana yang perlu diselesaikan sebagai keutamaan, dan dengan kriteria apa yang kita perlukan untuk meningkatkan kualiti kerja. Perkara utama bagi kami adalah untuk meningkatkan kelajuan program, sementara adalah wajar bahawa jumlah RAM yang tidak terlalu besar diperlukan. Peningkatan prestasi adalah mungkin melalui pengenalan mekanisme tambahan untuk mengakses data, contohnya, pengenalan pengindeksan. Malangnya, ini meningkatkan overhed RAM. Oleh itu, kami akan menentukan operasi mana yang perlu kami lakukan pada kelajuan tertinggi. Untuk melakukan ini, pertimbangkan komponen individu yang melaksanakan hypercube. Komponen ini mempunyai dua jenis utama - dimensi dan jadual fakta. Untuk pengukuran, tugas biasa ialah:

menambah nilai baharu;

menentukan koordinat berdasarkan nilai ukuran;

penentuan nilai dengan koordinat.

Apabila menambah nilai elemen baharu, kita perlu menyemak sama ada kita sudah mempunyai nilai sedemikian, dan jika ya, maka jangan tambah yang baharu, tetapi gunakan koordinat sedia ada, jika tidak, kita perlu menambah elemen baharu dan menentukan koordinatnya. Untuk melakukan ini, anda memerlukan cara untuk mencari kehadiran elemen yang dikehendaki dengan cepat (selain itu, masalah seperti itu timbul apabila menentukan koordinat dengan nilai elemen). Untuk tujuan ini, adalah optimum untuk menggunakan pencincangan. Dalam kes ini, struktur optimum ialah menggunakan pokok hash di mana kami akan menyimpan rujukan kepada elemen. Dalam kes ini, elemen akan menjadi garisan kamus dimensi. Kemudian struktur nilai pengukuran boleh diwakili seperti berikut:

PFactLink = ^TFactLink;

TFactLink = rekod

No Fakta: integer; // indeks fakta dalam jadual

TDimensionRecord = rekod

Nilai: rentetan; // nilai ukuran

Indeks: integer; // nilai koordinat

FactLink: PFactLink; // penunjuk ke permulaan senarai elemen jadual fakta

Dan dalam pokok hash kami akan menyimpan pautan ke elemen unik. Di samping itu, kita perlu menyelesaikan masalah penjelmaan songsang - menggunakan koordinat untuk menentukan nilai pengukuran. Untuk memastikan prestasi maksimum, pengalamatan langsung harus digunakan. Oleh itu, anda boleh menggunakan tatasusunan lain, indeksnya ialah koordinat dimensi dan nilainya ialah pautan ke entri yang sepadan dalam kamus. Walau bagaimanapun, anda boleh melakukannya dengan lebih mudah (dan menjimatkan memori) jika anda menyusun tatasusunan elemen dengan sewajarnya supaya indeks elemen adalah koordinatnya.

Menyusun tatasusunan yang melaksanakan senarai fakta tidak memberikan sebarang masalah tertentu kerana strukturnya yang mudah. Satu-satunya kenyataan adalah bahawa adalah dinasihatkan untuk mengira semua kaedah pengagregatan yang mungkin diperlukan dan yang boleh dikira secara berperingkat (contohnya, jumlah).

Jadi, kami telah menerangkan kaedah untuk menyimpan data dalam bentuk hypercube. Ia membolehkan anda menjana satu set mata dalam ruang berbilang dimensi berdasarkan maklumat yang terdapat dalam gudang data. Agar seseorang dapat bekerja dengan data ini, ia mesti dibentangkan dalam bentuk yang mudah untuk diproses. Dalam kes ini, jadual pangsi dan graf digunakan sebagai jenis utama pembentangan data. Selain itu, kedua-dua kaedah ini sebenarnya adalah unjuran hypercube. Untuk memastikan kecekapan maksimum semasa membina perwakilan, kami akan bermula daripada apa yang diwakili oleh unjuran ini. Mari kita mulakan dengan jadual pangsi, sebagai yang paling penting untuk analisis data.

Mari cari cara untuk melaksanakan struktur sedemikian. Terdapat tiga bahagian yang membentuk jadual pangsi: pengepala baris, pengepala lajur dan jadual sebenar nilai fakta terkumpul. Cara paling mudah untuk mewakili jadual fakta ialah menggunakan tatasusunan dua dimensi, yang dimensinya boleh ditentukan dengan membina pengepala. Malangnya, kaedah paling mudah akan menjadi yang paling tidak cekap, kerana jadual akan sangat jarang, dan memori akan digunakan dengan sangat tidak cekap, akibatnya ia akan menjadi mungkin untuk membina hanya kiub yang sangat kecil, kerana jika tidak, mungkin tidak cukup. ingatan. Oleh itu, kita perlu memilih struktur data untuk menyimpan maklumat yang akan memastikan kelajuan maksimum mencari/menambah elemen baharu dan pada masa yang sama penggunaan minimum RAM. Struktur ini akan menjadi apa yang dipanggil matriks jarang, yang boleh anda baca dengan lebih terperinci dari Knuth. Terdapat pelbagai cara untuk menyusun matriks. Untuk memilih pilihan yang sesuai dengan kami, kami akan mempertimbangkan terlebih dahulu struktur pengepala jadual.

Tajuk mempunyai struktur hierarki yang jelas, jadi adalah wajar untuk menganggap menggunakan pokok untuk menyimpannya. Dalam kes ini, struktur nod pokok boleh digambarkan secara skematik seperti berikut:

Lampiran C

Dalam kes ini, adalah logik untuk menyimpan pautan ke elemen sepadan jadual dimensi bagi kiub berbilang dimensi sebagai nilai dimensi. Ini akan mengurangkan kos memori untuk menyimpan kepingan dan mempercepatkan kerja. Pautan juga digunakan sebagai nod induk dan anak.

Untuk menambah elemen pada pokok, anda mesti mempunyai maklumat tentang lokasinya dalam hypercube. Oleh kerana maklumat sedemikian, anda perlu menggunakan koordinatnya, yang disimpan dalam kamus nilai ukuran. Mari lihat skema untuk menambah elemen pada pokok pengepala jadual pangsi. Dalam kes ini, kami menggunakan nilai koordinat pengukuran sebagai maklumat awal. Susunan dimensi ini disenaraikan ditentukan oleh kaedah pengagregatan yang diingini dan sepadan dengan tahap hierarki pepohon pengepala. Hasil daripada kerja, anda perlu mendapatkan senarai lajur atau baris jadual pangsi yang anda perlukan untuk menambah elemen.

PermohonanD

Kami menggunakan koordinat pengukuran sebagai data awal untuk menentukan struktur ini. Di samping itu, untuk kepastian, kami akan mengandaikan bahawa kami mentakrifkan lajur yang menarik kepada kami dalam matriks (kami akan mempertimbangkan bagaimana untuk menentukan baris sedikit kemudian, kerana lebih mudah untuk menggunakan struktur data lain di sana; sebab untuk pilihan ini juga lihat di bawah). Sebagai koordinat, kami mengambil integer - bilangan nilai ukuran yang boleh ditentukan seperti yang diterangkan di atas.

Jadi, selepas melakukan prosedur ini, kami akan memperoleh pelbagai rujukan kepada lajur matriks jarang. Kini anda perlu melakukan semua tindakan yang diperlukan dengan rentetan. Untuk melakukan ini, anda perlu mencari elemen yang diperlukan di dalam setiap lajur dan menambah nilai yang sepadan di sana. Untuk setiap dimensi dalam koleksi, anda perlu mengetahui bilangan nilai unik dan set sebenar nilai ini.

Sekarang mari kita lihat bentuk di mana nilai di dalam lajur perlu diwakili - iaitu, bagaimana untuk menentukan baris yang diperlukan. Terdapat beberapa pendekatan yang boleh anda gunakan untuk mencapai ini. Yang paling mudah adalah untuk mewakili setiap lajur sebagai vektor, tetapi kerana ia akan menjadi sangat jarang, memori akan digunakan dengan sangat tidak cekap. Untuk mengelakkan ini, kami akan menggunakan struktur data yang akan memberikan kecekapan yang lebih besar dalam mewakili tatasusunan satu dimensi yang jarang (vektor). Yang paling mudah ialah senarai biasa, secara tunggal atau berganda, tetapi ia tidak ekonomik dari sudut mengakses elemen. Oleh itu, kami akan menggunakan pokok, yang akan menyediakan akses yang lebih cepat kepada elemen.

Sebagai contoh, anda boleh menggunakan pokok yang sama seperti untuk lajur, tetapi kemudian anda perlu mencipta pokok anda sendiri untuk setiap lajur, yang akan membawa kepada overhed memori yang ketara dan masa pemprosesan. Mari kita lakukan sedikit lebih rumit - kita akan mencipta satu pokok untuk menyimpan semua kombinasi dimensi yang digunakan dalam rentetan, yang akan sama dengan yang diterangkan di atas, tetapi elemennya tidak akan menjadi penunjuk kepada rentetan (yang tidak wujud seperti itu), tetapi indeks mereka, dan nilai indeks itu sendiri tidak menarik minat kami dan hanya digunakan sebagai kunci unik. Kami kemudian akan menggunakan kekunci ini untuk mencari elemen yang dikehendaki dalam lajur. Lajur itu sendiri paling mudah diwakili sebagai pokok binari biasa. Secara grafik, struktur yang terhasil boleh diwakili seperti berikut:

Rajah 9. Imej jadual pangsi sebagai pokok binari

Anda boleh menggunakan prosedur yang sama seperti prosedur yang diterangkan di atas untuk menentukan lajur jadual pangsi untuk menentukan nombor baris yang sesuai. Dalam kes ini, nombor baris adalah unik dalam satu jadual pangsi dan mengenal pasti elemen dalam vektor yang merupakan lajur jadual pangsi. Pilihan paling mudah untuk menjana nombor ini ialah mengekalkan pembilang dan menambahnya dengan satu apabila menambah elemen baharu pada pokok pengepala baris. Vektor lajur ini sendiri paling mudah disimpan sebagai pokok binari, di mana nilai nombor baris digunakan sebagai kunci. Di samping itu, ia juga mungkin menggunakan jadual hash. Memandangkan prosedur untuk bekerja dengan pokok ini dibincangkan secara terperinci dalam sumber lain, kami tidak akan memikirkan perkara ini dan akan mempertimbangkan skema umum untuk menambah elemen pada lajur.

Secara umum, urutan tindakan untuk menambah elemen pada matriks boleh diterangkan seperti berikut:

1. Tentukan nombor baris yang mana elemen ditambah

2.Tentukan set lajur yang mana elemen ditambah

3. Untuk semua lajur, cari elemen dengan nombor baris yang diperlukan dan tambahkan elemen semasa padanya (menambah termasuk menyambungkan bilangan nilai fakta yang diperlukan dan mengira nilai agregat, yang boleh ditentukan secara berperingkat).

Selepas melaksanakan algoritma ini, kami akan memperoleh matriks, iaitu jadual ringkasan yang perlu kami bina.

Sekarang beberapa perkataan tentang penapisan semasa membina kepingan. Cara paling mudah untuk melakukan ini adalah pada peringkat membina matriks, kerana pada peringkat ini terdapat akses kepada semua medan yang diperlukan, dan, sebagai tambahan, pengagregatan nilai dijalankan. Dalam kes ini, apabila mendapatkan entri daripada cache, pematuhannya dengan syarat penapisan diperiksa, dan jika ia tidak dipenuhi, entri itu dibuang.

Memandangkan struktur yang diterangkan di atas menerangkan sepenuhnya jadual pangsi, tugas untuk memvisualisasikannya akan menjadi remeh. Dalam kes ini, anda boleh menggunakan komponen jadual standard yang tersedia dalam hampir semua alat pengaturcaraan untuk Windows.

Produk pertama yang melaksanakan pertanyaan OLAP ialah Express (IRI). Walau bagaimanapun, istilah OLAP itu sendiri dicipta oleh Edgar Codd, "bapa pangkalan data hubungan." Dan kerja Codd dibiayai oleh Arbor, sebuah syarikat yang telah mengeluarkan produk OLAPnya sendiri, Essbase (kemudian diperoleh oleh Hyperion, yang diperoleh oleh Oracle pada 2007) pada tahun sebelumnya. Produk OLAP terkenal lain termasuk Perkhidmatan Analisis Microsoft (dahulunya Perkhidmatan OLAP, sebahagian daripada SQL Server), Oracle OLAP Option, Pelayan OLAP DB2 IBM (pada asasnya EssBase dengan tambahan daripada IBM), SAP BW, produk Brio, BusinessObjects, Cognos, MicroStrategy dan pengeluar lain.

Dari sudut teknikal, produk di pasaran dibahagikan kepada "OLAP fizikal" dan "maya". Dalam kes pertama, terdapat program yang melakukan pengiraan awal agregat, yang kemudiannya disimpan dalam pangkalan data berbilang dimensi khas yang menyediakan pengambilan cepat. Contoh produk tersebut ialah Microsoft Analysis Services, Oracle OLAP Option, Oracle/Hyperion EssBase, Cognos PowerPlay. Dalam kes kedua, data disimpan dalam DBMS hubungan, dan agregat mungkin tidak wujud sama sekali atau mungkin dibuat atas permintaan pertama dalam DBMS atau cache perisian analitik. Contoh produk tersebut ialah SAP BW, BusinessObjects, Microstrategy. Sistem berdasarkan "OLAP fizikal" memberikan masa tindak balas yang lebih baik secara konsisten kepada pertanyaan daripada sistem "OLAP maya". Vendor OLAP maya mendakwa lebih berskala produk mereka untuk menyokong volum data yang sangat besar.

Dalam kerja ini, saya ingin melihat dengan lebih dekat produk BaseGroup Labs - Deductor.

Deductor ialah platform analitik, i.e. asas untuk mencipta penyelesaian aplikasi yang lengkap. Teknologi yang dilaksanakan dalam Deductor membolehkan anda melalui semua peringkat membina sistem analisis berdasarkan seni bina tunggal: daripada mencipta gudang data kepada memilih model secara automatik dan memvisualisasikan hasil yang diperoleh.

Komposisi sistem:

Deductor Studio ialah teras analisis platform Deductor. Deductor Studio termasuk set penuh mekanisme yang membolehkan anda mendapatkan maklumat daripada sumber data sewenang-wenangnya, menjalankan keseluruhan kitaran pemprosesan (membersihkan, mengubah data, membina model), memaparkan keputusan dengan cara yang paling mudah (OLAP, jadual, carta , pokok keputusan...) dan hasil eksport.

Deductor Viewer ialah stesen kerja pengguna akhir. Program ini membolehkan anda meminimumkan keperluan untuk kakitangan, kerana semua operasi yang diperlukan dilakukan secara automatik menggunakan skrip pemprosesan yang disediakan sebelum ini; tidak perlu memikirkan kaedah mendapatkan data dan mekanisme untuk memprosesnya. Pengguna Dedustor Viewer hanya perlu memilih laporan yang diminati.

Gudang Deductor ialah gudang data merentas platform berbilang dimensi yang mengumpul semua maklumat yang diperlukan untuk menganalisis kawasan subjek. Penggunaan satu repositori membolehkan akses mudah, kelajuan pemprosesan yang tinggi, ketekalan maklumat, storan berpusat dan sokongan automatik untuk keseluruhan proses analisis data.

4. Pelanggan-Pelayan

Pelayan Deductor direka untuk pemprosesan analisis jauh. Ia menyediakan keupayaan untuk kedua-dua data "menjalankan" secara automatik melalui skrip sedia ada pada pelayan dan melatih semula model sedia ada. Menggunakan Pelayan Deductor membolehkan anda melaksanakan seni bina tiga peringkat sepenuhnya di mana ia berfungsi sebagai pelayan aplikasi. Akses kepada pelayan disediakan menggunakan Klien Deductor.

Prinsip kerja:

1. Import data

Analisis sebarang maklumat dalam Deductor bermula dengan import data. Hasil daripada import, data dibawa ke dalam bentuk yang sesuai untuk analisis seterusnya menggunakan semua mekanisme yang tersedia dalam program. Sifat data, format, DBMS, dan lain-lain tidak penting, kerana mekanisme untuk bekerja dengan semua orang adalah bersatu.

2. Eksport data

Kehadiran mekanisme eksport membolehkan anda menghantar hasil yang diperoleh kepada aplikasi pihak ketiga, contohnya, memindahkan ramalan jualan ke sistem untuk menjana pesanan pembelian atau menyiarkan laporan yang disediakan di tapak web korporat.

3. Pemprosesan data

Pemprosesan dalam Deductor bermaksud sebarang tindakan yang dikaitkan dengan beberapa jenis transformasi data, contohnya, penapisan, pembinaan model, pembersihan, dsb. Sebenarnya, dalam blok ini tindakan paling penting dari sudut pandangan analisis dilakukan. Ciri yang paling ketara bagi mekanisme pemprosesan yang dilaksanakan dalam Deductor ialah data yang diperoleh hasil daripada pemprosesan boleh diproses semula oleh mana-mana kaedah yang tersedia untuk sistem. Oleh itu, anda boleh membina senario pemprosesan yang kompleks secara sewenang-wenangnya.

4. Visualisasi

Anda boleh menggambarkan data dalam Deductor Studio (Viewer) pada mana-mana peringkat pemprosesan. Sistem secara bebas menentukan bagaimana ia boleh melakukan ini, sebagai contoh, jika rangkaian saraf dilatih, maka sebagai tambahan kepada jadual dan rajah, anda boleh melihat graf rangkaian saraf. Pengguna perlu memilih pilihan yang dikehendaki daripada senarai dan mengkonfigurasi beberapa parameter.

5. Mekanisme integrasi

Deductor tidak menyediakan alat kemasukan data - platform tertumpu semata-mata pada pemprosesan analisis. Untuk menggunakan maklumat yang disimpan dalam sistem heterogen, mekanisme import-eksport yang fleksibel disediakan. Interaksi boleh diatur menggunakan pelaksanaan kelompok, bekerja dalam mod pelayan OLE dan mengakses Pelayan Deductor.

6.Replikasi pengetahuan

Deductor membolehkan anda melaksanakan salah satu fungsi terpenting mana-mana sistem analisis - sokongan untuk proses replikasi pengetahuan, i.e. memberi peluang kepada pekerja yang tidak memahami kaedah analisis dan kaedah mendapatkan keputusan tertentu untuk menerima jawapan berdasarkan model yang disediakan oleh pakar.

Zkesimpulan

Makalah ini mengkaji bidang teknologi maklumat moden seperti sistem analisis data. Alat utama untuk pemprosesan maklumat analisis - OLAP - teknologi dianalisis. Intipati konsep OLAP dan kepentingan sistem OLAP dalam proses perniagaan moden didedahkan secara terperinci. Struktur dan proses pengendalian pelayan ROLAP diterangkan secara terperinci. Sebagai contoh pelaksanaan teknologi data OLAP, platform analisis Deductor diberikan. Dokumentasi yang dikemukakan telah dibangunkan dan memenuhi keperluan.

Teknologi OLAP ialah alat yang berkuasa untuk pemprosesan data masa nyata. Pelayan OLAP membolehkan anda menyusun dan membentangkan data merentasi pelbagai bidang analisis dan menukar data menjadi maklumat berharga yang membantu syarikat membuat keputusan yang lebih termaklum.

Penggunaan sistem OLAP menyediakan tahap prestasi dan kebolehskalaan yang tinggi secara konsisten, menyokong volum data berbilang gigabait yang boleh diakses oleh beribu-ribu pengguna. Dengan bantuan teknologi OLAP, akses kepada maklumat dijalankan dalam masa nyata, i.e. Pemprosesan pertanyaan tidak lagi memperlahankan proses analisis, memastikan kelajuan dan kecekapannya. Alat pentadbiran visual membolehkan anda membangun dan melaksanakan walaupun aplikasi analisis yang paling kompleks, menjadikan prosesnya mudah dan pantas.

Dokumen yang serupa

    Asas konsep OLAP (On-Line Analytical Processing) ialah pemprosesan analitikal operasi data, ciri penggunaannya pada klien dan pada pelayan. Ciri umum keperluan asas untuk sistem OLAP, serta kaedah menyimpan data di dalamnya.

    abstrak, ditambah 10/12/2010

    OLAP: ciri umum, tujuan, matlamat, objektif. Klasifikasi produk OLAP. Prinsip membina sistem OLAP, perpustakaan komponen CubeBase. Kebergantungan prestasi alat OLAP klien dan pelayan pada peningkatan volum data.

    kerja kursus, tambah 25/12/2013

    Storan data kekal. Intipati dan kepentingan alat OLAP (On-line Analytical Processing). Pangkalan data dan gudang data, ciri-ciri mereka. Struktur, seni bina storan data, pembekal mereka. Beberapa petua untuk meningkatkan prestasi kiub OLAP.

    ujian, ditambah 10/23/2010

    Pembinaan sistem analisis data. Membina algoritma untuk mereka bentuk kiub OLAP dan membuat pertanyaan untuk jadual pangsi yang dibina. Teknologi OLAP untuk analisis data berbilang dimensi. Menyediakan pengguna dengan maklumat untuk membuat keputusan pengurusan.

    kerja kursus, ditambah 09/19/2008

    Maklumat asas tentang OLAP. Pemprosesan data analisis operasi. Klasifikasi produk OLAP. Keperluan untuk alat pemprosesan analisis dalam talian. Penggunaan pangkalan data multidimensi dalam sistem pemprosesan analisis operasi, kelebihannya.

    kerja kursus, ditambah 06/10/2011

    Pembangunan subsistem analisis laman web menggunakan teknologi Microsoft Access dan Olap. Aspek teori pembangunan subsistem analisis data dalam sistem maklumat portal muzik. Teknologi Olap dalam subsistem analisis objek penyelidikan.

    kerja kursus, ditambah 11/06/2009

    Pertimbangan alat OLAP: klasifikasi etalase dan gudang maklumat, konsep kiub data. Seni bina sistem sokongan keputusan. Pelaksanaan perisian sistem "Abitura". Mencipta laporan Web menggunakan teknologi Perkhidmatan Pelaporan.

    kerja kursus, ditambah 12/05/2012

    Penyimpanan data, prinsip organisasi. Proses untuk bekerja dengan data. Struktur OLAP, aspek teknikal storan data berbilang dimensi. Perkhidmatan Integrasi, mengisi gudang data dan data mart. Keupayaan sistem menggunakan teknologi Microsoft.

    kerja kursus, ditambah 12/05/2012

    Pembinaan gambar rajah gudang data untuk perusahaan perdagangan. Penerangan gambar rajah perhubungan storan. Memaparkan maklumat produk. Penciptaan kiub OLAP untuk analisis maklumat lanjut. Pembangunan pertanyaan untuk menilai kecekapan pasar raya.

    ujian, ditambah 19/12/2015

    Tujuan penyimpanan data. Seni bina SAP BW. Membina pelaporan analisis berdasarkan kiub OLAP dalam sistem SAP BW. Perbezaan utama antara gudang data dan sistem OLTP. Gambaran keseluruhan kawasan berfungsi BEx. Mencipta pertanyaan dalam BEx Query Designer.

Tujuan laporan

Laporan ini akan menumpukan pada salah satu kategori teknologi pintar yang merupakan alat analisis yang mudah - teknologi OLAP.

Tujuan laporan: untuk mendedahkan dan mengetengahkan 2 isu: 1) konsep OLAP dan kepentingan penggunaannya dalam pengurusan kewangan; 2) pelaksanaan fungsi OLAP dalam penyelesaian perisian: perbezaan, keupayaan, kelebihan, keburukan.

Saya ingin ambil perhatian segera bahawa OLAP ialah alat universal yang boleh digunakan dalam mana-mana kawasan aplikasi, dan bukan hanya dalam kewangan (seperti yang boleh difahami daripada tajuk laporan), yang memerlukan analisis data menggunakan pelbagai kaedah.

Pengurusan kewangan

Pengurusan kewangan adalah bidang di mana analisis adalah lebih penting daripada yang lain. Sebarang keputusan kewangan dan pengurusan timbul akibat prosedur analisis tertentu. Hari ini, pengurusan kewangan menjadi penting untuk kejayaan sesebuah perusahaan berfungsi. Walaupun pengurusan kewangan adalah proses tambahan dalam perusahaan, ia memerlukan perhatian khusus, kerana keputusan kewangan dan pengurusan yang salah boleh menyebabkan kerugian besar.

Pengurusan kewangan bertujuan untuk menyediakan perusahaan dengan sumber kewangan dalam jumlah yang diperlukan, pada masa yang sesuai dan di tempat yang betul untuk mendapatkan kesan maksimum daripada penggunaannya melalui pengedaran yang optimum.

Mungkin sukar untuk menentukan tahap "kecekapan sumber maksimum", tetapi dalam apa jua keadaan,

CFO harus sentiasa tahu:

  • Berapa banyak sumber kewangan yang ada?
  • Dari mana dana akan datang dan dalam kuantiti berapa?
  • di mana untuk melabur dengan lebih berkesan dan mengapa?
  • dan pada masa yang manakah semua ini perlu dilakukan?
  • berapa banyak yang diperlukan untuk memastikan operasi normal perusahaan?

Untuk mendapatkan jawapan yang munasabah kepada soalan-soalan ini, adalah perlu untuk mempunyai, menganalisis dan mengetahui cara menganalisis bilangan penunjuk prestasi yang cukup besar. Di samping itu, FU merangkumi sejumlah besar bidang: analisis aliran tunai (aliran tunai), analisis aset dan liabiliti, analisis keuntungan, analisis margin, analisis keuntungan, analisis pelbagai.

Pengetahuan

Oleh itu, faktor utama dalam keberkesanan proses pengurusan kewangan ialah ketersediaan pengetahuan:

  • Pengetahuan peribadi dalam bidang subjek (mungkin dikatakan teori dan metodologi), termasuk pengalaman, gerak hati seorang pembiaya/pengarah kewangan
  • Pengetahuan am (korporat) atau maklumat sistematik tentang fakta transaksi kewangan dalam perusahaan (iaitu maklumat tentang keadaan masa lalu, masa kini dan masa depan perusahaan, dibentangkan dalam pelbagai penunjuk dan ukuran)

Jika yang pertama terletak pada skop tindakan pembiaya ini (atau pengarah HR yang mengupah pekerja ini), maka yang kedua harus dibuat secara sengaja di perusahaan oleh usaha bersama pekerja perkhidmatan kewangan dan maklumat.

Apa yang ada sekarang

Walau bagaimanapun, kini keadaan paradoks adalah tipikal dalam perusahaan: terdapat maklumat, terdapat banyak, terlalu banyak. Tetapi ia berada dalam keadaan huru-hara: tidak berstruktur, tidak konsisten, berpecah-belah, tidak selalu boleh dipercayai dan sering tersilap, hampir mustahil untuk dicari dan diperolehi. Generasi penyata kewangan yang panjang dan sering tidak berguna dijalankan, yang menyusahkan untuk analisis kewangan dan sukar difahami, kerana ia dicipta bukan untuk pengurusan dalaman, tetapi untuk penyerahan kepada pihak berkuasa kawal selia luar.

Menurut hasil kajian yang dijalankan oleh syarikat tersebut Reuters Di antara 1,300 pengurus antarabangsa, 38% responden mengatakan mereka menghabiskan banyak masa untuk mencari maklumat yang mereka perlukan. Ternyata pakar yang berkelayakan tinggi menghabiskan masa bergaji tinggi bukan untuk analisis data, tetapi untuk mengumpul, mencari dan menyusun maklumat yang diperlukan untuk analisis ini. Pada masa yang sama, pengurus dibebani dengan data yang selalunya tidak relevan, yang sekali lagi mengurangkan keberkesanan kerja mereka. Sebab keadaan ini: maklumat berlebihan dan kekurangan pengetahuan.

Apa nak buat

Maklumat mesti ditukar kepada pengetahuan. Untuk perniagaan moden, maklumat berharga, pemerolehan sistematik, sintesis, pertukaran, penggunaan adalah sejenis mata wang, tetapi untuk menerimanya, adalah perlu untuk menguruskan maklumat, seperti mana-mana proses perniagaan.

Kunci kepada pengurusan maklumat ialah menyampaikan maklumat yang betul dalam bentuk yang betul kepada pihak berkepentingan dalam organisasi pada masa yang sesuai. Matlamat pengurusan sedemikian adalah untuk membantu orang ramai bekerjasama dengan lebih baik menggunakan jumlah maklumat yang semakin meningkat.

Teknologi maklumat dalam kes ini bertindak sebagai cara yang memungkinkan untuk mensistematisasikan maklumat dalam perusahaan, menyediakan pengguna tertentu dengan akses kepadanya dan memberi mereka alat untuk mengubah maklumat ini menjadi pengetahuan.

Konsep asas teknologi OLAP

Teknologi OLAP (daripada Pemprosesan Analitik Dalam Talian Bahasa Inggeris) ialah nama bukan untuk produk tertentu, tetapi untuk keseluruhan teknologi untuk analisis operasi data berbilang dimensi yang terkumpul dalam gudang. Untuk memahami intipati OLAP, adalah perlu untuk mempertimbangkan proses tradisional untuk mendapatkan maklumat untuk membuat keputusan.

Sistem sokongan keputusan tradisional

Di sini, sudah tentu, terdapat juga banyak pilihan: kekacauan maklumat lengkap atau situasi paling tipikal apabila perusahaan mempunyai sistem operasi dengan bantuan fakta operasi tertentu direkodkan dan disimpan dalam pangkalan data. Untuk mengekstrak data daripada pangkalan data untuk tujuan analisis, sistem pertanyaan untuk sampel data tertentu telah dibina.

Tetapi kaedah sokongan keputusan ini tidak mempunyai fleksibiliti dan mempunyai banyak kelemahan:

  • jumlah data yang boleh diabaikan digunakan yang boleh berguna untuk membuat keputusan
  • kadangkala laporan berbilang halaman yang kompleks dibuat, yang mana 1-2 baris sebenarnya digunakan (selebihnya hanya untuk berjaga-jaga) - maklumat yang berlebihan
  • tindak balas perlahan proses kepada perubahan: jika perwakilan data baharu diperlukan, permintaan mesti diterangkan dan dikodkan secara rasmi oleh pengaturcara, barulah dilaksanakan. Masa menunggu: jam, hari. Atau mungkin penyelesaian diperlukan sekarang, segera. Tetapi selepas menerima maklumat baru, persoalan baru akan timbul (menjelaskan)

Jika laporan pertanyaan dibentangkan dalam format satu dimensi, maka masalah perniagaan biasanya berbilang dimensi dan pelbagai rupa. Jika anda ingin mendapatkan gambaran yang jelas tentang perniagaan syarikat, maka anda perlu menganalisis data dari pelbagai perspektif.

Banyak syarikat mencipta pangkalan data perhubungan yang sangat baik, secara idealnya menyusun segunung maklumat yang tidak digunakan, yang dengan sendirinya tidak memberikan sama ada tindak balas yang cepat atau cukup cekap kepada acara pasaran. YA - pangkalan data hubungan adalah, sedang dan akan menjadi teknologi yang paling sesuai untuk menyimpan data korporat. Kami tidak bercakap tentang teknologi pangkalan data baharu, tetapi lebih kepada alat analisis yang melengkapkan fungsi DBMS sedia ada dan cukup fleksibel untuk menyediakan dan mengautomasikan pelbagai jenis analisis intelektual yang wujud dalam OLAP.

Memahami OLAP

Apakah yang disediakan oleh OLAP?

  • Alat capaian data storan lanjutan
  • Manipulasi data interaktif dinamik (putaran, penyatuan atau gerudi ke bawah)
  • Paparan visual data yang jelas
  • Cepat – analisis dijalankan dalam masa nyata
  • Persembahan data berbilang dimensi - analisis serentak beberapa penunjuk sepanjang beberapa dimensi

Untuk mendapatkan kesan penggunaan teknologi OLAP, anda mesti: 1) memahami intipati teknologi itu sendiri dan keupayaannya; 2) mentakrifkan dengan jelas proses apa yang perlu dianalisis, penunjuk apa yang akan dicirikan olehnya dan dalam dimensi apa yang dinasihatkan untuk melihatnya, iaitu mencipta model analisis.

Konsep asas yang digunakan oleh teknologi OLAP adalah seperti berikut:

Multidimensi

Untuk memahami kepelbagaian dimensi data, anda harus terlebih dahulu membentangkan jadual yang menunjukkan, sebagai contoh, prestasi Kos Perusahaan mengikut elemen ekonomi dan unit perniagaan.

Data ini dibentangkan dalam dua dimensi:

  • artikel
  • Unit perniagaan

Jadual ini tidak bermaklumat, kerana ia menunjukkan jualan untuk satu tempoh masa tertentu. Untuk tempoh masa yang berbeza, penganalisis perlu membandingkan beberapa jadual (untuk setiap tempoh masa):

Rajah menunjukkan dimensi ke-3, Masa, sebagai tambahan kepada dua yang pertama. (Artikel, unit perniagaan)

Satu lagi cara untuk menunjukkan data berbilang dimensi adalah dengan mewakilinya dalam bentuk kubus:

Kiub OLAP membolehkan penganalisis mendapatkan data pada pelbagai bahagian untuk mendapatkan jawapan kepada soalan yang dikemukakan oleh perniagaan:

  • Kos yang manakah kritikal dalam unit perniagaan yang mana?
  • Bagaimanakah kos unit perniagaan berubah dari semasa ke semasa?
  • Bagaimanakah item kos berubah dari semasa ke semasa?

Jawapan kepada soalan sedemikian adalah perlu untuk membuat keputusan pengurusan: mengenai pengurangan item kos tertentu, kesan ke atas strukturnya, mengenal pasti sebab perubahan dalam kos dari semasa ke semasa, sisihan daripada rancangan dan penghapusan mereka - mengoptimumkan strukturnya.

Dalam contoh ini, hanya 3 dimensi dipertimbangkan. Sukar untuk menggambarkan lebih daripada 3 dimensi, tetapi ia berfungsi dengan cara yang sama seperti 3 dimensi.

Biasanya, aplikasi OLAP membolehkan anda mendapatkan data pada 3 atau lebih dimensi, contohnya, anda boleh menambah satu lagi dimensi - Pelan-Sebenar, Kategori Kos: langsung, tidak langsung, mengikut Pesanan, mengikut Bulan. Dimensi tambahan membolehkan anda mendapatkan lebih banyak kepingan analisis dan memberikan jawapan kepada soalan dengan pelbagai syarat.

Hierarki

OLAP juga membenarkan penganalisis untuk menyusun setiap dimensi ke dalam hierarki kumpulan, subkumpulan dan jumlah yang mencerminkan ukuran merentas seluruh organisasi—cara paling logik untuk menganalisis perniagaan.

Sebagai contoh, adalah dinasihatkan untuk mengumpulkan kos secara hierarki:

OLAP membolehkan penganalisis melihat metrik ringkasan keseluruhan (di peringkat atas) dan kemudian menggerudi ke bawah dan peringkat seterusnya untuk mengetahui sebab sebenar metrik berubah.

Dengan membenarkan penganalisis menggunakan berbilang dimensi dalam kiub data, dengan keupayaan untuk membina dimensi secara hierarki, OLAP menyediakan gambaran perniagaan yang tidak dimampatkan oleh struktur gudang maklumat.

Menukar arah analisis dalam kubus (data berputar)

Sebagai peraturan, mereka beroperasi dalam konsep: dimensi yang dinyatakan dalam lajur, baris (mungkin terdapat beberapa daripadanya), kepingan bentuk selebihnya, kandungan dimensi bentuk jadual (jualan, kos, tunai)

Biasanya, OLAP membenarkan anda menukar orientasi dimensi kiub, dengan itu mempersembahkan data dalam paparan berbeza.

Paparan data kubus bergantung pada:

  • orientasi dimensi: dimensi mana yang dinyatakan dalam baris, lajur, kepingan;
  • kumpulan penunjuk, diserlahkan dalam baris, lajur, bahagian.
  • Menukar dimensi adalah dalam skop tindakan pengguna.

Oleh itu, OLAP membolehkan anda menjalankan pelbagai jenis analisis dan memahami hubungannya dengan keputusannya.

  • Analisis sisihan ialah analisis pelaksanaan rancangan, yang ditambah dengan analisis faktor punca penyelewengan dengan memperincikan penunjuk.
  • Analisis ketergantungan: OLAP membolehkan anda mengenal pasti pelbagai kebergantungan antara pelbagai perubahan, contohnya, apabila bir dialih keluar daripada pelbagai dalam tempoh dua bulan pertama, penurunan dalam jualan lipas telah ditemui.
  • Perbandingan (analisis perbandingan). Perbandingan hasil perubahan dalam penunjuk dari semasa ke semasa, untuk kumpulan barang tertentu, di kawasan yang berbeza, dsb.
  • Analisis dinamik membolehkan kami mengenal pasti arah aliran tertentu dalam perubahan penunjuk dari semasa ke semasa.

Kecekapan: kita boleh mengatakan bahawa OLAP adalah berdasarkan undang-undang psikologi: keupayaan untuk memproses permintaan maklumat dalam "masa nyata" - pada kadar proses pemahaman analisis data oleh pengguna.

Jika pangkalan data hubungan boleh membaca kira-kira 200 rekod sesaat dan menulis 20, maka pelayan OLAP yang baik, menggunakan baris dan lajur yang dikira, boleh menyatukan 20,000-30,000 sel (bersamaan dengan satu rekod dalam pangkalan data hubungan) sesaat.

Keterlihatan: Perlu ditekankan bahawa OLAP menyediakan cara lanjutan bagi persembahan grafik data kepada pengguna akhir. Otak manusia mampu melihat dan menganalisis maklumat yang dipersembahkan dalam bentuk imej geometri, dalam jumlah yang beberapa urutan magnitud lebih besar daripada maklumat yang dibentangkan dalam bentuk alfanumerik. Contoh: Katakan anda perlu mencari wajah yang dikenali dalam salah satu daripada seratus gambar. Saya percaya proses ini akan membawa anda tidak lebih daripada satu minit. Sekarang bayangkan bahawa bukannya gambar anda akan ditawarkan seratus penerangan lisan tentang orang yang sama. Saya fikir anda tidak akan dapat menyelesaikan masalah yang dicadangkan sama sekali.

Kesederhanaan: Ciri utama teknologi ini ialah ia bertujuan untuk digunakan bukan oleh pakar dalam bidang teknologi maklumat, bukan oleh ahli statistik pakar, tetapi oleh profesional dalam bidang gunaan - pengurus jabatan kredit, pengurus jabatan belanjawan, dan akhirnya pengarah. Mereka direka untuk penganalisis untuk berkomunikasi dengan masalah, bukan dengan komputer..

Walaupun keupayaan hebat OLAP (selain itu, idea itu agak lama - 60-an), penggunaan sebenar boleh dikatakan tidak pernah ditemui dalam perusahaan kami. kenapa?

  • tiada maklumat atau kemungkinan tidak jelas
  • tabiat berfikir dua dimensi
  • penghalang harga
  • kandungan teknologi berlebihan artikel yang dikhaskan untuk OLAP: istilah luar biasa menakutkan - OLAP, "perlombongan dan penghirisan data", "pertanyaan ad hoc", "pengenalpastian korelasi yang ketara"

Pendekatan kami dan pendekatan Barat terhadap penggunaan OLAP

Di samping itu, kami juga mempunyai pemahaman khusus tentang utiliti aplikasi OLAP walaupun semasa memahami keupayaan teknologinya.

Pengarang kami dan Rusia pelbagai bahan yang dikhaskan untuk OLAP menyatakan pendapat berikut mengenai kegunaan OLAP: kebanyakannya menganggap OLAP sebagai alat yang membolehkan anda mengembangkan dan meruntuhkan data dengan mudah dan mudah, menjalankan manipulasi yang datang ke fikiran penganalisis semasa proses analisis. Lebih banyak "kepingan" dan "bahagian" data yang dilihat oleh penganalisis, lebih banyak idea yang dia ada, yang seterusnya, memerlukan lebih banyak "kepingan" untuk pengesahan. Ia tidak betul.

Pemahaman Barat tentang kegunaan OLAP adalah berdasarkan model analisis metodologi yang mesti digabungkan semasa mereka bentuk penyelesaian OLAP. Penganalisis tidak seharusnya bermain dengan kiub OLAP dan mengubah dimensi dan tahap perinciannya tanpa tujuan, orientasi data, paparan grafik data (dan ini benar-benar memerlukan!), tetapi memahami dengan jelas pandangan yang dia perlukan, dalam urutan dan sebabnya (sudah tentu , elemen " mungkin terdapat penemuan di sini, tetapi ia bukan asas kepada kegunaan OLAP).

Aplikasi OLAP

  • Bajet
  • Aliran dana

Salah satu bidang aplikasi teknologi OLAP yang paling subur. Bukan tanpa alasan bahawa tiada sistem belanjawan moden dianggap lengkap tanpa kehadiran alat OLAP untuk analisis belanjawan. Kebanyakan laporan belanjawan mudah dibina berdasarkan sistem OLAP. Pada masa yang sama, laporan menjawab pelbagai soalan yang sangat luas: analisis struktur perbelanjaan dan pendapatan, perbandingan perbelanjaan untuk item tertentu dalam bahagian yang berbeza, analisis dinamik dan trend perbelanjaan untuk item tertentu, analisis kos dan keuntungan.

OLAP akan membolehkan anda menganalisis aliran masuk dan keluar tunai dalam konteks operasi perniagaan, rakan niaga, mata wang dan masa untuk mengoptimumkan aliran mereka.

  • Pelaporan kewangan dan pengurusan (dengan analitik yang diperlukan oleh pengurusan)
  • Pemasaran
  • Kad Skor Seimbang
  • Analisis Keberuntungan

Jika anda mempunyai data yang sesuai, anda boleh menemui pelbagai aplikasi teknologi OLAP.

produk OLAP

Bahagian ini akan membincangkan OLAP sebagai penyelesaian perisian.

Keperluan am untuk produk OLAP

Terdapat banyak cara untuk melaksanakan aplikasi OLAP, jadi tiada teknologi tertentu sepatutnya diperlukan, malah disyorkan. Di bawah keadaan dan keadaan yang berbeza, satu pendekatan mungkin lebih disukai daripada yang lain. Teknik pelaksanaan termasuk banyak idea proprietari berbeza yang vendor sangat banggakan: variasi seni bina klien-pelayan, analisis siri masa, orientasi objek, pengoptimuman storan data, proses selari, dll. Tetapi teknologi ini tidak boleh menjadi sebahagian daripada definisi OLAP.

Terdapat ciri-ciri yang mesti diperhatikan dalam semua produk OLAP (jika ia adalah produk OLAP), yang merupakan teknologi yang ideal. Ini ialah 5 takrifan utama yang mencirikan OLAP (ujian FASMI yang dipanggil): Analisis Pantas Maklumat Berbilang Dimensi Dikongsi.

  • Cepat(FAST) bermakna sistem seharusnya dapat memberikan kebanyakan respons kepada pengguna dalam masa kira-kira lima saat. Walaupun sistem memberi amaran bahawa proses itu akan mengambil masa yang lebih lama, pengguna mungkin terganggu dan hilang fikiran, dan kualiti analisis akan terjejas. Kelajuan ini tidak mudah dicapai dengan jumlah data yang besar, terutamanya jika pengiraan khas semasa penerbangan diperlukan. Vendor menggunakan pelbagai kaedah untuk mencapai matlamat ini, termasuk bentuk penyimpanan data khusus, pra-pengkomputeran yang meluas atau keperluan perkakasan yang semakin ketat. Walau bagaimanapun, pada masa ini tiada penyelesaian yang dioptimumkan sepenuhnya. Pada pandangan pertama, nampaknya mengejutkan bahawa apabila menerima laporan dalam satu minit yang tidak lama dahulu mengambil masa beberapa hari, pengguna dengan cepat menjadi bosan semasa menunggu, dan projek itu ternyata kurang berjaya berbanding dalam kes sekelip mata. tindak balas, walaupun pada kos analisis yang kurang terperinci.
  • Dikongsi bermakna sistem memungkinkan untuk memenuhi semua keperluan perlindungan data dan melaksanakan akses teragih dan serentak kepada data untuk tahap pengguna yang berbeza. Sistem mesti boleh mengendalikan berbilang perubahan data dengan cara yang selamat dan tepat pada masanya. Ini adalah kelemahan utama kebanyakan produk OLAP, yang cenderung menganggap bahawa semua aplikasi OLAP adalah baca sahaja dan menyediakan kawalan keselamatan yang dipermudahkan.
  • Berbilang dimensi adalah keperluan utama. Jika anda terpaksa mentakrifkan OLAP dalam satu perkataan, anda akan memilihnya. Sistem mesti menyediakan pandangan konseptual berbilang dimensi bagi data, termasuk sokongan penuh untuk hierarki dan berbilang hierarki, kerana ini menentukan cara paling logik untuk menganalisis perniagaan. Tiada bilangan minimum dimensi yang mesti diproses, kerana ini juga bergantung pada aplikasi, dan kebanyakan produk OLAP mempunyai bilangan dimensi yang mencukupi untuk pasaran yang dituju. Sekali lagi, kami tidak menyatakan teknologi pangkalan data asas yang harus digunakan jika pengguna ingin mendapatkan pandangan konseptual yang benar-benar multidimensi bagi maklumat tersebut. Ciri ini adalah nadi OLAP
  • Maklumat. Maklumat yang diperlukan mesti diperolehi di mana ia diperlukan, tanpa mengira jumlah dan lokasi penyimpanannya. Walau bagaimanapun, banyak bergantung pada aplikasi. Kuasa pelbagai produk diukur dari segi jumlah data input yang boleh mereka proses, tetapi bukan berapa banyak gigabait yang boleh mereka simpan. Kuasa produk berbeza-beza - produk OLAP terbesar boleh mengendalikan sekurang-kurangnya seribu kali lebih banyak data daripada yang terkecil. Terdapat banyak faktor yang perlu dipertimbangkan dalam hal ini, termasuk pertindihan data, keperluan RAM, penggunaan ruang cakera, metrik prestasi, penyepaduan dengan gudang maklumat, dsb.
  • Analisis bermakna sistem boleh mengendalikan sebarang analisis logik dan statistik khusus untuk aplikasi tertentu dan memastikan ia disimpan dalam bentuk yang boleh diakses oleh pengguna akhir. Pengguna seharusnya boleh mentakrifkan pengiraan tersuai baharu sebagai sebahagian daripada analisis tanpa memerlukan pengaturcaraan. Iaitu, semua fungsi analisis yang diperlukan mesti disediakan dengan cara yang intuitif untuk pengguna akhir. Alat analisis boleh termasuk prosedur tertentu, seperti analisis siri masa, peruntukan kos, pemindahan mata wang, carian sasaran, dsb. Keupayaan sedemikian berbeza secara meluas antara produk, bergantung pada orientasi sasaran.

Dalam erti kata lain, 5 definisi utama ini ialah matlamat yang direka untuk dicapai oleh produk OLAP.

Aspek teknologi OLAP

Sistem OLAP merangkumi komponen tertentu. Terdapat pelbagai skim untuk operasi mereka yang boleh dilaksanakan oleh produk ini atau itu.

Komponen sistem OLAP (apa yang terdiri daripada sistem OLAP?)

Biasanya, sistem OLAP merangkumi komponen berikut:

  • Sumber data
    Sumber dari mana data untuk analisis diambil (gudang data, pangkalan data sistem perakaunan operasi, set jadual, gabungan di atas).
  • pelayan OLAP
    Data daripada sumber dipindahkan atau disalin ke pelayan OLAP, di mana ia disusun dan disediakan untuk penjanaan respons yang lebih pantas kepada pertanyaan.
  • Pelanggan OLAP
    Antara muka pengguna ke pelayan OLAP di mana pengguna beroperasi

Perlu diingatkan bahawa tidak semua komponen diperlukan. Terdapat sistem OLAP desktop yang membolehkan anda menganalisis data yang disimpan terus pada komputer pengguna dan tidak memerlukan pelayan OLAP.

Walau bagaimanapun, elemen yang diperlukan ialah sumber data: ketersediaan data ialah isu penting. Jika ia wujud, dalam sebarang bentuk, seperti jadual Excel, dalam pangkalan data sistem perakaunan, atau dalam bentuk laporan berstruktur daripada cawangan, pakar IT akan dapat menyepadukan dengan sistem OLAP secara langsung atau dengan penukaran perantaraan. Sistem OLAP mempunyai alat khas untuk ini. Jika data ini tidak tersedia, atau tidak lengkap dan berkualiti, OLAP tidak akan membantu. Iaitu, OLAP hanyalah superstruktur ke atas data, dan jika tidak ada, ia menjadi perkara yang tidak berguna.

Kebanyakan data untuk aplikasi OLAP berasal dari sistem lain. Walau bagaimanapun, dalam sesetengah aplikasi (contohnya, perancangan atau belanjawan), data boleh dibuat terus dalam aplikasi OLAP. Apabila data datang daripada aplikasi lain, biasanya data perlu disimpan dalam borang pendua yang berasingan untuk aplikasi OLAP. Oleh itu, adalah dinasihatkan untuk membuat gudang data.

Perlu diingat bahawa istilah "OLAP" berkait rapat dengan istilah "gudang data" (Gudang Data). Gudang data ialah koleksi data khusus domain, berasaskan masa dan tidak berubah untuk menyokong pembuatan keputusan pengurusan. Data dalam gudang datang daripada sistem operasi (sistem OLTP), yang direka untuk mengautomasikan proses perniagaan; gudang boleh diisi semula daripada sumber luaran, contohnya, laporan statistik.

Walaupun fakta bahawa ia mengandungi maklumat yang jelas berlebihan yang sudah ada dalam pangkalan data atau fail sistem pengendalian, gudang data diperlukan kerana:

  • pemecahan data, menyimpannya dalam pelbagai format DBMS;
  • prestasi pengambilan data bertambah baik
  • jika dalam perusahaan semua data disimpan pada pelayan pangkalan data pusat (yang sangat jarang berlaku), penganalisis mungkin tidak akan memahami strukturnya yang kompleks, kadangkala mengelirukan
  • pertanyaan analitikal yang kompleks untuk maklumat operasi memperlahankan kerja semasa syarikat, menyekat jadual untuk masa yang lama dan mengambil alih sumber pelayan
  • keupayaan untuk membersihkan dan menyelaraskan data
  • adalah mustahil atau sangat sukar untuk menganalisis data secara langsung daripada sistem pengendalian;

Tujuan repositori adalah untuk menyediakan "bahan mentah" untuk analisis di satu tempat dan dalam struktur yang mudah dan mudah difahami. Maksudnya, konsep Data Warehousing bukanlah konsep analisis data, sebaliknya ia adalah konsep penyediaan data untuk dianalisis. Ia melibatkan pelaksanaan sumber data bersepadu tunggal.

Produk OLAP: seni bina

Apabila menggunakan produk OLAP, dua soalan adalah penting: bagaimana dan di mana simpan Dan proses data. Bergantung pada cara kedua-dua proses ini dilaksanakan, seni bina OLAP dibezakan. Terdapat 3 cara untuk menyimpan data untuk OLAP dan 3 cara untuk memproses data ini. Banyak pengeluar menawarkan beberapa pilihan, ada yang cuba membuktikan bahawa pendekatan mereka adalah yang paling berhemat. Ini, tentu saja, tidak masuk akal. Walau bagaimanapun, sangat sedikit produk yang boleh beroperasi dalam lebih daripada satu mod dengan cekap.

Pilihan storan data OLAP

Penyimpanan dalam konteks ini bermakna mengekalkan data dalam keadaan yang sentiasa dikemas kini.

  • Pangkalan data perhubungan: Ini adalah pilihan biasa jika perusahaan menyimpan data perakaunan dalam RDB. Dalam kebanyakan kes, data harus disimpan dalam struktur yang tidak normal (yang paling sesuai ialah skema bintang). Pangkalan data yang dinormalkan tidak boleh diterima kerana prestasi pertanyaan yang sangat rendah apabila menjana agregat untuk OLAP (selalunya data yang terhasil disimpan dalam jadual agregat).
  • Fail pangkalan data pada komputer pelanggan (kiosk atau data mart): Data ini boleh dipraedarkan atau dibuat oleh pertanyaan pada komputer pelanggan.

Pangkalan Data Multidimensi: Ini mengandaikan bahawa data disimpan dalam pangkalan data berbilang dimensi pada pelayan. Ia boleh termasuk data yang diekstrak dan diringkaskan daripada sistem lain dan pangkalan data hubungan, fail pengguna akhir, dsb. Dalam kebanyakan kes, pangkalan data multidimensi disimpan pada cakera, tetapi sesetengah produk membenarkan anda menggunakan RAM, mengira data yang paling kerap digunakan dengan cepat. " Sangat sedikit produk berdasarkan pangkalan data berbilang dimensi membenarkan berbilang penyuntingan data; banyak produk membenarkan penyuntingan tunggal tetapi berbilang bacaan data, manakala yang lain terhad kepada bacaan sahaja.

Ketiga-tiga lokasi storan ini mempunyai keupayaan storan yang berbeza, dan ia disusun dalam susunan kapasiti menurun. Mereka juga mempunyai ciri prestasi pertanyaan yang berbeza: pangkalan data hubungan jauh lebih perlahan daripada dua pilihan terakhir.

Pilihan untuk memproses data OLAP

Terdapat 3 pilihan pemprosesan data yang sama:

  • Menggunakan SQL: Pilihan ini, sudah tentu, digunakan semasa menyimpan data dalam RDB. Walau bagaimanapun, SQL tidak membenarkan pengiraan multidimensi dalam satu pertanyaan, jadi ia memerlukan menulis pertanyaan SQL yang kompleks untuk mencapai lebih daripada fungsi multidimensi asas. Walau bagaimanapun, ini tidak menghalang pembangun daripada mencuba. Dalam kebanyakan kes, mereka melakukan bilangan pengiraan yang berkaitan yang terhad dalam SQL, dengan hasil yang boleh diperoleh daripada pemprosesan data berbilang dimensi atau daripada mesin klien. Anda juga boleh menggunakan RAM yang boleh menyimpan data menggunakan lebih daripada satu permintaan: ini meningkatkan tindak balas secara mendadak.
  • Pemprosesan berbilang dimensi pada pelanggan: Produk OLAP pelanggan melakukan pengiraan sendiri, tetapi pemprosesan sedemikian hanya tersedia jika pengguna mempunyai PC yang agak berkuasa.

Pemprosesan berbilang dimensi bahagian pelayan: Ini ialah tempat yang popular untuk melakukan pengiraan berbilang dimensi dalam aplikasi OLAP pelayan pelanggan dan digunakan dalam banyak produk. Prestasi biasanya tinggi kerana kebanyakan pengiraan telah dilakukan. Walau bagaimanapun, ini memerlukan banyak ruang cakera.

Matriks seni bina OLAP

Sehubungan itu, dengan menggabungkan pilihan storan/pemprosesan, adalah mungkin untuk mendapatkan matriks seni bina sistem OLAP. Sehubungan itu, secara teori boleh terdapat 9 kombinasi kaedah ini. Walau bagaimanapun, memandangkan 3 daripadanya kurang akal, sebenarnya terdapat hanya 6 pilihan untuk menyimpan dan memproses data OLAP.

Pilihan storan pelbagai dimensi
data

Pilihan
pelbagai dimensi
pemprosesan data

Pangkalan data perhubungan

Pangkalan data multidimensi sebelah pelayan

Komputer pelanggan

Magnitud Kartesis

Pemprosesan pelayan pelbagai dimensi

Crystal Holos (mod ROLAP)

Pelayan OLAP IBM DB2

CA EUREKA:Strategi

Informix MetaCube

Speedware Media/MR

Perkhidmatan Analisis Microsoft

Oracle Express (mod ROLAP)

Pelayan Analisis Perintis

Applix iTM1

Holos Kristal

Keputusan Comshare

Hyperion Essbase

Oracle Express

Speedware Media/M

Perkhidmatan Analisis Microsoft

Pelayan PowerPlay Enterprise

Pelayan Analisis Perintis

Applix iTM1

Pemprosesan berbilang dimensi pada komputer klien

Penemu Oracle

Informix MetaCube

Wawasan Dimensi

Hyperion Enterprise

Cognos PowerPlay

Ekspres Peribadi

Perspektif iTM1

Oleh kerana storan yang menentukan pemprosesan, adalah kebiasaan untuk mengumpulkan mengikut pilihan storan, iaitu:

  • Produk ROLAP dalam sektor 1, 2, 3
  • Desktop OLAP - dalam sektor 6

Produk MOLAP – dalam sektor 4 dan 5

Produk HOLAP (membenarkan pilihan storan data berbilang dimensi dan relasi) – dalam 2 dan 4 (dalam huruf condong)

Kategori produk OLAP

Terdapat lebih daripada 40 vendor OLAP, walaupun mereka semua tidak boleh dianggap sebagai pesaing kerana keupayaan mereka sangat berbeza dan, sebenarnya, mereka beroperasi dalam segmen pasaran yang berbeza. Mereka boleh dikumpulkan ke dalam 4 kategori asas, perbezaan di antaranya adalah berdasarkan konsep berikut: fungsi kompleks - fungsi mudah, prestasi - ruang cakera. Ia berguna untuk menggambarkan kategori dalam bentuk segi empat sama kerana ia jelas menunjukkan hubungan antara mereka. Ciri tersendiri bagi setiap kategori diwakili di sisinya, dan persamaan dengan yang lain diwakili di bahagian yang bersebelahan, oleh itu, kategori di sisi yang bertentangan secara asasnya berbeza.

Keanehan

Kelebihan

Kecacatan

wakil rakyat

OLAP yang digunakan

Aplikasi lengkap dengan fungsi yang kaya. Hampir kesemuanya memerlukan pangkalan data berbilang dimensi, walaupun sesetengahnya berfungsi dengan pangkalan data relasional. Kebanyakan kategori aplikasi ini adalah khusus, seperti jualan, pembuatan, perbankan, belanjawan, penyatuan kewangan, analisis jualan

Kemungkinan integrasi dengan pelbagai aplikasi

Tahap kefungsian yang tinggi

Tahap fleksibiliti dan skalabiliti yang tinggi

Kerumitan aplikasi (latihan pengguna diperlukan)

Harga tinggi

Penyelesaian Hyperion

Keputusan Kristal

Pembina Maklumat

Produk ini berdasarkan struktur data bukan perkaitan yang menyediakan storan, pemprosesan dan pembentangan data berbilang dimensi. Semasa proses analisis, data dipilih secara eksklusif daripada struktur multidimensi. Walaupun tahap keterbukaan yang tinggi, pembekal memujuk pembeli untuk membeli alat mereka sendiri

Prestasi tinggi (pengiraan pantas penunjuk ringkasan dan pelbagai transformasi multidimensi untuk mana-mana dimensi). Purata masa tindak balas kepada pertanyaan analisis ad hoc apabila menggunakan pangkalan data berbilang dimensi biasanya 1-2 susunan magnitud kurang daripada dalam kes RDB

Tahap keterbukaan yang tinggi: sejumlah besar produk yang boleh disepadukan

Mereka dengan mudah mengatasi tugas termasuk pelbagai fungsi terbina dalam dalam model maklumat, menjalankan analisis khusus oleh pengguna, dsb.

Keperluan ruang cakera yang besar untuk menyimpan data (disebabkan oleh lebihan data yang disimpan). Ini adalah penggunaan memori yang sangat tidak cekap - disebabkan penyahnormalan dan pengagregatan pra-laksana, volum data dalam pangkalan data berbilang dimensi sepadan dengan 2.5-100 kali kurang daripada volum data terperinci asal. Walau apa pun, MOLAP tidak membenarkan bekerja dengan pangkalan data yang besar. Had sebenar ialah pangkalan data 10-25 gigabait

Potensi untuk "letupan" pangkalan data ialah peningkatan yang tidak dijangka, mendadak, tidak seimbang dalam volumnya

Kekurangan fleksibiliti apabila mengubah suai struktur data. Sebarang perubahan dalam struktur dimensi hampir selalu memerlukan penstrukturan semula hypercube yang lengkap

Untuk pangkalan data berbilang dimensi, pada masa ini tiada piawaian seragam untuk antara muka, bahasa untuk menerangkan dan memanipulasi data

Hyperion (Essbase)

DOLAP (Desktop OLAP)

Produk OLAP pelanggan yang agak mudah untuk dilaksanakan dan mempunyai kos yang rendah bagi setiap tempat duduk

Kami bercakap tentang pemprosesan analitik sedemikian di mana hiperkubus kecil, dimensinya kecil, keperluannya sederhana, dan untuk pemprosesan analitik sedemikian, mesin peribadi pada desktop adalah mencukupi

Matlamat pengeluar pasaran ini adalah untuk mengautomasikan ratusan dan ribuan pekerjaan, tetapi pengguna mesti melakukan analisis yang agak mudah. Pembeli sering digalakkan untuk membeli lebih banyak pekerjaan daripada yang diperlukan

Penyepaduan yang baik dengan pangkalan data: multidimensi, hubungan

Kemungkinan membuat pembelian yang kompleks, yang mengurangkan kos projek pelaksanaan

Kemudahan penggunaan aplikasi

Fungsi yang sangat terhad (tidak setanding dalam hal ini dengan produk khusus)

Kuasa yang sangat terhad (volume data yang kecil, bilangan ukuran yang kecil)

Cognos (PowerPlay)

Objek Perniagaan

Keputusan Kristal

Ini adalah sektor terkecil dalam pasaran.

Data terperinci kekal di tempat asalnya - dalam pangkalan data hubungan; beberapa agregat disimpan dalam pangkalan data yang sama dalam jadual perkhidmatan yang dicipta khas

Mampu mengendalikan jumlah data yang sangat besar (storan yang menjimatkan kos)

Sediakan mod operasi berbilang pengguna, termasuk mod pengeditan, dan bukan hanya membaca

Tahap perlindungan data yang lebih tinggi dan pilihan yang baik untuk membezakan hak akses

Perubahan kerap pada struktur pengukuran adalah mungkin (tidak memerlukan penyusunan semula fizikal pangkalan data)

Prestasi rendah, jauh lebih rendah dari segi kelajuan tindak balas kepada yang berbilang dimensi (tindak balas kepada pertanyaan kompleks diukur dalam minit atau jam dan bukannya dalam saat). Ini adalah pembina laporan yang lebih baik daripada alat analisis interaktif

Kerumitan produk. Memerlukan kos penyelenggaraan yang besar daripada pakar teknologi maklumat. Untuk memberikan prestasi yang setanding dengan MOLAP, sistem perhubungan memerlukan reka bentuk yang teliti bagi skema pangkalan data dan konfigurasi indeks, iaitu, banyak usaha dari pihak pentadbir pangkalan data

Mahal untuk dilaksanakan

Batasan SQL kekal sebagai realiti, yang menghalang pelaksanaan dalam RDBMS banyak fungsi terbina dalam yang mudah disediakan dalam sistem berdasarkan perwakilan multidimensi data

Kelebihan Maklumat

Informix (MetaCube)

Perlu diingatkan bahawa pengguna produk hibrid yang membenarkan pilihan mod ROLAP dan MOLAP, seperti Perkhidmatan Analisis Microsoft, Oracle Express, Crystal Holos, IBM DB2 OLAPServer, hampir selalu memilih mod MOLAP.

Setiap kategori yang dibentangkan mempunyai kekuatan dan kelemahan sendiri; tidak ada satu pilihan yang optimum. Pilihan mempengaruhi 3 aspek penting: 1) prestasi; 2) ruang cakera untuk penyimpanan data; 3) keupayaan, kefungsian dan terutamanya kebolehskalaan penyelesaian OLAP. Dalam kes ini, adalah perlu untuk mengambil kira jumlah data yang sedang diproses, kuasa peralatan, keperluan pengguna dan mencari kompromi antara kelajuan dan redundansi ruang cakera yang diduduki oleh pangkalan data, kesederhanaan dan serba boleh.

Klasifikasi Gudang Data mengikut volum pangkalan data sasaran

Kelemahan OLAP

Seperti mana-mana teknologi, OLAP juga mempunyai kelemahannya: keperluan tinggi untuk perkakasan, latihan dan pengetahuan kakitangan pentadbiran dan pengguna akhir, kos tinggi untuk pelaksanaan projek pelaksanaan (kedua-dua kewangan dan masa, intelektual).

Memilih produk OLAP

Memilih produk OLAP yang betul adalah sukar, tetapi sangat penting jika anda mahu projek itu tidak gagal.

Seperti yang anda lihat, perbezaan produk terletak dalam banyak bidang: fungsi, seni bina, teknikal. Sesetengah produk sangat terhad dalam tetapan. Sesetengahnya dicipta untuk bidang subjek khusus: pemasaran, jualan, kewangan. Terdapat produk untuk tujuan umum, yang tidak mempunyai kegunaan khusus aplikasi, yang mesti agak fleksibel. Sebagai peraturan, produk sedemikian lebih murah daripada yang khusus, tetapi kos pelaksanaannya lebih tinggi. Rangkaian produk OLAP sangat luas - daripada alat paling mudah untuk membina jadual pangsi dan carta yang merupakan sebahagian daripada produk pejabat, kepada alat untuk menganalisis data dan mencari corak, yang menelan belanja puluhan ribu dolar.

Seperti dalam bidang lain, dalam bidang OLAP tidak boleh ada garis panduan yang jelas untuk memilih alat. Anda hanya boleh memberi tumpuan kepada beberapa perkara utama dan membandingkan keupayaan perisian yang dicadangkan dengan keperluan organisasi. Satu perkara yang penting: tanpa memikirkan dengan betul tentang cara anda akan menggunakan alat OLAP, anda berisiko menimbulkan sakit kepala yang besar untuk diri sendiri.

Semasa proses pemilihan, terdapat 2 soalan yang perlu dipertimbangkan:

  • menilai keperluan dan keupayaan perusahaan
  • menilai tawaran sedia ada di pasaran, trend pembangunan juga penting

Kemudian bandingkan semua ini dan, sebenarnya, buat pilihan.

Memerlukan penilaian

Anda tidak boleh membuat pilihan produk yang rasional tanpa memahami kegunaannya. Banyak syarikat mahukan "produk terbaik" tanpa pemahaman yang jelas tentang cara ia harus digunakan.

Untuk projek itu berjaya dilaksanakan, pengarah kewangan mesti, sekurang-kurangnya, cekap merumuskan kehendak dan keperluannya kepada pengurus dan pakar perkhidmatan automasi. Banyak masalah timbul disebabkan oleh persediaan dan kesedaran yang tidak mencukupi untuk pilihan OLAP; pakar IT dan pengguna akhir mengalami kesukaran komunikasi hanya kerana mereka memanipulasi konsep dan istilah yang berbeza semasa perbualan dan mengemukakan pilihan yang bercanggah. Perlu ada konsistensi dalam matlamat dalam syarikat.

Beberapa faktor telah menjadi jelas selepas membaca gambaran keseluruhan kategori produk OLAP, iaitu:

Aspek teknikal

  • Sumber data: gudang data korporat, sistem OLTP, fail jadual, pangkalan data hubungan. Kemungkinan memautkan alatan OLAP dengan semua DBMS yang digunakan dalam organisasi. Seperti yang ditunjukkan oleh amalan, penyepaduan produk heterogen ke dalam sistem pengendalian yang stabil adalah salah satu isu yang paling penting, dan penyelesaiannya dalam beberapa kes boleh dikaitkan dengan masalah besar. Adalah perlu untuk memahami betapa mudah dan boleh dipercayai untuk mengintegrasikan alatan OLAP dengan DBMS yang sedia ada dalam organisasi. Ia juga penting untuk menilai kemungkinan penyepaduan bukan sahaja dengan sumber data, tetapi juga dengan aplikasi lain yang mungkin anda perlukan untuk mengeksport data: e-mel, aplikasi pejabat
  • Kepelbagaian data diambil kira
  • Platform pelayan: NT, Unix, AS/400, Linux - tetapi jangan berkeras bahawa produk spesifikasi OLAP dijalankan pada platform yang boleh dipersoalkan atau hampir mati yang anda masih gunakan
  • Piawaian sisi pelanggan dan penyemak imbas
  • Seni bina boleh pakai: rangkaian tempatan dan sambungan modem PC, pelanggan/pelayan berkelajuan tinggi, intranet, extranet, Internet
  • Ciri Antarabangsa: Sokongan berbilang mata wang, operasi berbilang bahasa, perkongsian data, penyetempatan, pelesenan, kemas kini Windows

Jumlah maklumat input yang tersedia dan akan muncul pada masa hadapan

Pengguna

  • Bidang permohonan: analisis jualan/pemasaran, belanjawan/perancangan, analisis prestasi, analisis laporan perakaunan, analisis kualitatif, keadaan kewangan, penjanaan bahan analisis (laporan)
  • Bilangan pengguna dan lokasi mereka, keperluan untuk pembahagian hak akses kepada data dan fungsi, kerahsiaan (kerahsiaan) maklumat
  • Jenis pengguna: pengurusan kanan, kewangan, pemasaran, HR, jualan, pengeluaran, dsb.
  • Pengalaman pengguna. Tahap kemahiran pengguna. Pertimbangkan untuk menyediakan latihan. Aplikasi klien OLAP adalah sangat penting supaya pengguna berasa yakin dan boleh menggunakannya dengan berkesan.

Ciri Utama: Keperluan Tulis Balik Data, Pengkomputeran Teragih, Penukaran Mata Wang Kompleks, Keperluan Pencetakan Laporan, Antara Muka Hamparan, Kerumitan Logik Aplikasi, Dimensi Diperlukan, Jenis Analisis: Statistik, Carian Matlamat, Analisis Bagaimana Jika

Perlaksanaan

  • Siapa yang akan terlibat dalam pelaksanaan dan operasi: perunding luar, fungsi IT dalaman atau pengguna akhir
  • Belanjawan: perisian, perkakasan, perkhidmatan, pemindahan data. Ingat bahawa membayar untuk lesen produk OLAP hanyalah sebahagian kecil daripada jumlah kos projek. Kos pelaksanaan dan perkakasan mungkin lebih daripada yuran lesen, dan kos sokongan, operasi dan pentadbiran jangka panjang hampir pasti lebih ketara. Dan jika anda membuat keputusan yang salah untuk membeli produk yang salah hanya kerana ia lebih murah, anda mungkin akan mendapat kos keseluruhan projek yang lebih tinggi disebabkan kos penyelenggaraan, pentadbiran dan/atau perkakasan yang lebih tinggi untuk perkara yang anda mungkin akan mendapat tahap faedah perniagaan yang lebih rendah. . Apabila menganggarkan jumlah kos, pastikan anda bertanya soalan berikut: Sejauh manakah sumber pelaksanaan, latihan dan sokongan tersedia? Adakah dana am yang berpotensi (pekerja, kontraktor, perunding) berkemungkinan berkembang atau mengecut? Sejauh mana anda boleh menggunakan pengalaman profesional industri anda?

Walaupun pada hakikatnya kos sistem analisis masih agak tinggi sehingga hari ini, dan metodologi dan teknologi untuk melaksanakan sistem sedemikian masih di peringkat awal, hari ini kesan ekonomi yang mereka berikan jauh melebihi kesan sistem operasi tradisional.

Kesan organisasi yang betul, perancangan strategik dan operasi pembangunan perniagaan adalah sukar untuk diukur terlebih dahulu, tetapi jelas bahawa ia boleh melebihi kos melaksanakan sistem sedemikian sebanyak berpuluh-puluh dan bahkan ratusan kali. Walau bagaimanapun, seseorang tidak boleh tersilap. Kesannya dipastikan bukan oleh sistem itu sendiri, tetapi oleh orang yang bekerja dengannya. Oleh itu, pengisytiharan seperti: "sistem Pergudangan Data dan teknologi OLAP akan membantu pengurus membuat keputusan yang betul" adalah tidak betul sepenuhnya." Sistem analisis moden bukanlah sistem kecerdasan buatan dan ia tidak dapat membantu mahupun menghalang pembuatan keputusan. Matlamat mereka adalah untuk memberikan pengurus dengan segera semua maklumat yang diperlukan untuk membuat keputusan dalam bentuk yang mudah. Dan maklumat apa yang akan diminta dan keputusan yang akan dibuat berdasarkannya hanya bergantung pada orang tertentu yang menggunakannya.

Apa yang perlu diperkatakan ialah sistem ini boleh membantu menyelesaikan banyak masalah perniagaan dan boleh memberi kesan positif yang meluas. Ia masih harus dilihat siapa yang akan menjadi orang pertama yang menyedari manfaat pendekatan ini dan mendahului yang lain.