Corak tidak diketahui dalam data yang diketahui. Teknologi Perlombongan Data. Kaedah statistik Perlombongan data

Sistem OLAP menyediakan penganalisis dengan cara menguji hipotesis semasa menganalisis data, iaitu, tugas utama penganalisis adalah untuk menghasilkan hipotesis, yang diselesaikannya berdasarkan pengetahuan dan pengalamannya. Walau bagaimanapun, bukan sahaja seseorang mempunyai pengetahuan, tetapi juga data terkumpul yang dianalisis. Pengetahuan sedemikian terkandung dalam sejumlah besar maklumat yang tidak dapat diteliti oleh seseorang sendiri. Oleh sebab itu, terdapat risiko kehilangan hipotesis yang boleh memberikan faedah yang ketara.

Untuk mengesan pengetahuan "tersembunyi", kaedah khas analisis automatik digunakan, dengan bantuan yang diperlukan untuk mengekstrak pengetahuan secara praktikal daripada "sekatan" maklumat. Istilah "perlombongan data" atau "perlombongan data" telah diberikan kepada kawasan ini.

Terdapat banyak definisi DataMining yang saling melengkapi. Berikut adalah sebahagian daripadanya.

Perlombongan Data ialah proses menemui corak yang tidak remeh dan praktikal berguna dalam pangkalan data. (BaseGroup)

Perlombongan Data ialah proses mengekstrak, meneroka dan memodelkan sejumlah besar data untuk menemui corak (corak) yang tidak diketahui sebelum ini untuk mencapai kelebihan perniagaan (Institut SAS)

Perlombongan Data ialah satu proses yang bertujuan untuk menemui korelasi, corak dan trend baharu yang ketara dengan menapis sejumlah besar data yang disimpan menggunakan teknik pengecaman corak serta aplikasi teknik statistik dan matematik (GartnerGroup)

Perlombongan Data ialah penyelidikan dan penemuan oleh "mesin" (algoritma, alat kecerdasan buatan) pengetahuan tersembunyi dalam data mentah.sebelum ini tidak diketahui, tidak remeh, praktikal berguna, boleh diakses untuk tafsiranoleh manusia. (A. Bargesyan “Teknologi Analisis Data”)

DataMining ialah proses mencari pengetahuan berguna tentang perniagaan. (N.M. Abdikeev “KBA”)

Sifat pengetahuan yang ditemui

Mari kita pertimbangkan sifat-sifat pengetahuan yang ditemui.

Pengetahuan itu mestilah baru, sebelum ini tidak diketahui. Usaha yang dibelanjakan untuk mencari ilmu yang sudah diketahui pengguna tidak membuahkan hasil. Oleh itu, ia adalah pengetahuan baru yang tidak diketahui sebelum ini yang berharga.
Ilmu mestilah tidak remeh. Keputusan analisis harus mencerminkan tidak jelas, tidak dijangkacorak dalam data yang membentuk apa yang dipanggil pengetahuan tersembunyi. Keputusan yang boleh diperolehi melalui kaedah yang lebih mudah (contohnya, pemeriksaan visual) tidak membenarkan penggunaan kaedah Perlombongan Data yang berkuasa.
Pengetahuan mestilah berguna secara praktikal. Pengetahuan yang ditemui mestilah boleh digunakan, termasuk pada data baharu, dengan tahap kebolehpercayaan yang cukup tinggi. Kegunaan terletak pada hakikat bahawa pengetahuan ini boleh membawa faedah tertentu apabila diterapkan.
Pengetahuan mesti boleh diakses oleh pemahaman manusia. Corak yang ditemui mestilah boleh dijelaskan secara logik, jika tidak ada kemungkinan ia adalah rawak. Selain itu, ilmu yang ditemui mestilah dipersembahkan dalam bentuk yang boleh difahami oleh manusia.

Dalam DataMining, model digunakan untuk mewakili pengetahuan yang diperoleh. Jenis model bergantung pada kaedah yang digunakan untuk menciptanya. Yang paling biasa ialah: peraturan, pepohon keputusan, kelompok dan fungsi matematik.

Tugasan Perlombongan Data

Mari kita ingat bahawa teknologi DataMining adalah berdasarkan konsep templat, iaitu corak. Hasil daripada penemuan corak ini, tersembunyi dari mata kasar, masalah DataMining diselesaikan. Jenis corak yang berbeza yang boleh dinyatakan dalam bentuk yang boleh dibaca manusia sepadan dengan tugas DataMining tertentu.

Tiada konsensus mengenai tugas mana yang harus diklasifikasikan sebagai DataMining. Kebanyakan sumber berwibawa menyenaraikan yang berikut: klasifikasi,

pengelompokan, ramalan, perkaitan, visualisasi, analisis dan penemuan

penyelewengan, penilaian, analisis sambungan, merumuskan.

Tujuan huraian yang berikut adalah untuk memberikan gambaran umum tentang masalah DataMining, membandingkan beberapa daripada mereka, dan juga mengemukakan beberapa kaedah untuk menyelesaikan masalah ini. Tugas Perlombongan Data yang paling biasa ialah pengelasan, pengelompokan, perkaitan, peramalan dan visualisasi. Oleh itu, tugas dibahagikan mengikut jenis maklumat yang dihasilkan, ini adalah klasifikasi tugas DataMining yang paling umum.

Pengelasan

Tugas membahagikan satu set objek atau pemerhatian kepada kumpulan yang ditentukan priori, dipanggil kelas, di dalamnya setiap satu ia diandaikan serupa antara satu sama lain, mempunyai lebih kurang sifat dan ciri yang sama. Dalam kes ini, penyelesaian diperoleh berdasarkan analisis nilai atribut (ciri).

Pengelasan adalah salah satu tugas yang paling penting DataMining . Ia digunakan dalam Pemasaran apabila menilai kelayakan kredit peminjam, menentukan kesetiaan pelanggan, pengecaman corak , diagnostik perubatan dan banyak lagi aplikasi lain. Jika penganalisis mengetahui sifat objek setiap kelas, maka apabila pemerhatian baru tergolong dalam kelas tertentu, sifat ini secara automatik dilanjutkan kepadanya.

Jika bilangan kelas dihadkan kepada dua, makaklasifikasi binari , yang mana banyak masalah yang lebih kompleks boleh dikurangkan. Sebagai contoh, bukannya menentukan tahap risiko kredit seperti "Tinggi", "Sederhana" atau "Rendah", anda boleh menggunakan dua sahaja - "Isu" atau "Enggan".

DataMining menggunakan banyak model yang berbeza untuk klasifikasi: rangkaian saraf, pokok keputusan , mesin vektor sokongan, kaedah jiran-k-terdekat, algoritma meliputi, dsb., dalam pembinaan pembelajaran yang diselia digunakan apabilapembolehubah keluaran(label kelas ) dinyatakan untuk setiap pemerhatian. Secara formal, pengelasan dibuat berdasarkan partitionruang ciri ke dalam kawasan, dalam setiap kawasanvektor pelbagai dimensi dianggap sama. Dalam erti kata lain, jika objek jatuh ke dalam kawasan ruang yang dikaitkan dengan kelas tertentu, ia adalah miliknya.

Pengelompokan

Penerangan Ringkas. Pengelompokan adalah kesinambungan logik idea

klasifikasi. Ini adalah tugas yang lebih kompleks; keistimewaan pengelompokan ialah kelas objek pada mulanya tidak dipratakrifkan. Hasil pengelompokan ialah pembahagian objek kepada kumpulan.

Contoh kaedah untuk menyelesaikan masalah pengelompokan: latihan "tanpa diawasi" jenis rangkaian saraf khas - peta Kohonen yang mengatur sendiri.

Persatuan

Penerangan Ringkas. Apabila menyelesaikan masalah mencari peraturan persatuan, corak ditemui antara peristiwa berkaitan dalam set data.

Perbezaan antara persatuan dan dua tugas DataMining sebelumnya: pencarian corak dijalankan bukan berdasarkan sifat objek yang dianalisis, tetapi antara beberapa peristiwa yang berlaku serentak. Algoritma yang paling terkenal untuk menyelesaikan masalah mencari peraturan persatuan ialah algoritma Apriori.

Urutan atau perkaitan berurutan

Penerangan Ringkas. Urutan membolehkan anda mencari corak temporal antara urus niaga. Tugas urutan adalah serupa dengan perkaitan, tetapi matlamatnya adalah untuk mewujudkan corak bukan antara peristiwa yang berlaku serentak, tetapi antara peristiwa yang berkaitan dalam masa (iaitu, berlaku pada beberapa selang masa tertentu). Dalam erti kata lain, urutan ditentukan oleh kebarangkalian tinggi rantaian peristiwa yang berkaitan dalam masa. Sebenarnya, perkaitan ialah kes khas bagi jujukan dengan selang masa sifar. Tugasan DataMining ini juga dipanggil tugas mencari corak berjujukan.

Peraturan jujukan: selepas peristiwa X, peristiwa Y akan berlaku selepas masa tertentu.

Contoh. Selepas membeli apartmen, penduduk dalam 60% kes membeli peti sejuk dalam masa dua minggu, dan dalam masa dua bulan dalam 50% kes mereka membeli TV. Penyelesaian kepada masalah ini digunakan secara meluas dalam pemasaran dan pengurusan, contohnya, dalam Pengurusan Kitaran Hayat Pelanggan.

Regresi, ramalan (Ramalan)

Penerangan Ringkas. Hasil daripada menyelesaikan masalah ramalan, nilai yang hilang atau masa hadapan penunjuk berangka sasaran dianggarkan berdasarkan ciri data sejarah.

Untuk menyelesaikan masalah sedemikian, kaedah statistik matematik, rangkaian saraf, dsb. digunakan secara meluas.

Tugas tambahan

Pengesanan Sisihan, analisis varians atau outlier

Penerangan Ringkas. Matlamat menyelesaikan masalah ini adalah untuk mengesan dan menganalisis data yang paling berbeza daripada set data umum, mengenal pasti apa yang dipanggil corak tidak berciri.

Anggaran

Tugas anggaran datang untuk meramalkan nilai berterusan sesuatu ciri.

Analisis Pautan

Tugas mencari kebergantungan dalam set data.

Visualisasi (GraphMining)

Hasil daripada visualisasi, imej grafik data yang dianalisis dicipta. Untuk menyelesaikan masalah visualisasi, kaedah grafik digunakan untuk menunjukkan kehadiran corak dalam data.

Contoh teknik visualisasi ialah mempersembahkan data dalam dimensi 2-D dan 3-D.

Rumusan

Tugas yang matlamatnya adalah untuk menerangkan kumpulan objek tertentu daripada set data yang dianalisis.

Agak hampir dengan klasifikasi di atas ialah pembahagian tugas DataMining kepada yang berikut: penyelidikan dan penemuan, ramalan dan klasifikasi, penjelasan dan penerangan.

Penerokaan dan penemuan automatik (carian percuma)

Contoh tugas: menemui segmen pasaran baharu.

Untuk menyelesaikan masalah kelas ini, kaedah analisis kelompok digunakan.

Ramalan dan klasifikasi

Contoh masalah: meramalkan pertumbuhan jualan berdasarkan nilai semasa.

Kaedah: regresi, rangkaian saraf, algoritma genetik, pokok keputusan.

Tugas pengelasan dan ramalan membentuk kumpulan yang dipanggil pemodelan induktif, yang menghasilkan kajian objek atau sistem yang dianalisis. Dalam proses menyelesaikan masalah ini, model am atau hipotesis dibangunkan berdasarkan set data.

Penerangan dan Penerangan

Contoh masalah: mencirikan pelanggan berdasarkan demografi dan sejarah pembelian.

Kaedah: pokok keputusan, sistem peraturan, peraturan persatuan, analisis sambungan.

Jika pendapatan pelanggan melebihi 50 unit konvensional dan umurnya melebihi 30 tahun, maka kelas pelanggan adalah yang pertama.

Perbandingan pengelompokan dan pengelasan

Ciri	Pengelasan	Pengelompokan
Kebolehkawalan latihan	Terkawal	Tak terkawal
strategi	Latihan tunjuk ajar	Pembelajaran tanpa pengawasan
Ketersediaan label kelas	Set latihan disertakan dengan label yang menunjukkan kelas di mana ia tergolong pemerhatian	Label kelas jurulatih set tidak diketahui
Asas untuk pengelasan	Data baharu dikelaskan berdasarkan set latihan	Banyak data diberikan untuk tujuan tersebut mewujudkan kewujudan kelas atau kelompok data

Bidang penggunaan DataMining

Harus diingat bahawa hari ini teknologi DataMining paling banyak digunakan dalam menyelesaikan masalah perniagaan. Mungkin sebabnya ialah ke arah ini pulangan penggunaan alat DataMining boleh, menurut beberapa sumber, sehingga 1000% dan kos pelaksanaannya dapat dibayar dengan cepat.

Kami akan melihat empat bidang utama aplikasi teknologi DataMining secara terperinci: sains, perniagaan, penyelidikan kerajaan dan Web.

tugas perniagaan. Bidang utama: perbankan, kewangan, insurans, CRM, pembuatan, telekomunikasi, e-dagang, pemasaran, pasaran saham dan lain-lain.

Perlukah saya mengeluarkan pinjaman kepada pelanggan?

Segmentasi pasaran

Tarikan pelanggan baru

Penipuan kad kredit

Aplikasi DataMining untuk menyelesaikan masalah di peringkat negeri. Arahan utama: cari pengelak cukai; bermakna dalam memerangi keganasan.

Aplikasi DataMining untuk kajian saintifik. Bidang utama: perubatan, biologi, genetik molekul dan kejuruteraan genetik, bioinformatik, astronomi, kimia gunaan, penyelidikan berkaitan ketagihan dadah, dan lain-lain.

Menggunakan DataMining untuk menyelesaikannya Tugasan web. Kawasan utama: enjin carian, kaunter dan lain-lain.

E-dagang

Dalam bidang e-dagang, DataMining digunakan untuk menjana

Klasifikasi ini membolehkan syarikat mengenal pasti kumpulan pelanggan tertentu dan menjalankan dasar pemasaran mengikut minat dan keperluan pelanggan yang dikenal pasti. Teknologi DataMining untuk e-dagang berkait rapat dengan teknologi WebMining.

Tugas utama DataMining dalam pengeluaran perindustrian:

· analisis sistem menyeluruh tentang situasi pengeluaran;

· ramalan jangka pendek dan jangka panjang perkembangan situasi pengeluaran;

· pembangunan pilihan untuk penyelesaian pengoptimuman;

· meramalkan kualiti produk bergantung pada parameter tertentu

proses teknologi;

· pengesanan trend dan corak tersembunyi dalam pembangunan pengeluaran

proses;

· meramal corak perkembangan proses pengeluaran;

· pengesanan faktor pengaruh tersembunyi;

· pengesanan dan pengenalpastian hubungan yang tidak diketahui sebelum ini antara

parameter pengeluaran dan faktor yang mempengaruhi;

· analisis persekitaran interaksi proses pengeluaran dan ramalan

perubahan dalam ciri-cirinya;

proses;

· visualisasi hasil analisis, penyediaan laporan dan projek awal

penyelesaian yang boleh dilaksanakan dengan penilaian kebolehpercayaan dan keberkesanan pelaksanaan yang mungkin.

Pemasaran

Dalam bidang pemasaran, DataMining digunakan secara meluas.

Soalan asas pemasaran: "Apa yang dijual?", "Bagaimana ia dijual?", "Siapa

pengguna?"

Kuliah mengenai masalah pengelasan dan pengelompokan menerangkan secara terperinci penggunaan analisis kelompok untuk menyelesaikan masalah pemasaran, seperti segmentasi pengguna.

Satu lagi set kaedah biasa untuk menyelesaikan masalah pemasaran ialah kaedah dan algoritma untuk mencari peraturan persatuan.

Carian untuk corak temporal juga berjaya digunakan di sini.

Runcit

Dalam perdagangan runcit, seperti dalam pemasaran, perkara berikut digunakan:

· algoritma untuk mencari peraturan persatuan (untuk menentukan set yang kerap berlaku

barangan yang dibeli oleh pembeli pada masa yang sama). Mengenal pasti peraturan sedemikian membantu

letak barang di rak kedai, bangunkan strategi untuk membeli barang

dan penempatannya di gudang, dsb.

· penggunaan urutan masa, contohnya, untuk menentukan

jumlah barang yang diperlukan di gudang.

· kaedah pengelasan dan pengelompokan untuk mengenal pasti kumpulan atau kategori pelanggan,

pengetahuan yang menyumbang kepada kejayaan promosi barangan.

Pasaran saham

Berikut adalah senarai masalah pasaran saham yang boleh diselesaikan menggunakan teknologi Data

Perlombongan: · meramalkan nilai masa depan instrumen kewangan dan penunjuknya

nilai masa lalu;

· ramalan arah aliran (arah pergerakan masa hadapan - pertumbuhan, penurunan, mendatar) kewangan

instrumen dan kekuatannya (kuat, sederhana kuat, dll.);

· pengenalpastian struktur kluster pasaran, industri, sektor mengikut set tertentu

ciri-ciri;

· pengurusan portfolio dinamik;

· ramalan turun naik;

· penilaian risiko;

· meramalkan permulaan krisis dan meramalkan perkembangannya;

· pemilihan aset, dsb.

Sebagai tambahan kepada bidang aktiviti yang diterangkan di atas, teknologi DataMining boleh digunakan dalam pelbagai bidang perniagaan di mana terdapat keperluan untuk analisis data dan sejumlah maklumat retrospektif tertentu telah terkumpul.

Aplikasi DataMining dalam CRM

Salah satu bidang yang paling menjanjikan untuk menggunakan DataMining ialah penggunaan teknologi ini dalam CRM analisis.

CRM (CustomerRelationshipManagement) - pengurusan perhubungan pelanggan.

Apabila teknologi ini digunakan bersama, pengekstrakan pengetahuan digabungkan dengan "pengeluaran wang" daripada data pelanggan.

Aspek penting dalam kerja jabatan pemasaran dan jualan ialah penyusunanpandangan holistik pelanggan, maklumat tentang ciri-ciri mereka, ciri-ciri, dan struktur asas pelanggan. CRM menggunakan apa yang dipanggil pemprofilanpelanggan, memberikan pandangan lengkap tentang semua maklumat yang diperlukan tentang pelanggan.

Pemprofilan pelanggan termasuk komponen berikut: pembahagian pelanggan, keuntungan pelanggan, pengekalan pelanggan, analisis tindak balas pelanggan. Setiap komponen ini boleh diperiksa menggunakan DataMining, dan menganalisisnya bersama-sama sebagai komponen pemprofilan akhirnya boleh memberikan pengetahuan yang mustahil diperoleh daripada setiap ciri individu.

WebMining

WebMining boleh diterjemahkan sebagai "perlombongan data di Web." WebIntelligence atau Web.

Perisikan bersedia untuk "membuka lembaran baharu" dalam perkembangan pesat perniagaan elektronik. Keupayaan untuk menentukan minat dan keutamaan setiap pelawat dengan memerhati tingkah lakunya adalah kelebihan daya saing yang serius dan kritikal dalam pasaran e-dagang.

Sistem WebMining boleh menjawab banyak soalan, sebagai contoh, pelawat yang manakah merupakan pelanggan berpotensi kedai Web, kumpulan pelanggan kedai Web manakah yang paling banyak memperoleh pendapatan, apakah minat pelawat atau kumpulan pelawat tertentu.

Kaedah

Klasifikasi kaedah

Terdapat dua kumpulan kaedah:

kaedah statistik berdasarkan penggunaan purata pengalaman terkumpul, yang ditunjukkan dalam data retrospektif;
kaedah sibernetik, termasuk banyak pendekatan matematik heterogen.

Kelemahan klasifikasi ini ialah kedua-dua algoritma statistik dan sibernetik bergantung dalam satu cara atau yang lain pada perbandingan pengalaman statistik dengan hasil pemantauan keadaan semasa.

Kelebihan klasifikasi ini ialah kemudahan tafsirannya - ia digunakan untuk menerangkan cara matematik pendekatan moden untuk mengekstrak pengetahuan daripada tatasusunan pemerhatian awal (beroperasi dan retrospektif), i.e. dalam tugasan Perlombongan Data.

Mari kita lihat lebih dekat kumpulan yang dibentangkan di atas.

Kaedah statistik Perlombongan data

Dalam ini kaedah mewakili empat bahagian yang saling berkaitan:

analisis awal sifat data statistik (menguji hipotesis pegun, normaliti, kebebasan, homogeniti, menilai jenis fungsi taburan, parameternya, dll.);
mengenal pasti perkaitan dan corak(analisis regresi linear dan bukan linear, analisis korelasi, dll.);
analisis statistik multivariate (analisis diskriminasi linear dan bukan linear, analisis kelompok, analisis komponen, analisis faktor, dll.);
model dinamik dan ramalan berdasarkan siri masa.

Senjata kaedah statistik untuk Perlombongan Data dikelaskan kepada empat kumpulan kaedah:

Analisis deskriptif dan penerangan data sumber.
Analisis hubungan (analisis korelasi dan regresi, analisis faktor, analisis varians).
Analisis statistik multivariate (analisis komponen, analisis diskriminasi, analisis regresi multivariate, korelasi kanonik, dll.).
Analisis siri masa (model dinamik dan ramalan).

Kaedah Perlombongan Data Sibernetik

Arah kedua Perlombongan Data ialah pelbagai pendekatan yang disatukan oleh idea matematik komputer dan penggunaan teori kecerdasan buatan.

Kumpulan ini termasuk kaedah berikut:

rangkaian saraf tiruan (pengiktirafan, pengelompokan, ramalan);
pengaturcaraan evolusi (termasuk algoritma untuk kaedah perakaunan kumpulan hujah);
algoritma genetik (pengoptimuman);
ingatan bersekutu (cari analog, prototaip);
logik kabur;
pokok keputusan;
sistem pemprosesan pengetahuan pakar.

Analisis kluster

Tujuan pengelompokan adalah untuk mencari struktur sedia ada.

Pengelompokan ialah prosedur deskriptif, ia tidak membuat sebarang inferens statistik, tetapi ia memberi peluang untuk menjalankan analisis penerokaan dan mengkaji "struktur data."

Konsep "kluster" ditakrifkan secara samar-samar: setiap kajian mempunyai "kluster" sendiri. Konsep kluster diterjemahkan sebagai "kluster", "kumpulan". Kluster boleh dicirikan sebagai sekumpulan objek yang mempunyai sifat sepunya.

Ciri-ciri kluster boleh digambarkan sebagai dua:

kehomogenan dalaman;
pengasingan luaran.

Soalan yang ditanya oleh penganalisis apabila menyelesaikan banyak masalah ialah cara menyusun data ke dalam struktur visual, i.e. mengembangkan taksonomi.

Pengelompokan pada mulanya paling banyak digunakan dalam sains seperti biologi, antropologi, dan psikologi. Pengelompokan tidak banyak digunakan untuk menyelesaikan masalah ekonomi sejak sekian lama kerana sifat khusus data dan fenomena ekonomi.

Kluster boleh terputus, atau eksklusif (tidak bertindih, eksklusif) dan bertindih.

Perlu diingatkan bahawa hasil daripada mengaplikasikan pelbagai kaedah analisis kluster, kluster pelbagai bentuk boleh diperolehi. Contohnya, gugusan jenis "rantai" mungkin, apabila gugusan diwakili oleh "rantai" yang panjang, gugusan memanjang, dsb., dan beberapa kaedah boleh mencipta gugusan bentuk arbitrari.

Pelbagai kaedah mungkin berusaha untuk mencipta gugusan saiz tertentu (cth., kecil atau besar) atau menganggap bahawa terdapat gugusan saiz yang berbeza dalam set data. Sesetengah kaedah analisis kluster sangat sensitif kepada bunyi atau outlier, yang lain kurang begitu. Hasil daripada menggunakan kaedah pengelompokan yang berbeza, keputusan yang berbeza mungkin diperoleh; ini adalah perkara biasa dan merupakan ciri operasi algoritma tertentu. Ciri-ciri ini harus diambil kira semasa memilih kaedah pengelompokan.

Mari kita berikan penerangan ringkas tentang pendekatan pengelompokan.

Algoritma berdasarkan pemisahan data (Algoritma pembahagian), termasuk. berulang:

membahagikan objek kepada k kelompok;
Pengagihan semula objek secara berulang untuk meningkatkan pengelompokan.
Hierarki goritma:
aglomerasi: setiap objek pada mulanya adalah kelompok, kelompok,
menghubungkan antara satu sama lain, mereka membentuk kelompok yang lebih besar, dsb.

Kaedah berasaskan kepadatan:

berdasarkan keupayaan untuk menyambung objek;
abaikan bunyi dan cari gugusan bentuk sewenang-wenangnya.

Grid - kaedah (kaedah berasaskan grid):

pengkuantitian objek ke dalam struktur grid.

Kaedah model (Berasaskan model):

menggunakan model untuk mencari kelompok yang paling sesuai dengan data.

Kaedah analisis kelompok. Kaedah berulang.

Dengan bilangan pemerhatian yang banyak, kaedah hierarki analisis kelompok tidak sesuai. Dalam kes sedemikian, kaedah bukan hierarki berdasarkan pembahagian digunakan, yang merupakan kaedah berulang untuk memecah populasi asal. Semasa proses pembahagian, kluster baru dibentuk sehingga peraturan berhenti dipenuhi.

Pengelompokan bukan hierarki sedemikian terdiri daripada membahagikan set data kepada beberapa kumpulan individu tertentu. Terdapat dua pendekatan. Yang pertama adalah untuk menentukan sempadan kelompok sebagai kawasan paling padat dalam ruang multidimensi data sumber, i.e. mentakrifkan gugusan di mana terdapat "kondensasi titik" yang besar. Pendekatan kedua ialah meminimumkan ukuran perbezaan antara objek

algoritma k-means

Kaedah bukan hierarki yang paling biasa ialah algoritma k-means, juga dipanggil analisis kelompok cepat. Penerangan lengkap tentang algoritma boleh didapati dalam Hartigan dan Wong (1978). Tidak seperti kaedah hierarki, yang tidak memerlukan andaian awal mengenai bilangan kluster, untuk dapat menggunakan kaedah ini, adalah perlu untuk mempunyai hipotesis tentang bilangan kluster yang paling mungkin.

Algoritma k-means membina k gugusan yang terletak pada jarak yang paling mungkin antara satu sama lain. Jenis masalah utama yang diselesaikan oleh algoritma k-means ialah kehadiran andaian (hipotesis) mengenai bilangan kluster, dan ia sepatutnya berbeza yang mungkin. Pilihan k mungkin berdasarkan penyelidikan terdahulu, pertimbangan teori, atau gerak hati.

Idea umum algoritma: bilangan tetap k kelompok pemerhatian dibandingkan dengan kelompok supaya purata dalam kelompok (untuk semua pembolehubah) berbeza antara satu sama lain sebanyak mungkin.

Penerangan tentang algoritma

1. Pengagihan awal objek ke dalam kelompok.

Nombor k dipilih, dan pada langkah pertama titik ini dianggap sebagai "pusat" kluster.
Setiap kluster sepadan dengan satu pusat.

Pemilihan centroid awal boleh dilakukan seperti berikut:

memilih k-pemerhatian untuk memaksimumkan jarak awal;
pemilihan rawak k-pemerhatian;
pemilihan k-pemerhatian pertama.

Akibatnya, setiap objek diperuntukkan kepada kelompok tertentu.

2. Proses berulang.

Pusat kluster dikira, yang kemudiannya digunakan untuk mengira purata koordinat dari kluster. Objek diedarkan semula.

Proses pengiraan pusat dan pengagihan semula objek berterusan sehingga salah satu syarat dipenuhi:

pusat kluster telah stabil, i.e. semua pemerhatian tergolong dalam kluster di mana ia berada sebelum lelaran semasa;
bilangan lelaran adalah sama dengan bilangan lelaran maksimum.

Rajah menunjukkan contoh algoritma k-means untuk k bersamaan dengan dua.

Contoh algoritma k-means (k=2)

Memilih bilangan kluster adalah isu yang rumit. Jika tiada andaian mengenai nombor ini, adalah disyorkan untuk membuat 2 kelompok, kemudian 3, 4, 5, dsb., membandingkan hasil yang diperoleh.

Memeriksa kualiti pengelompokan

Selepas menerima keputusan analisis k-means kluster, anda harus menyemak ketepatan kluster (iaitu, menilai betapa berbeza kluster antara satu sama lain).

Untuk melakukan ini, nilai purata bagi setiap kluster dikira. Pengelompokan yang baik harus menghasilkan cara yang sangat berbeza untuk semua ukuran, atau sekurang-kurangnya kebanyakannya.

Kelebihan algoritma k-means:

kemudahan penggunaan;
kelajuan penggunaan;
kefahaman dan ketelusan algoritma.

Kelemahan algoritma k-means:

algoritma terlalu sensitif kepada outlier yang boleh memesongkan purata.

Penyelesaian yang mungkin untuk masalah ini adalah dengan menggunakan pengubahsuaian algoritma - algoritma k-median;

algoritma mungkin perlahan pada pangkalan data yang besar. Penyelesaian yang mungkin untuk masalah ini adalah dengan menggunakan pensampelan data.

Rangkaian Bayesian

Dalam teori kebarangkalian, konsep pergantungan maklumat dimodelkan melalui pergantungan bersyarat (atau secara tegas: ketiadaan kebebasan bersyarat), yang menerangkan bagaimana keyakinan kita terhadap hasil sesuatu peristiwa berubah apabila kita memperoleh pengetahuan baharu tentang fakta, dengan syarat kita sudah tahu. beberapa set fakta lain.

Adalah mudah dan intuitif untuk mewakili kebergantungan antara elemen melalui laluan terarah yang menghubungkan elemen ini dalam graf. Jika hubungan antara unsur x dan y tidak langsung dan dijalankan melalui unsur ketiga z, maka adalah logik untuk menjangkakan bahawa akan ada unsur z pada laluan antara x dan y. Nod perantara sedemikian akan "memotong" pergantungan antara x dan y, i.e. mensimulasikan situasi kebebasan bersyarat antara mereka dengan nilai diketahui faktor-faktor yang mempengaruhi langsung.Bahasa pemodelan sedemikian ialah rangkaian Bayesian, yang digunakan untuk menerangkan kebergantungan bersyarat antara konsep kawasan subjek tertentu.

Rangkaian Bayesian ialah struktur grafik untuk mewakili hubungan kebarangkalian antara bilangan pembolehubah yang besar dan untuk melaksanakan inferens kebarangkalian berdasarkan pembolehubah tersebut.Pengelasan "Naif" (Bayesian) ialah kaedah pengelasan yang agak telus dan mudah difahami. "Naif" ia dipanggil kerana ia berdasarkan andaian salingkebebasan tanda.

Sifat pengelasan:

1. Menggunakan semua pembolehubah dan menentukan semua kebergantungan di antara mereka.

2. Mempunyai dua andaian tentang pembolehubah:

semua pembolehubah adalah sama penting;
semua pembolehubah adalah bebas dari segi statistik, i.e. nilai satu pembolehubah tidak mengatakan apa-apa tentang nilai yang lain.

Terdapat dua senario utama untuk menggunakan rangkaian Bayesian:

1. Analisis deskriptif. Kawasan subjek dipaparkan sebagai graf, nod yang mewakili konsep, dan lengkok terarah, dipaparkan dengan anak panah, menggambarkan kebergantungan langsung antara konsep ini. Hubungan antara x dan y bermaksud: mengetahui nilai x membantu anda membuat tekaan yang lebih baik tentang nilai y. Ketiadaan hubungan langsung antara konsep memodelkan kebebasan bersyarat di antara mereka dengan nilai yang diketahui dari set konsep "memisahkan" tertentu. Sebagai contoh, saiz kasut kanak-kanak jelas berkaitan dengan kebolehan membaca kanak-kanak sepanjang umur. Oleh itu, saiz kasut yang lebih besar memberikan lebih keyakinan bahawa kanak-kanak itu sudah membaca, tetapi jika kita sudah tahu umur, maka mengetahui saiz kasut tidak lagi memberi kita maklumat tambahan tentang kebolehan kanak-kanak membaca.

Sebagai contoh lain, sebaliknya, pertimbangkan faktor yang pada mulanya tidak berkaitan seperti merokok dan selsema. Tetapi jika kita mengetahui gejala, contohnya, seseorang itu mengalami batuk pada waktu pagi, maka mengetahui orang itu tidak merokok meningkatkan keyakinan kita bahawa orang itu selsema.

2. Pengelasan dan ramalan. Rangkaian Bayesian, membenarkan kebebasan bersyarat beberapa konsep, memungkinkan untuk mengurangkan bilangan parameter pengedaran bersama, memungkinkan untuk menganggarkannya dengan yakin pada volum data yang tersedia. Jadi, dengan 10 pembolehubah, setiap satunya boleh mengambil 10 nilai, bilangan parameter taburan bersama ialah 10 bilion - 1. Jika kita mengandaikan bahawa hanya 2 pembolehubah bergantung antara satu sama lain antara pembolehubah ini, maka bilangan parameter menjadi 8 * (10-1) + (10*10-1) = 171. Mempunyai model pengedaran bersama yang realistik dari segi sumber pengiraan, kita boleh meramalkan nilai yang tidak diketahui bagi sesuatu konsep sebagai, sebagai contoh, nilai yang paling berkemungkinan bagi konsep ini memandangkan nilai yang diketahui konsep lain.

Kelebihan rangkaian Bayesian berikut sebagai kaedah DataMining dicatatkan:

Model mentakrifkan kebergantungan antara semua pembolehubah, ini menjadikannya mudahmengendalikan situasi di mana nilai beberapa pembolehubah tidak diketahui;

Rangkaian Bayesian agak mudah untuk ditafsir dan dibenarkanPemodelan ramalan memudahkan untuk menjalankan analisis senario bagaimana jika;

Kaedah Bayesian membolehkan anda menggabungkan corak secara semula jadi,disimpulkan daripada data, dan, sebagai contoh, pengetahuan pakar yang diperoleh secara eksplisit;

Menggunakan rangkaian Bayesian mengelakkan masalah overfitting(overfitting), iaitu komplikasi model yang berlebihan, yang merupakan kelemahanbanyak kaedah (contohnya, pokok keputusan dan rangkaian saraf).

Pendekatan Naive Bayes mempunyai kelemahan berikut:

Adalah betul untuk mendarab kebarangkalian bersyarat hanya apabila semua inputpembolehubah benar-benar bebas dari segi statistik; walaupun selalunya kaedah inimenunjukkan keputusan yang agak baik apabila syarat statistik tidak dipenuhikemerdekaan, tetapi secara teorinya keadaan sedemikian harus dikendalikan oleh yang lebih komplekskaedah berdasarkan latihan rangkaian Bayesian;

Pemprosesan langsung pembolehubah berterusan tidak mungkin - ia diperlukanpenukaran kepada skala selang supaya atribut adalah diskret; walau bagaimanapun begitutransformasi kadangkala boleh menyebabkan kehilangan corak yang ketara;

Keputusan pengelasan dalam pendekatan Naive Bayes hanya dipengaruhi olehnilai individu pembolehubah input, pengaruh gabungan pasangan atautriplet nilai atribut yang berbeza tidak diambil kira di sini. Ini boleh bertambah baikkualiti model klasifikasi dari segi ketepatan ramalannya,walau bagaimanapun, ia akan meningkatkan bilangan pilihan yang diuji.

Rangkaian saraf tiruan

Rangkaian saraf tiruan (selepas ini dirujuk sebagai rangkaian saraf) boleh menjadi segerak dan tak segerak.Dalam rangkaian neural segerak, pada setiap saat keadaannya berubah sahaja satu neuron. Dalam asynchronous - keadaan berubah serta-merta dalam keseluruhan kumpulan neuron, sebagai peraturan, dalam semua lapisan. Dua seni bina asas boleh dibezakan: rangkaian berlapis dan jaringan.Konsep utama dalam rangkaian berlapis ialah konsep lapisan.Lapisan ialah satu atau lebih neuron yang inputnya menerima isyarat biasa yang sama.Rangkaian saraf berlapis ialah rangkaian saraf di mana neuron dibahagikan kepada kumpulan berasingan (lapisan) supaya maklumat diproses lapisan demi lapisan.Dalam rangkaian berlapis, neuron lapisan ke-i menerima isyarat input, mengubahnya, dan menghantarnya melalui titik percabangan ke neuron lapisan (i+1). Dan seterusnya sehingga lapisan ke-k, yang menghasilkanisyarat keluaran untuk penterjemah dan pengguna. Bilangan neuron dalam setiap lapisan tidak berkaitan dengan bilangan neuron dalam lapisan lain dan boleh sewenang-wenangnya.Dalam satu lapisan, data diproses secara selari, dan merentasi keseluruhan rangkaian, pemprosesan dijalankan secara berurutan - dari lapisan ke lapisan. Rangkaian saraf berlapis termasuk, sebagai contoh, perceptron berbilang lapisan, rangkaian fungsi asas jejari, kognitron, bukan kognitron, rangkaian ingatan bersekutu.Walau bagaimanapun, isyarat tidak selalu dihantar ke semua neuron dalam lapisan. Dalam kognitron, sebagai contoh, setiap neuron lapisan semasa menerima isyarat hanya daripada neuron yang berdekatan dengannya dalam lapisan sebelumnya.

Rangkaian berlapis pula boleh menjadi satu lapisan atau berbilang lapisan.

Rangkaian lapisan tunggal- rangkaian yang terdiri daripada satu lapisan.

Rangkaian berbilang lapisan- rangkaian dengan beberapa lapisan.

Dalam rangkaian berbilang lapisan, lapisan pertama dipanggil lapisan input, lapisan seterusnya dipanggil dalaman atau tersembunyi, dan lapisan terakhir dipanggil lapisan output. Oleh itu, lapisan perantaraan adalah semua lapisan dalam rangkaian saraf berbilang lapisan kecuali input dan output.Lapisan input rangkaian berkomunikasi dengan data input, dan lapisan output berkomunikasi dengan output.Oleh itu, neuron boleh menjadi input, output dan tersembunyi.Lapisan input disusun daripada neuron input, yang menerima data dan mengedarkannya kepada input neuron dalam lapisan tersembunyi rangkaian.Neuron tersembunyi ialah neuron yang terletak di lapisan tersembunyi rangkaian saraf.Neuron output, dari mana lapisan keluaran rangkaian disusun, menghasilkankeputusan rangkaian saraf.

Dalam rangkaian mesh Setiap neuron menghantar outputnya ke neuron lain, termasuk dirinya sendiri. Isyarat keluaran rangkaian boleh menjadi semua atau beberapa isyarat keluaran neuron selepas beberapa kitaran operasi rangkaian.

Semua isyarat input diberikan kepada semua neuron.

Melatih rangkaian saraf

Sebelum menggunakan rangkaian saraf, ia mesti dilatih.Proses melatih rangkaian saraf terdiri daripada menyesuaikan parameter dalamannya kepada tugas tertentu.Algoritma rangkaian saraf adalah berulang; langkahnya dipanggil zaman atau kitaran.Epok ialah satu lelaran dalam proses pembelajaran, termasuk pembentangan semua contoh daripada set latihan dan, mungkin, menyemak kualiti pembelajaran pada set ujian. ramai. Proses pembelajaran dijalankan pada sampel latihan.Set latihan termasuk nilai input dan nilai output yang sepadan bagi dataset. Semasa latihan, rangkaian saraf menemui kebergantungan tertentu antara medan output dan medan input.Oleh itu, kita berhadapan dengan persoalan - apakah medan input (ciri) yang kita perlukan?yang perlu digunakan. Pada mulanya, pilihan dibuat secara heuristik, kemudianbilangan input boleh diubah.

Masalah yang mungkin timbul ialah bilangan pemerhatian dalam set data. Dan walaupun terdapat peraturan tertentu yang menerangkan hubungan antara bilangan pemerhatian yang diperlukan dan saiz rangkaian, ketepatannya belum terbukti.Bilangan pemerhatian yang diperlukan bergantung kepada kerumitan masalah yang diselesaikan. Apabila bilangan ciri bertambah, bilangan pemerhatian meningkat secara tidak linear; masalah ini dipanggil "kutukan dimensi." Sekiranya kuantiti tidak mencukupidata, adalah disyorkan untuk menggunakan model linear.

Penganalisis mesti menentukan bilangan lapisan dalam rangkaian dan bilangan neuron dalam setiap lapisan.Seterusnya, anda perlu menetapkan nilai berat dan offset sedemikian yang bolehmeminimumkan kesilapan keputusan. Berat dan berat sebelah dilaraskan secara automatik untuk meminimumkan perbezaan antara isyarat keluaran yang diingini dan diterima, dipanggil ralat latihan.Ralat latihan untuk rangkaian saraf yang dibina dikira dengan membandingkannilai output dan sasaran (yang dikehendaki). Fungsi ralat terbentuk daripada perbezaan yang terhasil.

Fungsi ralat ialah fungsi objektif yang memerlukan pengecilan dalam prosespembelajaran rangkaian saraf diselia.Menggunakan fungsi ralat, anda boleh menilai kualiti rangkaian saraf semasa latihan. Sebagai contoh, jumlah ralat kuasa dua sering digunakan.Kualiti latihan rangkaian saraf menentukan keupayaannya untuk menyelesaikan tugasan yang diberikan.

Melatih semula rangkaian saraf

Apabila melatih rangkaian saraf, kesukaran yang serius sering timbul dipanggilmasalah overfitting.Overfitting, atau overfitting - overfittingrangkaian saraf kepada set contoh latihan tertentu, di mana rangkaian itu hilangkeupayaan untuk membuat generalisasi.Latihan berlebihan berlaku apabila terdapat terlalu banyak latihan, tidak mencukupicontoh latihan atau struktur rangkaian saraf yang terlalu rumit.Latihan semula adalah disebabkan oleh hakikat bahawa pilihan set latihanadalah rawak. Dari langkah pertama pembelajaran, ralat berkurangan. hiduplangkah-langkah seterusnya untuk mengurangkan parameter ralat (fungsi objektif).menyesuaikan diri dengan ciri-ciri set latihan. Walau bagaimanapun, ini berlaku"pelarasan" bukan kepada corak umum siri, tetapi kepada ciri bahagiannya -subset latihan. Pada masa yang sama, ketepatan ramalan berkurangan.Salah satu pilihan untuk memerangi overtraining rangkaian ialah membahagikan sampel latihan kepada duaset (latihan dan ujian).Rangkaian saraf dilatih pada set latihan. Model yang dibina disemak pada set ujian. Set ini tidak boleh bersilang.Dengan setiap langkah, parameter model berubah, tetapi penurunan berterusanNilai fungsi objektif berlaku tepat pada set latihan. Apabila kita membahagikan set kepada dua, kita boleh melihat perubahan dalam ralat ramalan pada set ujian selari dengan pemerhatian pada set latihan. beberapabilangan langkah ralat ramalan berkurangan pada kedua-dua set. Walau bagaimanapun, padaPada langkah tertentu, ralat pada set ujian mula meningkat, manakala ralat pada set latihan terus berkurangan. Detik ini dianggap sebagai permulaan latihan semula

Alat Perlombongan Data

Kedua-dua pemimpin terkenal dunia dan syarikat membangun baharu terlibat dalam pembangunan sektor DataMining pasaran perisian global. Alat DataMining boleh dipersembahkan sama ada sebagai aplikasi yang berdiri sendiri atau sebagai tambahan kepada produk utama.Pilihan terakhir dilaksanakan oleh banyak pemimpin pasaran perisian.Oleh itu, sudah menjadi tradisi bahawa pembangun pakej statistik universal, sebagai tambahan kepada kaedah analisis statistik tradisional, dimasukkan ke dalam pakejsatu set kaedah DataMining khusus. Ini adalah pakej seperti SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Sesetengah penyedia penyelesaian OLAP juga menawarkan satu set kaedah DataMining, seperti keluarga produk Cognos. Terdapat pembekal yang menyertakan penyelesaian DataMining dalam fungsi DBMS: ini ialah Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliografi

Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., “Kejuruteraan semula proses perniagaan. Kursus MBA", M.: Eksmo Publishing House, 2005. - 592 p. - (MBA)

Abdikeev N.M., Kiselev A.D. “Pengurusan pengetahuan dalam perbadanan dan kejuruteraan semula perniagaan” - M.: Infra-M, 2011. - 382 p. – ISBN 978-5-16-004300-5

Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Kaedah dan model analisis data: OLAP dan Perlombongan Data", St. Petersburg: BHV-Petersburg, 2004, 336 ms, ISBN 5-94157-522-X

Duke DALAM., Samoilenko A., “Perlombongan Data.Kursus latihan" St. Petersburg: Peter, 2001, 386 p.

Chubukova I.A., kursus Perlombongan Data, http://www.intuit.ru/department/database/datamining/

IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Perlombongan Data: Alat dan Teknik Pembelajaran Mesin Praktikal (Edisi Ketiga), ISBN 978-0-12-374856-0

Petrushin V.A. , Khan L. , Perlombongan Data Multimedia dan Penemuan Pengetahuan

Apa itu Data Mining

Klasifikasi tugas Perlombongan Data

Masalah carian peraturan persatuan

Masalah pengelompokan

Ciri-ciri Pelombong Data dalam Statistica 8

Alat analisis STATISTICA Data Miner

Contoh bekerja dalam Data Minin

Membuat laporan dan ringkasan

Menyusun maklumat

Analisis harga plot kediaman

Analisis peramal kelangsungan hidup

Kesimpulan

Apa itu Data Mining

Istilah komputer moden Data Mining diterjemahkan sebagai "pengambilan maklumat" atau "perlombongan data". Selalunya, bersama-sama dengan Perlombongan Data, istilah Penemuan Pengetahuan dan Gudang Data digunakan. Kemunculan istilah ini, yang merupakan sebahagian daripada Perlombongan Data, dikaitkan dengan pusingan baharu dalam pembangunan alat dan kaedah untuk memproses dan menyimpan data. Jadi, matlamat Perlombongan Data adalah untuk mengenal pasti peraturan dan corak tersembunyi dalam volum data yang besar (sangat besar).

Hakikatnya ialah minda manusia itu sendiri tidak disesuaikan untuk melihat sejumlah besar maklumat heterogen. Orang biasa, kecuali beberapa individu, tidak dapat memahami lebih daripada dua atau tiga hubungan, walaupun dalam sampel kecil. Tetapi statistik tradisional, yang telah lama mendakwa sebagai alat utama untuk analisis data, juga sering gagal apabila menyelesaikan masalah kehidupan sebenar. Ia beroperasi dengan ciri purata sampel, yang selalunya merupakan nilai rekaan (kesolvenan purata pelanggan, apabila, bergantung pada fungsi risiko atau fungsi kerugian, anda perlu dapat meramalkan kesolvenan dan niat pelanggan; purata keamatan isyarat, semasa anda berminat dengan ciri ciri dan prasyarat puncak isyarat, dsb. .d.).

Oleh itu, kaedah statistik matematik ternyata berguna terutamanya untuk menguji hipotesis yang telah dirumuskan, manakala menentukan hipotesis kadangkala merupakan tugas yang agak rumit dan memakan masa. Teknologi Perlombongan Data Moden memproses maklumat untuk mencari corak (corak) ciri bagi mana-mana serpihan data multidimensi heterogen secara automatik. Tidak seperti pemprosesan analitikal dalam talian (OLAP), Perlombongan Data mengalihkan beban merumuskan hipotesis dan mengenal pasti corak yang tidak dijangka daripada manusia kepada komputer. Perlombongan Data bukanlah satu, tetapi gabungan sejumlah besar kaedah penemuan pengetahuan yang berbeza. Pilihan kaedah selalunya bergantung pada jenis data yang tersedia dan maklumat yang anda cuba dapatkan. Di sini, sebagai contoh, terdapat beberapa kaedah: persatuan (kesatuan), pengelasan, pengelompokan, analisis dan ramalan siri masa, rangkaian saraf, dsb.

Mari kita pertimbangkan sifat-sifat pengetahuan yang ditemui yang diberikan dalam definisi dengan lebih terperinci.

Pengetahuan itu mestilah baru, sebelum ini tidak diketahui. Usaha yang dibelanjakan untuk mencari ilmu yang sudah diketahui pengguna tidak membuahkan hasil. Oleh itu, ia adalah pengetahuan baru yang tidak diketahui sebelum ini yang berharga.

Ilmu mestilah tidak remeh. Hasil analisis harus mencerminkan corak yang tidak jelas dan tidak dijangka dalam data, yang membentuk apa yang dipanggil pengetahuan tersembunyi. Keputusan yang boleh diperolehi melalui kaedah yang lebih mudah (contohnya, pemeriksaan visual) tidak membenarkan penggunaan kaedah Perlombongan Data yang berkuasa.

Pengetahuan mestilah berguna secara praktikal. Pengetahuan yang ditemui mestilah boleh digunakan, termasuk pada data baharu, dengan tahap kebolehpercayaan yang cukup tinggi. Kegunaan terletak pada hakikat bahawa pengetahuan ini boleh membawa faedah tertentu apabila diterapkan.

Pengetahuan mesti boleh diakses oleh pemahaman manusia. Corak yang ditemui mestilah boleh dijelaskan secara logik, jika tidak ada kemungkinan ia adalah rawak. Selain itu, ilmu yang ditemui mestilah dipersembahkan dalam bentuk yang boleh difahami oleh manusia.

Dalam Perlombongan Data, model digunakan untuk mewakili pengetahuan yang diperoleh. Jenis model bergantung pada kaedah yang digunakan untuk menciptanya. Yang paling biasa ialah: peraturan, pepohon keputusan, kelompok dan fungsi matematik.

Skop Perlombongan Data tidak terhad dalam apa jua cara - Perlombongan Data diperlukan di mana-mana sahaja terdapat sebarang data. Pengalaman banyak perusahaan sedemikian menunjukkan bahawa pulangan perlombongan data boleh mencapai 1000%. Sebagai contoh, terdapat laporan kesan ekonomi yang 10-70 kali lebih tinggi daripada kos awal dari 350 hingga 750 ribu dolar. Maklumat disediakan tentang projek $20 juta yang dibayar sendiri dalam masa 4 bulan sahaja. Contoh lain ialah simpanan tahunan sebanyak $700 ribu. melalui pelaksanaan Data Mining dalam rangkaian pasar raya di UK. Perlombongan Data amat bernilai kepada pengurus dan penganalisis dalam aktiviti harian mereka. Ahli perniagaan telah menyedari bahawa dengan bantuan kaedah Perlombongan Data mereka boleh memperoleh kelebihan daya saing yang ketara.

Klasifikasi tugas DataMining

Kaedah DataMining membolehkan anda menyelesaikan banyak masalah yang dihadapi oleh penganalisis. Yang utama ialah: klasifikasi, regresi, mencari peraturan persatuan dan pengelompokan. Di bawah adalah penerangan ringkas tentang tugas utama analisis data.

1) Tugas pengelasan datang untuk menentukan kelas objek berdasarkan ciri-cirinya. Perlu diingatkan bahawa dalam masalah ini set kelas yang mana objek boleh diklasifikasikan diketahui terlebih dahulu.

2) Masalah regresi, seperti masalah klasifikasi, membolehkan anda menentukan nilai beberapa parameternya berdasarkan ciri-ciri objek yang diketahui. Tidak seperti masalah pengelasan, nilai parameter bukanlah set kelas terhingga, tetapi set nombor nyata.

3) Tugas persatuan. Apabila mencari peraturan persatuan, matlamatnya adalah untuk mencari kebergantungan (atau perkaitan) yang kerap antara objek atau peristiwa. Kebergantungan yang ditemui dibentangkan dalam bentuk peraturan dan boleh digunakan untuk memahami dengan lebih baik sifat data yang dianalisis dan untuk meramalkan kejadian peristiwa.

4) Tugas pengelompokan adalah untuk mencari kumpulan bebas (cluster) dan ciri-cirinya dalam keseluruhan set data yang dianalisis. Menyelesaikan masalah ini membantu anda memahami data dengan lebih baik. Di samping itu, pengelompokan objek homogen memungkinkan untuk mengurangkan bilangannya dan, oleh itu, memudahkan analisis.

5) Pola urutan - mewujudkan pola antara peristiwa yang berkaitan dalam masa, iaitu. pengesanan pergantungan bahawa jika peristiwa X berlaku, maka selepas masa tertentu peristiwa Y akan berlaku.

6) Analisis sisihan - mengenal pasti corak yang paling tidak berciri.

Tugasan yang disenaraikan dibahagikan kepada deskriptif dan ramalan mengikut tujuannya.

Tugas deskriptif memberi tumpuan kepada meningkatkan pemahaman data yang dianalisis. Perkara utama dalam model sedemikian ialah kemudahan dan ketelusan keputusan untuk persepsi manusia. Ada kemungkinan bahawa corak yang ditemui akan menjadi ciri khusus data tertentu yang sedang dikaji dan tidak akan ditemui di tempat lain, tetapi ia masih boleh berguna dan oleh itu harus diketahui. Jenis tugasan ini termasuk pengelompokan dan mencari peraturan persatuan.

Menyelesaikan masalah ramalan terbahagi kepada dua peringkat. Pada peringkat pertama, model dibina berdasarkan set data dengan keputusan yang diketahui. Pada peringkat kedua, ia digunakan untuk meramal keputusan berdasarkan set data baharu. Dalam kes ini, secara semula jadi diperlukan bahawa model yang dibina berfungsi setepat mungkin. Tugas jenis ini termasuk masalah klasifikasi dan regresi. Ini juga boleh termasuk masalah mencari peraturan persatuan, jika hasil penyelesaiannya boleh digunakan untuk meramalkan kejadian tertentu.

Berdasarkan kaedah penyelesaian masalah, ia dibahagikan kepada pembelajaran terselia (belajar dengan guru) dan pembelajaran tanpa pengawasan (belajar tanpa guru). Nama ini berasal daripada istilah Pembelajaran Mesin, sering digunakan dalam kesusasteraan Inggeris dan menandakan semua teknologi Perlombongan Data.

Dalam kes pembelajaran yang diselia, masalah analisis data diselesaikan dalam beberapa peringkat. Pertama, menggunakan beberapa algoritma Perlombongan Data, model data yang dianalisis - pengelas - dibina. Pengelas kemudiannya dilatih. Dalam erti kata lain, kualiti kerjanya diperiksa dan, jika tidak memuaskan, latihan tambahan pengelas berlaku. Ini berterusan sehingga tahap kualiti yang diperlukan dicapai atau menjadi jelas bahawa algoritma yang dipilih tidak berfungsi dengan betul dengan data, atau data itu sendiri tidak mempunyai struktur yang boleh dikenal pasti. Tugas jenis ini termasuk masalah klasifikasi dan regresi.

Pembelajaran tanpa pengawasan menggabungkan tugas yang mengenal pasti corak deskriptif, seperti corak dalam pembelian yang dibuat oleh pelanggan di kedai besar. Jelas sekali, jika corak ini wujud, maka model itu harus mewakili mereka dan tidak sesuai untuk bercakap tentang latihannya. Oleh itu namanya - pembelajaran tanpa pengawasan. Kelebihan masalah tersebut ialah kemungkinan menyelesaikannya tanpa pengetahuan awal tentang data yang dianalisis. Ini termasuk pengelompokan dan mencari peraturan persatuan.

Masalah Klasifikasi dan Regresi

Apabila menganalisis, selalunya perlu untuk menentukan kelas yang diketahui milik objek yang dikaji, iaitu, untuk mengelaskannya. Sebagai contoh, apabila seseorang menghubungi bank untuk mendapatkan pinjaman, pekerja bank mesti memutuskan sama ada bakal pelanggan adalah layak kredit atau tidak. Jelas sekali, keputusan sedemikian dibuat berdasarkan data mengenai objek yang dikaji (dalam kes ini, seseorang): tempat kerja, gaji, umur, komposisi keluarga, dll. Hasil daripada menganalisis maklumat ini, bank pekerja mesti mengklasifikasikan orang itu sebagai salah satu daripada dua kelas terkenal "bernilai kredit" dan "tidak boleh dikreditkan".

Satu lagi contoh tugas klasifikasi ialah penapisan e-mel. Dalam kes ini, program penapisan mesti mengklasifikasikan mesej masuk sebagai spam (e-mel yang tidak diminta) atau sebagai surat. Keputusan ini dibuat berdasarkan kekerapan berlakunya perkataan tertentu dalam mesej (contohnya, nama penerima, alamat tidak peribadi, perkataan dan frasa: pembelian, "dapat," "tawaran berfaedah," dsb.).

Rangkaian saraf tiruan, algoritma genetik, pengaturcaraan evolusi, ingatan bersekutu, logik kabur. Kaedah Perlombongan Data selalunya termasuk kaedah statistik(analisis deskriptif, analisis korelasi dan regresi, analisis faktor, analisis varians, analisis komponen, analisis diskriminasi, analisis siri masa). Kaedah sedemikian, bagaimanapun, mengandaikan beberapa idea a priori tentang data yang dianalisis, yang agak bertentangan dengan matlamat. Perlombongan Data(penemuan pengetahuan yang tidak diketahui sebelum ini tidak remeh dan praktikal berguna).

Salah satu tujuan terpenting kaedah Perlombongan Data adalah untuk mempersembahkan hasil pengiraan secara visual, yang membolehkan penggunaan alat Perlombongan Data oleh orang yang tidak mempunyai latihan matematik khas. Pada masa yang sama, penggunaan kaedah statistik analisis data memerlukan pengetahuan yang baik tentang teori kebarangkalian dan statistik matematik.

pengenalan

Kaedah Perlombongan Data (atau, yang merupakan perkara yang sama, Penemuan Pengetahuan Dalam Data, disingkat sebagai KDD) terletak di persimpangan pangkalan data, statistik dan kecerdasan buatan.

Lawatan bersejarah

Bidang Perlombongan Data bermula dengan bengkel yang dikendalikan oleh Grigory Pyatetsky-Shapiro pada tahun 1989.

Sebelum ini, semasa bekerja di GTE Labs, Grigory Pyatetsky-Shapiro mula berminat dengan soalan: adakah mungkin untuk mencari peraturan tertentu secara automatik untuk mempercepatkan beberapa pertanyaan ke pangkalan data yang besar. Pada masa yang sama, dua istilah telah dicadangkan - Perlombongan Data (“perlombongan data”) dan Penemuan Pengetahuan Dalam Data (yang sepatutnya diterjemahkan sebagai “penemuan pengetahuan dalam pangkalan data”).

Perumusan masalah

Pada mulanya tugasan ditetapkan seperti berikut:

terdapat pangkalan data yang agak besar;
diandaikan bahawa terdapat beberapa "pengetahuan tersembunyi" dalam pangkalan data.

Ia adalah perlu untuk membangunkan kaedah untuk menemui pengetahuan yang tersembunyi dalam jumlah besar data "mentah" awal.

Apakah maksud "ilmu tersembunyi"? Ini mesti pengetahuan:

sebelum ini tidak diketahui - iaitu, pengetahuan yang sepatutnya baru (dan tidak mengesahkan beberapa maklumat yang diperoleh sebelum ini);
bukan remeh - iaitu, yang tidak boleh dilihat (semasa analisis visual langsung data atau apabila mengira ciri statistik mudah);
praktikal berguna - iaitu, pengetahuan yang berharga kepada penyelidik atau pengguna;
boleh diakses untuk tafsiran - iaitu pengetahuan yang mudah disampaikan dalam bentuk yang jelas kepada pengguna dan mudah untuk dijelaskan dari segi bidang subjek.

Keperluan ini sebahagian besarnya menentukan intipati kaedah perlombongan Data dan bentuk serta nisbah di mana teknologi perlombongan Data menggunakan sistem pengurusan pangkalan data, kaedah analisis statistik dan kaedah kecerdasan buatan.

Perlombongan data dan pangkalan data

Kaedah perlombongan data hanya masuk akal untuk pangkalan data yang agak besar. Setiap bidang penyelidikan tertentu mempunyai kriteria sendiri untuk "kebesaran" pangkalan data.

Perkembangan teknologi pangkalan data mula-mula membawa kepada penciptaan bahasa khusus - bahasa pertanyaan pangkalan data. Untuk pangkalan data hubungan, ia adalah bahasa SQL, yang menyediakan keupayaan yang luas untuk mencipta, mengubah suai dan mendapatkan semula data yang disimpan. Kemudian timbul keperluan untuk mendapatkan maklumat analisis (contohnya, maklumat mengenai aktiviti perusahaan untuk tempoh tertentu), dan ternyata pangkalan data hubungan tradisional, sesuai, sebagai contoh, untuk mengekalkan perakaunan operasi (di perusahaan), kurang sesuai untuk analisis. ini membawa, seterusnya, kepada penciptaan apa yang dipanggil. "gudang data", struktur yang paling sesuai dengan pengendalian analisis matematik yang komprehensif.

Perlombongan data dan statistik

Kaedah perlombongan data adalah berdasarkan kaedah matematik pemprosesan data, termasuk kaedah statistik. Dalam penyelesaian perindustrian, kaedah sedemikian selalunya disertakan secara langsung dalam pakej perlombongan Data. Walau bagaimanapun, perlu diambil kira bahawa selalunya penyelidik menggunakan ujian parametrik secara tidak munasabah dan bukannya ujian bukan parametrik untuk memudahkan perkara, dan kedua, keputusan analisis sukar untuk ditafsirkan, yang sama sekali bertentangan dengan matlamat dan objektif Data. perlombongan. Walau bagaimanapun, kaedah statistik digunakan, tetapi aplikasinya terhad untuk melaksanakan hanya peringkat tertentu kajian.

Perlombongan data dan kecerdasan buatan

Pengetahuan yang diperoleh melalui kaedah perlombongan Data biasanya diwakili dalam bentuk model. Model-model ini ialah:

peraturan persatuan;
pokok keputusan;
kelompok;
fungsi matematik.

Kaedah untuk membina model sedemikian biasanya dirujuk sebagai apa yang dipanggil. "kecerdasan buatan".

Tugasan

Masalah yang diselesaikan dengan kaedah Data Mining biasanya dibahagikan kepada deskriptif. penjelasan) dan ramalan (eng. ramalan).

Dalam tugasan deskriptif, perkara yang paling penting ialah memberikan penerangan visual tentang corak tersembunyi yang sedia ada, manakala dalam tugasan ramalan, latar depan ialah persoalan ramalan untuk kes yang belum ada data lagi.

Tugas deskriptif termasuk:

cari peraturan atau corak persatuan (sampel);
pengelompokan objek, analisis kelompok;
membina model regresi.

Tugas ramalan termasuk:

pengelasan objek (untuk kelas yang telah ditetapkan);
analisis regresi, analisis siri masa.

Algoritma pembelajaran

Masalah klasifikasi dicirikan oleh "pembelajaran terselia", di mana pembinaan (latihan) model dijalankan menggunakan sampel yang mengandungi vektor input dan output.

Untuk masalah pengelompokan dan perkaitan, "pembelajaran tanpa pengawasan" digunakan, di mana model dibina menggunakan sampel yang tiada parameter keluaran. Nilai parameter output ("milik kluster ...", "sama dengan vektor ...") dipilih secara automatik semasa proses latihan.

Untuk masalah pengurangan perihalan adalah tipikal tiada pemisahan kepada vektor input dan output. Sejak karya klasik K. Pearson mengenai kaedah komponen utama, perhatian utama telah diberikan kepada penghampiran data.

Peringkat latihan

Terdapat satu siri peringkat biasa untuk menyelesaikan masalah menggunakan kaedah Perlombongan Data:

Pembentukan hipotesis;
Pengumpulan data;
Penyediaan data (penapisan);
Pemilihan model;
Pemilihan parameter model dan algoritma pembelajaran;
Latihan model (carian automatik untuk parameter model lain);
Analisis kualiti latihan, jika peralihan ke titik 5 atau mata 4 tidak memuaskan;
Analisis corak yang dikenal pasti, jika peralihan kepada langkah 1, 4 atau 5 tidak memuaskan.

Penyediaan data

Sebelum menggunakan algoritma Perlombongan Data, perlu menyediakan satu set data yang dianalisis. Memandangkan IDA hanya boleh mengesan corak yang terdapat dalam data, data sumber, dalam satu pihak, mestilah mempunyai volum yang mencukupi supaya corak ini terdapat di dalamnya, dan sebaliknya, cukup padat supaya analisis mengambil keputusan yang boleh diterima. masa. Selalunya, gudang data atau data mart bertindak sebagai data sumber. Persediaan adalah perlu untuk menganalisis data berbilang dimensi sebelum pengelompokan atau perlombongan data.

Data yang dibersihkan dikurangkan kepada set ciri (atau vektor jika algoritma hanya boleh berfungsi dengan vektor dimensi tetap), satu set ciri setiap pemerhatian. Satu set ciri dibentuk mengikut hipotesis tentang ciri data mentah yang mempunyai kuasa ramalan yang tinggi berdasarkan kuasa pengkomputeran yang diperlukan untuk pemprosesan. Contohnya, imej hitam putih muka berukuran 100x100 piksel mengandungi 10 ribu bit data mentah. Mereka boleh ditukar menjadi vektor ciri dengan mengesan mata dan mulut dalam imej. Akibatnya, volum data dikurangkan daripada 10 ribu bit kepada senarai kod kedudukan, dengan ketara mengurangkan volum data yang dianalisis, dan oleh itu masa analisis.

Sebilangan algoritma dapat memproses data yang hilang yang mempunyai kuasa ramalan (contohnya, kekurangan pembelian pelanggan untuk jenis tertentu). Contohnya, apabila menggunakan kaedah peraturan persatuan (Bahasa Inggeris) bahasa Rusia Ia bukan vektor ciri yang diproses, tetapi set dimensi berubah.

Pilihan fungsi objektif akan bergantung kepada tujuan analisis; memilih fungsi "betul" adalah asas kepada perlombongan data yang berjaya.

Pemerhatian terbahagi kepada dua kategori - set latihan dan set ujian. Set latihan digunakan untuk "melatih" algoritma Perlombongan Data, dan set ujian digunakan untuk menyemak corak yang ditemui.

lihat juga

Rangkaian neural probabilistik Reshetov

Nota

kesusasteraan

Paklin N. B., Oreshkov V. I. Analitis perniagaan: daripada data kepada pengetahuan (+ CD). - St Petersburg. : Ed. Peter, 2009. - 624 p.

Duke V., Samoilenko A. Perlombongan Data: kursus latihan (+CD). - St Petersburg. : Ed. Peter, 2001. - 368 p.

Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. PENGIKTIRAFAN. Kaedah matematik. Sistem perisian. Aplikasi praktikal. - M.: Rumah penerbitan. "Fasa", 2006. - 176 p. - ISBN 5-7036-0108-8

Zinoviev A. Yu. Memvisualisasikan data berbilang dimensi. - Krasnoyarsk: Rumah penerbitan. Universiti Teknikal Negeri Krasnoyarsk, 2000. - 180 p.

Chubukova I. A. Perlombongan Data: Satu Tutorial. - M.: Universiti Teknologi Maklumat Internet: BINOM: Makmal Pengetahuan, 2006. - 382 p. - ISBN 5-9556-0064-7

Ian H. Witten, Eibe Frank dan Mark A. Hall Perlombongan Data: Alat dan Teknik Pembelajaran Mesin Praktikal. - Edisi ke-3. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

Pautan

Perisian Perlombongan Data dalam direktori pautan Projek Direktori Terbuka (dmoz).

Perlombongan Data dan Pembelajaran Mesin
	Weka GNU R KNIME Rapid Miner Gretl PSPP
Hak milik	Deductor Statistica SPSS

Yayasan Wikimedia. 2010.

perlombongan data) dan analisis penerokaan "kasar", yang membentuk asas pemprosesan data analisis operasi (OnLine Analytical Processing, OLAP), manakala salah satu peruntukan utama Perlombongan Data ialah pencarian untuk tidak jelas. corak. Alat Perlombongan Data boleh mencari corak sedemikian secara bebas dan juga membina hipotesis secara bebas tentang perhubungan. Memandangkan merumuskan hipotesis mengenai kebergantungan adalah tugas yang paling sukar, kelebihan Perlombongan Data berbanding kaedah analisis lain adalah jelas.

Kebanyakan kaedah statistik untuk mengenal pasti perhubungan dalam data menggunakan konsep purata sampel, yang membawa kepada operasi pada nilai yang tidak wujud, manakala Perlombongan Data beroperasi pada nilai sebenar.

OLAP lebih sesuai untuk memahami data sejarah. Perlombongan Data bergantung pada data sejarah untuk menjawab soalan tentang masa depan.

Prospek untuk Teknologi Perlombongan Data

Potensi Perlombongan Data memberi lampu hijau untuk meluaskan sempadan aplikasi teknologi. Mengenai prospek Perlombongan Data, arahan pembangunan berikut adalah mungkin:

mengenal pasti jenis bidang subjek dengan heuristik yang sepadan, pemformalannya akan memudahkan penyelesaian masalah Perlombongan Data yang berkaitan yang berkaitan dengan bidang ini;
penciptaan bahasa formal dan alat logik dengan bantuan penaakulan yang akan diformalkan dan automasi yang akan menjadi alat untuk menyelesaikan masalah Perlombongan Data dalam bidang subjek tertentu;
penciptaan kaedah Perlombongan Data yang mampu bukan sahaja mengekstrak corak daripada data, tetapi juga membentuk teori tertentu berdasarkan data empirikal;
mengatasi jurang yang ketara antara keupayaan alat Perlombongan Data dan pencapaian teori dalam bidang ini.

Jika kita mempertimbangkan masa depan Perlombongan Data dalam jangka pendek, adalah jelas bahawa pembangunan teknologi ini paling terarah kepada bidang berkaitan perniagaan.

Dalam jangka pendek, produk Data Mining mungkin menjadi biasa dan perlu seperti e-mel, contohnya digunakan oleh pengguna untuk mencari harga terendah pada item tertentu atau penerbangan termurah.

Dalam jangka panjang, masa depan Perlombongan Data benar-benar mengujakan - ia boleh menjadi pencarian oleh ejen pintar untuk kedua-dua rawatan baharu untuk pelbagai penyakit dan pemahaman baharu tentang alam semesta.

Walau bagaimanapun, Perlombongan Data juga penuh dengan potensi bahaya - lagipun, semakin banyak maklumat tersedia melalui World Wide Web, termasuk maklumat peribadi, dan semakin banyak pengetahuan boleh diekstrak daripadanya:

Tidak lama dahulu, kedai dalam talian terbesar, Amazon, mendapati dirinya berada di tengah-tengah skandal ke atas paten yang diterimanya, "Kaedah dan sistem untuk membantu pengguna apabila membeli barangan," yang tidak lebih daripada produk Perlombongan Data lain yang direka untuk mengumpul data peribadi tentang pelawat kedai. Teknik baharu ini membolehkan anda meramalkan permintaan masa hadapan berdasarkan fakta pembelian, serta membuat kesimpulan tentang tujuannya. Tujuan teknik ini adalah seperti yang dinyatakan di atas - mendapatkan sebanyak mungkin maklumat tentang pelanggan, termasuk maklumat peribadi (jantina, umur, pilihan, dll.). Oleh itu, data dikumpul tentang kehidupan peribadi pelanggan kedai, serta ahli keluarga mereka, termasuk kanak-kanak. Yang terakhir ini dilarang oleh perundangan banyak negara - pengumpulan maklumat mengenai kanak-kanak di bawah umur hanya boleh dilakukan di sana dengan kebenaran ibu bapa mereka.

Penyelidikan menyatakan bahawa terdapat kedua-dua penyelesaian yang berjaya menggunakan Perlombongan Data dan pengalaman yang tidak berjaya dengan teknologi ini. Kawasan di mana aplikasi teknologi Perlombongan Data kemungkinan besar akan berjaya termasuk yang berikut:

memerlukan keputusan berasaskan pengetahuan;
mempunyai persekitaran yang berubah;
mempunyai data yang boleh diakses, mencukupi dan bermakna;
memberikan dividen yang tinggi daripada keputusan yang betul.

Pendekatan sedia ada untuk analisis

Untuk masa yang agak lama, disiplin Perlombongan Data tidak diiktiraf sebagai bidang analisis data bebas sepenuhnya; ia kadang-kadang dipanggil "laman belakang statistik" (Pregibon, 1997).

Sehingga kini, beberapa sudut pandangan mengenai Perlombongan Data telah ditakrifkan. Penyokong salah seorang daripada mereka menganggapnya sebagai fatamorgana yang mengalihkan perhatian daripada analisis klasik

Apa itu Data Mining

Pangkalan data korporat mana-mana perusahaan moden biasanya mengandungi satu set jadual yang menyimpan rekod tentang fakta atau objek tertentu (contohnya, tentang barangan, jualan mereka, pelanggan, akaun). Sebagai peraturan, setiap entri dalam jadual sedemikian menerangkan objek atau fakta tertentu. Sebagai contoh, catatan dalam jadual jualan menggambarkan fakta bahawa produk itu dan itu telah dijual kepada pelanggan itu dan itu pada masa itu oleh pengurus itu dan itu, dan secara keseluruhannya tidak mengandungi apa-apa selain maklumat ini. Walau bagaimanapun, pengumpulan sejumlah besar rekod sedemikian, terkumpul selama beberapa tahun, boleh menjadi sumber tambahan, maklumat yang lebih berharga yang tidak boleh diperolehi berdasarkan satu rekod tertentu, iaitu, maklumat tentang corak, trend atau saling bergantung antara sebarang data. Contoh maklumat sedemikian ialah maklumat tentang cara jualan produk tertentu bergantung pada hari dalam minggu, masa dalam hari atau masa dalam tahun, kategori pelanggan yang paling kerap membeli produk ini atau itu, berapa bahagian pembeli satu pembelian produk tertentu satu lagi produk khusus, kategori pelanggan yang paling kerap tidak membayar balik pinjaman yang diberikan tepat pada masanya.

Maklumat jenis ini biasanya digunakan dalam ramalan, perancangan strategik, analisis risiko, dan nilainya untuk perusahaan adalah sangat tinggi. Nampaknya, itulah sebabnya proses mencarinya dipanggil Data Mining (perlombongan dalam bahasa Inggeris bermaksud "perlombongan," dan mencari corak dalam set data fakta yang besar benar-benar serupa dengan ini). Istilah Perlombongan Data bermaksud bukan teknologi khusus tetapi proses mencari korelasi, arah aliran, hubungan dan corak melalui pelbagai algoritma matematik dan statistik: pengelompokan, mencipta subsampel, regresi dan analisis korelasi. Tujuan carian ini adalah untuk mempersembahkan data dalam bentuk yang menggambarkan dengan jelas proses perniagaan, dan juga untuk membina model yang anda boleh meramalkan proses yang penting untuk perancangan perniagaan (contohnya, dinamik permintaan untuk barangan atau perkhidmatan tertentu atau pergantungan pemerolehan mereka pada ciri-ciri pengguna tertentu kemudiannya).

Ambil perhatian bahawa statistik matematik tradisional, yang untuk masa yang lama kekal sebagai alat utama untuk analisis data, serta alat untuk pemprosesan analisis dalam talian (OLAP), yang telah kami tulis beberapa kali (lihat bahan mengenai topik ini pada CD kami) , tidak boleh sentiasa berjaya digunakan untuk menyelesaikan masalah tersebut. Lazimnya, kaedah statistik dan OLAP digunakan untuk menguji hipotesis yang telah dirumuskan. Walau bagaimanapun, selalunya perumusan hipotesis yang ternyata menjadi tugas yang paling sukar apabila melaksanakan analisis perniagaan untuk membuat keputusan seterusnya, kerana tidak semua corak dalam data jelas pada pandangan pertama.

Teknologi Perlombongan Data Moden adalah berdasarkan konsep templat yang mencerminkan corak yang wujud dalam subsampel data. Pencarian pola dijalankan menggunakan kaedah yang tidak menggunakan sebarang andaian a priori tentang subsampel ini. Walaupun analisis statistik atau OLAP biasanya bertanya soalan seperti "Berapakah purata bilangan invois yang tidak dibayar dalam kalangan pelanggan untuk perkhidmatan ini?", Perlombongan Data lazimnya melibatkan menjawab soalan seperti "Adakah terdapat kategori tipikal pelanggan yang tidak membayar?" . Pada masa yang sama, ia adalah jawapan kepada soalan kedua yang sering memberikan pendekatan yang lebih tidak remeh kepada dasar pemasaran dan untuk mengatur kerja dengan pelanggan.

Ciri penting Perlombongan Data ialah sifat tidak standard dan tidak jelas bagi corak yang dicari. Dalam erti kata lain, alat Perlombongan Data berbeza daripada alat pemprosesan data statistik dan alat OLAP kerana bukannya menyemak kesalingbergantungan yang diandaikan oleh pengguna, mereka dapat mencari kesalingbergantungan tersebut secara bebas berdasarkan data yang tersedia dan membina hipotesis tentang sifatnya.

Perlu diingatkan bahawa penggunaan alat Perlombongan Data tidak mengecualikan penggunaan alat statistik dan alat OLAP, kerana hasil pemprosesan data menggunakan yang terakhir, sebagai peraturan, menyumbang kepada pemahaman yang lebih baik tentang sifat corak yang sepatutnya. dicari.

Data sumber untuk Perlombongan Data

Penggunaan Data Mining adalah wajar jika terdapat jumlah data yang cukup besar, idealnya terkandung dalam gudang data yang direka dengan betul (sebenarnya, gudang data itu sendiri biasanya dicipta untuk menyelesaikan masalah analisis dan ramalan yang berkaitan dengan sokongan keputusan). Kami juga telah menulis berulang kali tentang prinsip membina gudang data; bahan yang berkaitan boleh didapati pada CD kami, jadi kami tidak akan membincangkan isu ini. Mari kita ingat bahawa data dalam gudang adalah set yang diisi semula, biasa untuk seluruh perusahaan dan membenarkan seseorang memulihkan gambar aktivitinya pada bila-bila masa. Perhatikan juga bahawa struktur data storan direka bentuk sedemikian rupa sehingga pertanyaan kepadanya dijalankan secekap mungkin. Walau bagaimanapun, terdapat alat Perlombongan Data yang boleh mencari corak, korelasi dan aliran bukan sahaja dalam gudang data, tetapi juga dalam kiub OLAP, iaitu, dalam set data statistik pra-diproses.

Jenis corak yang dikenal pasti melalui kaedah Perlombongan Data

Menurut V.A. Duke, terdapat lima jenis corak standard yang dikenal pasti oleh kaedah Perlombongan Data:

Persatuan - kebarangkalian tinggi untuk peristiwa yang berkaitan antara satu sama lain (contohnya, satu produk sering dibeli bersama-sama dengan yang lain);

Urutan - kebarangkalian tinggi rantaian peristiwa yang berkaitan dalam masa (contohnya, dalam tempoh tertentu selepas pembelian satu produk, satu lagi akan dibeli dengan tahap kebarangkalian yang tinggi);

Klasifikasi - terdapat tanda-tanda yang mencirikan kumpulan di mana peristiwa atau objek ini atau itu tergolong (biasanya, berdasarkan analisis peristiwa yang telah diklasifikasikan, peraturan tertentu dirumuskan);

Pengelompokan ialah corak yang serupa dengan pengelasan dan berbeza daripadanya kerana kumpulan itu sendiri tidak ditentukan - mereka dikenal pasti secara automatik semasa pemprosesan data;

Corak temporal - kehadiran corak dalam dinamik gelagat data tertentu (contoh biasa ialah turun naik bermusim dalam permintaan untuk barangan atau perkhidmatan tertentu) yang digunakan untuk ramalan.

Kaedah perlombongan data

Hari ini terdapat sejumlah besar kaedah perlombongan data yang berbeza. Berdasarkan klasifikasi di atas yang dicadangkan oleh V.A. Duke, antaranya dapat kita bezakan:

Analisis regresi, varians dan korelasi (dilaksanakan dalam kebanyakan pakej statistik moden, khususnya dalam produk Institut SAS, StatSoft, dsb.);

Kaedah analisis dalam bidang subjek tertentu, berdasarkan model empirikal (sering digunakan, sebagai contoh, dalam alat analisis kewangan yang murah);

Algoritma rangkaian saraf, idea yang berdasarkan analogi dengan fungsi tisu saraf dan terletak pada fakta bahawa parameter awal dianggap sebagai isyarat yang diubah mengikut sambungan sedia ada antara "neuron", dan tindak balas keseluruhan rangkaian kepada yang awal dianggap sebagai tindak balas yang terhasil daripada data analisis. Dalam kes ini, sambungan dibuat menggunakan latihan rangkaian yang dipanggil melalui saiz sampel yang besar yang mengandungi kedua-dua data awal dan jawapan yang betul;

Algoritma - pemilihan analog rapat data asal daripada data sejarah sedia ada. Juga dipanggil kaedah "jiran terdekat";

Pohon keputusan ialah struktur hierarki berdasarkan set soalan yang memerlukan jawapan "Ya" atau "Tidak"; walaupun pada hakikatnya kaedah pemprosesan data ini tidak selalu mencari corak sedia ada dengan sempurna, ia agak kerap digunakan dalam sistem ramalan kerana kejelasan respons yang diterima;

Model kluster (kadangkala juga dipanggil model segmentasi) digunakan untuk mengumpulkan peristiwa yang serupa bersama-sama berdasarkan nilai yang serupa bagi beberapa medan dalam set data; juga sangat popular apabila mencipta sistem ramalan;

Algoritma carian terhad yang mengira kekerapan gabungan peristiwa logik mudah dalam subkumpulan data;

Pengaturcaraan evolusi - carian dan penjanaan algoritma yang menyatakan saling kebergantungan data, berdasarkan algoritma yang ditentukan pada mulanya, diubah suai semasa proses carian; kadangkala pencarian untuk saling bergantung dijalankan antara jenis fungsi tertentu (contohnya, polinomial).

Maklumat lanjut tentang ini dan algoritma Perlombongan Data yang lain, serta tentang alat yang melaksanakannya, boleh dibaca dalam buku "Perlombongan Data: Kursus Latihan" oleh V.A. Duke dan A.P. Samoilenko, diterbitkan oleh rumah penerbitan Peter pada tahun 2001. Hari ini ini adalah salah satu daripada beberapa buku dalam bahasa Rusia yang dikhaskan untuk masalah ini.

Pengeluar utama alat Perlombongan Data

Alat Perlombongan Data, seperti kebanyakan alat Perisikan Perniagaan, adalah alat perisian yang mahal secara tradisinya - sesetengah daripadanya berharga sehingga beberapa puluh ribu dolar. Oleh itu, sehingga baru-baru ini, pengguna utama teknologi ini adalah bank, syarikat kewangan dan insurans, perusahaan perdagangan besar, dan tugas utama yang memerlukan penggunaan Perlombongan Data dianggap sebagai penilaian risiko kredit dan insurans dan pembangunan dasar pemasaran. , pelan tarif dan prinsip lain bekerja dengan pelanggan. Dalam beberapa tahun kebelakangan ini, keadaan telah mengalami perubahan tertentu: alat Perlombongan Data yang agak murah daripada beberapa pengeluar telah muncul di pasaran perisian, yang menjadikan teknologi ini boleh diakses oleh perniagaan kecil dan sederhana yang tidak pernah memikirkannya sebelum ini.

Alat Perisikan Perniagaan Moden termasuk penjana laporan, alat pemprosesan data analisis, alat pembangunan penyelesaian BI (Platform BI) dan apa yang dipanggil Enterprise BI Suites - alat analisis dan pemprosesan data skala perusahaan yang membolehkan anda menjalankan satu set tindakan yang berkaitan dengan analisis dan pelaporan data, dan selalunya termasuk set alat BI dan alat pembangunan aplikasi BI bersepadu. Yang terakhir, sebagai peraturan, mengandungi alat pelaporan, alat OLAP dan selalunya alat Perlombongan Data.

Menurut penganalisis Gartner Group, peneraju dalam pasaran untuk analisis data berskala perusahaan dan alatan pemprosesan ialah Objek Perniagaan, Cognos, Pembina Maklumat dan Microsoft dan Oracle turut menuntut kepimpinan (Gamb. 1). Bagi alat pembangunan untuk penyelesaian BI, pesaing utama untuk kepimpinan dalam bidang ini ialah Microsoft dan SAS Institute (Rajah 2).

Ambil perhatian bahawa alat Perisikan Perniagaan Microsoft adalah produk yang agak murah yang tersedia untuk pelbagai syarikat. Itulah sebabnya kita akan melihat beberapa aspek praktikal menggunakan Data Mining menggunakan contoh produk syarikat ini dalam bahagian seterusnya artikel ini.

kesusasteraan:

1. Duke V.A. Perlombongan Data - perlombongan data. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Perlombongan Data: kursus latihan. - St. Petersburg: Peter, 2001.

3. B. de Ville. Perlombongan Data Microsoft. Akhbar Digital, 2001.