Perlombongan Teks teknologi pintar. Teknologi untuk Analisis Data Teks Berkesan: Perlombongan Pengetahuan

Artikel oleh Dmitry Lande"Knowledge Mining" adalah salah satu artikel pertama yang saya baca tentang Text Mining - yang diterbitkan dalam majalah CHIP pada Oktober 2003.

Data mentah tidak berstruktur membentuk sekurang-kurangnya 90% daripada maklumat yang ditangani pengguna. Mencari sesuatu yang berharga dalam data sedemikian hanya boleh dilakukan melalui teknologi khusus.

Maklumat elektronik memainkan peranan yang semakin penting dalam semua bidang kehidupan dalam masyarakat moden. Terabait data teks dikumpul dalam repositori maklumat yang diedarkan di seluruh dunia. Pembangunan sumber maklumat Internet telah berulang kali memburukkan lagi masalah beban maklumat.

Perkhidmatan penyelidikan Cyveillance melaporkan bahawa pada tahun 2001, jumlah halaman di Internet melebihi 4 bilion. Saiz purata halaman Web ialah 10 KB, halaman purata mengandungi 23 pautan dalaman, 5.6 - imej luaran dan 14-15. Jika kita menambah pada ini tatasusunan dokumen tidak berstruktur dalam sistem pemfailan korporat dan pangkalan data, maka adalah mudah untuk melihat mengapa banyak organisasi berminat dengan teknologi untuk analisis automatik dan klasifikasi maklumat yang dibentangkan pada bahasa semula jadi. Malah, mengikut anggaran semasa, data tidak berstruktur - terutamanya teks - membentuk sekurang-kurangnya 90% daripada maklumat yang dikendalikan oleh firma dan organisasi. Dan hanya 10% datang daripada data berstruktur yang dimuatkan ke dalam DBMS hubungan.

"Orang ramai akan mencari apa yang mereka tahu dengan mengakses repositori dokumen. Walau bagaimanapun, mereka tidak akan atau tidak boleh menanyakan perkara yang mereka tidak tahu, walaupun mereka mempunyai akses kepada koleksi dokumen," kata Jim Nisbet, naib presiden Semio. , yang merupakan salah satu pengeluar terkemuka sistem perlombongan data. "Satu jenis analisis teks yang berkesan - Perlombongan Teks- menggunakan kuasa pengkomputeran mesti mengenal pasti hubungan yang boleh membawa kepada pemerolehan pengetahuan baharu oleh pengguna."

Teknologi untuk analisis teks yang berkesan Perlombongan Teks mampu bertindak sebagai tutor yang, setelah mempelajari keseluruhan kursus, hanya mengajar maklumat yang paling penting dan penting. Oleh itu, pengguna tidak perlu "menyaring" sejumlah besar bukan- maklumat berstruktur. Dibangunkan berdasarkan analisis statistik dan linguistik, serta kecerdasan buatan, teknologi Perlombongan Teks Mereka direka dengan tepat untuk menjalankan analisis semantik, menyediakan navigasi dan carian dalam teks tidak berstruktur. Dengan menggunakan sistem yang dibina berdasarkan mereka, pengguna akan dapat memperoleh yang baru maklumat yang berharga- pengetahuan.

Memisahkan gandum dari sekam...

CIA baru-baru ini menerbitkan Pelan Pelaburan Strategik untuk Analisis Komuniti Perisikan. Dalam rancangan itu, pegawai perisikan mengakui bahawa mereka belum mengeksploitasi sepenuhnya keupayaan sumber terbuka, dan kini bekerja dengan mereka harus menjadi " keutamaan tertinggi untuk pelaburan." Kini CIA secara munasabah percaya bahawa mengambil maklumat daripada sumber terbuka adalah lebih selamat dan lebih murah daripada menggunakan data risikan. Teknologi perlombongan teks - Perlombongan Teks- ini adalah kit alat yang membolehkan anda menganalisis sejumlah besar maklumat untuk mencari arah aliran, corak dan perhubungan yang boleh membantu dalam membuat keputusan strategik. selain itu, Perlombongan Teks- Ini jenis baru carian, yang, tidak seperti pendekatan tradisional, bukan sahaja mencari senarai dokumen, secara formal berkaitan dengan pertanyaan, tetapi turut membantu menjawab soalan: "Bantu saya memahami maksudnya, menangani isu ini." Claude Vogel, pengasas bersama dan ketua pegawai teknologi Semio, menerangkan: "Menggunakan analogi perpustakaan, teknologi Perlombongan Teks adalah seperti membuka buku kepada pembaca dengan maklumat yang diperlukan dicoret. Bandingkan ini dengan membentangkan pembaca dengan timbunan dokumen dan buku yang mengandungi maklumat yang diperlukan oleh pembaca, tetapi tidak akan dapat mencarinya dengan mudah." Proses pencarian yang bermakna jauh dari remeh; selalunya dalam koleksi dokumen terdapat hanya sedikit maklumat yang diperlukan. Kecerdasan yang berkuasa diperlukan peluang untuk mencari apa yang diperlukan. Dalam nama teknologi, perkataan "perlombongan" bertindak sebagai metafora untuk mencari maklumat "terkubur" secara mendalam.

Perlu diingatkan bahawa teknologi analisis teks yang mendalam secara historis didahului oleh teknologi perlombongan data (Data Mining), metodologi dan pendekatan yang digunakan secara meluas dalam kaedah. Perlombongan Teks. Untuk perlombongan teks, definisi yang diberikan untuk perlombongan data oleh salah seorang pakar terkemuka dunia, Grigory Pyatetsky-Shapiro dari GTE Labs, adalah agak adil: “Proses penemuan dalam data mentah yang sebelum ini tidak diketahui, bukan remeh, praktikal berguna dan pengetahuan boleh ditafsir diperlukan untuk membuat keputusan dalam pelbagai bidang aktiviti manusia." Seperti kebanyakan teknologi kognitif - Perlombongan Teks ialah pengenalpastian algoritma bagi sambungan dan korelasi yang tidak diketahui sebelumnya dalam data teks sedia ada.

Telah terbentuk pada pertengahan 90-an abad kedua puluh sebagai hala tuju untuk menganalisis teks tidak berstruktur, teknologi Perlombongan Teks segera menggunakan kaedah perlombongan data klasik, seperti pengelasan atau pengelompokan. DALAM Perlombongan Teks Ciri tambahan juga telah muncul, seperti ringkasan automatik teks dan pemilihan konsep, fenomena dan fakta. Keupayaan sistem moden Perlombongan Teks boleh digunakan dalam pengurusan pengetahuan untuk mengenal pasti corak dalam teks, untuk "menarik keluar" secara automatik atau meletakkan maklumat pada profil yang diminati pengguna dan membuat semakan dokumen. Teknologi Perlombongan Teks Di samping itu, objektiviti adalah wujud - tidak ada ciri subjektivisme penganalisis manusia.

Komponen penting dalam teknologi Perlombongan Teks dikaitkan dengan mengekstrak daripada teks unsur atau sifat cirinya, yang boleh digunakan sebagai metadata dokumen, kata kunci dan anotasi. Lain-lain tugas penting terdiri daripada memberikan dokumen kepada kategori tertentu daripada skema sistematisasi yang diberikan. Perlombongan Teks juga menyediakan tahap baru carian semantik dokumen.

Asas Teknologi Perlombongan Teks

Selaras dengan metodologi yang telah ditetapkan, elemen utama Perlombongan Teks termasuk ringkasan, pengekstrakan ciri, pengelompokan, klasifikasi, menjawab soalan, pengindeksan tematik dan carian kata kunci. Juga, dalam beberapa kes, set itu dilengkapi dengan alat untuk menyokong dan mencipta taksonomi (oftaksonomi) dan tesauri.

Alexander Linden, pengarah Penyelidikan Gartner, mengenal pasti empat jenis aplikasi teknologi utama Perlombongan Teks:

Pengelasan teks, yang menggunakan korelasi statistik untuk membina peraturan untuk meletakkan dokumen ke dalam kategori yang telah ditetapkan. Pengelompokan berdasarkan ciri dokumen, menggunakan kaedah linguistik dan matematik tanpa menggunakan kategori yang telah ditetapkan. Hasilnya ialah taksonomi atau peta visual yang menyediakan liputan berkesan bagi volum data yang besar. Rangkaian semantik atau analisis pautan yang menentukan kejadian deskriptor ( frasa utama) dalam dokumen untuk peruntukan dan navigasi. Pengekstrakan fakta direka bentuk untuk mendapatkan beberapa fakta daripada teks untuk meningkatkan pengelasan, pengambilan dan pengelompokan.

Kebetulan ia paling kerap dijumpai di Perlombongan Teks tugasnya ialah pengelasan - memberikan objek pangkalan data kepada kategori yang telah ditetapkan. Sebenarnya, tugas klasifikasi ialah tugas pengecaman klasik, di mana, berdasarkan sampel latihan, sistem memberikan objek baru kepada satu kategori atau yang lain. Ciri sistem Perlombongan Teks ialah bilangan objek dan atributnya boleh menjadi sangat besar; oleh itu, mekanisme pintar mesti disediakan untuk mengoptimumkan proses pengelasan. Dalam sistem sedia ada hari ini, pengelasan digunakan, contohnya, dalam tugas berikut: mengumpulkan dokumen dalam rangkaian intranet dan di laman web, menyiarkan dokumen dalam folder tertentu, pengisihan mesej E-mel, pengedaran berita terpilih kepada pelanggan.

Tugas kedua ialah pengelompokan - mengenal pasti subkumpulan padat objek dengan sifat yang serupa. Sistem mesti mencari tanda secara bebas dan membahagikan objek kepada subkumpulan. Ia biasanya mendahului tugas pengelasan, kerana ia membolehkan anda menentukan kumpulan objek. Terdapat dua jenis pengelompokan utama - hierarki dan binari. Pengelompokan hierarki terdiri daripada membina pokok kelompok, setiap satunya mengandungi sekumpulan kecil dokumen. Contoh utiliti pengelompokan binari tersedia pada pelayan IBM di http://www.software.ibm.com/data/iminer/fortext. Pengelompokan binari menyediakan pengelompokan dan penyemakan imbas gugusan dokumen berdasarkan pautan persamaan. Dokumen yang paling hampir dengan hartanahnya diletakkan dalam satu kelompok. Semasa proses pengelompokan, asas pautan dibina dari dokumen ke dokumen, berdasarkan pemberat dan penggunaan bersama kata kunci yang ditentukan. Pengelompokan hari ini digunakan dalam mengabstraksi tatasusunan dokumentari yang besar, mengenal pasti kumpulan dokumen yang saling berkaitan, memudahkan proses penyemakan imbas apabila mencari maklumat yang diperlukan, mencari dokumen unik daripada koleksi, mengenal pasti pendua atau dokumen yang sangat serupa dalam kandungan.

Kita boleh menamakan beberapa lagi cabaran teknologi Perlombongan Teks, sebagai contoh, ramalan, yang terdiri daripada meramalkan nilai orang lain berdasarkan nilai beberapa ciri objek.

Tugas lain ialah mencari pengecualian, iaitu mencari objek yang menonjol daripada orang ramai dengan ciri-cirinya. Untuk melakukan ini, mula-mula parameter purata objek ditentukan, dan kemudian objek yang parameternya berbeza paling kuat daripada nilai purata diperiksa. Seperti yang diketahui, mencari pengecualian digunakan secara meluas, sebagai contoh, dalam kerja agensi perisikan. Jenis analisis ini sering dilakukan selepas pengelasan untuk mengetahui sejauh mana ketepatan analisis yang terakhir.

Agak terpisah daripada tugas pengelompokan ialah tugas mencari ciri berkaitan (medan, konsep) dokumen individu. Tugas ini berbeza daripada ramalan kerana ia tidak diketahui terlebih dahulu oleh ciri-ciri apa hubungan itu direalisasikan; Matlamatnya adalah untuk mencari sambungan antara ciri. Tugas ini serupa dengan pengelompokan, tetapi bukan berdasarkan set dokumen, tetapi berdasarkan set ciri yang wujud di dalamnya.

Akhir sekali, untuk memproses dan mentafsir keputusan Perlombongan Teks Visualisasi adalah sangat penting. Visualisasi data melibatkan pemprosesan data berangka berstruktur, tetapi ia juga merupakan elemen utama dalam mewakili corak tidak berstruktur. dokumen teks. Khususnya, sistem kelas moden Perlombongan Teks boleh menganalisis susunan dokumen yang besar dan mencipta indeks subjek konsep dan topik yang diliputi dalam dokumen ini. Visualisasi biasanya digunakan sebagai cara untuk membentangkan kandungan keseluruhan susunan dokumen, serta untuk melaksanakan mekanisme navigasi yang boleh digunakan dalam kajian dokumen dan kelas mereka.

Pelaksanaan sistem

Pada masa ini, banyak pengeluar perisian terkemuka menawarkan produk dan penyelesaian mereka dalam bidang perlombongan Teks. Sebagai peraturan, ini adalah sistem berskala yang melaksanakan pelbagai algoritma matematik dan linguistik untuk menganalisis data teks. Mereka sangat maju antara muka grafik, visualisasi yang kaya dan keupayaan manipulasi data menyediakan akses kepada pelbagai sumber data beroperasi dalam seni bina pelayan-pelanggan. Berikut adalah beberapa contoh sistem sedemikian:

  • Penambang Pintar untuk Teks (IBM)
  • TextAnalyst, WebAnalyst (Megacomputer Intelligence)
  • Pelombong Teks (SAS)
  • SemioMap (Semio Corp.)
  • Teks Oracle (Oracle)
  • Pelayan Pengetahuan (Autonomi)
  • Galaktika-ZOOM (Galaktika Corporation)
  • InfoStream (Pusat maklumat "ELVISTI")

Di bawah ini kita akan melihat beberapa sistem ini dengan lebih terperinci.

Penambang Pintar untuk Teks

Produk IBM Intelligent Miner for Text ialah satu set utiliti berasingan yang dilancarkan daripada baris arahan atau skrip secara bebas antara satu sama lain. Sistem ini adalah salah satu alat terbaik untuk analisis teks yang mendalam. Sistem ini mengandungi utiliti asas (Alat) berikut untuk membina aplikasi pengurusan pengetahuan:

Alat Pengenalan Bahasa - utiliti pengenalan bahasa - untuk menentukan secara automatik bahasa di mana dokumen itu disusun.

Alat Pengkategorian - utiliti klasifikasi - penugasan automatik teks kepada kategori tertentu (maklumat input untuk fasa latihan alat ini boleh menjadi hasil daripada utiliti seterusnya - Alat Pengkelompokan).

Alat Pengkelompokan - utiliti pengelompokan - membahagikan sejumlah besar dokumen kepada kumpulan berdasarkan persamaan gaya, bentuk, berbeza ciri frekuensi kata kunci yang dikenal pasti.

Alat Pengekstrakan Ciri - utiliti untuk mengenal pasti perkara baharu - mengenal pasti kata kunci baharu dalam dokumen (nama yang betul, tajuk, singkatan) berdasarkan analisis kamus yang telah ditetapkan.

Alat Anotasi - utiliti untuk "mengenal pasti makna" teks dan menyusun abstrak - anotasi kepada teks sumber.

IBM Intelligent Miner for Text menggabungkan set alat yang berkuasa berdasarkan terutamanya pada mekanisme perolehan maklumat, yang merupakan kekhususan keseluruhan produk. Sistem ini merangkumi beberapa komponen asas yang mempunyai kepentingan bebas melebihi had teknologi "perlombongan teks" - ini ialah sistem perolehan maklumat Enjin Carian Teks, Utiliti pengimbasan ruang web Perangkak Web, Penyelesaian Soalan Bersih - penyelesaian untuk mencari laman web tempatan atau beberapa pelayan intranet/Internet, Java Sample GUI - satu set antara muka Java Beans untuk mentadbir dan mengatur carian berdasarkan Enjin Carian Teks.

Intelligent Miner for Text sebagai produk IBM disertakan dalam kompleks "Information Integrator for Content" untuk DB2 DBMS sebagai alat Perlombongan Maklumat.

Kos produk pelbagai peringkat keluarga Intelligent Miner berkisar antara 18 hingga 75 ribu dolar.

Penganalisis Teks

Syarikat Rusia Megaputer Intelligence, yang terkenal dengan sistem kelas PolyAnalyst Data Mining, juga telah membangunkan sistem TextAnalyst (http://www.megaputer.com/products/ta/index.php3, yang menyelesaikan masalah sedemikian Perlombongan Teks: penciptaan rangkaian semantik teks besar, penyediaan ringkasan teks, carian teks dan pengelasan automatik dan pengelompokan teks. Membina rangkaian semantik ialah pencarian konsep utama dalam teks dan mewujudkan hubungan antara mereka. Menggunakan rangkaian sedemikian, anda bukan sahaja dapat memahami apa yang dikatakan dalam teks, tetapi juga menjalankan navigasi kontekstual. Menyediakan ringkasan ialah menyerlahkan ayat dalam teks di mana perkataan yang penting untuk teks ini ditemui lebih kerap daripada yang lain. Dalam 80% kes ini cukup untuk mendapatkan idea teks. Untuk mencari maklumat dalam sistem, penggunaan pertanyaan dalam bahasa semula jadi disediakan. Atas permintaan, rangkaian semantik unik dibina, yang, apabila berinteraksi dengan rangkaian dokumen, membolehkan anda memilih serpihan teks yang diperlukan. Pengelompokan dan pengelasan dijalankan menggunakan kaedah perlombongan data standard.

Sistem Penganalisis Teks, mempertimbangkan Perlombongan Teks sebagai alat matematik berasingan yang boleh dibina oleh pembangun perisian ke dalam produk mereka tanpa bergantung pada platform sistem perolehan maklumat atau DBMS. Platform utama untuk menggunakan sistem ialah MS Windows 9x/2000/NT. Terdapat pemalam TextAnalyst untuk pelayar Microsoft Internet Explorer.

WebAnalyst

Sistem WebAnalyst (http://www.megaputer.com/products/wa/index.php3) - juga produk Perisikan Megaputer - ialah penyelesaian pelanggan/pelayan yang bijak dan boleh skala untuk syarikat yang ingin memaksimumkan kesan analisis data dalam persekitaran Web. Pelayan WebAnalyst berfungsi sebagai sistem pakar untuk mengumpul maklumat dan mengurus kandungan laman web. Modul WebAnalyst menyelesaikan tiga masalah: mengumpul jumlah maksimum maklumat tentang pelawat tapak dan sumber yang mereka minta; penyelidikan data yang dikumpul dan penjanaan kandungan diperibadikan berdasarkan hasil penyelidikan. Menyelesaikan masalah ini bersama-sama seharusnya, pada pendapat pembangun sistem, membawa kepada memaksimumkan bilangan pelawat baharu ke laman web dan mengekalkan yang sedia ada, dan oleh itu meningkatkan populariti sumber. WebAnalyst dapat menyepadukan keupayaan Perlombongan Teks terus ke laman web organisasi. Ini membolehkan kami menawarkan pemasaran yang diperibadikan, automatik dan disasarkan, carian dan pemenuhan automatik jualan silang dan mengembangkan set data yang boleh disesuaikan pengguna. Pada asasnya WebAnalyst adalah pelayan pintar aplikasi e-dagang.

Platform teknikal adalah sama seperti TextAnalyst.

Pelombong Teks

Syarikat Amerika SAS Institute telah mengeluarkan sistem SAS Text Miner untuk membandingkan urutan tatabahasa dan lisan tertentu dalam ucapan bertulis. Text Miner sangat serba boleh kerana ia boleh berfungsi dengan dokumen teks dalam pelbagai format - dalam pangkalan data, sistem fail dan juga di Web.

Text Miner menyediakan pemprosesan teks logik dalam pakej SAS Enterprise Miner yang berkuasa. Ini membolehkan pengguna memperkayakan proses analisis data dengan menyepadukan tidak berstruktur maklumat teks dengan data berstruktur sedia ada seperti umur, pendapatan dan corak permintaan pengguna. Pelombong Teks.

Contoh kejayaan penggunaan keupayaan logik Text Miner ditunjukkan oleh Compaq Computer Corp., yang kini sedang menguji Text Miner dengan menganalisis lebih daripada 2.5 gigabait dokumen teks yang diterima melalui e-mel dan dikumpulkan oleh wakil syarikat. Sebelum ini, hampir mustahil untuk memproses data sedemikian

Program Text Miner membolehkan anda menentukan sejauh mana kebenaran dokumen teks tertentu. Mengesan pembohongan dalam dokumen dilakukan dengan menganalisis teks dan mengenal pasti perubahan dalam gaya penulisan yang mungkin berlaku apabila cuba memesongkan atau menyembunyikan maklumat. Untuk mencari perubahan tersebut, prinsip yang digunakan ialah mencari anomali dan trend di kalangan rekod pangkalan data tanpa mengetahui maksudnya. Pada masa yang sama, Text Miner menyertakan set dokumen yang luas dengan tahap kebenaran yang berbeza-beza, yang strukturnya diambil sebagai templat. Setiap dokumen "berjalan" pada pengesan pembohongan dianalisis dan dibandingkan dengan piawaian ini, selepas itu program memberikan satu atau satu lagi indeks kebenaran kepada dokumen. Program ini boleh berguna terutamanya dalam organisasi yang menerima jumlah yang besar surat-menyurat elektronik, serta dalam agensi penguatkuasa undang-undang untuk menganalisis bukti setanding dengan pengesan pembohongan, yang tindakannya berdasarkan pemantauan keadaan emosi seseorang.

Contoh menarik penggunaan Text Miner dalam bidang perubatan: salah satu organisasi penjagaan kesihatan kebangsaan Amerika mengumpul lebih 10 ribu rekod perubatan mengenai penyakit jantung yang dikumpul dari klinik di seluruh negara. Dengan menganalisis data ini menggunakan Text Miner, pakar menemui beberapa penyelewengan pentadbiran dalam pelaporan, dan juga dapat menentukan hubungan antara penyakit kardiovaskular dan penyakit lain yang tidak ditentukan oleh kaedah tradisional.

Pada masa yang sama, SAS menyatakan bahawa ia akan mengeluarkan produk Text Miner terutamanya untuk menarik perhatian golongan cerdik pandai perniagaan.

SemioMap

SemioMap ialah produk Entrieva yang dicipta pada tahun 1996 oleh saintis semiotik Claude Vogel. Pada Mei 1998, produk itu dikeluarkan sebagai kompleks perindustrian SemioMap 2.0 - sistem pertama Perlombongan Teks, bekerja dalam seni bina pelayan pelanggan. Sistem SemioMap terdiri daripada dua komponen utama - pelayan SemioMap dan klien SemioMap. Sistem ini beroperasi dalam tiga fasa:

  • Pengindeksan; pelayan SemioMap secara automatik membaca tatasusunan teks tidak berstruktur, mengekstrak frasa utama (konsep) dan mencipta indeks daripadanya;
  • Pengelompokan konsep; pelayan SemioMap mengenal pasti sambungan antara frasa yang diekstrak dan binaan daripadanya, berdasarkan kejadian bersama, rangkaian leksikal (“peta konsep”);
  • Paparan grafik dan navigasi; visualisasi peta sambungan, yang menyediakan navigasi pantas melalui frasa utama dan sambungan antara mereka, serta keupayaan untuk mengakses dokumen tertentu dengan pantas.

SemioMap menyokong pembahagian bahan kepada "folder", mencipta pangkalan data berasingan untuk setiap folder. Hubungan antara konsep yang SemioMap kenal pasti adalah berdasarkan kejadian bersama frasa dalam perenggan tatasusunan teks sumber.

Blok pusat SemioMap ialah pengekstrak leksikal - program yang mengekstrak frasa daripada koleksi teks dan mengenal pasti kejadian bersama frasa ini (hubungan bersama mereka). Pengekstrak leksikal adalah berdasarkan teknologi SEMIOLEX yang dipatenkan. Ia melaksanakan idea semiotik pengiraan, sains tanda dalam komunikasi linguistik, yang dibangunkan oleh Claude Vogel.

Teks InterMedia, Teks Oracle

Kemudahan Perlombongan Teks, bermula dengan Pelayan Teks dalam Oracle DBMS 7.3.3 dan kartrij Teks interMedia dalam Oracle8i, adalah sebahagian daripada produk Oracle. Dalam Oracle9i, alatan ini telah berkembang dan menerima nama baharu - Oracle Text - pakej perisian yang disepadukan ke dalam DBMS, membolehkan anda bekerja dengan berkesan dengan pertanyaan yang berkaitan dengan teks tidak berstruktur. Dalam kes ini, pemprosesan teks digabungkan dengan keupayaan yang diberikan kepada pengguna untuk bekerja dengan pangkalan data hubungan. Khususnya, ia telah menjadi mungkin untuk menggunakan SQL semasa menulis aplikasi pemprosesan teks.

Tugas utama yang ditujukan kepada alat Oracle Text ialah tugas mencari dokumen mengikut kandungannya - perkataan atau frasa, yang, jika perlu, digabungkan menggunakan Operasi Boolean. Hasil carian dinilai mengikut kaitan, dengan mengambil kira kekerapan berlakunya perkataan pertanyaan dalam dokumen yang ditemui. Untuk meningkatkan kesempurnaan carian, Oracle Text menyediakan beberapa alat sambungan pertanyaan carian, di antaranya tiga kumpulan boleh dibezakan. Pertama, ini adalah pengembangan kata pertanyaan dengan semua bentuk morfologi, yang direalisasikan dengan melibatkan pengetahuan tentang morfologi bahasa. Kedua, Teks Oracle membenarkan pengembangan perkataan pertanyaan dengan perkataan yang hampir bermakna dengan menghubungkan tesaurus - kamus semantik, serta pengembangan pertanyaan dengan perkataan yang serupa dalam ejaan dan bunyi - carian kabur dan mencari perkataan konsonan. Adalah dinasihatkan untuk menggunakan carian kabur apabila mencari perkataan yang salah eja, serta dalam kes di mana keraguan timbul tentang ejaan yang betul- nama keluarga, nama organisasi, dsb.

Sistem Oracle Text menyediakan analisis tematik teks pada Bahasa Inggeris. Semasa pemprosesan, teks setiap dokumen tertakluk kepada prosedur analisis linguistik dan statistik, akibatnya topik utamanya ditentukan dan ringkasan tematik dibina, serta ringkasan umum - abstrak.

Semua alat yang diterangkan boleh digunakan bersama, yang disokong oleh bahasa pertanyaan dalam kombinasi dengan sintaks SQL dan PL/SQL tradisional untuk mencari dokumen. Teks Oracle menyediakan keupayaan untuk bekerja dengan DBMS perhubungan moden dalam konteks carian pelbagai guna yang kompleks dan analisis data teks.

Keupayaan memproses maklumat teks dalam bahasa Rusia dalam Oracle Text agak terhad. Untuk menyelesaikan masalah ini, syarikat Garant-Park-Internet membangunkan modul Pengoptimum Konteks Rusia (RCO), yang bertujuan untuk digunakan bersama dengan Teks interMedia (atau Teks Oracle). Selain menyokong morfologi bahasa Rusia, RCO termasuk alat untuk carian kabur, analisis tematik dan pengabstrakan dokumen.

Pelayan Pengetahuan Autonomi

Terkenal dengan perkembangannya dalam analisis kandungan statistik, seni bina sistem Autonomi menggabungkan penghuraian corak pintar dengan analisis kontekstual yang canggih dan teknik pengekstrakan makna untuk menyelesaikan masalah pengelasan automatik dan rujukan silang. Kelebihan utama sistem Autonomi ialah algoritma pintar yang berkuasa berdasarkan pemprosesan statistik. Algoritma ini adalah berdasarkan teori maklumat Claude Shannon, kebarangkalian Bayesian dan rangkaian saraf.

Konsep pemodelan kemungkinan penyesuaian (APCM) membolehkan Autonomi mengenal pasti corak dalam teks dokumen dan secara automatik mengesan corak serupa dalam pelbagai dokumen lain.

Perkara penting dalam sistem Pelayan Pengetahuan Autonomi ialah keupayaan untuk menganalisis teks dan mengenal pasti konsep utama dalam dokumen dengan menganalisis korelasi frekuensi dan hubungan istilah dengan makna teks. Komponen Autonomi - Agentware menggunakan teknologi analisis corak unik (pemprosesan isyarat digital penyesuaian bukan linear) untuk mengekstrak makna daripada dokumen dan menentukan ciri-ciri yang terkandung dalam teks. APCM membolehkan anda mengenal pasti "tandatangan" unik bagi maksud teks, serta mencipta ejen konsep yang mencari entri makna yang serupa di laman web, dalam berita, arkib e-mel dan dokumen lain. Memandangkan sistem ini tidak berdasarkan kata kunci yang dipratentukan, ia boleh berfungsi dengan mana-mana bahasa.

Teras sistem ejen Autonomi ialah enjin penaakulan dinamik (DRE) berdasarkan teknologi pemprosesan templat yang menggunakan rangkaian saraf, yang menerima pembangunan awal dalam syarikat induk Autonomy, Neurodynamics. DRE menggunakan konsep pemodelan probabilistik adaptif untuk melaksanakan empat fungsi utama: penemuan konsep, penciptaan ejen, latihan ejen dan carian teks standard. DRE menerima pertanyaan bahasa semula jadi, atau istilah yang dipautkan oleh pengendali Boolean, dan mengembalikan senarai dokumen yang disusun mengikut kaitan dengan pertanyaan. Mekanisme ini adalah asas kepada semua produk sistem ejen Autonomi. Penerangan mengenai Pelayan Pengetahuan Autonomi boleh didapati di http://www.autonomy.com/tech/whitepaper.pdf.

Galaktika-ZOOM

Sistem Galaktika-ZOOM ialah produk syarikat Rusia Galaktika. Tujuan utama sistem adalah carian pintar menggunakan kata kunci, dengan mengambil kira morfologi bahasa Rusia dan Inggeris, serta pembentukan susunan maklumat mengenai aspek tertentu. Pada masa yang sama, jumlah maklumat boleh mencapai ratusan gigabait. Ia adalah tumpuan pada objek maklumat yang besar - mesej dan artikel media, akhbar industri, dokumentasi kawal selia, surat-menyurat perniagaan dan bahan aliran dokumen dalaman perusahaan, maklumat daripada Internet. Pada masa yang sama, sistem menyediakan alat tertentu untuk menganalisis sambungan semantik objektif data yang dipilih dan membentuk "imej" masalah - model pelbagai dimensi dalam aliran maklumat dalam bentuk senarai kedudukan perkataan yang bermakna, digunakan bersama dengan topik masalah. Banyak perhatian dalam sistem diberikan untuk mengenal pasti trend dalam dinamik perkembangan masalah yang dikaji. Sistem ini mengandungi penukar untuk format biasa: teks biasa, RTF, DOC, HTML. Galaktika-ZOOM beroperasi dalam persekitaran OS Windows 2000.

Aliran Info

Liputan dan generalisasi tatasusunan maklumat dinamik besar yang dijana secara berterusan di Web memerlukan pendekatan baharu secara kualitatif. Terdapat keperluan untuk mewujudkan kaedah pemantauan sumber maklumat yang berkait rapat dengan metodologi analisis kandungan – pemantauan kandungan. Untuk mendapatkan data kualitatif dan kuantitatif, pemantauan tersebut mesti dijalankan secara berterusan dalam tempoh masa yang tidak ditentukan terlebih dahulu. Untuk menyelesaikan masalah ini di Ukraine dalam Pusat maklumat"ELVISTI" telah membangunkan teknologi InfoStream™. Perisian InfoStream dan alatan teknologi termasuk tiga komponen utama:

  • pusat pengumpulan dan pemprosesan maklumat;
  • pusat untuk mengatur akses interaktif kepada pangkalan data;
  • pusat pemantauan kandungan.

Teras mekanisme pemprosesan kandungan InfoStream ialah sistem mendapatkan maklumat teks penuh InfoReS. Teknologi membolehkan anda mencipta pangkalan data teks penuh data dan mencari maklumat, mencipta saluran maklumat tematik, mengkategorikan maklumat secara automatik, menjana ringkasan, jadual hubungan antara konsep (berbanding dengan kejadiannya dalam penerbitan dalam talian), histogram taburan nilai berat konsep individu, serta dinamik kejadian mereka dari semasa ke semasa. Teknologi InfoStream membolehkan anda memproses data dalam MS WORD (DOC, RTF), PDF dan semua format teks (teks biasa, HTML, XML). Sistem berdasarkan InfoStream kini beroperasi pada platform OS berikut: FreeBDS, Linux, Solaris.

Mari lihat masa depan

Tidak lama dahulu, Agensi Perisikan Pusat AS membentangkan kepada orang ramai teknologi "perlombongan data" yang digunakan untuk mencari maklumat dalam teks, siaran radio dan televisyen. Bahagian Teknologi Maklumat Lanjutan, sebahagian daripada Direktorat Sains dan Teknologi US Central Agensi Perisikan, menunjukkan teknologi kepada orang ramai " Text Data Mining, digunakan untuk mencari maklumat yang bermakna dalam jisim besar dokumen dan dalam siaran radio dan televisyen dalam pelbagai bahasa. Carian dijalankan menggunakan sumber sistematik dan rawak, dan objek carian adalah teks dalam penerbitan bercetak dan dalam bentuk digital, imej grafik, maklumat audio dalam 35 bahasa. Untuk menapis maklumat audio, teknik "Oasis" digunakan, yang mengecam pertuturan dan mengubahnya menjadi teks. Pada masa yang sama, teknologi memungkinkan untuk dipisahkan suara lelaki daripada wanita, serta suara kepunyaan orang yang berbeza, dan tuliskannya sebagai dialog. Teknik "Oasis" membolehkan anda memilih daripada aliran audio hanya suara tersebut atau maklumat khusus yang disertakan dalam tetapan carian.

Lain-lain Teknologi komputer dipanggil Fluent membolehkan unit CIA mencari maklumat dalam dokumen teks. Teknologi ini melibatkan carian kata kunci, di mana perkataan atau gabungan dimasukkan dalam bahasa Inggeris, yang segera diterjemahkan ke dalam beberapa bahasa lain, dan maklumat yang ditemui daripada pangkalan data dalam bahasa berbeza dihantar kepada penyelidik selepas terjemahan automatik. Satu lagi program, Text Data Mining, membolehkan anda membuat indeks subjek secara automatik untuk dokumen teks, serta mendapatkan data tentang kekerapan penggunaan perkataan tertentu dalam dokumen. CIA menggunakan teknologi ini hari ini untuk mengesan transaksi kewangan haram dan pengedaran dadah.

Teknologi yang disebutkan di atas dikendalikan oleh jabatan Teknologi Maklumat Lanjutan (AIT) Direktorat Sains dan Teknologi CIA. "Kami tidak berkembang cukup pantas untuk mengikuti ledakan maklumat yang mengalir di sini setiap hari," kata Pengarah AIT Larry Fairchild. "Kami perlu melengkapkan pekerja dengan teknologi untuk membantu mereka menghadapi jumlah besar data yang sedang diproses pada lalat itu."

Dari segi penggunaan alatan secara profesional Perlombongan Teks CIA jauh dari monopoli. Menurut ramalan oleh syarikat analisis IDC, permintaan untuk program yang serupa akan meningkat dengan ketara dalam tempoh 4-5 tahun akan datang. Oleh itu, menjelang 2005, keuntungan daripada perisian tersebut dijangka meningkat daripada $540 juta (pada tahun 2002) kepada satu setengah bilion dolar. Peluang seperti analisis nyata maklumat yang ditemui, peninjauan maklumat (pengambilan maklumat langsung dan tidak langsung yang bertaburan mengenai masalah tertentu), pembentukan dan penyelenggaraan dokumen tematik dengan keupayaan untuk mengenal pasti trend dan hubungan orang, peristiwa, proses telah digunakan. oleh beberapa perusahaan besar dan pastinya akan mendapat permintaan lebih lanjut.

Menjelang 2006, jenis program ini akan menjadi dominan dalam analisis maklumat daripada pelanggan dalam syarikat di mana-mana peringkat, sama ada pusat panggilan, agensi Internet atau agensi analisis, kata pakar Alessandro Zanasi, yang sebelum ini daripada Kumpulan META. Jabatan HR akan menggunakan program perlombongan teks untuk mencari resume yang sepadan dengan grid penunjuk yang kompleks. Dan jabatan pemasaran akan digunakan untuk program seperti penganalisis situasi pasaran, trend penjejakan, kedudukan pesaing dan penunjuk lain berdasarkan maklumat dan pelbagai sumber - suapan berita, laporan penyelidikan, ulasan, paten.

Perlombongan Web boleh diterjemahkan sebagai "Perlombongan data web". Perisikan Web atau Perisikan Web bersedia untuk "membuka lembaran baharu" dalam pembangunan pesat e-perniagaan. Keupayaan untuk menentukan minat dan keutamaan setiap pelawat dengan memerhati tingkah lakunya adalah kelebihan daya saing yang serius dan kritikal dalam pasaran e-dagang.

Sistem Perlombongan Web boleh menjawab banyak soalan, sebagai contoh, pelawat yang manakah merupakan pelanggan berpotensi kedai Web, kumpulan pelanggan kedai Web manakah yang paling banyak memperoleh pendapatan, apakah minat pelawat atau kumpulan pelawat tertentu.

Teknologi Perlombongan Web meliputi kaedah yang mampu menemui pengetahuan baharu yang sebelum ini tidak diketahui berdasarkan data tapak dan yang kemudiannya boleh digunakan dalam amalan. Dalam erti kata lain, teknologi Web Mining menggunakan teknologi Data Mining untuk menganalisis maklumat tidak berstruktur, heterogen, teragih dan volum besar yang terkandung di laman web.

Menurut taksonomi Perlombongan Web, dua bidang utama boleh dibezakan di sini: Perlombongan Kandungan Web dan Perlombongan Penggunaan Web.

Perlombongan Kandungan Web membayangkan carian automatik dan pengekstrakan maklumat berkualiti tinggi daripada pelbagai sumber Internet yang sarat dengan " bunyi maklumat". Kami juga bercakap tentang pelbagai cara mengelompokkan dan menganotasi dokumen.

Dalam arah ini pula, terdapat dua pendekatan: pendekatan berasaskan ejen dan pendekatan berasaskan pangkalan data.

Pendekatan Berasaskan Agen merangkumi sistem berikut:

  • Ejen Carian Pintar;
  • penapisan / pengelasan maklumat;
  • ejen rangkaian peribadi.

Contoh sistem ejen carian pintar:

  • Tuai (Brown et al., 1994),
  • Pencari Soalan Lazim (Hammond et al., 1995),
  • Manifold Maklumat (Kirk et al., 1995)
  • OCCAM (Kwok dan Weld, 1996), dan ParaSite (Spertus, 1997),
  • ILA (Ejen Pembelajaran Maklumat) (Perkowitz dan Etzioni, 1995),
  • ShopBot (Doorenbos et al., 1996).

Pendekatan Pangkalan Data merangkumi sistem:

  • pangkalan data pelbagai peringkat;
  • Sistem Pertanyaan Web;

Contoh sistem permintaan web:

  • W3QL (Konopnicki dan Shmueli, 1995),
  • WebLog (Lakshmanan et al., 1996),
  • Lorel (Quass et al., 1995),
  • UnQL (Buneman et al., 1995 dan 1996),
  • TSIMMIS (Chawathe et al., 1994).

Arah kedua Perlombongan Penggunaan Web melibatkan pengesanan corak dalam tindakan pengguna laman web atau kumpulan pengguna.

Maklumat berikut dianalisis:

  • halaman yang dilihat oleh pengguna;
  • apakah urutan melihat halaman.

Ia juga menganalisis kumpulan pengguna yang boleh dikenal pasti antara jumlah bilangan berdasarkan sejarah penyemakan imbas tapak Web.

Perlombongan Penggunaan Web merangkumi komponen berikut:

  • Pemprosesan awal;
  • pengenalan operasi;
  • alat pengesan corak;
  • alat analisis corak.

Pada menggunakan Web Pemaju perlombongan menghadapi dua jenis tugas. Yang pertama melibatkan pengumpulan data, yang kedua melibatkan penggunaan kaedah personifikasi. Hasil daripada mengumpul sejumlah data retrospektif yang diperibadikan tentang pelanggan tertentu, sistem mengumpul pengetahuan tertentu tentangnya dan boleh mengesyorkan kepadanya, sebagai contoh, set barangan atau perkhidmatan tertentu. Berdasarkan maklumat tentang semua pelawat tapak, sistem Web boleh mengenal pasti kumpulan pelawat tertentu dan juga mengesyorkan produk kepada mereka atau menawarkan produk dalam mel.

Tugasan Perlombongan Web boleh dibahagikan kepada kategori berikut:

  • Prapemprosesan Data untuk Perlombongan Web.
  • Pengesanan corak dan penemuan pengetahuan menggunakan peraturan persatuan, urutan temporal, pengelasan dan pengelompokan;
  • Analisis pengetahuan yang diperoleh.

Perlombongan Teks

Perlombongan Teks meliputi teknik baharu untuk melaksanakan analisis teks semantik, perolehan maklumat dan pengurusan. Sinonim bagi konsep Text Mining ialah KDT (Knowledge Discovering in Text - pencarian atau penemuan pengetahuan dalam teks).

Tidak seperti teknologi Data Mining, yang melibatkan analisis maklumat yang disusun ke dalam struktur tertentu, teknologi Text Mining menganalisis tatasusunan besar dan ultra besar bagi maklumat tidak berstruktur.

Program yang melaksanakan tugas ini entah bagaimana mesti beroperasi dengan bahasa manusia semula jadi dan pada masa yang sama memahami semantik teks yang dianalisis. Salah satu kaedah yang berasaskan beberapa sistem Perlombongan Teks ialah mencari subrentetan yang dipanggil dalam rentetan.

Call Mining

Menurut Ann Bednarz, perlombongan panggilan boleh menjadi alat yang popular dalam sistem maklumat perusahaan.

Teknologi Call Mining menggabungkan pengecaman pertuturan, analisis pertuturan dan Perlombongan Data. Matlamatnya adalah untuk memudahkan carian dalam arkib audio yang mengandungi rakaman perbualan antara pengendali dan pelanggan. Menggunakan teknologi ini, pengendali boleh mengenal pasti jurang dalam perkhidmatan pelanggan, mengenal pasti peluang untuk meningkatkan jualan dan mengenal pasti arah aliran dalam komunikasi pelanggan.

Antara pemaju Teknologi baru Call Mining ("perlombongan" dan analisis panggilan) - syarikat CallMiner, Nexidia, ScanSoft, Witness Systems. Teknologi Call Mining telah membangunkan dua pendekatan - berdasarkan penukaran pertuturan ke teks dan berdasarkan analisis fonetik.

Contoh pelaksanaan pendekatan pertama, berdasarkan penukaran pertuturan, ialah sistem CallMiner. Dalam proses Call Mining, sistem penukaran pertuturan pertama kali digunakan, diikuti dengan analisisnya, di mana, bergantung pada kandungan perbualan, statistik panggilan telefon dijana. Maklumat yang diterima disimpan dalam pangkalan data, yang boleh dicari, diambil dan diproses.

Contoh pelaksanaan pendekatan kedua - analisis fonetik - adalah produk Nexidia. Dengan pendekatan ini, pertuturan dipecahkan kepada fonem, iaitu bunyi atau gabungan bunyi. Unsur-unsur sedemikian membentuk serpihan yang boleh dikenali. Apabila mencari perkataan tertentu dan gabungannya, sistem mengenal pastinya dengan fonem.

Penganalisis ambil perhatian bahawa dalam beberapa tahun kebelakangan ini, minat terhadap sistem berdasarkan Call Mining telah meningkat dengan ketara. Ini dijelaskan oleh hakikat bahawa pengurus kanan syarikat yang beroperasi dalam pelbagai bidang, termasuk. dalam bidang kewangan, komunikasi mudah alih dan perniagaan penerbangan, mereka tidak mahu menghabiskan banyak masa mendengar panggilan untuk meringkaskan maklumat atau mengenal pasti sebarang fakta pelanggaran.

Menurut Daniel Hong, seorang penganalisis di Datamonitor: "Penggunaan teknologi ini meningkatkan kecekapan dan mengurangkan kos pemprosesan maklumat."

Pemasangan biasa produk dari pembangun Nexidia berharga dari 100 hingga 300 ribu dolar. Kos melaksanakan sistem penukaran pertuturan CallMiner dan satu set aplikasi analisis adalah kira-kira 450 ribu dolar.

Menurut Schoeller, aplikasi Perlombongan Audio dan Perlombongan Video akhirnya akan mendapat penggunaan yang lebih luas, contohnya, dalam mengindeks video pendidikan dan persembahan dalam perpustakaan media syarikat. Walau bagaimanapun, teknologi Perlombongan Audio dan Perlombongan Video kini berada pada tahap yang baru, dan aplikasi praktikalnya berada pada peringkat awal.

Hari ini, isu menganalisis maklumat berstruktur dalam pelbagai bidang aplikasi, bergantung pada spesifik tugas, telah diselesaikan sebanyak 90-100%. Dari sudut pandangan teknologi, ini boleh dijelaskan dengan sangat mudah: alat analisis moden membolehkan anda "melihat" data yang disimpan dalam pangkalan data. Teknologi yang biasa digunakan oleh pengguna seperti OLAP, BI dan Perlombongan Data, berdasarkan kaedah popular, diwakili secara meluas di pasaran. pemprosesan statistik, ramalan dan visualisasi.

Keadaan yang bertentangan sepenuhnya telah berkembang dengan analisis data tidak berstruktur, dengan kata lain, teks yang ditulis dalam bahasa manusia semula jadi. Masalah yang berkaitan dengan automasi dalam kawasan ini masih belum diselesaikan untuk kebanyakan pengguna. Marilah kita segera ambil perhatian bahawa apabila bercakap tentang analisis, kita sentiasa bermaksud mencari jawapan kepada soalan khusus orang tertentu.

Sebagai contoh, seorang penganalisis daripada perkhidmatan penyeliaan bertanya: "Bank Rusia manakah yang paling berisiko?" Dalam bentuk yang ringkas, hasilnya hendaklah senarai bank yang disusun mengikut kebolehpercayaan, yang mengandungi penilaian risiko. Dalam kes di mana maklumat berada dalam pangkalan data, semuanya jelas: anda menyediakan alat analisis untuk menanyakan pangkalan data, masukkan formula dan "minta" untuk memaparkan jadual yang disusun mengikut tahap risiko. Tetapi kesukarannya ialah, sebagai peraturan, maklumat ini tidak ada dalam pangkalan data. Dalam satu bentuk atau yang lain, ia terdapat di Internet dan sumber lain. Tetapi bagaimana untuk mengekstraknya daripada data tidak berstruktur, contohnya daripada laporan bank dan dokumen lain yang diterbitkan di Internet?

Hampir semua pengguna melakukan perkara berikut: mereka pergi ke enjin carian, contohnya Yandex, masukkan pertanyaan - dan... Mereka menerima beribu-ribu pautan... Dan kini perkara yang paling menarik: kami menyingsingkan lengan baju kami dan klik pada pautan, lihat melalui teks, pilih serpihan yang diperlukan dengan nama bank, maklumat tentang perkhidmatannya, modal dibenarkan, keuntungan, perbelanjaan dan penunjuk lain yang diperlukan, mengikut metodologi atau pemahaman kami, untuk menilai risiko. Kami memuatkan data yang diterima ke dalam MS Excel, menggunakan formula, melukis graf dan akhirnya mengagumi hasil yang diperoleh melalui kerja yang jujur ​​dan keras.

Terdapat banyak contoh yang serupa dalam kehidupan seharian dan dalam perniagaan. Mereka mempunyai satu persamaan - rutin yang dikaitkan dengan carian manual dan pengekstrakan data. Ini semua sangat mengingatkan gambar lombong zaman pertengahan: beribu-ribu orang dengan pemetik dan penyodok menggali ke dalam batu yang degil, mengekstrak butiran mineral yang berguna. Ternyata dari segi cara kita bekerja dengan maklumat yang tidak tersusun, kita berada di Zaman Pertengahan. Adakah mungkin hari ini untuk mengautomasikan kerja keras "pelombong" ini?

Seperti yang ditunjukkan oleh analisis amalan Rusia dan asing, teknologi sedemikian wujud. Mari cuba memahami bagaimana ia boleh berguna kepada pengguna dan memisahkan mitos daripada realiti.

Laluan kami: carian, pengekstrakan, analisis

Daripada contoh mudah di atas, dapat dilihat bahawa proses untuk mendapatkan keputusan akhir (menjawab soalan) boleh dibahagikan kepada tiga fasa. Mula-mula kami mencari dokumen yang berkaitan, kemudian kami mengekstrak data daripada apa yang ditemui dan akhirnya menganalisisnya. Sehubungan itu, pendekatan moden boleh dibahagikan kepada tiga kumpulan mengikut tahap automasi pelbagai fasa proses ini: carian dokumen, pengekstrakan maklumat, analisis.

Pada masa yang sama, pendekatan hanya berdasarkan automasi carian diamalkan dalam 90% kes, pencarian maklumat diautomatikkan dalam kira-kira 10% penyelesaian, dan hanya dalam kes yang jarang berlaku. sistem yang serupa mengambil kerja analisis. Walaupun ia adalah alat analisis yang paling mudah difahami oleh pengguna akhir. Sebab-sebab keadaan ini akan dibincangkan dengan lebih lanjut.

Aplikasi enjin carian

Pendekatan ini membayangkan kehadiran sistem carian dalam perusahaan, yang digunakan sebagai alat utama untuk bekerja dengan teks tidak berstruktur.

Pengurus atau penganalisis memasukkan kata kunci, memproses rujukan, mendapatkan semula dokumen, menyemak kandungan, memilih maklumat yang dikehendaki, memuatkannya ke dalam program analisis atau pangkalan data dan menghasilkan laporan. Adalah diketahui bahawa produktiviti kerja sedemikian berkisar antara 400 hingga 1000 artikel setiap hari, bergantung kepada pengalaman penganalisis. Ini adalah kerja keras, setanding dengan kerja di lombong yang disebutkan di atas. Lelaki di sini kebanyakannya sibuk operasi rutin, dan oleh itu tidak boleh memberi banyak perhatian kepada kerja yang benar-benar intelektual.

Kelebihan utama pendekatan ini agak jelas: meluas dan boleh diakses secara umum teknologi carian. Inilah yang dipanggil penyelesaian satu klik, apabila anda menaip kata kunci, menekan satu butang dan... Tambahkan pada tabiat ini untuk berfikir bahawa tiada siapa kecuali seseorang yang dapat mengatasi pemprosesan maklumat selanjutnya.

Memandangkan alat carian telah lama berkembang dan telah mencapai tahap kematangan yang tinggi, ia agak berjaya menjawab persoalan di mana maklumat berada. Ia boleh dibandingkan dengan kompas yang membolehkan anda menavigasi dunia data tidak berstruktur. Pengguna sudah terbiasa dengan enjin carian sehingga tidak memerlukan sebarang latihan khas.

Namun, jika kita bercakap tentang mengenai pemprosesan sejumlah besar data, penggunaan enjin carian sahaja menjadi tidak berkesan, kerana ia memerlukan sumber manusia yang signifikan pada peringkat fakta "perlombongan" dan analisisnya.

Automasi pengekstrakan maklumat

Pendekatan ini mengandaikan kehadiran alat "maju" dari segi teknologi yang mampu mengekstrak elemen yang diperlukan daripada teks (Text Mining). Kerjanya ialah input adalah teks yang ditulis dalam bahasa semula jadi, dan pada output pengguna menerima maklumat yang diminta dalam bentuk berstruktur. Struktur boleh mewakili kedua-dua entiti mudah (orang, organisasi, nama geografi) dan kompleks (fakta yang mengandungi acara, pesertanya, tarikh, parameter kewangan, dsb.). Peristiwa boleh menjadi sangat berbeza: insiden, urus niaga, mahkamah, dsb. Alat ini membolehkan anda mengumpul hasil kerja anda secara automatik dalam koleksi data yang sudah sesuai untuk analisis.

Menganalisis set data sedemikian pastinya lebih mudah dan lebih cepat daripada hasil enjin carian. Walau bagaimanapun, di sini juga usaha diperlukan untuk menyepadukan alat Perlombongan Teks dengan sumber dokumen, enjin carian dan alat analisis. Hari ini, vendor alat Text Mining menyediakan produk mereka dengan keupayaan untuk menyepadukan dengan sumber dokumen (kebanyakannya sumber Web) dan pangkalan data melalui fail XML. SDK juga disediakan, penggunaannya memerlukan pembangunan lanjut yang agak mahal. Tetapi masalah utama dengan menggunakan teknologi ini ialah kerumitan menyediakan dan menyelenggara alat tersebut. Ini disebabkan oleh kekhususan linguistik komputer, yang beroperasi dari segi sintaksis dan semantik. Sebagai peraturan, pengguna akhir dan pemaju jauh dari perkara ini, dan akibatnya, keupayaan alat tersebut hanya digunakan sebanyak 5-10%.

Walau bagaimanapun, pengguna sudah pun lega daripada keperluan untuk menyemak beribu-ribu dokumen dan memilih kata kunci secara manual. Sistem melakukan ini untuknya. Kemungkinan tambahan untuk pengelasan automatik dan perbandingan dokumen serupa muncul. Di samping itu, program itu sendiri mampu mengenali unsur semantik teks, contohnya, fakta, peristiwa, dan menghantarnya untuk pemprosesan seterusnya.

Automasi prosedur analisis

Dalam kes paling mudah, pengguna akhir mempunyai alat analisis seperti MS Excel dan MS Access, dalam kes lanjutan - BI dan Perlombongan Data. Dalam pembangunan individu yang dibuat khas, pengetahuan tertentu dilaksanakan. Walau apa pun, penyelesaian yang jelas mencadangkan dirinya sendiri: untuk membentuk rantaian teknologi enjin carian - Perlombongan Teks - alat analisis. Anda boleh menyepadukan elemen rantai yang ditentukan melalui pangkalan data. Untuk mengautomasikan proses, idealnya, anda memerlukan beberapa jenis mekanisme yang akan meminta maklumat daripada enjin carian, mengimbas dokumen itu sendiri, mengesan fakta yang diperlukan, menyusunnya, menyimpannya dalam pangkalan data dan melaporkan tugas yang telah selesai. Kemudian penganalisis hanya perlu membuka laporan dan menganalisis hasilnya.

Perlombongan Teks - bagaimana ia berfungsi?

Perlombongan Teks ialah satu set teknologi dan kaedah yang direka untuk mengekstrak maklumat daripada teks. Matlamat utama adalah untuk membolehkan penganalisis bekerja dengan jumlah data sumber yang besar dengan mengautomasikan proses pengekstrakan maklumat yang diperlukan. Mari kita namakan teknologi utama Perlombongan Teks.

1. Pengekstrakan Maklumat:

a) Pengekstrakan Ciri (Entiti) - pengekstrakan perkataan atau kumpulan perkataan yang, dari sudut pandangan pengguna, adalah penting untuk menerangkan kandungan dokumen. Ini mungkin rujukan kepada orang, organisasi, lokasi geografi, istilah kawasan subjek dan perkataan atau frasa lain. Entiti yang diekstrak juga boleh menjadi frasa paling penting yang mencirikan dokumen mengikut topik utamanya;

b) Pengekstrakan Persatuan Ciri (Entiti) - lebih kompleks dari sudut teknologi. Pelbagai jenis sambungan dikesan antara entiti yang diekstrak. Contohnya, walaupun subjek yang dipilih disebut dalam dokumen yang berbeza, tetapi mempunyai beberapa ciri umum(masa, tempat, dsb.), seseorang boleh mengatakan dengan tahap kepastian yang tinggi sama ada terdapat sebarang kaitan antara mereka atau tidak;

c) Perhubungan, Peristiwa dan Pengekstrakan Fakta - versi pengekstrakan maklumat yang paling kompleks (Pengeluaran Maklumat), yang merangkumi pengekstrakan entiti, pengiktirafan fakta dan peristiwa, dan pengekstrakan maklumat daripada fakta ini. Sebagai contoh, sistem mungkin membuat kesimpulan bahawa Ivan Petrov membeli syarikat Pupkin and Co., walaupun teks itu hanya mengandungi rujukan tidak langsung kepada acara ini. Enjin carian tidak berdaya di sini, kerana ucapan manusia biasa melibatkan banyak pilihan untuk pembentangan. Dengan hanya menggunakan enjin carian, kami perlu mengenal pasti fakta ini dengan semua kata kunci yang mencirikannya. Dan teknologi Text Mining melakukan ini sendiri, dan mengikut sekatan yang ditentukan, ia membezakan fakta yang berkaitan dengan kes itu daripada yang sama sekali tidak berkaitan dengannya. Sebagai contoh, jika kita menganalisis transaksi pembelian dan penjualan syarikat, sistem ini dapat mengklasifikasikan fakta "Seorang lelaki membeli sebotol vodka" dan "Ivan Petrov membeli syarikat Pupkin and Co." ke dalam kategori yang berbeza.

2. Ringkasan (pengabstrakan automatik, anotasi) - membina ringkasan dokumen berdasarkan teks penuhnya.

3. Pengkategorian (pengkategorian, pengelasan) - memperuntukkan dokumen atau sebahagian daripadanya kepada satu atau lebih kategori. Kategori boleh menentukan "arah" teks - tematik, genre, emosi, evaluatif.

4. Klusterisasi - menggabungkan dokumen ke dalam kumpulan berdasarkan persamaannya.

Masalah pendekatan ini adalah jelas dan dikaitkan dengan sifat multikomponen penyelesaian. Anda perlu memasang enjin carian, alat untuk mengekstrak data daripada teks, alat analisis, dan sebagai tambahan, menjalankan semua penyepaduan yang berkaitan. Walau bagaimanapun, nampaknya ini adalah jalan yang akan diambil oleh penyedia penyelesaian. pengguna terakhir. Terdapat beberapa sebab untuk ini.

1. Alat analisis, khususnya BI dan Perlombongan Data, menjadi standard de facto di seluruh dunia, dan semakin ramai pakar bergantung padanya sebagai cara utama untuk mewujudkan persekitaran analisis. Bersama-sama dengan produk komersial seperti ini, dunia sumber terbuka sedang dibangunkan (projek Pentaho dan Eclipse), boleh diakses oleh khalayak luas pengguna.

2. Teknologi Text Mining, termasuk alat penyepaduan dengan sumber maklumat dan alat analisis, juga sedang dikomersialkan (ia ditawarkan oleh syarikat seperti Clarabridge, Nstein Technologies, Attensity).

3. Bidang saintifik itu sendiri juga berkembang - linguistik pengiraan, kaedah analisis teks. Perunding telah muncul yang bidang utama aktivitinya termasuk menyelesaikan masalah tersebut. Penglibatan pakar ini menjadikan projek jenis ini amat berkesan.

Tanpa melihat terlalu jauh untuk contoh...

Mari kita berikan beberapa contoh kerja gabungan teknologi carian - pengekstrakan - analisis maklumat tidak berstruktur, yang dilaksanakan oleh syarikat kami berdasarkan platform Clarabridge. Ambil perhatian bahawa mereka hanya menggambarkan sebahagian daripada keupayaan alat jenis ini. Fungsi penyelesaian boleh menjadi lebih luas.

Sistem ini, yang dibina berdasarkan prinsip pautan teknologi, membolehkan anda menyusun pelbagai jenis penilaian dan ramalan berdasarkan maklumat yang terkandung dalam sumber terbuka dan korporat. Oleh itu, apabila mengira penarafan sebutan jenama kereta dalam berita yang diterbitkan di laman web Yandex, sistem menemui pautan, mengekstrak fakta, mengenal pasti hubungan antara mereka, menyusun maklumat yang diterima dan menganalisisnya (lihat Rajah 1). Memandangkan proses itu adalah automatik, pengguna serta-merta menerima produk maklumat siap pakai yang membolehkannya menilai kualiti positif (negatif) yang dikaitkan dengan setiap jenama yang dibentangkan dan bagaimana pendapat pelanggan berubah dari semasa ke semasa. Jika anda mengklik pada satu atau bahagian lain graf - contohnya, menunjukkan penurunan dalam rating BMW - sistem akan memberitahu anda sebab penurunan ini (dalam kes ini, sebabnya ialah penarikan balik kereta dari pasaran).

jenama dalam sumber berita dalam talian

Selain itu, sistem teknologi seperti Clarabridge boleh digunakan untuk mengenal pasti "suara pelanggan" atau "nafas pasaran" - analisis surat-menyurat, nota pusat panggilan, artikel berita dalam media dan Internet, pendapat pelanggan di forum dalam talian dan blog. Pada masa yang sama, maklumat daripada dokumen tidak berstruktur disepadukan dengan data daripada sistem CRM dan sumber lain.

Rujukan sejarah

Permulaan perkembangan teknologi Text Mining boleh dianggap sebagai era pemerintahan Presiden AS Richard Nixon (1969-1974). Kemudian berpuluh-puluh juta dolar diperuntukkan untuk pembangunan bidang saintifik yang berkaitan dengan automasi terjemahan. Ini berlaku semasa era Perang Dingin, apabila, khususnya, tugas terjemahan komputer dari Rusia ke bahasa Inggeris pelbagai jenis dokumen, daripada laporan saintifik hingga dokumentasi teknikal. Tidak hairanlah projek ini ditutup.

Pada masa yang sama, bidang pengetahuan baru muncul - Pemprosesan Bahasa Semulajadi (NLP), yang dipanggil linguistik komputer di Rusia. Pada tahun 90-an, bukan sahaja melaporkan dengan persidangan ilmiah, tetapi juga kod program, yang memungkinkan untuk melibatkan komuniti saintifik antarabangsa yang lebih luas dalam pembangunan. Para saintis yang paling aktif di kawasan ini ialah Amerika Syarikat, Great Britain, Perancis dan Jerman.

Di negara kita, perkembangan linguistik komputer mempunyai spesifikasinya yang tersendiri. Ia dibangunkan terutamanya untuk kepentingan perusahaan pertahanan dan perkhidmatan keselamatan dan tidak tertumpu pada penyelesaian masalah perniagaan tertentu. Kekurangan pembiayaan yang disasarkan untuk kawasan ini dalam beberapa tahun kebelakangan ini juga telah memberi kesan. Namun begitu, perkembangan pesat media dan Internet menjana permintaan dari kedua-dua perkhidmatan persekutuan dan daripada organisasi komersial (contohnya risikan kompetitif).

Oleh itu, untuk analisis perbandingan populariti tarif pengendali selular yang dibincangkan di forum Internet, sistem menganalisis lebih daripada 20 forum dan blog, mengekstrak fakta mengikut pengelas dan pengehad yang ditetapkan, dijalankan. analisis perbandingan dan mempersembahkan data dalam bentuk yang sesuai untuk membuat keputusan (lihat Rajah 2).

nasi. 2. Trend dalam sebutan tarif

Analisis trend dalam perbincangan pelbagai tarif membolehkan anda melihat perkembangan populariti mereka dan sebab di sebalik ini, serta model dan meramalkan promosi tarif baru. Pada masa yang sama, penunjuk tertentu boleh diperincikan ke tahap teks sumber, yang memungkinkan untuk mengaudit maklumat untuk mengesahkan kebolehpercayaan data dan ketepatan tetapan sistem.

kesimpulan

Disebabkan oleh inersia pemikiran, khalayak ramai tidak mempercayai fakta bahawa mesin boleh beroperasi dengan konsep fakta, peristiwa, orang, organisasi, dll. Pada asasnya, inilah yang memaksa kita untuk meninggalkan teknologi Perlombongan Teks dan memuatkan diri kita dengan pemprosesan manual hasil carian. Sudah tentu, terdapat kesukaran objektif. Kaedah Perlombongan Teks mesti disesuaikan dengan bidang subjek, yang selalunya memerlukan masa dan sumber lain. Sesetengah jenis teks (contohnya, fiksyen, profesional dan slanga lain) sukar diproses dengan mesin.

Sementara itu, teknologi untuk mengekstrak maklumat daripada teks tidak berstruktur (Text Mining) telah pun digunakan dalam amalan hari ini. Dari masa ke masa, penggunaannya hanya akan berkembang, kerana jumlah maklumat yang boleh diakses dan berguna semakin meningkat setiap hari, dan keperluan untuk analisis mereka masih tidak berpuas hati.

Dibangunkan berdasarkan analisis statistik dan linguistik, serta kaedah kecerdasan buatan, teknologi Text Mining direka untuk melakukan analisis, menyediakan navigasi dan carian dalam teks tidak berstruktur. Menggunakan sistem kelas Text Mining, pengguna memperoleh pengetahuan baharu.

Teknologi Perlombongan Teks - satu set kaedah yang direka untuk mendapatkan maklumat daripada teks berdasarkan ICT moden, yang memungkinkan untuk mengenal pasti corak yang boleh membawa kepada maklumat berguna dan pengetahuan baharu untuk pengguna.

Ia adalah alat yang menyediakan keupayaan untuk menganalisis jumlah maklumat yang besar untuk mencari arah aliran, corak dan hubungan yang boleh membantu membuat keputusan strategik.

Perlu diingatkan bahawa teknologi analisis teks secara historis didahului oleh penciptaan teknologi analisis data, metodologi dan pendekatannya juga digunakan secara meluas dalam kaedah Perlombongan Teks, contohnya, kaedah pengelasan atau pengelompokan. Ciri baharu telah muncul dalam Perlombongan Teks: pengabstrakan automatik teks dan pengenalpastian fenomena, iaitu konsep dan fakta. Keupayaan sistem Perlombongan Teks moden boleh digunakan dalam sistem pengurusan pengetahuan untuk mengenal pasti corak dalam teks, mengedarkan maklumat antara profil dan membuat semakan dokumen. Text Mining menyediakan tahap baharu carian dokumen semantik.

Komponen penting teknologi Text Mining dikaitkan dengan mengekstrak sifat cirinya daripada teks, yang kemudiannya digunakan sebagai kata kunci dan anotasi. Satu lagi tugas penting ialah memberikan dokumen kepada kategori tertentu daripada skim sistematisasi yang diberikan. Matlamat utama Perlombongan Teks adalah untuk

memberi peluang kepada penganalisis untuk bekerja dengan jumlah data sumber yang besar dengan mengautomasikan proses mendapatkan maklumat yang diperlukan.

Elemen asas Perlombongan Teks:

1) mendapatkan fenomena - Pengekstrakan Ciri (Entiti) - mengekstrak perkataan atau kumpulan perkataan yang, dari sudut pandangan pengguna, adalah penting untuk menerangkan kandungan dokumen. Ini mungkin maklumat tentang seseorang, organisasi, tempat geografi, istilah atau frasa lain - Pengekstrakan Persatuan Ciri (Entiti) - set perkataan yang lebih kompleks dari sudut pandangan teknologi;

2) pengabstrakan automatik, anotasi (Ringkasan)

Membina ringkasan dokumen dengan teks penuhnya;

3) pengelasan (Klasifikasi), yang menggunakan korelasi statistik untuk membina peraturan untuk meletakkan dokumen ke dalam kategori yang disediakan;

4) pengelompokan, yang berdasarkan ciri-ciri dokumen, menggunakan kaedah linguistik dan matematik tanpa menggunakan kategori yang disediakan;

5) menjawab soalan (question answering);

6) pengindeksan tematik;

7) carian mengikut kata kunci;

8) pembinaan sempadan semantik atau analisis sambungan (Perhubungan, Peristiwa dan Pengekstrakan Fakta), yang menentukan penampilan deskriptor (frasa utama) dalam dokumen untuk memastikan carian dan navigasi. Ini adalah pilihan yang paling kompleks untuk mendapatkan maklumat, termasuk mengekstrak intipati, mengenali fakta dan peristiwa, serta mengekstrak maklumat daripada fakta ini. Mendapat fakta

Ini ialah pengekstrakan fakta tertentu daripada teks untuk meningkatkan pengelasan, carian dan pengelompokan.

Untuk kaedah pengelasan, mekanisme pintar kini digunakan untuk mengoptimumkan proses pengelasan. Pengelasan digunakan, sebagai contoh, untuk menyelesaikan masalah seperti mengumpulkan dokumen dalam rangkaian perusahaan, di tapak Web dan menyusun mesej e-mel.

Pengelompokan digunakan secara meluas apabila mengabstraksi tatasusunan maklumat yang besar atau mengenal pasti kumpulan dokumen yang saling berkaitan, serta memudahkan proses penyemakan imbas apabila mencari maklumat yang diperlukan, untuk mencari dokumen unik daripada koleksi, untuk mengenal pasti pendua atau dokumen yang sangat serupa dalam kandungan. .

Terdapat dua jenis pengelompokan utama: hierarki dan binari. Pengelompokan hierarki terdiri daripada membina pokok kelompok, setiap satunya mengandungi sekumpulan kecil dokumen. Pengelompokan binari menyediakan pengumpulan dan melihat gugusan dokumen berdasarkan persamaan. Dokumen dengan sifat yang serupa diletakkan dalam satu kelompok. Proses pengelompokan membina asas pautan dari dokumen ke dokumen, yang berdasarkan pemberat dan perkongsian kata kunci.

Salah satu aplikasi penting Text Mining membolehkan anda meramalkan nilai orang lain berdasarkan nilai beberapa atribut objek. Mencari pengecualian (mencari objek yang menonjol dari gambaran umum dengan ciri-cirinya) juga merupakan bidang penting dalam penyelidikan Perlombongan Teks.

Tugas mencari ciri berkaitan (konsep) dokumen individu adalah serupa dengan pengelompokan, tetapi dilakukan menggunakan set ciri ciri tertentu.

Sistem moden kelas Text Mining boleh menganalisis tatasusunan besar dokumen dan menjana indeks subjek konsep dan topik yang diliputi dalam dokumen ini.

Sejak tahun 60-an, dengan kemunculan alat automasi dan teks dalam format elektronik, analisis kandungan volum besar maklumat telah dibangunkan. Perlombongan Data, dari sudut analisis kandungan, difahami sebagai mekanisme untuk mengenal pasti pengetahuan baharu dalam aliran data, seperti model, reka bentuk, persatuan, perubahan, anomali dan pembentukan baru struktur.

Analisis kandungan - ini adalah kualitatif-kuantitatif, pemprosesan sistematik, penilaian dan tafsiran bentuk dan kandungan teks.

Pada masa ini, beberapa pendekatan digunakan untuk mempersembahkan Maklumat dalam pangkalan data untuk membolehkan maklumat ini diperoleh selanjutnya. Pendekatan yang paling biasa ialah model carian Boolean dan ruang vektor.

Model Boolean adalah berdasarkan teori set, dan oleh itu merupakan model perolehan maklumat berdasarkan logik matematik. Pada masa kini adalah popular untuk menggabungkan Boolean dengan model vektor-spatial algebra perwakilan data, yang menyediakan, dalam satu pihak, carian pantas menggunakan operator logik matematik, dan sebaliknya, kedudukan dokumen berdasarkan pemberat kata kunci.

Apabila menggunakan model Boolean, pangkalan data termasuk indeks, yang disusun sebagai tatasusunan data terbalik, yang, untuk setiap istilah daripada kamus pangkalan data, mengandungi senarai dokumen di mana istilah ini berlaku.

Indeks juga boleh menyimpan kekerapan kejadian istilah ini dalam setiap dokumen, yang membantu mengisih senarai dalam susunan kejadian menurun.

Kebanyakan sistem perolehan maklumat dan sistem klasifikasi maklumat yang terkenal adalah berdasarkan penggunaan model penerangan data vektor (Vector Space Model). Model vektor ialah model klasik algebra. Dalam rangka kerja model ini, dokumen diterangkan oleh vektor dalam ruang Euclidean, di mana dalam setiap dokumen satu istilah dikaitkan dengan pekali beratnya, yang ditentukan berdasarkan maklumat statistik tentang kejadiannya dalam dokumen berasingan atau dalam tatasusunan dokumentari. Perihalan pertanyaan yang sepadan dengan topik tertentu juga merupakan vektor dalam ruang istilah Euclidean yang sama. Untuk menilai kehampiran pertanyaan dan dokumen, produk skalar topik yang sepadan dan vektor perihalan dokumen digunakan.

Model perwakilan data vektor-ruang secara automatik menyediakan sistem dengan keupayaan berikut: memproses pertanyaan besar; pelaksanaan mudah mod carian untuk dokumen yang serupa dengan yang ditemui; menyimpan hasil carian dalam tatasusunan maklumat dengan carian penjelasan berikutnya.

Dalam amalan, bagaimanapun, pendekatan gabungan paling kerap digunakan, yang menggabungkan keupayaan model Boolean dan vektor-ruang dan menambah kaedah asal pemprosesan maklumat semantik. Selalunya, dalam sistem perolehan maklumat, prosedur carian dijalankan mengikut model Boolean, dan keputusan disusun mengikut pemberat mengikut model ruang vektor.

Pada masa ini, terdapat banyak pengeluar perisian yang menawarkan produk dan penyelesaian mereka dalam bidang Perlombongan Teks.

Ini adalah sistem berskala yang melaksanakan pelbagai algoritma matematik dan linguistik untuk menganalisis data teks dan mempunyai antara muka grafik yang mesra, visualisasi dan keupayaan manipulasi data, menyediakan akses kepada pelbagai sumber data dan beroperasi dalam seni bina pelayan-pelanggan. Contohnya, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Knowledge Server (Autonomi), GALAKTIKA-ZOOM, InfoStream (ElVisti).

Sistem perolehan maklumat moden ditakrifkan berdasarkan dua aliran utama: pemprosesan pengetahuan dan penggunaan sistem terbuka. Di persimpangan kawasan inilah teknologi ejen muncul. Pembangunan aktif kaedah dan teknologi kecerdasan buatan teragih, kemajuan dalam bidang perkakasan dan perisian yang menyokong konsep pemisahan dan keterbukaan telah membawa kepada pembangunan sistem berbilang ejen di mana ejen perisian bersama-sama menyelesaikan masalah kompleks dalam ruang maklumat.

Kebolehan ejen perisian merancang dan menyelaraskan tindakan mereka secara autonomi, berunding dengan orang lain aplikasi yang diedarkan dalam persekitaran maklumat heterogen yang kompleks, membuat keputusan secara fleksibel dan bijak dalam situasi yang berubah secara dinamik dan tidak dapat diramalkan membawa kepada fakta bahawa teknologi berasaskan ejen menjadi salah satu teknologi pemprosesan maklumat utama.

Saya tidak fikir saya akan menemui Amerika jika saya mengatakan bahawa tidak semua maklumat adalah sama berguna. Kadangkala anda perlu menulis banyak teks untuk menerangkan konsep, dan kadangkala anda hanya perlu melihat gambar rajah mudah untuk menerangkan isu yang rumit. Untuk mengurangkan lebihan maklumat, ia dicipta formula matematik, lukisan, simbol, kod program dan lain-lain. Di samping itu, bukan sahaja maklumat itu sendiri yang penting, tetapi juga pembentangannya. Adalah jelas bahawa sebut harga saham boleh ditunjukkan dengan lebih jelas menggunakan graf, dan formula matematik akan menerangkan hukum Newton dalam bentuk yang lebih padat.

Dalam proses pembangunan teknologi maklumat, serta sistem untuk mengumpul dan menyimpan data - pangkalan data, pergudangan data, dan lebih baru-baru ini, repositori awan, masalah menganalisis jumlah data yang besar telah timbul apabila penganalisis atau pengurus tidak dapat secara manual. memproses sejumlah besar data dan membuat keputusan. Adalah jelas bahawa penganalisis perlu membentangkan maklumat asal dalam bentuk yang lebih padat yang boleh dikendalikan oleh otak manusia dalam masa yang boleh diterima.

Mari kita serlahkan beberapa tahap maklumat:

  • data sumber (data mentah, data sejarah, atau hanya data) - set data mentah yang diperoleh hasil daripada pemerhatian tertentu sistem dinamik atau objek dan mencerminkan keadaannya pada masa tertentu (contohnya, data pada sebut harga saham sepanjang tahun lalu);
  • maklumat – data diproses yang membawa beberapa nilai maklumat untuk pengguna; data mentah dibentangkan dalam bentuk yang lebih padat (contohnya, hasil carian);
  • pengetahuan - membawa pengetahuan tertentu, memaparkan hubungan tersembunyi antara objek yang tidak tersedia secara umum (jika tidak, ia hanya akan menjadi maklumat); data daripada entropi tinggi(atau ukuran ketidakpastian).
Mari kita lihat satu contoh. Katakan kita mempunyai beberapa data mengenai urus niaga mata wang di pasaran Forex untuk tempoh masa tertentu. Data ini boleh disimpan dalam bentuk teks, dalam Format XML, dalam pangkalan data atau dalam bentuk binari dan dengan sendirinya tidak membawa sebarang beban semantik yang berguna. Seterusnya, penganalisis memuatkan data ini, sebagai contoh, ke dalam Excel dan membina graf perubahan, dengan itu mendapatkan maklumat. Kemudian dia memuatkan data (sepenuhnya atau sebahagiannya diproses dalam Excel), sebagai contoh, ke dalam Pelayan Microsoft SQL dan, menggunakan Perkhidmatan Analisis, mendapat pengetahuan bahawa lebih baik untuk menjual saham esok. Penganalisis kemudiannya boleh menggunakan pengetahuan yang telah diperoleh untuk membuat anggaran baharu, dengan itu memperoleh maklum balas dalam proses maklumat.

Tiada sempadan yang jelas antara peringkat, tetapi pengelasan sedemikian akan membolehkan kita mengelakkan kekeliruan dengan istilah pada masa hadapan.

Perlombongan Data

Dari segi sejarah, istilah Data Mining mempunyai beberapa pilihan terjemahan (dan makna):
  • pengekstrakan data, pengumpulan data, perlombongan data (mereka juga menggunakan Pencarian Maklumat atau IR);
  • pengekstrakan pengetahuan, perlombongan data (Penemuan Data Pengetahuan atau KDD, Perisikan Perniagaan).
IR beroperasi dengan dua tahap pertama maklumat, masing-masing, KDD berfungsi dengan tahap ketiga. Jika kita bercakap tentang kaedah pelaksanaan, pilihan pertama merujuk kepada kawasan permohonan, di mana matlamat utama adalah data itu sendiri, yang kedua ialah matematik dan analitik, di mana ia adalah penting untuk mendapatkan pengetahuan baharu daripada sejumlah besar data sedia ada. Selalunya, pengekstrakan data (pengumpulan) adalah peringkat persediaan untuk mengeluarkan pengetahuan (analisis).

Saya berani memperkenalkan istilah lain untuk mata pertama - Pengekstrakan Data, yang akan saya gunakan pada masa hadapan.

Masalah yang diselesaikan oleh Perlombongan Data:

  1. Pengelasan ialah penugasan vektor input (objek, peristiwa, pemerhatian) kepada salah satu kelas yang diketahui sebelum ini.
  2. Pengelompokan ialah pembahagian set vektor input kepada kumpulan (kluster) mengikut tahap "kesamaan" antara satu sama lain.
  3. Pengurangan penerangan - untuk menggambarkan data, memudahkan pengiraan dan tafsiran, memampatkan jumlah maklumat yang dikumpul dan disimpan.
  4. Persatuan - mencari corak berulang. Contohnya, mencari "hubungan yang mampan dalam troli beli-belah."
  5. Ramalan – mencari keadaan masa depan sesuatu objek berdasarkan keadaan sebelumnya (data sejarah)
  6. Analisis sisihan - contohnya, mengenal pasti atipikal aktiviti rangkaian membolehkan anda mengesan perisian hasad.
  7. Visualisasi data.

Pencarian maklumat

Pencarian semula maklumat digunakan untuk mendapatkan data berstruktur atau sampel yang mewakili saiz yang lebih kecil. Menurut klasifikasi kami, pengambilan maklumat beroperasi pada data peringkat pertama dan, sebagai hasilnya, menghasilkan maklumat peringkat kedua.

Paling banyak contoh mudah pencarian maklumat ialah enjin carian yang, berdasarkan algoritma tertentu, mendapatkan semula sebahagian maklumat daripada set dokumen yang lengkap. Di samping itu, mana-mana sistem yang berfungsi dengan data ujian, metainformation atau pangkalan data dalam satu cara atau yang lain menggunakan alat mendapatkan maklumat. Alat tersebut boleh berupa kaedah pengindeksan, penapisan, pengisihan data, penghurai, dsb.

Perlombongan Teks

Nama lain: teks perlombongan data, analisis teks, konsep yang sangat dekat ialah perlombongan kebimbangan.

Perlombongan teks boleh berfungsi dengan kedua-dua data mentah dan data yang diproses separa, tetapi tidak seperti perolehan semula maklumat, perlombongan teks menganalisis maklumat teks menggunakan kaedah matematik, yang membolehkan anda memperoleh hasil dengan unsur pengetahuan.

Tugas yang diselesaikan oleh perlombongan teks ialah: mencari corak data, mendapatkan maklumat berstruktur, membina hierarki objek, mengelas dan mengelompokkan data, mengenal pasti topik atau bidang pengetahuan, pengabstrakan dokumen automatik, tugas penapisan kandungan automatik, mengenal pasti hubungan semantik dan lain-lain.

Untuk menyelesaikan masalah perlombongan teks yang mereka gunakan kaedah statistik, kaedah interpolasi, penghampiran dan ekstrapolasi, kaedah kabur, kaedah analisis kandungan.

Perlombongan Web

Dan akhirnya, kami sampai ke perlombongan web - satu set pendekatan dan teknik untuk mengekstrak data daripada sumber web.
Oleh kerana sumber web biasanya bukan data teks, pendekatan kepada proses pengekstrakan data adalah berbeza dalam kes ini. Pertama sekali, anda perlu ingat bahawa maklumat di web disimpan dalam bentuk bahasa penanda HTML khas (walaupun terdapat format lain - RSS, Atom, SOAP, tetapi kita akan membincangkannya kemudian), halaman web boleh mempunyai maklumat meta tambahan, serta maklumat tentang struktur (semantik) dokumen, setiap dokumen web terletak dalam domain tertentu dan peraturan pengoptimuman enjin carian (SEO) boleh digunakan padanya.

Ini adalah artikel pertama dalam siri khusus untuk perlombongan data / pengekstrakan / perlombongan web. Cadangan dan kritikan yang beralasan diterima.