Sistem pencarian maklumat. Sumber maklumat dan persembahannya dalam sistem pencarian maklumat. Bahasa pencarian maklumat sistem

Ciri geometri dan substantif bidang boleh sama ada bebas atau saling berkaitan. Sebagai contoh, dalam pesanan resit di sebelah medan "kuantiti" dan "harga" terdapat medan "jumlah".

Dokumen yang perlu diimbas boleh dikumpulkan mengikut beberapa kriteria. Berdasarkan kaedah penggunaan maklumat, seseorang boleh membezakan dokumen yang menggunakan tanda, teks bercetak atau tulisan tangan. Jadi, sebagai contoh, "Undi mengundi" menggunakan kaedah tanda, manakala "Senarai harga" dicetak dan dokumen perakaunan utama kebanyakannya ditulis tangan.

Menjalankan penerangan tentang tetapan sistem untuk bentuk dokumen tertentu juga melibatkan pelaksanaan pembangunan tetapan model input dokumen ke dalam pangkalan maklumat atau arkib dan penyusunan elektronik menetapkan surat-menyurat antara medan borang dokumen dan medan pengindeksan untuk kemasukan ke pangkalan maklumat atau arkib. Pembinaan tetapan ini adalah berdasarkan kewujudan tiga pendekatan untuk memasukkan data ke dalam pangkalan data:

Memasukkan kata kunci. Dalam kes ini, satu atau lebih kata kunci akan digunakan sebagai indeks untuk imej tertentu. Pada masa hadapan, akses pantas kepada imej dokumen mungkin menggunakan kata kunci yang dimasukkan - indeks.

Memasukkan keseluruhan teks dokumen. Semua perkataan dokumen dimasukkan dan selepas itu adalah mungkin untuk menjalankan carian teks penuh imej dokumen menggunakan indeks teks penuh yang disusun untuk dokumen ini. Kaedah ini boleh digunakan jika perlu untuk mendapatkan versi teks dokumen.

Kemasukan data berasaskan borang. Kaedah ini digunakan untuk menggantikan kemasukan data manual sepenuhnya ke dalam sistem komputer dan digunakan terutamanya untuk memasukkan data daripada borang (standard, dokumen serupa). Dalam kes ini, atribut dokumen akan digunakan untuk menyusun indeks dokumen untuk mencari dan menyimpannya dalam pangkalan data atau arkib.

Peringkat utama input automatik dokumen kertas termasuk melaksanakan operasi seperti:

Mengimbas;

Kawalan kualiti imej yang diimbas dan pengimbasan semula;

Pra-pemprosesan teks;

pemprosesan teks dokumen asas;

Kawalan kualiti pengiktirafan dan penyuntingan;

Mengimbas- ini adalah operasi yang sangat bertanggungjawab, dan, oleh itu, pilihan model tertentu Pengimbas mesti didekati dengan cukup bertanggungjawab. Apabila memilih, anda harus mempertimbangkan faktor berikut: saiz dokumen, keadaannya, sama ada dokumen itu satu sisi atau dua sisi, prestasi pengimbas, resolusi imej yang diperlukan, kebolehpercayaan imej yang terhasil, dan yang lain.

Pada masa ini, pasaran peralatan teknikal menawarkan cukup sejumlah besar pelbagai model pengimbas yang boleh dikelaskan mengikut prestasi jenis berikut(lihat jadual 5.1):

Peribadi;

Atas meja;

Penstriman prestasi tinggi.

Berdasarkan kualiti pengimbasan, bergantung pada resolusi, ia boleh dibahagikan kepada kumpulan berikut:

Peleraian rendah (200–400 dpi);

Dengan resolusi sederhana (600–800 dpi);

Resolusi tinggi (1600–2800 dpi);

Tujuan khas.

Input dokumen meletakkan permintaan yang agak rendah pada kualiti pengimbasan; biasanya resolusi 200-300 dpi sudah memadai. Pengimbas penerbitan profesional mempunyai resolusi tertib titik/inci, malah pengimbas peribadi mempunyai resolusi kira-kira 600-800 dpi. Satu-satunya ciri tersendiri ialah penyuapan automatik halaman dokumen dan kelajuan pengimbasan yang tinggi (dari 10 hingga 200 helaian A4 seminit). Pengimbas berkelajuan tinggi ini direka untuk memasukkan dokumen bercetak.

Untuk memasukkan dokumen lama, pengimbas dengan pengapit dokumen vakum digunakan, yang meletakkan permintaan yang sangat rendah pada dokumen dan memprosesnya dengan cara yang lembut. Dalam kes yang sangat jarang berlaku, apabila dokumen terlalu lama sehingga tidak boleh diletakkan dalam pengimbas rata, pengimbas tujuan khas digunakan. Pengimbas sedemikian membolehkan anda mengimbas buku dan dokumen yang dibuka separa yang tidak berkualiti. Kelajuan input peranti sedemikian ialah 0.25-3 halaman seminit.

Memproses data yang terkandung dalam dokumen, melibatkan melaksanakan operasi asas berikut:

Pra-pemprosesan imej;

Pemprosesan asas imej dokumen.

Pra-pemprosesan imej dokumen digunakan untuk meningkatkan imej yang terhasil dan perlu atas sebab-sebab berikut:

Kebolehbacaan imej dipertingkatkan. Imej yang diproses lebih mudah difahami apabila dilihat secara visual.

Meningkatkan ketepatan pengecaman. Penggunaan teknik peningkatan imej khas boleh meningkatkan ketepatan pengecaman aksara optik dengan ketara.

Kurangkan saiz imej. Saiz fail imej yang diproses boleh sehingga 80% lebih kecil daripada saiz asal. Dengan mengurangkan saiz yang kami maksudkan kedua-dua pemampatan dan pemadaman fail mudah maklumat yang diperlukan.

Pra-pemprosesan imej dokumen melibatkan penggunaan kaedah berikut: pembersihan imej digunakan untuk mengalih keluar elemen individu daripada imej (contohnya, titik, bintik); mengalih keluar latar belakang dan sorotan (contohnya, daripada sekuriti); pemulihan huruf dan simbol - jika ia bersilang dengan unsur bentuk, sebagai contoh, garis (untuk pengiktirafan simbol seterusnya, adalah perlu untuk mengeluarkan garis supaya huruf itu tidak rosak); putar imej pada sudut sewenang-wenangnya; penskalaan imej; kawalan tahap kelabu; pemampatan imej dan penyahmampatan.

Proses pemprosesan dokumen asas mengadakan peruntukan bagi operasi berikut:

Mencari medan (pembahagian dokumen);

Pengecaman teks dokumen .

Ia boleh dilakukan secara berurutan dan bebas jika medan ditakrifkan sepenuhnya oleh ciri visualnya. Keadaan ini adalah tipikal untuk borang dan dokumen yang boleh dibaca mesin dengan pemisah medan yang jelas dalam bentuk garisan atau ruang yang besar.

Pengecaman dokumen, analisis kandungan dokumen dan pengekstrakan data boleh dilakukan menggunakan sistem berikut pengiktirafan teks yang berbeza dari segi kos, kualiti dan kelajuan:

OCR (Optical Character Recognition) ialah teknologi untuk pengecaman optik aksara bercetak, iaitu, menukar imej imbasan aksara bercetak kepada perwakilan teksnya;

ICR (Pengiktirafan Watak Pintar) – pengiktirafan aksara bercetak individu yang ditulis dengan tangan;

OMR (Pengiktirafan Tanda Optik) - pengecaman tanda (biasanya segi empat sama atau bulatan yang dicoret secara bersilang atau dengan kutu);

Nombor bergaya - pengiktirafan nombor tulisan tangan, tulisan tangan mengikut templat, seperti pada sampul surat;

Terdapat beberapa pendekatan untuk melaksanakan teknologi untuk memasukkan aksara tulisan tangan:

Pengiktirafan dalam talian dijalankan pada masa seseorang menulis dengan pen khas skrin sentuh, yang melihat maklumat tambahan tentang trajektori pergerakan tangan, kecondongan pen, daya tekanan, dll. Ia digunakan terutamanya dalam buku nota elektronik peribadi seperti 3Com PalmPilot untuk input tulisan tangan data angka dan aksara.

Pengecaman luar talian – pengecaman teks tulisan tangan sewenang-wenang yang dimasukkan ke dalam komputer melalui pengimbas.

Pengecaman cap tangan ialah subset teknologi pengecaman luar talian. Kaedah ini biasanya digunakan untuk memasukkan borang standard. Mengenal teks tulisan tangan adalah jauh lebih sukar daripada teks bercetak, kerana jika dalam kes kedua kita berurusan dengan bilangan variasi imej fon (templat) yang terhad, maka dalam versi tulisan tangan bilangan templat adalah jauh lebih besar.

Untuk sistem OCR, tiga jenis teknologi pengecaman teks bercetak digunakan terutamanya:

Berasaskan matriks

Deskriptif (berdasarkan huraian peraturan untuk membina simbol),

Neural (berdasarkan penggunaan rangkaian saraf).

Pematuhan ketat kepada standard penampilan bentuk meningkatkan ketepatan pengecaman medan dokumen dengan ketara.

Kawalan data yang diiktiraf adalah operasi seterusnya yang dilaksanakan oleh sistem input.

Sistem pengecaman automatik biasanya mengembalikan apa yang dipanggil "darjah keyakinan" bersama dengan hasilnya. Untuk meningkatkan kebolehpercayaan data selepas pengecaman, mereka menggunakan ditentukan pengguna kaedah pengesahan data automatik (contohnya, anda boleh menyemak sama ada maklumat yang diiktiraf berada dalam pangkalan data, dan jika tidak, tandakan medan sebagai tidak betul). Untuk meningkatkan kebolehpercayaan data, mekanisme tambahan digunakan, seperti penggunaan kamus dan jadual yang ditentukan pengguna. Selain itu, sistem termasuk alat terbina dalam khas untuk menentukan prosedur pengesahan khusus untuk setiap medan dokumen.

Jika data ditanda sebagai tidak betul selepas pengecaman, ia dihantar secara automatik untuk penyuntingan manual. Semasa penyuntingan, pengendali melihat imej sebenar medan yang tidak dikenali dan mempunyai peluang untuk membetulkannya. Selepas pengendali memasukkan data baharu, peraturan pengesahan data digunakan semula, iaitu, pada semua peringkat kemasukan, secara automatik dan manual, data diperiksa mengikut peraturan yang ditentukan oleh pengguna.

Mengindeks dan memuatkan data. Operasi terakhir proses ialah eksport imej dokumen dan data yang berkaitan ke sistem pengurusan dokumen atau pangkalan data dan pengindeksan tertentu. Keperluan utama untuk eksport adalah sokongan pelbagai format data dan kelajuannya.

Sebaik sahaja dokumen diiktiraf, ia memasuki pangkalan data atau sistem pengurusan dokumen di mana ia diindeks. Tidak seperti sistem pengecaman konvensional, sistem input borang standard menggunakan penerangan rasmi borang dokumen asal, penerangan model input dan model untuk memadankan medan input dan pengindeksan. Ini membolehkan anda mengindeks dokumen secara automatik dan memuatkan maklumat ke dalam medan pangkalan data atau arkib tanpa campur tangan pengendali.

Bergantung pada tugas dan jenis dokumen tertentu, ia boleh dimuatkan ke dalam modul teks penuh, atau maklumat yang diekstrak daripadanya perlu masuk ke dalam sistem pengindeksan atribut (contohnya, nilai dari medan borang berakhir dalam kad dokumen). Dalam kes ini, imej dokumen boleh disimpan.

5.2 Keperluan untuk SMV. Ciri-ciri sistem

Faktor utama dalam menilai keberkesanan sistem pengecaman ialah kos membetulkan ralat pengecaman, bukannya ketepatan dan kelajuan sistem. Dalam sesetengah kes, kos membetulkan ralat dalam pengecaman boleh merangkumi semua kelebihan automasi dan menjadikan input manual daripada imej lebih cekap. Apabila membangunkan dan menggunakan CMS, pereka bentuk juga perlu melakukan sejumlah besar kerja untuk mengintegrasikan sistem input ini ke dalam sistem maklumat sedia ada atau dibangunkan. Prestasi sistem sangat dipengaruhi oleh teknologi input yang digunakan, konfigurasinya untuk tugas semasa dan jenis dokumen. Di sini anda perlu mengambil kira komposisi peralatan, perisian dan keserasian format maklumat yang diiktiraf dengan sistem sedia ada.

Terdapat banyak syarikat yang menawarkan penyelesaian atau komponen untuk sistem pemprosesan acuan. Keputusan untuk melaksanakan sistem pemprosesan borang, serta pilihan aplikasi tertentu, harus dibuat dengan mengambil kira, pertama sekali, keperluan berikut:

Jenis dokumen yang sedang diproses dan jenis data yang terkandung di dalamnya;

Ketepatan pengiktirafan;

Ketersediaan sistem penyuntingan yang berkesan;

Kebolehubahsuaian sistem kepada keperluan pelanggan tertentu dan keupayaan untuk berubah mengikut perubahan keadaan luaran tanpa pengaturcaraan;

Ketersediaan sokongan pengimbas pelbagai jenis, serta pelbagai jenis papan pemprosesan imej dokumen;

Kehadiran editor borang yang mengkonfigurasi sistem untuk borang baharu atau perubahan kepada borang lama yang mana sistem itu berorientasikan sebelumnya;

Ketersediaan editor untuk skema pemprosesan dokumen, antara muka sambungan terbuka pelbagai modul pengiktirafan (bergantung pada jenis borang, anda boleh menyambung satu atau satu lagi modul yang paling sesuai untuk jenis borang ini untuk meningkatkan kualiti pengecaman);

Ketersediaan editor untuk skim eksport ke pangkalan data (data yang diekstrak semasa pemprosesan borang mesti dipindahkan sama ada ke pangkalan data untuk penyimpanan atau ke aplikasi perniagaan lain untuk pemprosesan).

Di samping itu, satu set keperluan umum boleh dikemukakan kepada pilihan perisian untuk CMS:

Keterbukaan. Sistem mesti membenarkan kemasukan pelbagai teknologi dan produk perisian bergantung pada aplikasi khusus, walaupun produk ini dibekalkan oleh syarikat lain. Keupayaan untuk menyepadukan dengan pelbagai sistem aliran kerja dan sistem pengurusan dokumen diperlukan.

Kemungkinan penyesuaian. Antara muka pengguna mesti disesuaikan untuk memaksimumkan kecekapan pengendali.

Kebolehskalaan. Anda perlu dapat menambah dan mengurangkan sumber sistem pada tahap beban sistem yang berbeza.

Kemungkinan pentadbiran. Pengguna mesti boleh pengurusan yang fleksibel sistem. Ia adalah perlu untuk dapat mengawal sumber dan alat yang digunakan untuk mendapatkan pelbagai jenis laporan.

Mari kita pertimbangkan sebagai contoh dua sistem kelas CMB - Bentuk Kognitif daripada Teknologi Kognitif dan FineReader.

Borang Kognitif ialah sistem Rusia untuk input industri (kadangkala dipanggil aliran) bagi borang dokumen standard, yang dijalankan di bawah sistem pengendalian Windows 95/NT dan MacOS. Sistem ini tergolong dalam kelas OCR/ICR/OMR dan membolehkan anda memasukkan borang dengan bercetak, tulisan tangan dan kotak semak ke dalam pangkalan data dan sistem maklumat.

Borang Kognitif direka bentuk untuk kemasukan automatik ke dalam sistem maklumat dan pangkalan data bagi bentuk dokumen sewenang-wenangnya, satu dan berbilang halaman yang memenuhi keperluan tertentu untuk reka bentuk dan penyiapan serta disediakan pada pencetak laser, inkjet dan matriks atau pada borang standard menggunakan mesin taip.

Sistem ini membenarkan pemprosesan benang teragih (pengimbasan, pengecaman, pengeditan dan kawalan) pada rangkaian dengan prestasi pengecaman sehingga muka surat A4 setiap syif pada satu komputer dan kawalan automatik keputusan pengecaman. Data boleh dieksport ke pangkalan data, sistem perbankan seperti "Hari Operasi" dan sistem untuk mencipta arkib elektronik dan automasi dokumen.

Pelaksanaan sistem memungkinkan untuk mempercepatkan kemasukan borang dokumen standard sebanyak 5–10 kali ganda berbanding dengan kemasukan manual.

Imej yang diimbas boleh disimpan dalam arkib elektronik bank untuk mengekalkan sejarah penyimpanan rekod organisasi.

Bentuk Kognitif terdiri daripada tiga modul utama:

Cognitive FormDesigner bertanggungjawab untuk mereka bentuk penerangan borang dokumen untuk program pengiktirafan dan penyuntingan.

Cognitive FormReader menyediakan pengecaman automatik aliran borang standard yang datang daripada pengimbas. Dalam mod automatik, ia melakukan pengecaman sebaris borang berdasarkan penerangan yang diberikan dan pengesahan kontekstual hasil.

Cognitive FormEditor direka bentuk untuk mengawal pengendali borang yang diiktiraf dan menyimpan maklumat daripada borang yang dimasukkan dalam rekod pangkalan data dan membolehkan pengendali mengawal dan mengedit medan borang yang diiktiraf secara visual.

Borang Kognitif membolehkan untuk menjalankan pemprosesan borang input yang diedarkan dalam rangkaian tempatan dan mencapai capaian yang berkesan kepada data dalam masa nyata. Sebagai contoh, pada Pentium II-233, masa yang diperlukan untuk sistem Borang Kognitif mengenali satu bentuk ialah kira-kira 2 saat. Pengimbas berprestasi tinggi digunakan untuk input industri: Kodak, Bell+Howell, BancTec, Fujitsu, dll., serta peranti rangkaian(Hewlett Packard). Prestasi sesetengah model mencecah ratusan halaman seminit.

Keberkesanan menggunakan sistem untuk memasukkan dokumen kertas ke dalam EIS adalah berdasarkan, pertama sekali, pada pengurangan ketara dalam penyertaan manusia dalam kemasukan data. Akibatnya, anda boleh melihat pengurangan dalam masa kemasukan dokumen dan bilangan ralat. Bagi organisasi yang memproses aliran besar borang (jabatan cukai pusat dan pos, organisasi statistik, pusat kebenaran untuk pembayaran untuk kad kredit), penggunaan teknologi yang diterangkan akan menyelesaikan masalah pemprosesan cekap ratusan ribu malah berjuta-juta borang dalam masa yang singkat.

Sistem FineReader, yang dibangunkan oleh ABBYY, adalah berdasarkan tiga prinsip pengiktirafan, yang dirumuskan dengan memerhatikan tingkah laku haiwan dan manusia: Integriti, Tujuan dan Kebolehsuaian, yang memungkinkan untuk mendapatkan penyelesaian berdasarkan prinsip ciri ciri sistem hidupan. - pengiktirafan teknologi Penyesuaian Bermaksud Integriti (teknologi IPA).

Integriti. Sesuatu objek diterangkan secara keseluruhan menggunakan elemen penting dan hubungan antara mereka. Objek diiktiraf sebagai objek kelas tertentu hanya jika semua elemen huraian dan perhubungan yang diperlukan antara mereka hadir.

Fokus. Pengiktirafan dibina sebagai satu proses mengemukakan dan menguji hipotesis secara sengaja. Pendekatan tradisional untuk mentafsir apa yang diperhatikan dalam imej akan digantikan dengan pendekatan sengaja mencari apa yang diharapkan dalam imej.

Kebolehsuaian. Keupayaan sistem untuk belajar sendiri, iaitu pertama sistem FineReader mengemukakan hipotesis tentang objek pengecaman (simbol, sebahagian daripada simbol atau beberapa simbol terpaku), dan kemudian mengesahkan atau menafikannya, cuba mengesan semua struktur secara konsisten. elemen dalam hubungan yang betul. Unsur-unsur struktur yang digunakan adalah yang penting untuk persepsi objek dari sudut pandangan manusia - segmen, lengkok, cincin dan titik.

Mengikuti prinsip kebolehsuaian, program secara bebas "menyesuaikan" kepada fon baharu (atau kepada tulisan tangan baharu), menggunakan pengalaman positif yang diperoleh daripada aksara pertama yang dikenali dengan yakin.

Carian disasarkan dan kesedaran konteks membantu mengenal pasti imej yang koyak dan herot, menjadikan sistem tahan terhadap kecacatan pencetakan.

Prinsip-prinsip ini digunakan dalam mengenali aksara individu dan dalam menganalisis susun atur halaman (memilih bahagian teks, gambar, jadual). Terima kasih kepada penggunaan teknologi IPA, FineReader menunjukkan kualiti pengiktirafan yang tinggi dengan kepekaan yang rendah terhadap kecacatan cetakan, dan analisis reka letak halaman yang sempurna dicatatkan dalam kebanyakan ujian perbandingan. ABBYY menerima paten untuk penggunaan teknologi IPA. Sistem FineReader mempunyai dua pilihan pelaksanaan: FineReader Office dan FineReader daripada Pro, yang sentiasa dibangunkan.

Sistem FineReader mempunyai format fail input berikut: BMP: hitam dan putih, kelabu, warna; PCX, DCX: hitam dan putih, kelabu, warna; JPEG: kelabu, warna; PNG: hitam dan putih, kelabu, warna; TIFF: hitam dan putih, kelabu, warna, berbilang halaman.

Apabila menerima dokumen, beberapa kaedah pemampatan teks digunakan: tidak dimampatkan, CCITT Group 3, CCITT Group 3 FAX (2D), CCITT Group 4, PackBits, JPEG.

Sistem FineReader menyimpan hasil pengiktirafan dalam format berikut: Microsoft Word 95, Microsoft Excel 95, Microsoft Word 97, Microsoft Excel 97, Microsoft Word 2000, Microsoft Excel 2000, Teks, Format Teks Kaya, Teks Unikod, DBF, HTML, CSV, Unicode HTML, PDF.

Keperluan sistem: Sistem pengendalian Microsoft Windows 2000, Windows NT Workstation 4.0 dengan Service Pack 3 (SP3) atau lebih tinggi, atau Windows 95/98.

Sistem ini menyokong 19 jenis pengimbas, termasuk Acer, Samsung, Mitsubishi, Scanpaq, Canon, Syscan, E-Lux, Nikon, Silitek, Epson, Storm, Fujitsu, Packard Bell, HP, IBM, Xerox, Kodak, dsb. dan banyak lagi daripada 100 model pengimbas 100% serasi TWAIN daripada syarikat lain.

Topik 6. Automasi storan elektronik

dokumen

6.1 Konsep sistem pencarian maklumat (IRS). Komposisi dan teknologi komponen untuk bekerja dengan IPS

Dalam kerja perusahaan moden, peranan penting dimainkan oleh sumber maklumatnya, yang boleh difahami sebagai dokumentasi projek, surat-menyurat dengan rakan kongsi, pesanan dan arahan dalaman, data kewangan dan dokumen lain yang berfungsi sebagai asas untuk membuat keputusan baru dan digunakan dalam proses pengurusan perusahaan. Dan jika sistem maklumat khusus (seperti sistem perakaunan atau perdagangan atau sistem jabatan perancangan) berdasarkan penggunaan DBMS boleh digunakan untuk menyimpan data berstruktur, maka untuk data tidak berstruktur sistem tujuan am diperlukan - arkib elektronik yang beroperasi pada prinsip sistem pencarian maklumat.

Sistem mendapatkan maklumat (IRS) ialah sistem yang direka untuk menyimpan dan mendapatkan semula dokumen dengan maklumat teks, grafik dan jadual mengenai atribut, kata kunci dokumen dan kandungan dalam mana-mana kawasan subjek.

Terdapat dua jenis sistem maklumat: sistem fakta dan dokumengrafik. Sistem perolehan maklumat jenis fakta direka untuk menyimpan dan mendapatkan semula fakta, penunjuk, ciri mana-mana objek atau proses (contohnya, maklumat tentang pekerja, perusahaan, pemegang saham, dll.). Sistem perolehan maklumat dokumentografi berbeza kerana objek penyimpanan dan carian dalam sistem ini ialah dokumen, laporan, abstrak, ulasan, jurnal, buku, dsb. Skrip untuk mencari dokumen menggunakan sistem mendapatkan maklumat biasanya datang ke memasukkan pertanyaan carian terdiri daripada satu atau beberapa perkataan , selepas itu senarai nama dokumen yang ditemui dibentangkan. Pengguna boleh membuka mana-mana dokumen yang ditemui dan, jika sistem carian membenarkannya, kemunculan perkataan yang dicari dalam dokumen itu diserlahkan - "diserlahkan".

Ciri-ciri berikut bagi organisasi dan fungsi sistem maklumat dokumenografi boleh dibezakan, membezakannya daripada sistem pengurusan pangkalan data data berstruktur:

Dokumen boleh disimpan di atas kertas, media mikrografik, atau wujud dalam format elektronik. Format mikrografik termasuk mikrofilem, mikrofik, slaid dan mikroform lain yang dihasilkan oleh pelbagai kamera dokumen. Format elektronik lebih banyak lagi, ia termasuk dokumen yang disediakan dalam pemproses perkataan, sistem e-mel dan program komputer lain, imej digital dokumen yang diimbas, dan sebagainya. Ini memerlukan penyimpanan mandatori kedua-dua salinan elektronik dokumen dan dokumen asalnya.

Jika dokumen menduduki jumlah yang besar dan salinan elektronik penuh tidak dapat dilihat atau disimpan, maka untuk dokumen tersebut mereka cipta dan simpan alamat e-mel simpanan mereka.

Pencarian dilakukan dengan mencari dokumen mengikut dua prinsip: dengan sifat dokumen - tarikh penciptaan, saiz, pengarang, dll dan dengan kandungannya (teks). Biasanya, carian untuk kandungan dokumen dilakukan dalam dua cara: dengan kata kunci dan oleh keseluruhan teks, yang dipanggil teks penuh, dengan itu menekankan bahawa keseluruhan teks dokumen digunakan untuk mencari, dan bukan hanya butirannya. . –

Untuk mencari dokumen, imej carian dibuat dan disimpan. Imej dokumen carian (SID) ialah satu set kod kata kunci utama (deskriptor) yang menerangkan maksud dan kandungan dokumen.

Kata kunci dan kodnya disimpan dalam kamus khas - tesaurus.

Untuk mencari dokumen, anda perlu mencipta bahasa perolehan maklumat (IRL), yang termasuk tesaurus dan tatabahasa bahasa, iaitu, satu set peraturan untuk menentukan set pernyataan menggunakan set kata kunci.

Untuk mencari dokumen, anda perlu mencipta imej pertanyaan carian (SQI), iaitu satu set kata kunci yang dikodkan yang menerangkan dokumen yang perlu ditemui, menggunakan bahasa IP. Gambar rajah interaksi komponen IPS ditunjukkan dalam Rajah. 6.1.

pelayan fail", oleh itu, untuk menyelesaikan tugas dan masalah yang diberikan, pilihan yang paling menjanjikan ialah memilih pilihan seni bina untuk sistem pengurusan dokumen bersepadu - "pelayan pelanggan", yang meningkatkan kecekapan pengguna dengan ketara, kerana sistem kelas ini menyediakan bukan sahaja pencarian pantas dokumen yang diperlukan pengguna, tetapi juga membantu mereka mengatur dan berkongsi maklumat. Dan, yang paling penting, DMS mencipta struktur mesra pengguna untuk menyampaikan semua maklumat yang disimpan pada rangkaian. Pencipta dokumen akan terhindar daripada keperluan untuk memikirkan setiap masa di mana untuk menyimpannya, cara melindunginya, dan hak apa yang perlu diberikan kepada rakan sekerja.

Sistem pengurusan dokumen harus menyelesaikan masalah mengurus jumlah dokumen yang besar berdasarkan prinsip berikut:

1. Pengurusan harus dilaksanakan ke atas dokumen elektronik yang dicipta dalam program aplikasi yang berbeza untuk komputer peribadi, seperti: pemproses perkataan, hamparan, e-mel.

Universiti Negeri St

Fakulti Filologi

Jabatan Linguistik Matematik

V.P. Zakharov

Pencarian maklumat
sistem

Manual pendidikan dan metodologi

Saint Petersburg

Pengulas:

doc. teknologi sains V.Sh. Rubashkin(Universiti Negeri St. Petersburg)

Ph.D. ped. sains O.A. Arbatskaya(Universiti Kebudayaan dan Seni Negeri St. Petersburg)

Dicetak melalui dekri
Majlis Editorial dan Penerbitan
Universiti Negeri St

Zakharov V.P.

Z-38 Sistem pencarian maklumat: Kaedah pendidikan. elaun. - St. Petersburg, 2005. - 48 p.

Manual yang dicadangkan mengandungi penerangan tentang asas pengambilan maklumat dokumentari, program disiplin akademik "Teori Pencarian Maklumat", yang dipelajari oleh pelajar tahun 3 Jabatan Linguistik Struktur dan Gunaan Universiti Negeri St. Petersburg, dan satu set makmal (praktikal) berfungsi dalam disiplin ini. Kerja makmal yang berasingan digunakan untuk mengajar pelajar kursus lain dan dalam disiplin lain. Manual ini berdasarkan aktiviti penyelidikan dan pengajaran penulis.

Bagi pelajar sarjana dan siswazah yang mengkhusus dalam bidang linguistik gunaan, sistem maklumat dan sistem pemprosesan teks automatik.

ã V.P. Zakharov, 2005

ã St. Petersburg
negeri
universiti, 2005

1. Pengenalan kepada teori dan amali
pencarian maklumat

1.1. Konsep asas pencarian maklumat

Sistem pencarian maklumat (IPS) ialah koleksi tertib dokumen (tatasusunan dokumen) dan teknologi maklumat yang direka untuk menyimpan dan mendapatkan maklumat - teks (dokumen) atau data (fakta). Sistem perolehan maklumat ialah sebarang repositori maklumat yang disusun dengan cara tertentu. Selain itu, sistem mendapatkan maklumat juga boleh menjadi tidak automatik. Perkara utama ialah fungsi sasaran: menyimpan dan mendapatkan maklumat.

Bergantung pada objek penyimpanan dan jenis permintaan, dua jenis pengambilan maklumat dibezakan: dokumentari dan fakta - dan, dengan itu, dua jenis sistem perolehan maklumat - dokumentari dan fakta. Yang terakhir ini juga dipanggil sistem pencarian maklumat dan rujukan.

Dokumentari dipanggil sistem perolehan maklumat, yang melaksanakan carian untuk pertanyaan tematik dalam susunan dokumen atau teks dan kemudian memberikan pengguna subset dokumen ini atau salinannya. Konsep dokumen mungkin berbeza dari satu sistem ke satu sistem. Dalam kes umum, ini adalah objek maklumat tertentu, direkodkan (biasanya melalui beberapa sistem tanda) pada beberapa medium bahan (kertas, foto dan filem, ingatan magnet, dll.) dan bertujuan untuk penghantaran dalam ruang dan masa dalam sistem sosial komunikasi.

Fakta Sistem perolehan maklumat melaksanakan penyimpanan, carian dan pengeluaran data fakta secara langsung (ciri saintifik, teknikal, ekonomi dan sifat objek, proses, fenomena, alamat, nama, data kuantitatif, dll.).

Perbezaan utama dan penting antara carian dokumentari dan fakta ialah pendekatan kepada semantik dokumen. Sistem dokumentari menerangkan maksud dokumen secara keseluruhan dari sudut pandangan kandungan subjek tematiknya. Dalam kes ini, adalah penting untuk mengenal pasti dan menamakan (senarai) topik dan objek utama yang dokumen itu dikhaskan. Dalam sistem fakta, objek diterangkan, ciri-ciri mereka dan makna ciri-ciri ini direkodkan. Oleh itu perbezaan dalam bahasa penerangan dan kaedah menyimpan penerangan dalam sistem. Sehubungan itu, setiap jenis carian mempunyai alat carian sendiri.

Sistem fakta melibatkan pengumpulan dan carian dalam pelbagai dokumen dengan struktur yang dikawal ketat. Struktur sedemikian adalah sama ada hasil pemprosesan intelek awal dokumen apabila memasukkan maklumat ke dalam sistem, atau ketersediaan dokumen sedemikian dalam bentuk siap dalam bidang aktiviti manusia tertentu, contohnya, borang perakaunan, borang, buku rujukan, jadual, dsb. Terdapat sistem maklumat fakta yang menyediakan pengumpulan maklumat dan mencari hanya satu jenis objek dan hanya satu jenis pertanyaan. Terdapat juga sistem factographic yang lebih maju yang menyediakan penyimpanan dan pengambilan data yang pelbagai dalam kandungan dan struktur, tetapi kepelbagaian ini sentiasa terhad.

Pada masa yang sama, tiada perbezaan yang tidak dapat diatasi antara sistem dokumentari dan fakta. Selalunya sistem maklumat sebenar adalah contoh sistem campuran di mana maklumat fakta digunakan sebagai penawar tambahan carian dokumentari, dan sebaliknya. Dalam sistem dokumentari, teks (dokumen) juga boleh distrukturkan, dibahagikan kepada serpihan atau medan, dan pemprosesan dan penyampaian maklumat dokumentari boleh dijalankan pada peringkat bidang individu.

Terdapat juga jenis sistem ketiga, yang dipanggil maklumat-logik. Ini adalah sistem yang bertindak balas terhadap permintaan itu pangkalan maklumat tiada jawapan yang jelas. Pangkalan pengetahuan ekstralinguistik dan maklumat yang dijana secara algoritma daripada perkara yang sedia ada (dokumentari atau fakta) membantu mendapatkan jawapan. Maklumat baharu ini sama ada disediakan sebagai respons kepada pertanyaan, atau digunakan tambahan untuk carian.

Sistem mendapatkan maklumat jenis dokumen ialah koleksi dokumen yang tersusun, serta satu set alat dan kaedah yang direka untuk menyimpan, mencari dan mengeluarkan maklumat dokumentari atas permintaan. IPS dokumentari mengeluarkan dokumen yang sepadan dengan permintaan pada topik atau subjek. Dokumen yang subjek atau topik utamanya secara amnya sepadan dengan kandungan semantik permintaan maklumat dipanggil relevan , A sifat kedekatan semantik antara dua atau lebih teks (dalam dalam kes ini- antara dokumen dan permintaan maklumat) - perkaitan . Relevan adalah konsep asas dalam teori pencarian maklumat. Mereka bercakap tentang dua jenis perkaitan: semantik dan formal. Korespondensi dokumen dengan kandungan permintaan maklumat dipanggil perkaitan semantik, dan korespondensi imej carian dokumen ini dengan preskripsi carian rasmi yang menyatakan permintaan maklumat yang diberikan dipanggil perkaitan formal. Perkaitan formal juga dipanggil perkaitan dokumen, dan perkaitan semantik ialah perkaitan maklumat (bermaksud "maklumat yang terkandung dalam dokumen").

Komponen sistem maklumat dipanggil subsistem. Pembahagian kepada subsistem adalah perlu dan berguna untuk tujuan pembangunan dan untuk menerangkan teknologi operasi sistem. Ia mungkin mempunyai asas yang berbeza. Biasanya, dua jenis pembahagian sistem maklumat kepada subsistem dipertimbangkan: mengikut prinsip fungsi (subsistem berfungsi) dan mengikut jenis cara (subsistem sokongan).

Pelbagai alat yang melaksanakan fungsi IPS dipanggil subsistem sokongan , atau "peruntukan". Subsistem berikut dibezakan: sokongan linguistik, sokongan maklumat, sokongan teknikal, perisian, sokongan teknologi, sokongan kakitangan, dsb.

Sokongan Maklumat - ini ialah tatasusunan maklumat (dokumen, pertanyaan, metadata), serta alat dan kaedah untuk penerangan, pembinaan dan pengelasannya.

Sokongan linguistik - Ini adalah radas logik-semantik yang terdiri daripada bahasa pencarian maklumat, peraturan aplikasi (teknik pengindeksan), kriteria pengeluaran dan cara linguistik lain.

Perisian - Ini adalah algoritma dan perisian yang melaksanakan semua fungsi sistem maklumat yang dilakukan menggunakan komputer.

Sokongan teknikal - ini adalah cara teknikal (komputer, telekomunikasi) yang menyediakan penyimpanan, pengambilan dan penghantaran maklumat.

Sokongan teknologi - ini ialah satu set dan prosedur untuk melaksanakan proses dan prosedur automatik dan tidak automatik untuk memproses maklumat dalam sistem maklumat, termasuk penerangannya, gambar rajah teknologi maklumat dan bahan pengajaran.

Sokongan kakitangan (atau kakitangan). - ini adalah orang yang berinteraksi dengan sistem dan memastikan operasinya (kakitangan penyelenggaraan).

IPS juga dibahagikan kepada bahagian komponen (subsistem) mengikut fungsi, apabila setiap subsistem melaksanakan fungsi tertentu dalam proses teknologi: kemasukan dokumen, pengindeksan dokumen, kemasukan dan pembetulan pertanyaan, pengindeksan pertanyaan, carian, mengekalkan kamus, mengekalkan statistik, memproses carian keputusan, mengeluarkan dokumen, dsb. Bahagian sedemikian dipanggil subsistem berfungsi .

Konsep penting dalam pencarian maklumat ialah dokumen dan pertanyaan. Dokumen ditakrifkan sebagai satu cara untuk menetapkan dalam apa-apa cara pada bahan khas apa-apa maklumat tentang fakta, peristiwa, fenomena realiti objektif dan aktiviti mental manusia. Dokumen mempunyai bentuk persembahan yang berbeza. Dalam sistem perolehan maklumat dokumentari automatik, ini terutamanya maklumat teks dalam bahasa semula jadi dalam bentuk yang boleh dibaca oleh mesin.

Permintaan ialah keperluan maklumat yang dirumuskan dalam bahasa semula jadi. Hasil daripada "terjemahan" permintaan informasi dalam bahasa pencarian maklumat dipanggil imej pertanyaan carian (POZ) atau preskripsi carian (PP). Ini difahami sebagai ungkapan dalam bahasa pertanyaan , yang merangkumi kedua-dua FP itu sendiri dan kawalan carian. Sintaks dan semantik bahasa pertanyaan ditentukan oleh struktur dan kandungan dokumen dan tugas umum sistem.

Bahagian ketiga pembekalan maklumat ialah apa yang dipanggil "isu", hasil carian. Isu wujud dalam dua jenis: penerangan ringkas dokumen dan dokumen itu sendiri.

Komponen terpenting dalam sistem pencarian maklumat ialah bahasa pencarian maklumat. Untuk memilih dokumen yang diperlukan daripada pelbagai dokumen, seseorang mesti membaca atau melihat kandungannya. Untuk mempercepat dan memudahkan prosedur ini, pelbagai bentuk rakaman ringkasan kandungan dokumen telah muncul - anotasi, abstrak, katalog. Tetapi dalam semua kes ini, bahasa semula jadi digunakan untuk memilih dokumen berdasarkan huraian ringkasnya. "Keburukan" tanda linguistik seperti homonimi, sinonimi, dan polisemi adalah terkenal. Maksud sebenar banyak perkataan hanya boleh difahami dalam konteks. Ini menghalang penggunaan bahasa semula jadi untuk menangkap dan mengenal pasti maklumat konsep. Oleh itu, sistem formal yang direka untuk menyimpan maklumat dokumentari untuk tujuan perolehan seterusnya memerlukan penciptaan bahasa maklumat khas. Bahasa pencarian maklumat adalah sistem tanda dengan abjad, perbendaharaan kata, tatabahasa dan peraturan penggunaannya sendiri. Mari kita ambil perhatian bahawa semua bahasa buatan, dalam satu cara atau yang lain, dicipta dan dicipta berdasarkan bahasa semula jadi.

Apabila membandingkan dokumen dan permintaan, adalah perlu untuk menentukan kaitan dokumen berkenaan dengan permintaan dan membuat keputusan mengenai mengeluarkan atau tidak mengeluarkan dokumen untuk permintaan ini. Peraturan yang secara formal tahap perkaitan dokumen dan permintaan ditentukan, i.e. pematuhan dengan POD dan POS dipanggil kriteria korespondensi semantik (KSS), atau kriteria pengeluaran .

Model dan formula matematik untuk mengira pekali perkaitan boleh menjadi sangat berbeza. Dalam amalan, IPA dengan kriteria logik untuk mengeluarkan , apabila PP dibina menggunakan operator logik (Boolean) bagi konjungsi (&), pemecahan (\/), penolakan (~). Dalam kes ini, ungkapan pertanyaan logik ialah satu set elemen carian (biasanya kata kunci) digabungkan dengan pengendali logik dan kurungan yang diperlukan untuk menunjukkan susunan pengendali dilaksanakan. Kata kunci PP memainkan peranan pembolehubah Boolean yang mengambil nilai 1 (“benar”) jika perkataan yang diberikan terkandung dalam dokumen dan 0 (“salah”) apabila ia tiada. Dokumen dianggap relevan dengan pertanyaan jika formula logik pertanyaan secara keseluruhan menerima nilai "benar" untuk dokumen ini, dan tidak relevan jika hasil pengiraan formula logik adalah "palsu".

Simbol (&, \/, ~) yang digunakan dalam logik untuk menandakan konjungsi, disjungsi dan penolakan biasanya digantikan dalam carian maklumat oleh operator AND, OR dan NOT, masing-masing. Di Rusia, sebutan DAN, ATAU, BUKAN lebih kerap digunakan. Walau bagaimanapun, dalam kes umum, dalam setiap IRS tertentu, notasi untuk operator Boolean dipilih, dan kadangkala, untuk kemudahan pengguna, beberapa simbol diperkenalkan untuk operator yang sama (contohnya, dalam IRS Aport, operator gabungan boleh ditentukan dengan tanda-tanda berikut: &, ruang, DAN , Dan, +).

Penggunaan operator Boolean menyediakan logik mesra pengguna untuk membandingkan dokumen dan pertanyaan. Carian (pengiraan kebenaran untuk elemen PP), sebagai peraturan, dijalankan menggunakan fail indeks khas (terbalik) yang dibina berdasarkan perbendaharaan kata tatasusunan dokumentari, dan dicirikan oleh kelajuan tinggi. Kesederhanaan dan kejelasan CSS logik ini adalah sebab penggunaannya yang meluas.

Masalah menilai kecekapan carian adalah masalah yang kompleks, termasuk kedua-dua sisi teori dan praktikal. Penunjuk fungsian (teknikal) utama IRS berdasarkan perkaitan adalah kesempurnaan dan ketepatan, yang berdasarkan pembahagian dokumen kepada relevan dan tidak relevan, serta dikeluarkan dan tidak dikeluarkan.

Kesempurnaan carian (P) (Bahasa Inggeris Recall - R) ialah ukuran yang dikira sebagai nisbah kuantiti dikeluarkan berkaitan dokumen untuk jumlah bilangan yang berkaitan dokumen yang terkandung dalam tatasusunan maklumat.

Ketepatan carian (T) (Ketepatan Bahasa Inggeris - P) ialah nisbah kuantiti dikeluarkan berkaitan dokumen untuk jumlah dokumen yang dikeluarkan.

1.2. Carian maklumat di Internet

Peralihan kepada masyarakat maklumat abad ke-21 telah menimbulkan peningkatan yang tidak pernah berlaku sebelum ini dalam jumlah dan kepekatan maklumat dalam rangkaian komputer global. Ini telah memburukkan lagi masalah mewujudkan sistem pencarian maklumat (IRS) dan penggunaannya yang berkesan.

Sejarah sistem pencarian maklumat automatik bermula sejak setengah abad. Sistem perolehan maklumat biasa pada tahun-tahun awal ialah sistem mesin manusia, di mana analisis dan penerangan kandungan dokumen (pengindeksan) dilakukan secara manual, dan carian dijalankan oleh mesin. Pada mulanya, asas bahasa pencarian maklumat (IRL), unsur utamanya ialah kamus deskriptor dan tesaurus. Walau bagaimanapun, hari ini, kebanyakan sistem maklumat yang berfungsi tergolong dalam kelas sistem lisan jenis bukan tesaurus, apabila istilah pengindeksan dipilih terus daripada teks dokumen. Pertumbuhan seperti runtuhan salji dalam jumlah maklumat dokumentari elektronik, jenisnya, kepelbagaian tematik dan linguistik adalah punca krisis perolehan maklumat moden dan insentif untuk penambahbaikannya.

Masalah mencari sumber di Internet telah direalisasikan tidak lama lagi, dan sebagai tindak balas, pelbagai sistem dan alat perisian untuk mencari, antaranya ialah sistem Gopher, Archie, Veronica, WAIS, WHOIS, dsb. Kebelakangan ini Alat ini telah digantikan dengan "pelanggan" dan "pelayan" web seluruh dunia www.

Jika kita cuba mengklasifikasikan IPS Internet, kita boleh membezakan jenis utama berikut:

1. IRS jenis lisan (enjin carian)

2. Klasifikasi IRS (direktori)

3. Direktori elektronik halaman (“kuning”, dsb.)

4. Sistem maklumat khusus untuk jenis sumber tertentu

5. Agen pintar.

Perakaunan global semua sumber Internet disediakan oleh sistem pengelasan lisan dan sebahagiannya.

Klasifikasi IPS melaksanakan navigasi dalam ruang web berdasarkan petunjuk khas, yang merupakan "pokok" tematik yang dibina berdasarkan klasifikasi. Skim pengelasan sumber di Internet lazimnya ialah struktur pokok yang nodnya dinamakan dengan perkataan bahasa semula jadi. Pelbagai skim klasifikasi berbeza antara satu sama lain dalam skop dan metodologi penyusunannya. Salah satu kelemahan klasifikasi hierarki sejagat ialah ia bersifat konservatif dan ketinggalan daripada perkembangan sains, teknologi dan kehidupan secara amnya. Masalah utama perkhidmatan carian klasifikasi ialah automasi klasifikasi. Sehingga kini, masalah klasifikasi automatik tidak menemui penyelesaian yang memuaskan. Pendaftaran laman web dan halaman web dalam direktori biasanya dilakukan oleh orang - pengindeks dan moderator sistem ini. Oleh itu, jumlah pangkalan data sistem jenis klasifikasi adalah agak kecil berbanding dengan kapasiti maklumat keseluruhan Internet.

Untuk menyelesaikan masalah liputan maksimum sumber Internet, sistem dipanggil metasearch(enjin metasearch). Mereka tidak mempunyai pangkalan data carian mereka sendiri, tidak mengandungi sebarang indeks, dan apabila mencari, gunakan sumber enjin carian lain. Disebabkan ini, kemungkinan mencari maklumat yang diperlukan meningkat. Untuk menghantar permintaan kepada enjin carian, ejen metasearch khas digunakan, yang bertanggungjawab untuk proses menyampaikan permintaan kepada sistem lain. Selepas memproses permintaan yang diterima, setiap sistem mengembalikan kepada ejen metasearch satu set perihalan dan pautan ke dokumen yang dianggapnya berkaitan dengan permintaan ini. Walaupun semua daya tarikan enjin metasearch, anda juga harus ingat tentang keburukan dan keburukannya. Pertama sekali, kekurangan standard bahasa pertanyaan bersatu tidak membenarkan metasistem mencapai daripada enjin carian yang melaksanakan pertanyaan enjin metasearch hasil yang sama yang boleh dicapai oleh pengguna berpengalaman apabila bekerja dengan setiap mesin secara berasingan.

Sistem pencarian maklumat global harus dianggap sebagai cara utama mencari maklumat di Internet hari ini. jenis lisan(enjin carian) mengindeks (sekurang-kurangnya berpura-pura menjadi) seluruh ruang Internet. Enjin carian utama jenis ini (terutamanya dari segi saiz pangkalan data) termasuk Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Di antara sistem Rusia, terdapat tiga yang utama: Yandex, Rambler dan Aport! (Aport). Kesempurnaan pangkalan data carian dan kecekapan mengindeks laman web adalah masalah utama semua sistem pencarian maklumat di Internet. Sebagai peraturan, sistem dengan volum pangkalan data yang lebih besar menghasilkan lebih banyak dokumen hasil carian. Masalah besar, kedua-dua linguistik dan program, ialah multibahasa. ruang maklumat Internet dan pelbagai format persembahan data. Walau bagaimanapun, sistem global utama menghadapi masalah ini.

IPS lisanlah yang diberi perhatian utama dalam bahagian praktikal manual. Pertama sekali, tahap pengguna dimodelkan, dinyatakan dalam bahasa pertanyaan dan antara muka permintaan-tindak balas. Analisis perbandingan bahasa pertanyaan pelbagai sistem pencarian maklumat di Internet dijalankan.

Satu ciri sistem moden ialah carian teks penuh. Banyak sistem perolehan maklumat lisan di Internet mengira kaitan dokumen dengan pertanyaan dengan membandingkan elemen pertanyaan dengan teks penuh dokumen yang disiarkan di Internet. Bagi bahasa pencarian maklumat, sebagai peraturan, kata-kata biasa bahasa semula jadi bertindak sebagai elemen carian. Permintaan dirumus melalui antara muka khas, dilaksanakan dalam bentuk bentuk skrin dalam program penyemak imbas.

Adalah berguna untuk memahami cara sistem ini berfungsi. Terdapat tiga bahagian utama untuk mana-mana enjin carian.

robot - subsistem yang menyediakan penyemakan imbas (pengimbasan) Internet dan mengekalkan fail terbalik (pangkalan data indeks) sehingga kini. Pakej perisian ini adalah cara utama untuk mengumpul maklumat tentang ketersediaan dan status sumber maklumat rangkaian.

Cari pangkalan data - kononnya indeks - pangkalan data yang dianjurkan khas (pangkalan data indeks bahasa Inggeris), termasuk, pertama sekali, fail terbalik, yang terdiri daripada unit leksikal yang diambil daripada dokumen web yang diindeks dan mengandungi pelbagai maklumat tentang mereka (khususnya, kedudukan mereka dalam dokumen), serta tentang dokumen itu sendiri dan tapak secara amnya.

Sistem carian - subsistem carian yang memproses permintaan pengguna (urutan carian), mencari pangkalan data dan memberikan hasil carian kepada pengguna. Enjin carian berkomunikasi dengan pengguna melalui antara muka pengguna - bentuk skrin program penyemak imbas: antara muka untuk menjana pertanyaan dan antara muka untuk melihat hasil carian.

Fail indeks (atau ringkasnya indeks) ialah satu set fail yang saling berkaitan yang bertujuan untuk mencari data dengan pantas atas permintaan. Indeks sentiasa berdasarkan fail terbalik. Litar terbalik (terbalik). Organisasi tatasusunan carian adalah berdasarkan prinsip menyediakan akses kepada dokumen melalui pengecam kandungannya (ciri carian: deskriptor, kata kunci, istilah, ciri lain). Skim ini diperoleh dengan memproses tatasusunan dokumen yang berurutan untuk mencipta fail terbalik tambahan khas - titik akses.

Setiap rekod tatasusunan tambahan tersebut dikenal pasti oleh pengecam kandungan yang sepadan (deskriptor, kata kunci, hanya istilah, nama pengarang, nama organisasi, dll.) dan mengandungi nama (alamat storan) semua dokumen dalam imej carian yang mana ia terkandung. Untuk setiap pengecam kandungan (elemen data carian) dalam tatasusunan terbalik, bersama-sama dengan alamat (nombor, nama) dokumen, maklumat tambahan boleh disimpan (dan biasanya disimpan), seperti: nama medan, nombor ayat, di mana elemen ini ditemui dalam dokumen ini , nombor perkataan dalam ayat, dsb. Membetulkan kedudukan perkataan dalam teks dengan tepat kepada nombor ayat dan nombor perkataan ini dalam ayat membolehkan anda membina bahasa pertanyaan fleksibel yang membolehkan anda menetapkan jarak antara perkataan dan ayat dalam dokumen. Ciri-ciri kedudukan juga digunakan semasa mengira pekali perkaitan dan dokumen kedudukan dalam hasil carian.

Mencari dokumen yang diperlukan melalui fail terbalik dilakukan bukan dengan pengimbasan berterusan keseluruhan tatasusunan, tetapi dengan melihat hanya pengecam kandungan tersebut dalam fail terbalik yang dinyatakan dalam arahan carian, i.e. bilangan operasi perbandingan perkataan semasa carian adalah berkadar dengan bilangan istilah dalam preskripsi carian. Cara sistem pengendalian ini mengurangkan masa carian dan membolehkan anda menyampaikan maklumat kepada pengguna dalam masa nyata.

Carian indeks ialah operasi pada senarai pengecam elemen carian mengikut model carian dan kriteria padanan. Senarai dokumen yang berkaitan (dalam terminologi moden "tindak balas") yang terhasil, yang ditukar menjadi senarai kedudukan perihalan pendek dokumen, dilengkapi dengan pautan hiperteks dan ciri-ciri lain, dikembalikan kepada pengguna dalam program penyemak imbas kliennya. Mengklik pada tajuk dokumen dalam huraian ringkasnya (melalui hiperpautan) meminta dokumen itu sama ada terus dari pelayan di mana ia berada atau melalui pangkalan data enjin carian.

Komponen penting sistem maklumat moden ialah halaman web antara muka yang dipanggil, i.e. borang skrin di mana pengguna berkomunikasi dengan enjin carian. Terdapat dua jenis utama halaman hadapan: halaman pertanyaan dan halaman hasil carian.

    mengindeks teks penuh sebanyak mungkin tapak;

    kerja "cekap" dengan bentuk perkataan - keupayaan IPS untuk mengenal pasti bentuk perkataan yang berbeza dari leksem yang sama, dengan cara yang berbeza, untuk menghasilkan bentuk kanonik - lemma, dan keupayaan untuk mengenal pasti bentuk tertentu di antara banyak bentuk perkataan;

    cari perkataan dengan pemangkasan yang diberikan atau sewenang-wenangnya, kanan dan kiri;

    bekerja dengan frasa - mengambil kira jarak antara perkataan dalam frasa dan susunan perkataan itu muncul;

    algoritma yang berkesan untuk mengira pekali perkaitan semantik dan hasil carian kedudukan.

Maklumat dan dalam bentuk apa yang boleh diekstrak daripada antara muka keluaran IPS juga penting. Antara muka carian (borang untuk membentangkan hasil) untuk sistem yang berbeza termasuk parameter berikut: statistik perkataan daripada pertanyaan, bilangan dokumen yang ditemui, bilangan tapak, kawalan untuk mengisih dokumen dalam hasil carian, penerangan ringkas tentang dokumen , dsb. Perihalan setiap dokumen, seterusnya, mungkin mengandungi komposisinya: tajuk dokumen, URL (alamat rangkaian), volum dokumen, tarikh penciptaan, nama pengekodan, anotasi, penyerlahan fon perkataan daripada permintaan dalam anotasi, petunjuk halaman web lain yang berkaitan pada tapak yang sama, pautan ke kategori katalog yang merujuk kepada dokumen atau tapak yang ditemui, pekali perkaitan, keupayaan carian lain (cari dokumen yang serupa, cari dalam yang ditemui). Turut menarik minat adalah ciri frekuensi- maklumat tentang bilangan dokumen yang ditemui dan unit bahasa yang dikenal pasti. Sesetengah sistem menyimpan log permintaan dengan keupayaan carian berulang kali dan mengeluarkan statistik atas permintaan. Ciri yang berguna dan menarik juga ialah penyerahan dokumen kepada kelas tematik.

Kami akan menunjukkan ciri-ciri sistem yang berbeza, yang paling popular dan yang mempunyai sokongan linguistik yang paling maju (lihat Jadual, ms 14). Pertama sekali, ini adalah sistem perolehan maklumat Rusia Yandex, Rambler dan Aport. Mungkin alat linguistik yang paling berkuasa ialah IRS Artifact (syarikat Integrum-TECHNO, Moscow), tetapi sistem ini adalah komersil dan komposisi pangkalan datanya nyata berbeza daripada yang lain. Antara sistem Barat, yang kebanyakannya tidak membangunkan kaedah linguistik untuk menganalisis bahan teks, mari kita ambil IRS Google dan AltaVista yang terkenal. Mari kita terangkan secara ringkas ciri-ciri sistem ini (kehadiran atau ketiadaan keupayaan yang sepadan ditandakan dengan tanda "+" dan "-").

"Carian Lexeme" bermaksud bahawa hasil membandingkan perkataan dalam dokumen dan pertanyaan dianggap positif jika sebarang bentuk perkataan daripada pertanyaan terdapat dalam dokumen, yang dipastikan oleh mekanisme lemmatisasi automatik.

“Cari mengikut bentuk perkataan” bermakna hasil perbandingan dokumen dan pertanyaan dianggap positif jika terdapat bentuk perkataan dalam dokumen yang betul-betul sepadan dengan perkataan daripada pertanyaan, yang berlaku tanpa ketiadaan lemmatisasi automatik atau disediakan oleh khas mekanisme untuk mengambil kira bentuk perkataan.

“Kekerapan dokumen” bermaksud carian menghasilkan mesej tentang bilangan dokumen yang berkaitan, iaitu dokumen yang mengandungi perkataan (bentuk perkataan) atau frasa tertentu.

"Kekerapan perkataan demi perkataan" bermaksud bahawa hasil carian juga memberikan maklumat tentang jumlah bilangan kemunculan sesuatu leksem atau bentuk perkataan tertentu dalam pangkalan data carian (indeks).

Ciri-ciri enjin carian

Cari mengikut leksem

+ (pertanyaan perkataan tunggal atau formula Boolean)

Cari mengikut bentuk perkataan

+ (dalam syntagms: pertanyaan satu perkataan dalam petikan atau frasa dalam petikan)

Perakaunan untuk syntagma (frasa tidak boleh dipisahkan)

Perakaunan untuk huruf besar dan kecil

+ (dalam syntagms)

Kekerapan perkataan

Dokumentari kekerapan

1.3. Bahasa pertanyaan Internet IRS

Setelah menghubungi mana-mana perkhidmatan, pengguna, tanpa meninggalkan penyemak imbas, bekerja dengan "pelanggan" perkhidmatan ini, yang memberikan kami satu atau satu lagi bahasa pertanyaan. Sebagai peraturan, ini adalah bahasa tanpa kawalan perbendaharaan kata. Sebenarnya, kami berurusan dengan bahasa pengaturcaraan biasa yang dilaksanakan dalam seni bina pelayan-pelanggan, tetapi kami hanya melihat bahagian "overhead" bahasa pengaturcaraan ini - bahasa pertanyaan. Bahasa pertanyaan kebanyakan sistem termasuk kedua-dua pengendali Boolean tradisional dan pengendali kontekstual khas yang mengambil kira penstrukturan dokumen, susunan perkataan dalam teks dan jarak antara perkataan.

Bahasa pertanyaan menerangkan pertanyaan itu sendiri dan kadangkala bentuk di mana keputusan dibentangkan. Komponen utama berikut boleh dibezakan dalam bahasa pertanyaan IRS rangkaian.

1) Elemen carian sebenar (objek carian).

Ini sama ada kata kunci atau pengecam kandungan lain.

2) Operator carian.

Hampir semua bahasa pertanyaan menggunakan operator logik Boolean DAN, ATAU, BUKAN. Bentuk di mana pengendali ini dinyatakan dalam permintaan adalah sangat berbeza, dan ia berbeza dalam kedua-dua perkhidmatan individu dan dalam jenis permintaan yang berbeza (mudah, kompleks).

3) Normalisasi elemen permintaan.

Unit leksikal yang sama dalam dokumen dan pertanyaan boleh dibentangkan dalam bentuk yang berbeza. Perkhidmatan carian mempunyai cara untuk menormalkan item leksikal tersebut. Normalisasi ini boleh ditentukan oleh pengguna (teknik yang dikenali sebagai pemangkasan atau kad bebas) atau dilakukan secara automatik (yang terakhir lebih disukai).

4) Tatabahasa linear: susunan elemen carian dan jarak antara mereka.

Pertama, ini adalah "frasa" (frasa tegar).

Kedua, terdapat pengendali kontekstual khas (kontekstual DAN), apabila syarat untuk kejadian bersama elemen pertanyaan dalam dokumen mesti dipenuhi dalam konteks dengan panjang tertentu.

5) Istilah carian tambahan.

Untuk mengurangkan volum keluaran dan meningkatkan ketepatan, pelbagai syarat-syarat tambahan carian, sesuatu seperti:

– cari dalam medan tertentu (bahagian) dokumen;

– had kawasan carian pelbagai kriteria(tarikh, jenis data, format, dll.).

6) Keperluan untuk bentuk pembentangan hasil carian.

– keperluan untuk menyusun (kedudukan) hasil carian;

– jenis keputusan yang dihasilkan;

– bilangan dokumen yang dikeluarkan.

Untuk menerima (melihat) dokumen itu sendiri (halaman web) dan melihatnya, anda perlu pergi ke alamat http. Sebagai peraturan, sistem menyediakan peluang untuk melihat konteks - serpihan dokumen dengan kata kunci pertanyaan yang diserlahkan.

Semasa proses carian, pengguna biasanya diberi peluang untuk kembali kepada pertanyaan lama dan sama ada hanya menjelaskan, menyempitkannya atau bertukar kepada mod carian lain yang menyediakan alat carian yang lebih kompleks. Kaedah carian lain juga agak meluas - cari halaman yang serupa. Dalam kes ini, strategi carian dipilih oleh sistem itu sendiri.

2. Program disiplin akademik
"Teori Pencarian Maklumat"

2.1. Bahagian organisasi dan metodologi

Program disiplin disusun mengikut standard pendidikan negeri pendidikan profesional tinggi dalam arah 021800 - Linguistik.

Tujuan kursus adalah untuk memberi pelajar asas teori perolehan maklumat, terutamanya dokumentari, dan kemahiran menggunakan pelbagai sistem perolehan maklumat dokumentari, termasuk di Internet.

Objektif kursus:

    membiasakan pelajar dengan konsep asas dan masalah pencarian maklumat automatik;

    untuk membiasakan pelajar dengan prinsip asas organisasi dan fungsi sistem pencarian maklumat (IRS);

    mengkaji pelbagai sistem maklumat, termasuk sistem maklumat Internet;

    untuk membangunkan kemahiran penyelidikan dalam analisis dan perbandingan pelbagai sistem.

Tempat kursus dalam latihan profesional graduan: Kursus ini bersifat propaedeutik. Ia direka untuk pelbagai pelajar kemanusiaan dan direka bentuk untuk memberi mereka pemahaman asas tentang cara menyimpan dan mendapatkan maklumat.

Keperluan tahap penguasaan kandungan kursus

Hasil daripada latihan, pelajar:

    mesti tahu:

    konsep asas berkaitan sistem maklumat;

    jenis utama sistem;

    konsep bahasa pencarian maklumat;

    konsep perkaitan dan kriteria korespondensi semantik;

    enjin carian Internet utama;

    bahasa pertanyaan dan antara muka sistem ini;

    sepatutnya boleh:

    carian di Internet;

    membandingkan dan menganalisis sistem yang berbeza.

Bahagian kursus:

      Asas Pencarian Maklumat

      IPS Dokumentari

      IRS fakta

      Carian maklumat di Internet

Bahagian 1. Asas pencarian maklumat

Subjek, matlamat dan objektif kursus. Sambungan kursus dengan disiplin lain.

Maklumat, proses maklumat, sistem maklumat, aliran maklumat, teknologi maklumat. Jenis sistem maklumat (AIPS, ASNTI, ACS, ASNI, AOS, CAD, ES, pangkalan pengetahuan, dll.).

Konsep asas pencarian maklumat: maklumat, sistem maklumat, keperluan maklumat, perkaitan.

Data dan dokumen. Jenis dokumen maklumat. Dokumen teks. Penerangan dokumen.

Permintaan. Jenis permintaan. Carian subjek. Masalah utama automasi proses pemprosesan maklumat semantik.

Sistem pencarian maklumat (IRS). Jenis-jenis IPS. Gambaran ringkas tentang jenis utama: dokumentari, fakta, intelektual.

Carian bibliografi. Pangkalan data bibliografi dan katalog elektronik. Sistem perpustakaan.

Sistem maklumat bukan teks (geografi, kartografi, dll.). Cari objek mengikut perihalannya (fail grafik, fail muzik, dsb.). Cari maklumat imej dan video.

Bahagian 2. IRS Dokumentari

Sejarah pembangunan sistem pencarian maklumat dokumentari automatik, peringkat pembangunan. Sistem bersepadu. ASNTI. Ciri-ciri pentas moden.

Komponen IPS. IPYA. . Cari model. IPS abstrak dan konkrit.

Struktur sistem maklumat dokumentari dan fakta. Subsistem berfungsi. Gambar rajah struktur IPS dokumentari.

Sistem dwi litar. IPS teks penuh. Sistem maklumat hiperteks.

Subsistem sokongan. Sokongan teknikal. Perisian. Jaringan komputer. Ciri-ciri membina sistem maklumat rangkaian.

Model matematik sistem pencarian maklumat dokumentari.

Organisasi tatasusunan carian dalam sistem mendapatkan maklumat.

Klasifikasi sistem perolehan maklumat dokumentari atas pelbagai alasan.

Bahagian 3. IRS Fakta

Maklumat fakta. Maklumat fakta yang tersusun dengan baik dan tidak tersusun dengan baik.

Jadual berciri objek.

Bahasa huraian semantik.

Keberkesanan IRS fakta.

Carian bibliografi sebagai sejenis penyelidikan fakta.

Bahagian 4. Sokongan linguistik untuk mendapatkan maklumat

Cara linguistik untuk mendapatkan maklumat. Komposisi sokongan linguistik IPS.

Konsep bahasa pencarian maklumat (IRL). ILP sebagai elemen utama alat logik-semantik IPS.

Bahasa pencarian maklumat: klasifikasi, tipologi. Bahasa berasaskan objek. Pengelasan. Subjek mengikut abjad dan klasifikasi faset.

Bahasa deskriptor. Bahasa lisan.

Bahasa semantik dan sintagmatik.

Cara untuk menerangkan bahasa. Komponen bahasa perolehan maklumat deskriptor (abjad, kamus, tatabahasa).

Penyeragaman kosa kata dalam IPS. Kamus deskriptor. Thesauri. Penciptaan kamus dan tesauri. Kawalan berwibawa sebagai elemen sokongan linguistik untuk sistem perpustakaan automatik.

Cara tatabahasa IPL. Hubungan paradigmatik dan sintagmatik.

Mengindeks dokumen dan pertanyaan. Cari imej dokumen dan pertanyaan.

Bahasa pertanyaan: konsep dan komposisi. Cara dan kaedah menyatakan keperluan maklumat. Arahan carian.

Cari model. Pengendali carian.

Cara normalisasi morfologi.

Bahasa bermaksud pembentangan dan penstrukturan dokumen elektronik (format, bahasa SGML, HTML, XML). Bahasa metadata (Dublin Core, GILS, dll.).

Sokongan linguistik sistem pencarian maklumat fakta. Unit asas IPL IPS fakta.

Bahagian 5. Fungsi dan pengendalian sistem maklumat

Sokongan maklumat, teknologi dan kakitangan.

Teknologi pemprosesan maklumat pra-mesin. Mengindeks dokumen dan pertanyaan. Ciri carian bergantung pada jenis dokumen.

Mod pengendalian IRS (IRI, carian retrospektif). Mod kumpulan dan dialog.

asas spesifikasi IPS dokumentari (kelengkapan, ketepatan). Faktor yang mempengaruhi kecekapan carian. Menilai keberkesanan IPS.

Cara dan kaedah untuk menyelesaikan masalah leksikal-semantik dalam IPS. Masalah merangka arahan carian. Maklum balas perkaitan.

Menyediakan hasil carian dengan dokumen utama. Penghantaran dokumen elektronik.

Bahagian 6. Carian maklumat di Internet

Kepentingan rangkaian komputer bagi sesebuah organisasi perkhidmatan maklumat. Kaedah dan cara akses kepada tatasusunan dokumen jauh. Protokol Z39.50 (Cari/Pendapatan).

Internet, penerangan ringkasnya. Internet sebagai sistem pengangkutan elektronik. Internet sebagai ruang maklumat global.

Sumber maklumat internet. Pelayan FTP. GOPHER. WAIS.

Konsep hiperteks. Sistem hiperteks sebelum kemunculan Internet. pelayan WWW. Navigasi di web. Masalah mencari maklumat.

Sumber maklumat dokumentari. Dokumen elektronik. Format Persembahan maklumat teks di web (html, pdf, ps, doc, dll.). Penerbitan elektronik.

Objek maklumat bukan teks. Konsep perpustakaan elektronik.

Tipologi enjin carian di Internet. Pelbagai asas untuk pengelasan (mengikut keluasan liputan, mengikut ciri dalaman, mengikut jenis dokumen).

Tipologi enjin carian Internet. Sistem pencarian maklumat klasifikasi (katalog). Verbal (teks, kamus) sistem mendapatkan maklumat (enjin carian).

Sistem pencarian maklumat global dan perkhidmatan Internet.

Bahasa semula jadi di Internet. IPS serantau. Versi serantau sistem global. Internet berbahasa Rusia.

Kaedah untuk mencipta pangkalan data carian dalam sistem global. Pengindeksan dan pendaftaran. Robot pengindeksan. Alat pengurusan pengindeksan (fail robots.txt, elemen META).

Ciri-ciri sokongan linguistik dan maklumat bagi sistem pencarian maklumat di Internet. IPL lisan. Cara tatabahasa IPL: syntagmatics. Operator kedudukan kontekstual ("frasa", operator jarak, dll.).

Masalah kedudukan dokumen dalam hasil carian. Cara menguruskan ranking.

Antara muka input. Bahasa pertanyaan (mudah, lanjutan). Komposisi mereka, contoh. Analisis perbandingan bahasa pertanyaan IPS di Internet. Menyimpan permintaan (sejarah sesi).

Antara muka keluaran. Pembentangan hasil carian. Perihalan dokumen (halaman web), perihalan tapak. Mengumpulkan dokumen mengikut tapak. Pengenalpastian dan penggabungan pendua.

Pengurusan carian. Statistik carian. Cari dalam apa yang ditemui. Cari mengikut persamaan.

Contoh IPS lisan. Analisis perbandingan enjin carian.

Bengkel mengenai pertanyaan penyahpepijatan dan carian dalam sistem maklumat lisan.

Klasifikasi IPS. Kaedah untuk membentuk pangkalan data dalam sistem klasifikasi. Pendaftaran, tapak pendaftaran khas. Cari mengikut kategori.

Bengkel pencarian dalam sistem maklumat klasifikasi.

Bahagian 7. Masa Kini dan Masa Depan Pencarian Maklumat

Pengkomersilan Internet secara umum dan perkhidmatan carian khususnya. Mengiklankan. Yuran pendaftaran dipercepatkan.

Pembangunan sistem maklumat tempatan.

Masalah penyatuan dan penyeragaman.

Maklum balas bermaksud. "Komuniti carian" tidak formal.

Pembangunan sokongan linguistik.

Sistem dengan seni bina teragih berpusat dan terpencar.

Intelektualisasi pencarian maklumat. Sistem maklumat pintar.

Elemen pemprosesan intelektual dalam sistem pencarian maklumat global di Internet. Ejen pintar.

Bahasa metadata, XML, RDF, OWL dan cara lain untuk menerangkan kandungan.

2.3. Contoh soalan untuk kawalan diri

Berikan definisi:

    Kriteria pengeluaran

    Perkaitan

    Tesaurus

    Komponen IPS

    Komposisi sokongan linguistik

    Fail songsang

Pilih pilihan jawapan yang betul

    Tanda “&” dalam Rambler IPS bermaksud operasi:

    percanggahan (OR)

    kata hubung (I)

    jarak

    tanda "|". dalam Yandex IPS bermaksud operasi:

    mengikuti

    kata hubung (I)

    percanggahan (OR)

    Subsistem berfungsi IPS ialah:

    sokongan linguistik

    perisian

    sokongan teknikal

    kemasukan dokumen

    memasukkan pertanyaan

    kriteria korespondensi semantik

    bahasa pertanyaan

    memaparkan hasil carian

    fail terbalik

    Jenis-jenis IPA ialah:

    bahasa morfologi

    bahasa deskriptor

    bahasa semantik

    bahasa klasifikasi

    bahasa lisan

    bahasa sekunder

    bahasa berasaskan objek

    Kaedah utama normalisasi morfologi dalam IPS:

    berdasarkan morfoanalisis automatik

    pemangkasan

    bertopeng

    awalan

    Kriteria korespondensi semantik ialah:

    peraturan pengindeksan

    peraturan normalisasi

    peraturan untuk mengira kesempurnaan

    kaedah pemeringkatan

    kaedah pengelasan

    Pengindeksan ialah:

    normalisasi morfologi

    menyusun imej carian

    terjemahan ke dalam bahasa logik matematik

    terjemahan kepada IPYA

    pengiraan perkaitan

    menyusun kamus deskriptor

    Subsistem sokongan IPS ialah:

    sokongan linguistik

    perisian

    sokongan teknikal

    kemasukan dokumen

    memasukkan pertanyaan

    kriteria korespondensi semantik

    arahan carian

    memaparkan hasil carian

    fail terbalik

    Jenis IPA:

    bahasa berasaskan objek

    bahasa klasifikasi

    bahasa morfologi

    bahasa semantik

    bahasa lisan

    bahasa sekunder

    bahasa deskriptor

    Kriteria pengeluaran ialah:

    peraturan pengindeksan

    peraturan normalisasi

    peraturan pengiraan perkaitan

    peraturan untuk mengira kesempurnaan

    kaedah pemeringkatan

    kaedah pengelasan

2.4. Anggaran topik laporan, abstrak,
kerja kursus

    Analisis dan penerangan tentang IPS Internet (pemilihan topik sistem yang sesuai dengan guru)

    Penciptaan bank data terminologi pada sistem mendapatkan maklumat (pengenalan, klasifikasi istilah dan tafsiran; hasilnya ialah indeks kamus hiperteks atau pangkalan data carian)

    Penyelidikan tentang cara menggunakan kamus dan tesaurus dalam talian (contohnya, WordNet) untuk mengindeks pertanyaan dalam sistem mendapatkan maklumat

    Analisis dan penerangan tentang mekanisme normalisasi morfologi dalam sistem pencarian maklumat

    Mengambil kira sambungan sintagmatik sebagai cara untuk meningkatkan kecekapan carian dalam sistem perolehan maklumat teks penuh (kajian eksperimen)

    Pengiraan perkaitan dalam sistem perolehan maklumat (kajian eksperimen)

    Analisis kajian tentang keberkesanan perbandingan sistem perolehan maklumat teks penuh

    Analisis sokongan linguistik sistem mendapatkan maklumat teks penuh

    Kajian analitikal penerbitan dalam jurnal elektronik mengenai sistem pencarian maklumat Laporan Enjin Carian

2.5. Contoh senarai soalan peperiksaan
(kredit) untuk keseluruhan kursus

    IPS abstrak dan konkrit (sebenar).

    Sistem mendapatkan maklumat secara lisan (enjin carian). seni bina mereka. Contoh IPA lisan

    Sistem maklumat global dan serantau di Internet. Contoh

    Cara tatabahasa IPL. Cara-cara menyatakan hubungan tatabahasa

    Kamus deskriptor. Tesaurus

    Maklumat dokumentari di Internet. Dokumen teks. Alat bahasa untuk mempersembahkan dan menstruktur dokumen (dari sudut carian)

    Mengindeks dokumen dan pertanyaan. Automasi pengindeksan

    Sistem maklumat pintar

    Internet sebagai persekitaran maklumat global. Sumber maklumat rangkaian. Masalah carian Internet

    Keperluan maklumat, permintaan maklumat, preskripsi carian

    Sistem pencarian maklumat (IRS). Jenis-jenis IPS. Gambaran ringkas tentang jenis utama

    Bahasa pencarian maklumat: klasifikasi, tipologi

    IPYA. Bahasa deskriptor. Bahasa lisan

    IPYA. Bahasa klasifikasi

    Sejarah pembangunan sistem pencarian maklumat dokumentari automatik, peringkat pembangunan. Ciri-ciri pentas moden

    Sistem pencarian maklumat klasifikasi (katalog). Contoh klasifikasi IPS

    Klasifikasi IRS dokumentari atas pelbagai alasan

    Kriteria surat menyurat semantik. Cari Model

    Cara linguistik untuk mendapatkan maklumat. Komposisi sokongan linguistik IPS

    Kaedah untuk mencipta pangkalan data carian dalam sistem global (pengindeksan, pendaftaran)

    Normalisasi morfologi perbendaharaan kata dalam IPS

    Subsistem sokongan

    Bahasa berasaskan objek

    Organisasi tatasusunan carian dalam sistem mendapatkan maklumat

    Ciri teknikal utama IRS dokumentari (kelengkapan, ketepatan)

    Konsep bahasa pencarian maklumat (IRL). Klasifikasi (tipologi) IPL

    Konsep "maklumat" dan "sistem". Proses dan sistem maklumat. Jenis sistem maklumat

    Masalah carian Internet berbilang bahasa. Kaedah penyelesaian dalam sistem maklumat yang berbeza

    Masalah mencari dokumen dalam bahasa Rusia. IPS berbahasa Rusia

    Masalah merangka arahan carian. Maklum balas perkaitan

    Sistem campuran (hibrid). Enjin metasearch. Contoh

    Komponen bahasa perolehan maklumat deskriptor

    Komponen IPS. Hubungan sistemik antara elemen IS

    Intipati perolehan maklumat dokumentari. Konsep perkaitan

    Bahasa semantik

    Teknologi IPS dan mod operasi. IPS litar dua kali

    Tipologi enjin carian Internet

    IRS fakta

    Gambar rajah fungsional dan struktur IPS. Subsistem berfungsi

    Bahasa pertanyaan sistem pencarian maklumat Altavista. Antara muka persembahan hasil carian

    Bahasa pertanyaan Google IRS. Antara muka persembahan hasil carian

    Bahasa pertanyaan IRS "Aport". Antara muka persembahan hasil carian

    Bahasa pertanyaan sistem mendapatkan maklumat Rambler. Antara muka persembahan hasil carian

    Bahasa pertanyaan IRS Yandex. Antara muka persembahan hasil carian

    Bahasa pertanyaan sistem pencarian maklumat moden. Analisis perbandingan

    Bahasa pertanyaan. Arahan carian.

2.6. Pengagihan jam kursus mengikut topik
dan jenis kerja

Nama topik
dan bahagian

Bilik Darjah
kelas (jam)

termasuk

Kerja bebas

Seminari

Asas Pencarian Maklumat

IPS Dokumentari

IRS fakta

Sokongan linguistik untuk mendapatkan maklumat

Fungsi dan operasi sistem maklumat

Pencarian maklumat
dalam Internet

Masa Kini dan Masa Depan Pencarian Maklumat

JUMLAH:

2.7. Bentuk kawalan semasa, pertengahan dan akhir

Semasa semester, pelajar menyediakan karya bertulis (abstrak) mengenai salah satu topik yang dipilih, yang "dipertahankan" pada akhir kursus dalam bentuk laporan. Pada akhir kursus terdapat ujian.

2.8. Sokongan pendidikan dan metodologi kursus

Sastera utama

Zakharov V.P. Sistem maklumat (carian dokumen). St. Petersburg, 2002.

Sains Komputer/ Ed. K.V. Tarakanova. M., 1986.

Lahuti D.G.. Sistem perolehan maklumat dokumentari-fakografi automatik // Keputusan Sains dan Teknologi. Sains Komputer. T. 12. M., 1988. ms 6–77.

Salton J. Perpustakaan dinamik dan sistem maklumat. M., 1979.

Salton G. Pemprosesan automatik, penyimpanan dan mendapatkan semula maklumat. M., 1973.

Cherny A.I.. Pengenalan kepada teori pencarian maklumat. M., 1975.

sastera tambahan

Avetisyan D.O. Masalah pencarian maklumat. M., 1991.

Arms W. Perpustakaan elektronik. M., 2001.

Beloozerov V.N. Piawaian baharu untuk terminologi mendapatkan maklumat // NTI. Ser. 1. 1997. Bil 11. ms 14–21.

Voiskunsky V.G. Carian dokumentari dan Maklum balas// Carian subjek dalam sistem perolehan maklumat tradisional dan bukan tradisional. St Petersburg, 1993. Isu. 11. ms 129–141.

Voiskunsky V.G., Zakharov V.P. Kompleks penyahpepijatan dialog // Linguistik struktur dan gunaan: Koleksi antara universiti. Vol. 4. St Petersburg, Universiti Negeri St. Petersburg, 1993, ms 197–211.

Decker S., Melnik S., Hermelen van F. Web Semantik: peranan XML dan RDF // Sistem Terbuka. 2001. Bil 9. ms 23–33.

Zakharov V.P., Mordovchenko P.G., Sakharny L.V. Meningkatkan sokongan linguistik dalam sistem mendapatkan maklumat jenis "bebas tesaurus" // NTI. Ser. 2. 1980. No 6. ms 14–19.

Zakharov V.P., Pankov I.P. Sistem pencarian maklumat // Linguistik gunaan: Buku Teks / Ed. ed. A.S. Gerd. St Petersburg, Universiti Negeri St. Petersburg, 1996, ms 334–359.

Zakharov V.P., Pimenov E.N.. Pendekatan bahasa semula jadi untuk penciptaan sokongan linguistik untuk sistem pencarian maklumat // NTI. Ser. 2. 1997. No. 12.

Zmitrovich A.I. Sistem maklumat pintar. Minsk, 1997.

Kapustin V.A. Mencari maklumat di Internet // Dunia Internet. 1998. No. 9. ms 54–58.

Kapustin V.A. Sumber maklumat - bagaimana kita akan mencarinya? // Dunia Internet. 1998. No 9. ms 58–61.

Kapustin V.A. Asas mencari maklumat di Internet: Manual metodologi. St. Petersburg, 1999.

Kurnik A. carian internet. St. Petersburg, 2001.

Bermaklumat-enjin carian. M., 1972.

Lahuti D.G. Intelektualisasi sistem maklumat: Laporan saintifik... M., 2002.

Lyubarsky Yu.Ya. Sistem maklumat pintar. M., 1990.

Masevich A.Ts. Dua pendekatan kepada teori IPS berdasarkan konsep linguistik moden // Carian subjek dalam sistem perolehan maklumat tradisional dan bukan tradisional. L., 1989. Isu. 9. Hlm.25–49.

Moskovich V.A. Bahasa maklumat. M., 1971.

Parkhomenko V.F. Sistem untuk pengindeksan automatik dokumen BRACKETS OS EC // M., 1983

Digunakan Linguistik: Buku teks. St Petersburg, 1996. ms 59–67, 92–99, 360–388.

Rubashkin V.Sh. Perwakilan dan analisis makna dalam sistem maklumat pintar. M., 1989.

Sokolov A.V. Automasi carian bibliografi. - M., 1981.

Sokolov A.V.. Pengenalan kepada teori komunikasi sosial. St. Petersburg, 1996.

Sokolov A.V.. Bahan metodologi untuk pembangunan tesaurus pencarian maklumat. L., 1976.

Stepanov V. Carian bibliografi di Internet // Bibliografi. 1998. No 1. Hlm 5–10.

Khramtsov P.B.. Sistem pencarian maklumat Internet // Sistem terbuka. 1996. No 3. Hlm 46–49.

Khramtsov P.B.. Pemodelan dan analisis pengendalian sistem pencarian maklumat Internet // Sistem Terbuka. 1996. No 6. ms 46–56.

Shemakin Yu.I., Romanov A.A.. Semantik komputer. M., 1995.

Shemakin Yu.I. Tesaurus dalam kawalan automatik dan sistem pemprosesan maklumat. M., 1974.

Piawaian

Penyelesaian reka bentuk standard untuk sistem automatik maklumat saintifik dan teknikal. M., 1983.

GOST 34.601-90. Teknologi maklumat. Satu set piawaian untuk sistem automatik. Peringkat mencipta sistem automatik.

GOST 34.602-89. Teknologi maklumat. Set piawaian untuk sistem automatik. Terma rujukan untuk penciptaan sistem automatik.

GOST 7.52-85. Format komunikasi untuk menukar data bibliografi pada pita magnetik. Cari imej dokumen.

GOST 7.74-96. Bahasa pencarian maklumat. Terma dan Definisi.

RD 34.003-90. Teknologi maklumat. Terma dan Definisi.

RD 34.201-89. Teknologi maklumat. Jenis, kelengkapan dan penetapan dokumen semasa membuat sistem automatik.

RD 34.680-88. Arahan berkaedah. Teknologi maklumat. Peruntukan asas.

RD 34.698-90. Arahan berkaedah. Teknologi maklumat. Keperluan untuk kandungan dokumen.

3. Bengkel (kerja makmal)

Arahan untuk melaksanakan kerja makmal

Hasil kerja makmal disimpan pada cakera keras dalam folder Lab#N kerja makmal yang sepadan, dengan N ialah nombor kerja. Selain itu, semua folder ini, seterusnya, disimpan dalam folder pelajar, yang mempunyai laluan berikut: DISK:\ Nama Akhir Guru\nnn-Fam\, dengan nnn ialah nombor kumpulan (pengecam), Fam ialah nama keluarga pelajar. Sebagai contoh, semua fail dan folder yang dibuat dan disimpan semasa kerja makmal No. 2 diletakkan dalam folder D:\Zakharov\ML_3kurs-Ivanova\Lab#2. Dalam tugasan makmal, folder pelajar semasa ini dipanggil " folder anda sendiri».

Dalam sesetengah kes, sebelum memulakan kerja, seperti yang diarahkan oleh guru, anda harus menyalin (dari komputer guru melalui "Kejiranan Rangkaian" atau dari cakera liut) fail tambahan yang diperlukan untuk menyelesaikan tugasan ke folder anda.

Laporan teks dengan hasil kerja yang sepadan dibuat dalam editor Word. Dalam tetingkap dokumen anda perlu memasukkan nama keluarga anda, nama pertama, nombor kumpulan/subkumpulan, nombor kerja makmal dan tarikh siap kerja. Kemudian tulis hasil kerja yang diperlukan ke dalam fail ini ( di bawah nombor item tugasan yang sepadan). Simpan data ini sebagai fail laporan bernama ReportN dalam folder anda, dengan N ialah nombor kerja. Untuk mengelakkan kehilangan data akibat kegagalan, fail yang dijana oleh pelajar semasa bekerja disyorkan untuk disimpan dengan kerap.

Untuk membentangkan hasil kerja anda kepada guru, letakkannya pada skrin dalam tetingkap berikut, melatakannya dari kiri ke kanan: kandungan folder kerja makmal yang dilindungi (dalam tetingkap Explorer), fail laporan dalam editor Word tetingkap, tetingkap penyemak imbas (jika perlu).

Kerja makmal No 1

(Pengkelasan IPS)

    Buka halaman enjin carian Aport (ROL, Russia On-Line). Biasakan diri anda dengan pengelas (categorizer) sistem ini. Salin tajuk peringkat atas ke dalam buku nota dan nomborkannya semula. Bergerak melalui tajuk rubrikator, cari dua muzium ("Muzium Sastera dan Memorial F.M. Dostoevsky" dan "Muzium Sejarah dan Memorial M.V. Lomonosov di kampung Lomonosovo, Wilayah Arkhangelsk"). Biasakan diri anda dengan borang untuk menyerahkan maklumat tentang tapak dalam direktori.

    Untuk setiap muzium:

    salin penerangan ringkas muzium yang ditentukan dalam katalog ke fail laporan Report1;

    nyatakan indeks petikan (dalam bentuk nombor) dan liga (dalam bentuk nama lisan) untuk tapak muzium ini;

    pergi ke laman web muzium dan salin halaman utama pertama dalam folder anda dalam format ;

    buat "penanda halaman" untuk tapak web muzium dalam folder Kegemaran anda.

    Buka halaman enjin carian Yandex. Biasakan diri anda dengan pengelas (categorizer) sistem ini. Salin tajuk peringkat atas ke dalam buku nota dan nomborkannya semula. Tandakan (bulatkan) tajuk yang bertepatan dengan tajuk Aport (secara keseluruhan atau sebahagian). Menelusuri tajuk rubrikator, cari “Muzium Sastera dan Memorial F.M. Dostoevsky" dan "Muzium Sejarah dan Memorial M.V. Lomonosov di kampung Lomonosovo, wilayah Arkhangelsk." Salin huraian mereka dalam rubrikator Yandex ke fail laporan.

    Lawati Sistem Penarafan IPS Rambler. Biasakan diri anda dengan pengelas (categorizer) sistem ini. Rubrik yang bertepatan dengan rubrik Aport (secara keseluruhan atau sebahagian) hendaklah disalin ke dalam buku nota. Lihat penarafan tapak mengenai topik "Pendidikan". Biasakan diri anda dengan borang untuk menyampaikan maklumat dalam katalog. Salin nama tapak yang berada di kedudukan kelima, dengan penunjuk kuantitatifnya, ke dalam fail laporan Report1. Lihat statistik terperinci dan salin jadual statistik ke fail laporan.

    Ulangi perkara yang sama dalam sistem Yahoo.

Kerja makmal№ 2

(IPS lisan bahasa Rusia: analisis perbandingan)

    Kerja ini terdiri daripada kajian perbandingan sistem Aport, Yandex, Rambler. Pelajar mesti mencerminkan hasil kajian dalam bentuk jadual (ms 34) dalam fail Report2 (orientasi jadual - landskap). Dalam sel, tuliskan cara dalam setiap sistem ini atau elemen bahasa pertanyaan atau antara muka input/output diwakili (semua kaedah yang sah). Dalam sesetengah kes, anda boleh menjawab dengan tanda “+” atau “–” (contohnya, “ Penerangan dokumen") atau teks percuma dalam perkataan anda sendiri (contohnya, "Halaman berkaitan tapak yang sama" atau "Menyusun").

    Pergi ke laman web enjin carian Aport (kemudian Yandex dan Rambler). Cari dalam setiap pautan sistem kepada penerangannya secara keseluruhan, kepada penerangan bahasa pertanyaan, antara muka (“Bantuan”, “Bantuan”, “Carian Terperinci” dan sebagainya . ). Ikuti pautan dan kaji dengan teliti maklumat latar belakang dan dalam buku kerja gariskan secara ringkas perkara utama. Selepas ini, isikan sel jadual yang sepadan untuk setiap sistem (bahagian 1, 2).

Catatan. Jika teks jawapan tidak muat dalam sel jadual, adalah disyorkan untuk membuat nota kaki dan meneruskannya di bawah jadual. Sila ambil perhatian bahawa keupayaan sistem dalam carian mudah dan lanjutan berbeza. Tunjukkan ini dalam laporan. Beri perhatian kepada kehadiran bahagian "lain".

    Kembali ke halaman utama enjin carian Aport (kemudian Yandex dan Rambler). Masukkan pertanyaan (contohnya, « Kaedah statistik dalam linguistik") dalam tetingkap pertanyaan teks dan carian. Simpan halaman dengan hasil carian dalam folder anda dalam format "html sahaja".

    Kaji borang untuk membentangkan keputusan. Tulis secara ringkas dalam buku nota anda apa yang terkandung pada halaman web dengan hasil carian (struktur halaman web). Kaji bentuk pembentangan dokumen web individu (huraian ringkasnya dengan maklumat tambahan). Berdasarkan kajian keputusan yang diperolehi dan maklumat latar belakang yang dikaji sebelum ini, isikan sel jadual yang sesuai (bahagian 3).

    Bentangkan hasil kerja anda kepada guru.

Hasil kajian perbandingan sistem Aport, Yandex, Rambler


bahagian

Pilihan

Aport

Yandex

Rambler

Cari melalui teks

Operator logik:

kata hubung

perpecahan

Penafian

Pengendali sintagmatik:

frasa (frasa, perkataan berdekatan)

jarak dalam perkataan

jarak dalam ayat

Normalisasi morfologi (automatik, metakarakter digunakan)

Cari mengikut medan

mengikut tajuk

mengikut medan kata kunci

dengan ulasan kepada gambar (medan ALT)

mengikut teks hiperpautan

untuk memautkan alamat

dengan nama domain tapak (pelayan)

mengikut format

Antara muka isu (borang pembentangan keputusan)

statistik perkataan daripada pertanyaan

bilangan dokumen yang ditemui

bilangan tapak yang ditemui

bilangan dokumen setiap halaman hasil

menyusun dokumen pada halaman keluaran

carian dalam dijumpai

penerangan dokumen termasuk elemen berikut:

URL (alamat web)

saiz dokumen (volume)

tarikh penciptaan

pengekodan

abstrak (ringkasan)

menunjuk ke halaman web lain yang berkaitan di tapak yang sama

mencari dokumen yang serupa

Kerja makmal№ 3

(IPS lisan bahasa Rusia: carian)

Menyusun dan menyahpepijat pertanyaan topik

    Buat permintaan dalam buku nota anda mengenai topik "Pertempuran tentera laut semasa Great Perang Patriotik" Pada masa yang sama, keluarkan perkataan yang tidak penting daripada topik, kembangkan pertanyaan dengan sinonim, cipta formula pertanyaan logik dengan penggunaan wajib operator kata hubung, disjungsi, jarak dan frasa (frasa tegar).

    Tunjukkan permintaan kepada guru.

    Kemudian tuliskan variannya dalam bahasa sistem Aport, Yandex, Rambler.

    Nyahpepijat pertanyaan dalam mod carian sebenar, menjalankan sesi berurutan dalam ketiga-tiga sistem. Cuba ubah keperluan carian untuk mencapai prestasi carian yang optimum. Untuk melakukan ini, rekod dalam buku nota hasil yang diperolehi untuk setiap pilihan: ketepatan (untuk 20 dokumen pertama) dan kesempurnaan bersyarat (jumlah keluaran mutlak).

    Kembali ke preskripsi carian terbaik dan salin teks pertanyaan melalui papan keratan daripada rentetan carian(tetingkap untuk memasukkan pertanyaan) ke dalam tetingkap fail laporan Report3 (satu demi satu dalam setiap sistem). Nyatakan petunjuk ketepatan dan kesempurnaan dalam laporan. Simpan halaman web pertama dengan hasil carian dalam setiap sistem dalam foldernya sendiri dalam format "html sahaja".

Memperkenalkan Carian Medan (Carian Terperinci)

    Gunakan sistem Yandex untuk mencari dokumen khusus untuk Lev Gumilyov. Catatkan bilangan dokumen dan tapak yang ditemui dalam fail laporan. Simpan alamat (URL) dokumen pertama daripada senarai dalam Kegemaran dalam folder "Gumilyov".

    Kemudian pergi ke mod carian lanjutan dan cari dokumen yang didedikasikan untuk Lev Gumilev dengan tarikh selepas 1 Oktober 2004. Tulis bilangan dokumen dan tapak baharu yang ditemui ke dalam fail laporan sekali lagi. Simpan dokumen pertama daripada senarai hasil carian dalam folder anda dalam format “arkib web, satu fail” (*.mht).

    Cari dokumen mengenai topik "Ekonomi Kota Moscow" melalui sistem Rambler. Dalam kes ini, tetapkan volum carian (bilangan huraian dokumen pada halaman hasil) kepada 30. Isih hasil carian mengikut tarikh (menurun) dan simpan halaman web pertama dengan hasil carian dalam folder anda dalam format "html sahaja"

    Pergi ke mod carian lanjutan dan cari dokumen mengenai topik yang sama, tetapi hanya terletak di tapak. Isih hasil carian mengikut tarikh (menaik) dan simpan halaman web pertama dengan hasil carian dalam folder anda dalam format "html sahaja". Catatkan bilangan dokumen dan tapak yang terdapat dalam fail laporan.

    Cari dokumen mengenai topik "Pendidikan" melalui sistem Yandex, dari mana terdapat pautan ke tapak. Simpan halaman web pertama dengan hasil carian dalam folder anda dalam format "html sahaja". Catatkan bilangan dokumen dan tapak yang terdapat dalam fail laporan.

    Muat turun salah satu dokumen yang ditemui, lihat kod htmlnya, cari di dalamnya pautan ke tapak dan salin elemen hiperpautan (dari awal hingga akhir tag A) ke fail laporan melalui papan keratan.

    Dokumen dalam format mht, disimpan dalam perenggan 7 (tentang Lev Gumilyov), boleh dibaca dalam editor Word: pertama dalam format halaman web, kemudian dalam format "teks sahaja". Pada bacaan kedua, semak kandungan tetingkap input editor Word (terutamanya permulaan dan akhir fail), salin halaman pertama tetingkap input ke dalam fail laporan, dan bersedia untuk menerangkan format mht.

Catatan. Format mht dikodkan mengikut piawaian MIME (RFC2046 dan RFC2047).

    Bentangkan hasil kerja anda kepada guru.

Kerja makmal No. 4

(IPA Verbal Global: Analisis Perbandingan)

    Kerja ini terdiri daripada kajian perbandingan sistem maklumat Internet global jenis lisan yang diberikan.

Catatan. Set sistem dan nombornya mungkin berubah mengikut budi bicara guru.

    Pergi ke tapak web enjin carian yang sepadan (selepas ini - nama domain sistem: www.nama_sistem.com). Cari dalam setiap pautan sistem kepada penerangannya secara keseluruhan, kepada perihalan bahasa pertanyaan, antara muka, mod pengendalian dan ciri lain sistem. Tulis secara ringkas penerangan setiap IPS dalam buku nota anda.

    Menganalisis dan membandingkan keupayaan sistem dalam mod carian lanjutan. Simpan halaman antara muka carian lanjutan dalam folder anda sendiri.

    Bentangkan hasil analisis dalam bentuk termampat dalam bentuk jadual pangsi (ms 38) dalam fail laporan Report4 (orientasi jadual - landskap). Saiz meja boleh ditambah. Jika sesuatu tidak sesuai dalam jadual, buat nota kaki dalam sel kepada teks di bawah jadual (jadual bukanlah satu bentuk persembahan hasil sebagai skema analisis).

    Bentangkan hasil kerja anda kepada guru.

Hasil kajian perbandingan IPS verbal global

Pilihan

Pengendali logik(yang dan bagaimana ditanya)

Pengendali sintagmatik
(yang dan bagaimana ditanya)

Cari mengikut medan(susun senarai medan, perhatikan kehadiran/ketiadaannya dalam sistem tertentu)

bidang 1

bidang 2

………

padang k

Memilih Pangkalan Data Carian
(sumber apa yang boleh anda cari)

sumber 1

sumber 2

………

sumber k

Format output mengandungi elemen berikut(di bawah jadual berikan contoh dari setiap sistem)

unsur 1

unsur 2

………

unsur k

Kebolehcapaian atau ciri-ciri
(terangkan untuk setiap sistem)

Kerja makmal No. 5

(IPS Verbal Global: Kajian dan Carian)

    Jalankan carian pada topik "Linguistik Pengiraan" dalam IRS global yang ditentukan ( set sistem dan bilangannya boleh berubah mengikut budi bicara guru). Preskripsi carian secara logik sepatutnya kelihatan seperti ini:

(kompaunutasionalVcomputingVcomputeh) & lilmu inguistik.
Tanya pertanyaan dalam bahasa Inggeris dua kali, sebagai kata hubung dan sebagai menetapkan frasa(frasa), menggunakan kaedah untuk menyatakan ciri pengendali bagi setiap sistem (untuk sistem yang tidak dikenali, cari maklumat rujukan yang sesuai). Simpan halaman web pertama dengan hasil setiap carian dalam folder anda sebagai "html sahaja". Keputusan kuantitatif ditunjukkan dalam jadual:

nama IPS

Dokumen/tapak ditemui

Sebaik sahaja pakej tiba di salah satu gudang kami di luar negara atau di Rusia, anda akan menerima pemberitahuan e-mel. Pada masa hadapan, anda akan dapat menjejak bungkusan anda di tapak web kami dalam bahagian "Penjejakan"; untuk melakukan ini, anda mesti memasukkan nombor penjejakan anda.

Sila pastikan anda telah memasukkan alamat mel anda dengan betul dalam profil IPS anda dan peti masuk e-mel anda tidak penuh.

Jika penjual anda (kedai dalam talian) memaklumkan anda bahawa pakej anda telah tiba di salah satu pejabat kami, tetapi anda masih tidak dapat menjejakinya, sila hubungi kami, jika boleh, dengan memberikan maklumat penuh tentang bungkusan anda (nama kedai, penghantar dan alamat penghantaran, nombor pengenalan, tarikh berlepas, dsb.).

    Penghantaran parcel dari luar negara. Bagaimana ia berfungsi?

    Kami menyediakan semua pelanggan kami (sama ada mereka pelanggan tetap atau pelanggan yang ingin menerima bungkusan sekali sahaja) dengan alamat pos di tiga bandar di seluruh dunia - London, New York dan Hanover. Kepada mana-mana daripada mereka, responden anda (kedai dalam talian, rakan, saudara, rakan sekerja, dll.) boleh menghantar bungkusan kepada anda dan 7-10 hari perniagaan selepas ia tiba di salah satu alamat ini, anda akan menerimanya di Moscow.

    Bagaimanakah saya boleh mendapatkan alamat?

    Terdapat dua pilihan:

    • Anda mahu menerima satu atau dua bungkusan buat masa ini:

    Anda perlu membawa pasport anda ke pejabat IPS. Di sini mereka akan membuat salinan pasport anda, menulis nombor telefon anda dan memberikan alamat yang anda perlukan (di London, New York atau Hanover).

    • Anda merancang untuk kerap (beberapa kali sebulan) menerima surat, majalah atau bungkusan dari luar negara:

    Masuk akal untuk anda membuat perjanjian perkhidmatan tetap. Untuk melakukan ini, anda perlu melanggan peti mel dan kerap membuat deposit bayaran langganan. Saiz minimum yuran langganan bulanan – 755.2 rubel (termasuk VAT 18%). (Terdapat yuran langganan lain, ia bergantung pada set perkhidmatan percuma tambahan yang telah disertakan dalam perkhidmatan langganan). Dalam kes ini, anda menerima ketiga-tiga alamat dan boleh menggunakannya mengikut budi bicara anda.

    Untuk mendapatkan alamat, bolehkah saya tidak datang kepada anda, tetapi menghantar salinan pasport saya melalui e-mel?

    Anda boleh, tetapi kemudian anda memerlukan bayaran pendahuluan.

    Dalam dua kes di atas (lihat soalan 2), kami menyediakan perkhidmatan kepada pelanggan secara tunai semasa penghantaran - kami menghantar (iaitu, menyediakan perkhidmatan dahulu), dan kemudian hanya menerima bayaran daripada pelanggan. Oleh itu, adalah penting bagi kami untuk memastikan bahawa pelanggan kami adalah orang yang sebenar.

    Jika anda ingin menghantar salinan pasport anda kepada kami secara elektronik, maka bayaran pendahuluan daripada anda dalam jumlah sekurang-kurangnya 4000.0 rubel adalah penting untuk perkhidmatan selanjutnya. Jika, selepas menyediakan dan membayar perkhidmatan penghantaran, anda masih mempunyai baki, atas permintaan pertama anda, jumlah ini akan dikembalikan kepada anda kepada butiran yang anda hantarkan kepada kami. Atau pada masa hadapan anda boleh menggunakannya untuk membayar perkhidmatan di syarikat kami.

    Mengapa berfaedah untuk melanggan peti mel?

    Pelanggan yang melanggan peti mel menjadi pelanggan tetap kami.

    Pelanggan tetap mempunyai faedah berikut:

    • Tarif untuk perkhidmatan kami untuk pelanggan tetap kami adalah 10-30% lebih rendah daripada tarif untuk pelanggan bukan tetap (bergantung pada jenis perkhidmatan).
    • Tarif untuk penghantaran bungkusan dari luar negara dikira mengikut berat sebenar bungkusan, dan bukan berdasarkan berat bulat kepada bilangan kilogram penuh.
    • Diskaun terkumpul dikenakan.
    • Pembungkusan dan pembungkusan semula surat/bungkusan untuk pelanggan tetap kami adalah percuma.
    • Bagi pelanggan tetap, surat/bungkusan dihantar atau dimajukan dari alamat asing kami ke mana-mana alamat antarabangsa lain atau ke tangan mana-mana orang di luar negara.
    • Pelanggan tetap menerima maklumat tentang semua perubahan terlebih dahulu.
    • Pelanggan tetap boleh memesan perkhidmatan bukan standard yang dia perlukan, walaupun perkhidmatan ini tidak ditunjukkan dalam senarai perkhidmatan IPS dan perlu dilakukan di luar Rusia.
    • Percuma untuk disimpan masa yang lama surat/bungkusan di pejabat asing kami.
    • Ambil sendiri bungkusan anda di pejabat kami di luar negara.
  • Bolehkah saya menggunakan peti mel yang dilanggan di pejabat anda untuk menerima mel biasa, surat-menyurat, bil, langganan dari Moscow atau dari Rusia?

    Sudah tentu. Yuran langganan kami lebih murah daripada di Russian Post. Dalam kes ini, selain daripada yuran langganan, anda tidak membayar apa-apa lagi.

    Saya perlu menghantar bungkusan ke luar negara. Bagaimanakah perkhidmatan penghantaran IPS berbeza daripada syarikat kurier lain?

    • Melalui kami, pelanggan boleh menghantar dalam 3 mod:
      • mod pos - yang paling murah, tetapi juga yang paling perlahan - 10-12 hari bekerja;
      • mod kurier purata kelajuan penghantaran – 4-5 hari bekerja (Express Smart);
      • mod kurier dengan kelajuan penghantaran tertinggi - 1-2 hari perniagaan (Perniagaan ekspres).
    • Kami menyediakan semua dokumen kastam secara bebas untuk pelanggan.
    • Kami menyediakan perundingan percuma untuk mengoptimumkan proses logistik menghantar sebarang kargo ke mana-mana negara di dunia.
  • Saya mempunyai 4 bungkusan kecil. Bolehkah anda membungkus bungkusan ini menjadi satu?

    Kita boleh. Kami akan menyediakan penyatuan bungkusan. Untuk pelanggan tetap (pelanggan peti mel) perkhidmatan ini adalah percuma.

    Bagaimanakah saya boleh membayar untuk penghantaran?

    Pada masa ini, kaedah pembayaran tunai dan bukan tunai tersedia.

    Apakah pampasan yang akan saya bayar sekiranya pakej saya hilang?

    Penghantaran kami telah darjat tinggi kebolehpercayaan. Walau bagaimanapun, jika ini berlaku dan bungkusan itu telah diinsuranskan - jumlah penuh yang diinsuranskan.

    Berapa lama masa yang diambil untuk menghantar pakej?

    Penghantaran biasanya mengambil masa 7 hingga 12 hari dari tarikh bungkusan tiba di gudang kami di negara masing-masing.

    Bolehkah saya menyimpan bungkusan saya di gudang anda di USA/UK/Jerman selama 1-2 bulan? Adakah terdapat bayaran tambahan untuk ini?

    Jika anda tidak melanggan peti mel, IPS akan menyimpan bungkusan anda secara percuma hanya selama 7 hari dari tarikh penerimaan di gudang. Jika bungkusan itu disimpan lebih daripada 7 hari, bayaran tambahan akan dikenakan. IPS berhak, mengikut budi bicaranya, untuk melupuskan bungkusan yang disimpan di gudang selama lebih daripada 60 hari, yang pemiliknya belum membayar untuk penyimpanan.

    Apakah faedah penghantaran dengan IPS?

    Kelebihan penghantaran dengan IPS:

    • kebolehpercayaan penghantaran;
    • kos penghantaran yang munasabah dan boleh difahami;
    • Masa penghantaran ialah 7-12 hari;
    • kehadiran pejabat Moscow di mana mereka sentiasa bersedia untuk membantu;
    • keupayaan untuk membeli barangan yang tidak terdapat di Rusia;
    • keupayaan untuk membeli barang di kedai yang tidak menghantar barang ke Rusia;
    • peluang untuk menjimatkan penghantaran dengan menggunakan perkhidmatan penyatuan penghantaran dan pembungkusan semula.
  • Apakah maklumat yang perlu saya nyatakan dalam medan "Alamat Penghantaran" semasa membeli barangan di kedai dalam talian?

    Anda mesti memasukkan: alamat pejabat asing kami yang diberikan kepada anda oleh syarikat kami, Nama Keluarga dan Nama Pertama anda, nombor peti mel anda.

    Perlukah saya memberitahu anda apa-apa selepas membuat pembelian dan menghantar pakej ke alamat yang diberikan kepada saya?

    Selepas membuat pesanan, anda mesti memaklumkan kami tentang pesanan yang telah lengkap, berikan data pesanan - perihalan lampiran, beratnya, kosnya. Maklumat ini diperlukan untuk memproses bungkusan anda.

    Adakah terdapat sebarang sekatan ke atas kemungkinan pelaburan?

    Dengan IPS anda boleh menghantar bungkusan dengan sebarang lampiran yang tidak dilarang oleh perundangan Persekutuan Rusia.

    Pelaburan yang dilarang termasuk:

    • bahan letupan,
    • barang mudah terbakar,
    • bahan radioaktif,
    • gas mampat,
    • senjata api,
    • sebarang item yang, mengikut sifat pembungkusan, boleh menyebabkan kecederaan kepada kakitangan IPS atau menyebabkan kerosakan pada item lain.

    Anda boleh mendapatkan senarai lengkap lampiran yang dilarang.

    Sebelum membuat pembelian di kedai dalam talian, sila pastikan pembelian anda tidak termasuk dalam kategori barangan berbahaya.

    Adakah IPS menjamin ketulenan dan kualiti produk yang saya beli?

    IPS tidak bertanggungjawab kepada pelanggan terhadap keaslian dan kualiti barangan yang dibeli olehnya. Untuk keselamatan sendiri, sila beli produk hanya dari kedai dalam talian yang dipercayai.

    Bagaimana untuk membungkus bungkusan dengan betul?

    Walau bagaimanapun, jika perlu, sila pastikan pakej anda dibungkus dengan betul, atau maklumkan kepada IPS bahawa pembungkusan tambahan diperlukan untuk pakej anda.

    Kami tidak bertanggungjawab terhadap sebarang kehilangan atau kerosakan yang mungkin berlaku semasa pengendalian, pengangkutan atau penghantaran disebabkan pembungkusan yang tidak betul oleh pengirim.

    Apakah dokumen yang perlu disediakan untuk mengesahkan anggaran kos penghantaran?

    Invois yang disediakan oleh pengirim mesti disediakan dan amaun yang ditunjukkan mesti termasuk semua cukai serta semua caj lain yang mungkin.

    Kedai dalam talian mana yang boleh saya beli?

    Apakah yang perlu saya lakukan jika penjual menghantar produk yang salah/kuantiti yang salah?

    Memandangkan syarikat IPS hanya menghantar bungkusan anda ke Rusia, semua soalan mengenai konfigurasi dan kesesuaian barangan, serta kemungkinan pertukaran atau pemulangan, mesti diselesaikan secara langsung dengan penjual atau pengirim.

    saya nak beli barang kemas daripada logam berharga dengan batu permata. Adakah ini mungkin?

    Tidak. Kami tidak menghantar barangan yang diperbuat daripada logam berharga dan/atau batu berharga.

    Bilakah saya akan tahu kos penghantaran akhir?

    Hanya selepas bungkusan itu tiba di gudang asing kami yang anda pilih.

    Setelah pakej anda telah diproses, anda akan dimaklumkan melalui e-mel mengenai masa penghantaran dan kos penghantaran akhir. Bungkusan anda akan diberikan nombor peribadi, anda boleh, mengikut arahan dalam surat, membayar kos penghantaran dan menjejaki status penghantaran anda.

    Jika anda ingin menyatukan penghantaran anda, anda mesti membuat pembayaran selepas pembentukan akhir pakej.

    Pelanggan yang melanggan peti mel tidak perlu membuat sebarang pembayaran sebelum menerima surat-menyurat/bungkusannya di pejabat IPS Moscow.

    Jika saya memutuskan untuk menolak penghantaran ke Rusia bungkusan yang tiba atas nama saya di pejabat IPS asing, adakah sebarang jumlah akan ditahan daripada saya jika perlu memulangkan bungkusan itu kepada pengirim atau memusnahkannya?

    Jika atas apa-apa sebab anda memutuskan untuk menghentikan penghantaran bungkusan anda ke Rusia, sila hubungi pengirim anda dengan segera supaya dia tidak menghantar bungkusan anda ke alamat IPS.

    Jika bungkusan itu tiba di alamat gudang IPS, kami boleh, atas arahan anda, menghantar bungkusan itu kembali (atau hantar ke alamat lain) dengan bayaran pentadbiran $10, serta 100% daripada kos pemulangan/penghantaran bungkusan .

    Kami juga boleh melupuskan bungkusan dengan potongan $10 yuran pentadbiran (untuk bungkusan tidak melebihi 15 kg). Jika pakej disimpan selama lebih daripada 21 hari, IPS akan mengenakan bayaran sebanyak $.50 sehari bagi setiap pakej.

    Apakah berat minimum yang perlu dibayar bagi bungkusan yang dihantar?

    Untuk pelanggan peti mel - berat boleh dicaj minimum ialah 1 paun, diikuti dengan kenaikan 0.1 paun.

Selamat petang, pembaca yang budiman. Hari ini kita akan menyentuh topik yang sangat menarik dan penting - sistem pencarian maklumat. Keupayaan untuk bekerja dengan mereka dengan betul, pengetahuan tentang konsep asas dan prinsip operasi boleh membantu pengguna pemula mempelajari cara mencari pelbagai maklumat dengan cepat dan cekap di Internet, mendapatkan data yang diperlukan dan membangunkan perniagaan dalam talian mereka dengan cepat.

Dalam artikel ini saya akan bercakap tentang sejarah penciptaan sistem carian, prinsip operasi dan strukturnya. Di samping itu, saya akan membincangkan ciri-ciri yang sangat penting yang mesti anda ketahui apabila bekerja dengan IPS.

Jadi, mari kita kaji dengan lebih terperinci apa itu IPS dan komponen apa yang terkandung dalam komposisi mereka.

Sistem pencarian maklumat (IRS) dan jenisnya

Konsep ini timbul pada akhir 80-an dan awal 90-an abad yang lalu. Pada masa itulah prototaip pertama mereka muncul, baik di Rusia dan di luar negara. Menurut definisi, ia adalah sistem yang membolehkan anda mencari, memproses, dan memilih data permintaan yang diperlukan dalam pangkalan data khasnya sendiri, yang mengandungi penerangan tentang pelbagai sumber maklumat, serta peraturan untuk menggunakannya.

Tugas utamanya adalah untuk mencari maklumat yang diperlukan oleh pengguna. Untuk menjadikannya lebih berkesan, konsep perkaitan digunakan, iaitu, seberapa tepat hasil carian itu sendiri sepadan dengan pertanyaan tertentu.

Jenis utama IPS termasuk konsep berikut:

Pengindeksan katalog boleh dilakukan sama ada secara manual atau automatik dengan pengemaskinian indeks. Sebaliknya, hasil operasi sistem termasuk senarai khas. Ia termasuk hiperpautan kepada sumber yang diperlukan dan perihalan dokumen tertentu di Internet.

Katalog yang paling popular termasuk: Yahoo, Magellan(asing) danSenarai web, Siput dan @Rus daripada yang domestik.


Sistem perolehan maklumat asing yang paling biasa termasuk Google, Altavista, Excite. Rusia - Yandex dan Rambler.

  • Terdapat sejumlah besar jenis sistem maklumat yang berbeza di dunia, yang mengandungi banyak sumber maklumat. Sudah tentu, walaupun pelayan yang paling moden dan berkuasa tidak dapat memenuhi keperluan berjuta-juta pengguna. Itulah sebabnya istimewa enjin metasearch. Mereka secara serentak boleh memajukan permintaan pengguna ke pelbagai pelayan carian, dan berdasarkan generalisasi mereka, mereka dapat menyediakan pengguna dengan dokumen yang mengandungi pautan ke sumber yang diperlukan. Ini termasuk MetaCrawler atau SavvySearch.

Sejarah penciptaan IPS

IPS pertama muncul pada pertengahan 90-an abad ke-20. Mereka sangat mengingatkan indeks biasa yang terdapat dalam mana-mana buku, beberapa jenis buku rujukan. Pangkalan data mereka mengandungi kata kunci (perkataan) khas yang cara yang berbeza dikumpulkan dari banyak laman web. Memandangkan teknologi Internet tidak sempurna, carian itu sendiri dilakukan hanya menggunakan kata kunci.

Tidak lama kemudian, carian teks penuh khas telah dibangunkan untuk memudahkan pencarian diperlukan oleh pengguna maklumat. Sistem merekodkan kata kunci. Terima kasih kepadanya, pengguna boleh membuat pertanyaan yang diperlukan untuk perkataan dan pelbagai frasa tertentu.

Salah satu yang pertama ialah Wandex. Ia telah dibangunkan oleh pengaturcara yang sangat terkenal Matthew Graham pada tahun 1993. Juga, pada tahun yang sama, "carian" baru "Aliweb" muncul (dengan cara itu, ia masih berfungsi dengan jayanya hingga ke hari ini). Walau bagaimanapun, mereka semua mempunyai struktur yang agak kompleks dan tidak mempunyai teknologi moden.

Salah satu yang paling berjaya ialah WebCrawler, yang pertama kali dilancarkan pada tahun 1994. Ciri tersendiri dan kelebihan utama yang membezakannya daripada enjin carian lain ialah ia boleh mencari sebarang kata kunci pada halaman tertentu. Selepas ini, ia menjadi sejenis standard untuk semua IPS lain yang dibangunkan kemudian.

Tidak lama kemudian, enjin carian lain muncul, yang kadangkala bersaing antara satu sama lain. Ini ialah Excite, AltaVista, InfoSeek, Inktomi dan banyak lagi. Sejak 1996, netizen Rusia mula bekerja dengan Rambler dan Aport. Tetapi kejayaan sebenar untuk Internet Rusia adalah Yandex, dicipta pada tahun 1997.

Analog Rusia Google ini telah menjadi kebanggaan sebenar pengaturcara Rusia. Hari ini, ia dengan yakin memerah pesaingnya dalam RuNet dan juga merupakan salah satu peneraju dalam pertanyaan carian dalam kalangan sistem mendapatkan maklumat di Rusia.

Hari ini, terdapat banyak "enjin carian" khas yang dicipta untuk menyelesaikan masalah tertentu. Sebagai contoh, sistem maklumat dan pengambilan "Patron" direka untuk menyimpan dan mencari data pada kartrij untuk pelbagai senjata dan kini digunakan oleh Kementerian Dalam Negeri dan perkhidmatan perisikan, dan oleh pemburu profesional dan amatur.

Terdapat yang lain yang direka untuk notari, doktor, jurutera, tentera, peminat kereta, dll.

Bagaimanakah IPS berfungsi?

Kerja sistem pencarian maklumat adalah sangat kompleks. Walau bagaimanapun, jika anda mahu, anda boleh memahami strukturnya. Perkara pertama yang perlu diperhatikan ialah terdapat program khas - ia dipanggil robot carian (labah-labah). Program ini secara sistematik memantau pelbagai halaman dan mengindeksnya.

Pelayan web mencipta permintaan pengguna untuk mendapatkan maklumat ini atau itu, dan kemudian memberikan permintaan ini kepada enjin carian. Enjin carian memeriksa pangkalan data yang diperlukan, kemudian menyusun senarai lengkap halaman, dan kemudian menghantarnya ke pelayan web. Ia, seterusnya, akhirnya membentuk semua hasil pertanyaan ke dalam bentuk "boleh dibaca", kemudian memindahkannya ke "komputer" pengguna.

IPS bertujuan untuk tujuan berikut:

  • Simpan sejumlah besar data;
  • Menjalankan carian pantas untuk maklumat yang diperlukan;
  • Tambah dan alih keluar pelbagai data;
  • Paparkan maklumat dalam bentuk yang ringkas dan mudah.

Terdapat beberapa jenis utama IPS:

  • Automatik
  • Bibliografi
  • Perbualan
  • Dokumentari

Apakah enjin carian yang paling popular hari ini?

Di tempat pertama, tanpa sebarang keraguan, adalah pemimpin yang sangat diperlukan - Google. Hari ini, kira-kira 80 peratus daripada pelbagai permintaan dunia dalam pelbagai bidang ditujukan kepadanya. Bagi tempat kedua, ia juga layak diduduki oleh eBay Amerika.

Di tempat ketiga ialah "Yandex" domestik kami, Rusia. Di tempat keempat ialah Yahoo dan di tempat kelima ialah MSN. Satu lagi pelayar domestik, tetapi hanya menduduki tempat ke-10 dalam ranking Eropah, ialah "Rambler" Rusia.

Google

Enjin carian ini dikenali oleh sebilangan besar pengguna. Hari ini ia adalah sistem paling popular pertama di dunia! Ia memproses lebih daripada 41 bilion pertanyaan setiap bulan dan mengindeks 25 bilion halaman.

Bagi sejarah penciptaan Google, pada tahun 1996, sepasang pelajar Universiti Stanford, Larry Page dan Sergey Brin, membangunkan pelayar berdasarkan kaedah carian baharu. Mereka menyebutnya ringkas dan padat, sama seperti reka bentuk enjin carian Google. Nama sebenar google ialah perkataan googol yang herot (nombor sepuluh hingga kuasa seratus).

Ia berdasarkan khas robot carian, yang dipanggil "Googlebot". Ia mengimbas halaman dan mengindeksnya. Sebagai algoritma pihak berkuasa, PS ini . Malah, dialah yang memastikan bagaimana halaman akan dipaparkan kepada pelawat dalam hasil carian.

Salah satu yang pertama, syarikat ini dibangunkan dan dalam pelbagai bahasa, yang sangat memudahkan kemasukan data ke dalam sistem. Nah, dan akhirnya, ia berfungsi sebagai asas untuk perkataan "google", yang semakin banyak ditemui dalam slanga remaja muda.

« Yahoo» - kedua paling popular di Amerika Syarikat. Ia diasaskan pada tahun 1994 oleh dua pelajar siswazah Stanford, David Filo dan Jerry Yang. Pada akhir 90-an, mereka memperoleh portal RocketMail dan berdasarkannya mereka mencipta pelayan mel Yahoo percuma. Hari ini, anda boleh menyimpan sebarang bilangan e-mel pada pelayannya. Pada tahun 2010, sumber mel berbahasa Rusia muncul - Yahoo! Mel.

Yandex

Salah satu enjin carian Rusia terbaik, tanpa keraguan, ialah Yandex. Hari ini ia menduduki tempat keempat dari segi jumlah permintaan. Pada masa yang sama, dari segi populariti, Yandex hari ini menduduki tempat pertama di Persekutuan Rusia. Jumlah pertanyaan yang dijana melebihi 250 juta setiap hari

Ia diperkenalkan pada September 1997, dan sudah pada Mei 2011, dengan meletakkan sahamnya dalam IPO, syarikat ini mampu memperoleh jumlah saham terbesar di kalangan syarikat Internet lain.

Hari ini, Yandex mempunyai 50 perkhidmatan, beberapa daripadanya unik - Yandex.Search, Yandex.Maps, Yandex.Market. selain itu, pengguna Rusia Saya sangat berminat dengan perkhidmatan seperti "Carian Blog", "Trafik Yandex". Pertanyaan asas untuk pengguna terutamanya dari negara jiran berikut: Rusia, Belarus, Turki dan Kazakhstan.

Dari segi sejarah, syarikat itu diasaskan oleh ahli perniagaan dan pengaturcara Arkady Volozh pada tahun 1989. Nama syarikat itu sendiri dicipta oleh Ilya Segalovich, pengarah Yandex. Terima kasih kepada kerjasama dengan Institut Masalah Penghantaran Maklumat, kamus rujukan yang boleh dicari telah dicipta.

Tidak seperti pelayar lain, ia juga mengambil kira morfologi bahasa Rusia. Oleh itu, sistem itu sendiri direka khusus untuk berfungsi dalam segmen Internet berbahasa Rusia.

Sejak 2010, sebagai tambahan kepada pelayar Yandex.ru, enjin carian lain, Yandex.com, telah muncul. Sumber Internet ini digunakan untuk mencari di portal asing.

Sistem carian "Ebay»

Ebay ialah syarikat Internet dari Amerika Syarikat yang pakar dalam menjalankan lelongan dalam talian. Ia menguruskan portal eBay.com, serta versi di negara lain di seluruh dunia. Di samping itu, syarikat itu memiliki satu lagi eBay Enterprise.

Pengasas syarikat itu ialah pengaturcara Amerika Pierre Omidyar, yang pada pertengahan 90-an membangunkan lelongan dalam talian untuk portal peribadinya. Pada masa yang sama, eBay adalah sejenis perantara dalam pembelian dan penjualan. Untuk menggunakannya, penjual membayar yuran tertentu, dan pembeli mendapat peluang untuk menggunakan tapak secara percuma.

Prinsip umum operasinya adalah seperti berikut:

  • Pada asasnya semua orang adalah baik
  • Semua orang boleh menyumbang
  • Dalam komunikasi terbuka, orang menunjukkan kualiti terbaik mereka

Sudah pada tahun 1995, berjuta-juta item yang berbeza telah dijual di beribu-ribu lelongan dalam talian. Hari ini, ia adalah platform yang berkuasa untuk membeli dan menjual, baik oleh individu dan entiti undang-undang.

Sejak 2010, versi bahasa Rusia bagi sumber popular telah muncul dan mula dipanggil "Pusat Perdagangan Antarabangsa eBay". Pembayaran di lelongan dibuat melalui sistem pembayaran PayPal.

Untuk menjual barangan di portal ini, anda perlu menulis berapa kosnya, harga permulaannya, bila lelongan akan bermula, dan juga berapa lama lelongan akan berlangsung. Seperti dalam lelongan biasa, pembida tertinggi mendapat item yang dipilih.

Salah satu kelebihan lelongan sedemikian ialah penjual dan pembeli boleh ditempatkan di mana-mana sahaja di dunia, dan kehadiran cawangan tempatan dan rangka masa memberi peluang kepada sejumlah besar penjual dan pembeli untuk mengambil bahagian dalam lelongan.

Enjin carian ini ialah pelayar Internet terkemuka yang dibangunkan oleh Microsoft. Ia muncul serentak dengan keluaran sistem pengendalian pertama, Windows 95. Kemudian, perkhidmatan e-mel Hotmail, serta pelbagai laman web Microsoft, mula menggunakan nama ini. Pada awal tahun 2002, ia merupakan salah satu penyedia Internet terbesar di Amerika Syarikat dan mempunyai 9 juta pelanggan.

Sistem carianRambler

Enjin carian Rusia utama kedua ialah portal Internet "Rambler". Pada terasnya, bersama-sama dengan Yandex, ia adalah pengasas Runet, serta pemain utama dalam pasaran perkhidmatan media.

Pengasasnya ialah Sergei Lysakov, yang pada tahun 1994 membangunkan sistem carian, dan pada tahun 1996 domain www.rambler.ru telah didaftarkan. Sejak 2012, Rambler mula bekerja sebagai portal berita.

Hari ini ia berada di kedudukan ke-11 dalam populariti di kalangan tapak Rusia yang lain. Juga, pengelas Rambler Top-100 khas telah dibangunkan. Pada dasarnya, ia adalah yang pertama di Rusia. Hari ini ia adalah katalog mudah untuk objek hartanah "Rambler - Hartanah".

Enjin carianmel

Salah satu perkhidmatan pos terbesar telah dicipta pada tahun 1998, Mail.ru. Hari ini ia adalah perkhidmatan e-mel, katalog sumber Internet dan bahagian maklumat. Sebagai tambahan kepada mel yang sangat mudah, ia mempunyai beberapa projek khas yang sangat popular dan diperlukan oleh pelanggan: "Auto Mail.ru", Poster "Mail.ru", "Children of mail.ru", "Health mail.ru ”, "Lady mail. ru", "News mail.ru" dan "Real Estate mail.ru".

Bagi peminat sukan dan Hi-Tech terdapat bahagian yang sepadan.

Ini menyimpulkan bahan saya. Jika anda menyukainya, sila langgan blog saya dan jemput keluarga, rakan dan kenalan anda.

(Tiada penilaian lagi)

Baca: 469 kali

Dengan tuntutan terhadap seorang Rusia yang memesan dari kedai dalam talian asing telefon pintar baharu Motorola? Terdapat beberapa nota mengenai topik ini ketika itu, dan hampir kesemuanya boleh dirumuskan secara ringkas: “Pihak berkuasa Rusia sedang mengetatkan skru dan rata-rata orang Rusia tidak lagi boleh memesan apa sahaja yang mereka perlukan walaupun melalui Internet - pegawai fiskal dan undang-undang agensi penguatkuasa meletakkan jejari di mana-mana." Perlu diingatkan bahawa kenyataan sedemikian adalah tipikal untuk hampir mana-mana orang yang, berhadapan dengan situasi yang tidak standard untuk dirinya sendiri, di mana terdapat dakwaan pelanggaran hak, bermula, tanpa memahaminya, untuk menyalahkan semua orang kecuali dirinya sendiri untuk segala-galanya. Dengan import telefon pintar, keadaan adalah tepat di kawasan ini. Walau bagaimanapun, kes ini jauh dari yang pertama. Beberapa tahun yang lalu, salah seorang dari Rusia, setelah membeli penghala Cisco di eBay, menghadapi situasi yang sama di kastam Rusia. Dan sebelum dan selepas terdapat beberapa kes lain yang serupa. Mari kita cuba memikirkannya.

Hakikatnya ialah di Rusia, atau lebih tepatnya di wilayah Kesatuan Kastam, termasuk Rusia, Belarus dan Kazakhstan, peraturan import telah berkuat kuasa selama beberapa tahun. cara kriptografi, yang merangkumi banyak alat dan item lain yang kami tidak fikirkan bahawa ia termasuk dalam konsep alat penyulitan. Masih terdapat lebih banyak khabar angin dan mitos mengenai topik ini daripada maklumat yang boleh dipercayai. Salah tanggapan utama ialah dua kedudukan dan terbitannya: "Produk penyulitan Cisco tidak boleh diimport ke Rusia" dan "Saya boleh memesan apa sahaja yang saya mahu dari kedai atau lelongan dalam talian asing dan menerimanya di Rusia tanpa sebarang masalah." Ini tidak benar, dan dalam artikel ini kami ingin menjawab soalan yang paling biasa mengenai import produk IT, dan khususnya, alat penyulitan.

Dan apakah kaitan penyulitan dengannya?

Dokumen yang mengawal selia import dan eksport penyulitan bermaksud mentakrifkan bahawa cara penyulitan ialah “perkakasan, perisian dan alatan perisian perkakasan, sistem dan kompleks yang melaksanakan algoritma untuk transformasi kriptografi maklumat dan bertujuan untuk melindungi maklumat daripada capaian yang tidak dibenarkan apabila dihantar melalui saluran komunikasi dan (atau) semasa pemprosesan dan penyimpanannya.” Di satu pihak, ini adalah definisi yang sangat luas, dan sebaliknya, definisi yang tidak spesifik sepenuhnya yang boleh ditafsirkan secara berbeza dalam situasi yang berbeza. Adakah pengekodan sama dengan penyulitan? A Tandatangan elektronik? Bagaimana pula dengan pengesahan kriptografi?

Malah, dari sudut pandangan pihak berkuasa kastam, bukan sahaja cara penyulitan yang ditakrifkan dalam perenggan di atas tertakluk kepada kawalan, tetapi juga:

  • perlindungan tiruan bermaksud
  • alat tandatangan digital elektronik
  • alat pengekodan
  • cara menghasilkan kunci kriptografi
  • kunci kriptografi itu sendiri
  • sistem, peralatan dan komponen yang direka atau diubah suai untuk melaksanakan fungsi kriptanalitik
  • sistem, peralatan dan komponen yang direka bentuk atau diubah suai untuk digunakan kaedah kriptografi Menyebarkan penjanaan kod untuk menyebarkan sistem spektrum, termasuk lompat kod untuk sistem lompat frekuensi
  • sistem, peralatan dan komponen yang direka atau diubah suai untuk menggunakan teknik penyaluran kriptografi atau kod keselamatan untuk sistem jalur lebar ultra termodulat masa.

Senarai itu ternyata agak besar, tetapi untuk tujuan import definisi itu sendiri tidak begitu penting. Apa yang lebih penting ialah apa yang sebenarnya dikawal oleh kastam. Senarai 2.19 tidak mengandungi kumpulan alat penyulitan yang ditakrifkan secara berasingan dan kod yang sepadan dengan apa yang dipanggil Nomenklatur Komoditi bersatu untuk Aktiviti Ekonomi Asing (USFEA). Senarai 2.19 menunjukkan nama barangan dan Kod Aktiviti Ekonomi Asing Bersatu mereka, berdasarkan pihak berkuasa kastam boleh mengenal pasti produk yang diimport sebagai disulitkan (dan tidak kira sama ada sebenarnya terdapat penyulitan di sana atau tidak). Berhubung dengan produk Cisco, petikan daripada Penyenaraian 2.19 kelihatan, sebagai contoh, seperti berikut:

Anda tidak sepatutnya mendalami perkara yang tertulis dalam jadual :-) Adalah lebih penting untuk memahami bahawa pihak berkuasa kastam mengawal semua yang kami gunakan dalam satu atau lain cara dalam kehidupan seharian kami atau untuk tujuan perniagaan - komputer, telefon pintar, komputer riba, Penerima GPS, penghala , pusat akses wayarles, perisian, TV dan kotak set atas, dsb. Inilah sebabnya mengapa telefon pintar Motorola mendapat kecaman dalam kes sensasi baru-baru ini - ia dianggap sebagai alat penyulitan dari sudut pandangan kastam. Walaupun harus diakui bahawa dia dianggap sedemikian bukan sahaja dari sudut adat, tetapi juga akal memberitahu kami bahawa mana-mana telefon pintar moden mempunyai penyulitan. Ia berada dalam cip yang melaksanakan sebarang standard komunikasi mudah alih (contohnya, A5 dalam GSM). Ia tersedia dalam sistem pengendalian Android atau iOS atau Blackberry. Ia tersedia dalam penyemak imbas Safari atau versi mudah alih pelayar biasa yang lain. Ia berada dalam pelanggan mel pada telefon pintar. Ia wujud... Tetapi anda tidak pernah tahu terdapat aplikasi atau litar mikro pada telefon pintar yang mempunyai penyulitan. Jika kita melihat banyak peranti lain yang disenaraikan dalam jadual, kita akan faham bahawa peranti itu benar-benar mempunyai penyulitan. Sekurang-kurangnya, untuk melindungi maklumat pada peranti itu sendiri, untuk menyimpan kunci atau maklumat pengesahan, atau untuk pengurusan selamat (SSH juga penyulitan).

Jika produk tidak mempunyai fungsi penyulitan sebagai ciri teras atau tidak bertujuan untuk digunakan sebagai alat penyulitan, adakah ia akan dianggap sebagai alat penyulitan atau tidak?

Letakkan diri anda sebagai pegawai kastam biasa... Bagaimana dia akan tahu untuk apa anda menggunakan produk yang diangkut merentasi sempadan? Mungkin anda akan menggantung telefon pintar yang dibeli di eBay dalam bingkai di dinding, atau mungkin anda akan menggunakannya untuk memalu paku. Atau mungkin anda seorang pengganas tersembunyi atau pelampau yang merancang untuk menggunakan alat komunikasi yang diimport untuk berinteraksi dengan rakan sejenayah anda? Tetapi mengetepikan jenaka, kedudukan pihak berkuasa adalah mudah - jika produk boleh melaksanakan algoritma untuk transformasi kriptografi maklumat, ia dalam apa jua keadaan dianggap sebagai alat penyulitan, walaupun penyulitan adalah kecil atau fungsi yang tidak digunakan produk.

Dengan kata lain, ternyata hampir mana-mana produk IT yang melintasi sempadan Persekutuan Rusia menjadi tertakluk kepada peraturan kastam dan tertakluk kepada semua peraturan untuk mengimport alat penyulitan. Dan tidak kira sama sekali siapa pelanggan produk sedemikian - individu atau entiti undang-undang.

Adakah terdapat prosedur import tunggal untuk alat penyulitan yang berbeza?

Semua alat penyulitan (baca hampir semua produk IT) mengikut prosedur import dibahagikan kepada dua kumpulan:
  • Prosedur import yang dipermudahkan. Bermakna import di bawah apa yang dipanggil pemberitahuan berdaftar, yang dikeluarkan untuk cara penyulitan yang boleh dimasukkan dalam “Senarai kategori barangan (produk) yang merupakan cara penyulitan (kriptografi) atau mengandungi cara penyulitan (kriptografi), teknikal dan kriptografi. ciri-ciri yang tertakluk kepada pemberitahuan” (lampiran kepada Peraturan Import yang dinyatakan sebelum ini, selepas ini dirujuk sebagai Senarai NTF).
  • Import di bawah lesen. Alat penyulitan yang tidak termasuk dalam Senarai NTV diimport berdasarkan lesen sekali sahaja daripada Kementerian Perindustrian dan Perdagangan Rusia, yang dikeluarkan berdasarkan kesimpulan Pusat Pelesenan, Pensijilan dan Perlindungan Rahsia Negara. FSB Rusia (selepas ini dirujuk sebagai TsLSZ) mengenai kemungkinan mengimport alat penyulitan. Lesen dan kesimpulan dikeluarkan kepada pengimport untuk penghantaran khusus kepada pelanggan tertentu (pengguna).

Apakah yang diimport di bawah skim dipermudahkan?

Sebaik-baiknya, produk itu berada di bawah kategori "dipermudahkan". Dalam kes ini, importnya tidak berbeza dengan import mana-mana produk lain yang tidak dihadkan oleh sebarang larangan. Hari ini senarai ini termasuk:
  • Produk yang mengandungi penyulitan (kriptografi) bermakna mempunyai mana-mana komponen berikut:
    • algoritma kriptografi simetri yang menggunakan kunci kriptografi tidak melebihi 56 bit panjangnya (ini adalah DES biasa yang jarang digunakan hari ini); atau
    • algoritma kriptografi asimetri berdasarkan mana-mana kaedah berikut (RSA yang sama dalam pelaksanaan modennya tidak termasuk dalam pengecualian ini sama ada):
      • pada pemfaktoran integer yang saiznya tidak melebihi 512 bit;
      • pada pengiraan logaritma diskret dalam kumpulan pendaraban medan terhingga
        saiz tidak melebihi 512 bit; atau
      • pada logaritma diskret dalam kumpulan, berbeza daripada yang dinamakan di atas
        subperenggan “b” bersaiz tidak melebihi 112 bit.
  • Produk yang mengandungi alat penyulitan (kriptografi) dengan fungsi terhad berikut:
    • pengesahan, yang merangkumi semua aspek kawalan akses, di mana tiada penyulitan fail atau teks, kecuali penyulitan, yang berkaitan secara langsung dengan perlindungan kata laluan, peribadi nombor pengenalan atau data serupa untuk melindungi daripada capaian yang tidak dibenarkan;
    • tandatangan digital elektronik.
  • Alat penyulitan (kriptografi) ialah komponen sistem pengendalian perisian yang keupayaan kriptografinya tidak boleh diubah oleh pengguna, dan yang direka untuk dipasang oleh pengguna tanpa sokongan penting selanjutnya daripada vendor dan dokumentasi teknikal(perihalan algoritma transformasi kriptografi, protokol interaksi, perihalan antara muka, dsb.) yang tersedia. Sistem pengendalian yang digunakan secara meluas - Windows, Linux, dll. - termasuk dalam pengecualian ini.
  • Peralatan penyulitan (kriptografi) yang direka khas dan terhad kepada transaksi perbankan atau kewangan. Ini adalah ATM, peralatan untuk SWIFT, dsb. Cisco menghasilkan 800 siri penghala khusus untuk tujuan ini dengan kod PCI dalam kod produk.
  • Kad pintar peribadi (kad pintar).
  • Menerima peralatan untuk siaran radio, televisyen komersial atau peralatan komersial yang serupa untuk penyiaran kepada khalayak terhad tanpa penyulitan isyarat digital, kecuali apabila penyulitan digunakan semata-mata untuk mengawal saluran video atau audio dan menghantar bil atau mengembalikan maklumat berkaitan program kepada penyedia penyiaran.
  • Peralatan, keupayaan kriptografi yang tidak tersedia kepada pengguna, direka khusus dan terhad untuk digunakan oleh mana-mana yang berikut
    • perisian dalam bentuk yang dilindungi salinan
    • akses kepada mana-mana yang berikut:
      • kandungan yang dilindungi salinan disimpan hanya pada media storan boleh dibaca;
      • maklumat yang disimpan dalam bentuk yang disulitkan pada media, apabila media ini ditawarkan untuk dijual kepada orang ramai dalam set yang sama
    • kawalan penyalinan maklumat audio dan video yang dilindungi oleh hak cipta.
  • Mudah alih atau mudah alih cara radio-elektronik untuk tujuan awam (cth., untuk digunakan dalam sistem radio selular awam komersial) yang tidak mampu untuk penyulitan hujung ke hujung (iaitu, pelanggan-ke-pelanggan). Pengecualian ini termasuk telefon mudah alih biasa dan banyak model telefon pintar.
  • Peralatan radio-elektronik wayarles yang menyulitkan maklumat hanya dalam saluran radio dengan julat wayarles maksimum tanpa amplifikasi dan penyampaian kurang daripada 400 m mengikut spesifikasi teknikal pengilang. Titik akses rumah berada dalam pengecualian ini.
  • Penyulitan (kriptografi) bermaksud digunakan untuk melindungi saluran teknologi maklumat dan sistem telekomunikasi dan rangkaian komunikasi.
  • Produk yang mempunyai fungsi kriptografi disekat oleh pengeluar. Sebagai contoh, Cisco untuk kebanyakannya barisan produk mengeluarkan versi khas peralatan dengan perisian NO PAYLOAD ENCRYPTION - “NPE” yang dipasang. Perisian sedemikian tersedia untuk penghala Cisco 800, ISR 1900, ISR 2900, ISR 3900, 2100 CGR, ASR1000, ASR 903, Cisco Catalyst 3560-X, Catalyst 3750-X, 2500 CGS, peralatan untuk suis persidangan video, Nexus 7000 sistem komunikasi bersatu . Senarai produk yang diubah suai ini sentiasa berkembang.

Apakah yang diimport mengikut skim "kompleks"?

Sekiranya tiada pemberitahuan untuk barangan yang melintasi sempadan, maka ia diimport mengikut skim "kompleks". Walaupun secara rasmi ia boleh dikeluarkan dalam versi yang dipermudahkan. Keadaan ini sering timbul untuk produk baru sepenuhnya yang mana pengilang belum mempunyai masa (atau tidak merancang sama sekali) untuk mengeluarkan pemberitahuan.

Adakah tiada pilihan lain?

Peraturan menunjukkan beberapa pengecualian apabila alat penyulitan boleh diimport tanpa pemberitahuan, tetapi juga tanpa lesen daripada Kementerian Perindustrian dan Perdagangan. Ini berlaku dalam kes berikut:

  • apabila mengimport dan mengeksport alat penyulitan untuk pembaikan atau penggantian mengikut kewajipan di bawah kontrak (kontrak, perjanjian);
  • semasa import sementara dan eksport sementara alat penyulitan untuk tujuan:
    • menjalankan peperiksaan saintifik dan teknikal
    • kajian saintifik;
    • mempamerkan di pameran;
  • apabila mengimport dan mengeksport alat penyulitan untuk memenuhi keperluan organisasi sendiri tanpa hak untuk mengedarkannya dan menyediakan perkhidmatan pihak ketiga dalam bidang penyulitan;
  • semasa pengangkutan transit alat penyulitan melalui wilayah negara anggota kesatuan kastam.

Walau bagaimanapun, dalam kes ini, masih perlu mendapatkan kesimpulan yang sesuai daripada Makmal Pusat Perlindungan Kesihatan.

Siapa yang harus mengendalikan kertas kerja untuk mengimport produk penyulitan?

Dalam kes import di bawah pemberitahuan, pendaftarannya dijalankan oleh pengilang produk yang diimport. Contohnya, Cisco mengisi pemberitahuan untuk produknya dalam salinan, selepas itu maklumat yang berkaitan dimasukkan dalam Senarai Dokumen Saintifik dan Teknikal, dan Cisco menyerahkan sendiri pemberitahuan untuk pendaftaran di Pusat Perlindungan Buruh Pusat. Selepas pendaftaran, satu salinan pemberitahuan dikembalikan kepada Cisco. TsLSZ juga menghantar maklumat tentang pemberitahuan berdaftar kepada EEC untuk diterbitkan di laman web www.tsouz.ru/db/entr/notif/Pages/default.aspx (secara langsung, anda boleh menyemak sendiri kesahihan import produk anda gunakan). Secara purata, prosedur pendaftaran pemberitahuan mengambil masa sekurang-kurangnya 2-3 minggu. Import alat penyulitan termasuk dalam Senarai NTF dijalankan berdasarkan maklumat pada pemberitahuan berdaftar tanpa pendaftaran lain dokumen yang membenarkan.

Dalam kes import di bawah skim "kompleks", semua kerja dengan badan kerajaan yang diberi kuasa (TsLSZ dan Kementerian Perindustrian dan Perdagangan) dijalankan oleh pengimport (dan bukan pengguna). Prosedur untuk mendapatkan lesen dan semua maklumat yang diperlukan dibentangkan secara terperinci di laman web Kementerian Perindustrian dan Perdagangan - www.minpromtorg.gov.ru/services/permission/export-import. Pada masa yang sama, Peraturan Import tidak membezakan antara entiti undang-undang atau individu, tetapi dalam praktiknya, seorang warganegara biasa tidak mungkin dapat melalui semua prosedur untuk berkomunikasi dengan pihak berkuasa kawal selia.

Jumlah tempoh untuk mendapatkan lesen daripada Kementerian Perindustrian dan Perdagangan, dengan mengambil kira pemeriksaan dan penerimaan kesimpulan TsLSZ, tidak boleh melebihi 90 hari dari tarikh pendaftaran permohonan pengimport kepada TsLSZ. Amalan semasa menunjukkan bahawa, dengan syarat dokumen disediakan dengan betul, mendapatkan permit mengambil masa kira-kira 7 hingga 9 minggu (TsLSZ - dari 4 hingga 6 minggu, Kementerian Perindustrian dan Perdagangan - tidak lebih daripada 3 minggu). Dalam kes ini, anda boleh memesan produk serta-merta selepas menerima kesimpulan TsLSZ. Prosedur untuk mendapatkan lesen daripada Kementerian Perindustrian dan Perdagangan boleh digabungkan dengan proses pembuatan dan pengangkutan produk ke Rusia.

Dalam kes di atas dengan import telefon pintar, ia sepatutnya berada di bawah skim yang dipermudahkan; tetapi hanya selepas entiti undang-undang Rusia yang mewakili kepentingan Motorola telah mendaftarkan pemberitahuan pada telefon pintar ini. Memandangkan model ini baru dan tidak dibekalkan ke Rusia pada masa pesanan, skim "kompleks" telah digunakan pada telefon pintar. Pada masa yang sama, penyediaan dokumen untuk mengimport telefon pintar sepatutnya dikendalikan bukan oleh pembeli, tetapi oleh pengimport - kurier atau syarikat logistik, menghantar barangan merentasi sempadan. Dia, sudah tentu, tidak mempunyai sebarang permit khas untuk mengimport alat penyulitan, dan kastam juga tidak menemui model telefon pintar yang diangkut dalam pangkalan data pemberitahuan berdaftar. Akibatnya, pelanggaran undang-undang kastam timbul.

Apakah penalti kerana melanggar peraturan untuk mengimport produk penyulitan?

Seperti yang tertulis dalam saman yang dibawa oleh kekasih telefon pintar Motorola yang cedera, dia didakwa melanggar Bahagian 1 Perkara 16.3 Kod Kesalahan Pentadbiran (“Kegagalan mematuhi sekatan ke atas import barangan”). Malah, kastam tidak mengklasifikasikan kesalahan dengan betul - bahagian 2 artikel ini sepatutnya digunakan. Sebagai tambahan kepada Perkara 16.3, adalah mungkin untuk memohon (tetapi kepada pengimport) Artikel 16.2 "Bukan pengisytiharan atau pengisytiharan palsu" dan 16.7 "Pembentangan dokumen tidak sah semasa pengisytiharan kastam." Semua artikel ini boleh digunakan untuk entiti undang-undang yang mengimport alat penyulitan merentasi sempadan kastam Persekutuan Rusia, dan kepada seseorang individu, yang telah ditunjukkan lebih daripada sekali sejak beberapa tahun lalu.

Tetapi jika alat penyulitan telah melintasi sempadan dan sudah dijual di wilayah Rusia, maka pembeli tidak berada dalam bahaya. Hakikatnya ialah pembelian alat penyulitan di wilayah Persekutuan Rusia pada masa ini tidak dikawal dalam apa jua cara. Perundangan semasa tidak mewajibkan pembeli di Rusia menyemak syarat import produk yang dibelinya. Hanya dalam hal memesan alat penyulitan di luar Persekutuan Rusia dan mengimportnya merentasi sempadan Kesatuan Kastam, semua peraturan yang diterangkan di atas mula berkuat kuasa.

Bukankah pengguna akhir terlibat dalam proses membuat pesanan mereka?

Peliknya, tidak. Peraturan tidak mentakrifkan prosedur yang mesti dijalankan oleh pengguna. Tetapi selaras dengan amalan yang ditetapkan, pengguna memberikan sokongan kepada pengimport dengan memberikan TsLSZ surat maklumat mengenai penggunaan peralatan yang diimport (untuk skim "kompleks"), kerana Pengimport bertanggungjawab untuk menunjukkan untuk siapa alat penyulitan itu diimport. Surat itu mengandungi maklumat minimum yang diperlukan:
  • nombor katalog (P/N), nama, kuantiti alat penyulitan yang diimport
  • tujuan import
  • penerangan ringkas tentang persekitaran operasi – penyetempatan, pengguna, maklumat yang diproses
  • tujuan alat penyulitan yang diimport, lokasinya (alamat).

Surat maklumat mestilah sepadan dengan kandungan permohonan kepada CLSP daripada pengimport. Ketiadaan surat maklumat boleh ditafsirkan sebagai ketidakjujuran pengimport dan, sebagai peraturan, bermakna keengganan 100% untuk mengeluarkan sijil untuk pengimportan peralatan penyulitan.

Kami tidak pernah menemui amalan mengeluarkan surat seperti itu daripada pengguna - rakyat biasa.

Tetapi vendor lain memberi jaminan bahawa dia tidak mempunyai masalah dengan import. Mungkinkah ini boleh dilakukan?

Untuk memindahkan sebarang alat penyulitan merentasi sempadan kastam, tanpa mengira negara asal dan nama pengilang, dokumen mandatori adalah pemberitahuan berdaftar atau kesimpulan daripada TsLSZ (jika perlu, lesen daripada Kementerian Perindustrian dan Perdagangan Rusia juga diperlukan). Satu-satunya cara untuk memintas prosedur ini ialah mengimport peralatan secara haram.

Jika, apabila membeli produk dengan fungsi penyulitan, pembeli tidak dapat memperoleh maklumat daripada penjual tentang pemberitahuan berdaftar atau salinan lesen Kementerian Perindustrian dan Perdagangan Rusia, terdapat kebarangkalian tinggi bahawa produk ini diimport ke Rusia melanggar undang-undang.

Bagaimana jika saya mengimport peralatan tanpa penyulitan, dan kemudian mengemas kininya melalui Internet dan ternyata ia adalah alat penyulitan?

Dalam perundangan Rusia semasa, tindakan untuk menukar ciri kriptografi peranti yang telah ditempatkan dan dibeli di wilayah Rusia tidak dikawal dan tiada siapa yang boleh meramalkan akibat memuat turun naik taraf daripada Internet dengan fungsi kriptografi didayakan. Pada masa yang sama, pada masa ini terdapat amalan mendapatkan kebenaran daripada Pusat Import Produk yang membenarkan menukar ciri kriptografi peralatan sedia ada, contohnya, perisian pada media fizikal (CD/DVD) atau dimuat turun melalui Internet. Benar, amalan ini terpakai terutamanya kepada entiti undang-undang yang menggunakan alat penyulitan. Mereka mesti memahami bahawa pihak berkuasa kawal selia dan pemeriksaan mungkin mempunyai soalan untuk organisasi yang tidak pernah membeli produk kriptografi yang diimport untuknya di bawah kesimpulan Pusat Pinjaman Pusat, tetapi menggunakannya dalam aktivitinya.

Berhubung dengan rakyat biasa memuat turun perisian penyulitan dari Internet, amalan penguatkuasaan undang-undang masih belum berkembang.

Siapa yang mengawal import dan eksport alat penyulitan?

Bertentangan dengan kepercayaan popular bahawa peraturan import produk penyulitan di negara kita dijalankan oleh kastam atau FSB, ini tidak sepenuhnya benar, atau sebaliknya tidak betul sepenuhnya. Badan-badan ini pada dasarnya hanya menjalankan perintah organisasi yang lebih tinggi - Suruhanjaya Ekonomi Eurasia (selepas ini - EEC), yang dibuat oleh keputusan Presiden Persekutuan Rusia, Republik Belarus dan Republik Kazakhstan pada akhir tahun 2011.

EEC telah diwujudkan sebagai satu badan kawal selia tetap Kesatuan Kastam dan Ruang Ekonomi Bersama. Suruhanjaya mempunyai status badan pentadbir supranasional, tidak berada di bawah mana-mana kerajaan, dan keputusan Suruhanjaya adalah mengikat wilayah tiga negara, termasuk Rusia. Tugas utama EEC adalah untuk memastikan syarat untuk berfungsi dan pembangunan Kesatuan Kastam dan Ruang Ekonomi Bersama, serta untuk membangunkan cadangan untuk pembangunan integrasi selanjutnya. Kuasa Suruhanjaya Kesatuan Kastam yang dimansuhkan dipindahkan kepada EEC.

Selaras dengan keputusan Majlis Antara Negeri Komuniti Ekonomi Eurasia bertarikh 27 November 2009 "Mengenai peraturan bukan tarif bersatu kesatuan kastam Republik Belarus, Republik Kazakhstan dan Persekutuan Rusia," Peraturan Import semasa , dengan pindaan dan tambahan, berkuat kuasa mulai 1 Januari 2010. Penyertaan Rusia ke WTO pada 22 Ogos 2012 tidak mengubah apa-apa dalam bidang peraturan bukan tarif perdagangan asing.

Selepas menandatangani perjanjian mengenai penciptaan Kesatuan Ekonomi Eurasia, keadaan tidak mungkin berubah dan EEC masih kekal sebagai badan utama yang menentukan peraturan untuk import produk penyulitan, dan kastam hanya melaksanakan peraturan ini dalam amalan. FSB, atau lebih tepatnya TsLSZnya, menentukan perkara yang akan diimport mengikut skim yang dipermudahkan, dan perkara yang memerlukan lebih banyak usaha.

Sebagai kesimpulan, saya ingin menjawab 2 lagi soalan yang mungkin timbul semasa anda membaca bahan tersebut.

Adakah saya memerlukan lesen FSB untuk mengimport produk penyulitan?

Tidak. Walaupun nama yang sama, lesen daripada Kementerian Perindustrian dan Perdagangan untuk mengimport alat penyulitan dan lesen daripada FSB untuk aktiviti dengan alat penyulitan adalah cabang perundangan yang berbeza sama sekali.

Apakah dokumen yang mengawal import alat penyulitan ke dalam wilayah Persekutuan Rusia?

Dengan keputusan Lembaga Suruhanjaya Ekonomi Eurasia bertarikh 16 Ogos 2012. No. 134 "Mengenai tindakan undang-undang kawal selia dalam bidang peraturan bukan tarif" diluluskan:
  • "Senarai bersatu barangan yang larangan atau sekatan ke atas import atau eksport digunakan oleh negara anggota Kesatuan Kastam dalam rangka Komuniti Ekonomi Eurasia dalam perdagangan dengan negara ketiga," yang termasuk senarai cara penyulitan (kriptografi), importnya ke dalam wilayah kastam Kesatuan Kastam dan eksport dari wilayah kastam Kesatuan Kastam adalah terhad (selepas ini dirujuk sebagai Senarai 2.19).
  • Peruntukan mengenai penggunaan sekatan, termasuk Peraturan mengenai prosedur untuk import ke wilayah kastam Kesatuan Kastam dan eksport dari wilayah kastam Kesatuan Kastam penyulitan (kriptografi) bermakna (selepas ini dirujuk sebagai Peraturan Import).