Apakah jenis enjin carian mereka? Lihat apa itu "Enjin Carian" dalam kamus lain. Enjin carian dan direktori

Elemen utama Internet moden- Ini enjin carian atau enjin carian, Yandex, Rambler, Google dan lain-lain. Terdapat laut di Internet pelbagai maklumat, dan ia adalah enjin carian yang membantu pengguna mencari maklumat yang diperlukan dengan cepat.

Dalam buku teks atau buku ilmiah terdapat senarai istilah penting - mengikut abjad indeks mata pelajaran atau indeks. Indeks menyenaraikan istilah yang paling penting dalam buku ini ( kata kunci) dan nombor halaman yang dipaparkan.

Kerja enjin carian adalah berdasarkan prinsip yang sama. Pada asasnya, apabila pengguna memasukkan istilah carian (kata kunci), mereka dirujuk kepada indeks atau indeks subjek Internet - senarai semua kata kunci Internet, bersama-sama dengan halaman tempat ia muncul.

Enjin carian ialah program yang menyusun dan menyimpan indeks subjek Internet (indeks), dan juga mencari kata kunci tertentu di dalamnya.

Peringkat menyusun indeks dan mencarinya:

Mengumpul alamat halaman web di Internet

Senarai awal alamat halaman tapak web dimuatkan ke dalam enjin carian. Kemudian enjin carian, atau lebih tepatnya komponen – robot carian, mengumpul semua pautan hiperteks daripada setiap pautan halaman yang diberikan ke halaman lain dan menambah semua alamat yang terdapat dalam pautan ke senarai alamat asalnya. Oleh itu, senarai awal dengan cepat berkembang.

Mengepam keluar muka surat

Robot carian atau labah-labah merangkak halaman, memuat turun bahan teks daripadanya dan menyimpannya pada cakera komputernya, kemudian memindahkannya ke robot pengindeksan untuk pengindeksan.

Penyusunan indeks

Sebagai permulaan, teks halaman yang diindeks dikosongkan daripada semua elemen bukan teks (grafik, markup bahasa HTML dan lain-lain.). Seterusnya, perkataan-perkataan yang dipilih daripada teks dikurangkan kepada punca atau huruf nominatifnya. Batang perkataan yang dikumpul disusun dalam turutan abjad menunjukkan nombor muka surat, di mana asas diambil, dan nombor kejadian, di manakah asas pada halaman ini.

Cari

Apabila pengguna memasukkan perkataan ke dalam rentetan pertanyaan, enjin carian mengakses indeks. Mencari semua nombor halaman yang berkaitan dengan perkataan yang diberikan, dan menunjukkan kepada pengguna hasil carian (senarai halaman).

Kualiti enjin carian

Sinonim untuk kualiti carian ialah perkaitan. Berhubung dengan enjin carian perkataan relevan(berkaitan dengan perkara itu) hampir menjadi istilah utama. Perkaitan hasil carian enjin carian bermakna hasil tersebut mengandungi halaman yang berkaitan dengan maksud pertanyaan carian. Perkaitan atau kualiti carian adalah perkara yang agak rumit.

Satu lagi kriteria penting kualiti enjin carian adalah ketepatan.

Ketepatan adalah ukuran kualiti hasil yang dihasilkan, ia dikira sebagai kuantiti halaman yang berkaitan dalam jumlah volum halaman yang dikembalikan dalam hasil carian. Walau bagaimanapun, bukan sahaja ketepatan carian adalah penting, tetapi juga berkisar Keputusan Carian.

Bermula– susunan hasil carian mengikut perkaitan.

Tidak mustahil untuk mengatakan enjin carian yang lebih baik. Untuk pengguna enjin carian yang lebih baik, memberikan hasil yang paling relevan dan tepat. Bagi pemilik tapak, mesin yang baik ialah mesin yang tapaknya kelihatan jelas dan yang membawa nombor terhebat sasaran pengunjung.

Pendahuluan……………………………………………………………………………….2

1 Enjin carian: komposisi, fungsi, prinsip operasi

1.1 Komposisi enjin carian………………………………………………………………3

1.2 Ciri-ciri enjin carian…………………………………………..4

1.3 Prinsip enjin carian…………………………………………..4

2 Gambaran keseluruhan fungsi enjin carian

2.1 Asing enjin carian: komposisi dan prinsip operasi…………12

2.2 Enjin carian bahasa Rusia: komposisi dan prinsip operasi………..14

Kesimpulan………………………………………………………………………………16

Senarai rujukan…………………………………………………….17

pengenalan

Enjin carian telah lama menjadi sebahagian daripada Internet Rusia. Disebabkan oleh fakta bahawa mereka, walaupun dengan pelbagai cara, secara bebas menyediakan semua peringkat pemprosesan maklumat daripada penerimaannya daripada nod sumber utama kepada menyediakan pengguna dengan keupayaan untuk mencari, ia sering dipanggil enjin carian autonomi sistem .

Enjin carian kini besar dan mekanisme yang kompleks, yang bukan sahaja alat carian maklumat, tetapi juga kawasan yang menarik untuk perniagaan. Sistem ini mungkin berbeza dalam prinsip pemilihan maklumat, yang pada satu tahap atau yang lain terdapat dalam algoritma program pengimbasan indeks automatik, dan dalam peraturan kelakuan pekerja katalog yang bertanggungjawab untuk pendaftaran. Biasanya, dua penunjuk utama dibandingkan:

Skala spatial di mana IPS beroperasi ialah

Dan kepakaran dia.

Kebanyakan pengguna enjin carian tidak pernah memikirkan (atau memikirkannya, tetapi tidak menemui jawapan) tentang prinsip operasi enjin carian, tentang skema untuk memproses permintaan pengguna, tentang apa yang terdiri daripada sistem ini dan bagaimana ia berfungsi.. Enjin carian boleh dibandingkan dengan meja bantuan, yang ejennya mengelilingi perusahaan, mengumpul maklumat ke dalam pangkalan data. Apabila anda menghubungi perkhidmatan, maklumat diambil daripada pangkalan data ini. Data dalam pangkalan data menjadi lapuk, jadi ejen mengemas kininya secara berkala. Sesetengah perusahaan sendiri menghantar maklumat tentang diri mereka sendiri, dan ejen tidak perlu datang kepada mereka. Dalam kata lain, meja bantuan mempunyai dua fungsi: penciptaan dan kemas kini berterusan data dalam pangkalan data dan mencari maklumat dalam pangkalan data atas permintaan pelanggan.

1 Enjin carian: komposisi, fungsi, prinsip operasi

1.1 Komposisi enjin carian

Sistem carian ialah kompleks perisian dan perkakasan yang direka untuk mencari di Internet dan bertindak balas kepada permintaan pengguna, yang dinyatakan dalam bentuk frasa teks (pertanyaan carian), dengan menghasilkan senarai pautan ke sumber maklumat, mengikut urutan perkaitan ( sesuai dengan permintaan). Enjin carian antarabangsa terbesar: Google, Yahoo, MSN. Di Internet Rusia ini adalah Yandex, Rambler, Aport.

Begitu juga, enjin carian terdiri daripada dua bahagian: robot yang dipanggil (atau labah-labah), yang merangkak pelayan Web dan mencipta pangkalan data enjin carian.

Pangkalan robot terutamanya dibentuk dengan sendirinya (robot itu sendiri mencari pautan ke sumber baharu) dan, pada tahap yang lebih rendah, oleh pemilik sumber yang mendaftarkan tapak mereka dalam enjin carian. Sebagai tambahan kepada robot (agen rangkaian, labah-labah, cacing) yang membentuk pangkalan data, terdapat program yang menentukan penarafan pautan yang ditemui.

Prinsip pengendalian enjin carian ialah ia menanyakan katalog dalamannya (pangkalan data) untuk kata kunci yang ditentukan oleh pengguna dalam medan pertanyaan dan menghasilkan senarai pautan yang ditarafkan mengikut perkaitan.

Perlu diingatkan bahawa, apabila memproses permintaan pengguna tertentu, enjin carian beroperasi dengan tepat pada sumber dalaman (dan tidak memulakan perjalanan merentasi Web, seperti yang sering dipercayai oleh pengguna yang tidak berpengalaman), dan sumber dalaman, secara semula jadi, terhad. Walaupun pangkalan data enjin carian sentiasa dikemas kini, enjin carian tidak boleh mengindeks semua dokumen Web: bilangannya terlalu besar. Oleh itu, sentiasa ada kemungkinan bahawa sumber yang anda cari tidak diketahui oleh enjin carian tertentu.

1.2 Ciri-ciri enjin carian

Dalam kerja, proses carian dibentangkan dalam empat peringkat: perumusan (berlaku sebelum pencarian bermula); tindakan (memulakan carian); gambaran keseluruhan hasil (hasil yang pengguna lihat selepas mencari); dan penghalusan (selepas menyemak keputusan dan sebelum kembali ke carian dengan rumusan berbeza untuk keperluan yang sama). Skim carian maklumat tak linear yang lebih mudah terdiri daripada peringkat berikut:

Memperbaiki keperluan maklumat dalam bahasa semula jadi;

Memilih yang perlu perkhidmatan carian rangkaian dan pemformalan yang tepat untuk merekodkan keperluan maklumat dalam bahasa perolehan maklumat tertentu (IRL);

Pelaksanaan pertanyaan yang dibuat;

Pra-pemprosesan dan pemilihan senarai pautan ke dokumen yang diterima;

Menghubungi alamat terpilih untuk dokumen yang diperlukan;

Pratonton kandungan dokumen yang ditemui;

Menyimpan dokumen yang berkaitan untuk kajian kemudian;

Mengekstrak pautan daripada dokumen yang berkaitan untuk mengembangkan pertanyaan;

Mempelajari keseluruhan susunan dokumen yang disimpan;

Jika keperluan maklumat tidak dipenuhi sepenuhnya, kemudian kembali ke peringkat pertama.

1.3 Cara enjin carian berfungsi

Matlamat mana-mana enjin carian adalah untuk menyampaikan kepada orang maklumat yang mereka cari. Ajar orang untuk membuat permintaan "betul", i.e. pertanyaan yang mematuhi prinsip operasi enjin carian adalah mustahil. Oleh itu, pembangun mencipta algoritma dan prinsip operasi untuk enjin carian yang membolehkan pengguna mencari maklumat yang mereka cari dengan tepat. Ini bermakna enjin carian mesti "berfikir" dengan cara yang sama pengguna berfikir semasa mencari maklumat.

Kebanyakan enjin carian berfungsi berdasarkan prinsip pra-pengindeksan. Pangkalan data kebanyakan enjin carian berfungsi pada prinsip yang sama.

Terdapat satu lagi prinsip pembinaan. Carian terus. Ia terdiri daripada mengubah halaman buku demi halaman untuk mencari kata kunci. Sudah tentu, kaedah ini kurang berkesan.

Dalam versi dengan indeks terbalik, enjin carian berhadapan dengan masalah saiz fail. Sebagai peraturan, mereka sangat besar. Masalah ini biasanya diselesaikan dengan dua cara. Yang pertama ialah semua yang tidak perlu dikeluarkan dari fail, dan hanya apa yang benar-benar diperlukan untuk carian kekal. Kaedah kedua ialah untuk setiap kedudukan, bukan alamat mutlak diingati, tetapi relatif, i.e. perbezaan alamat antara kedudukan semasa dan sebelumnya.

Oleh itu, dua proses utama yang dilakukan oleh enjin carian ialah mengindeks tapak, halaman dan carian. Secara umumnya, proses pengindeksan tidak menimbulkan masalah untuk enjin carian. Masalahnya ialah memproses sejuta permintaan setiap hari. Ia berkaitan dengan jumlah yang besar maklumat yang tertakluk kepada pemprosesan besar sistem komputer. Faktor utama yang menentukan bilangan pelayan yang mengambil bahagian dalam carian ialah beban carian. Ini menerangkan beberapa keanehan yang timbul apabila mencari maklumat.

Enjin carian terdiri daripada lima komponen perisian yang berasingan:

labah-labah: program seperti pelayar yang memuat turun halaman web.

crawler: labah-labah "mengembara" yang secara automatik mengikuti semua pautan yang ditemui pada halaman.

pengindeks: program "buta" yang menganalisis halaman web yang dimuat turun oleh labah-labah.

pangkalan data: penyimpanan halaman yang dimuat turun dan diproses.

enjin carian hasil enjin (sistem penghantaran keputusan): mendapatkan semula hasil carian daripada pangkalan data.

labah-labah: Labah-labah ialah program yang memuat turun halaman web. Ia berfungsi sama seperti penyemak imbas anda apabila anda menyambung ke tapak web dan memuatkan halaman. Labah-labah tidak mempunyai komponen visual. Anda boleh melihat tindakan yang sama (memuat turun) apabila anda melihat halaman tertentu dan apabila anda memilih "lihat kod HTML" dalam penyemak imbas anda.

Crawler: Sama seperti labah-labah memuat turun halaman, ia boleh menanggalkan halaman dan mencari semua pautan. Ia adalah tugasnya untuk menentukan ke mana labah-labah harus pergi seterusnya, berdasarkan pautan atau berdasarkan senarai alamat yang telah ditetapkan.

Pengindeks: Pengindeks menghuraikan halaman ke dalam pelbagai bahagiannya dan menganalisisnya. Elemen seperti tajuk halaman, tajuk, pautan, teks, elemen struktur Unsur , BOLD, ITALIC dan bahagian gaya lain halaman diasingkan dan dianalisis.

Pangkalan data: Pangkalan data ialah repositori semua data yang dimuat turun dan dianalisis oleh enjin carian. Ini selalunya memerlukan sumber yang besar.

Cari Enjin Keputusan: Sistem keputusan bertanggungjawab untuk kedudukan halaman. Ia menentukan halaman mana yang memenuhi permintaan pengguna dan dalam susunan yang mana ia harus diisih. Ini berlaku mengikut algoritma kedudukan enjin carian. Maklumat ini adalah yang paling berharga dan menarik bagi kami - dengan komponen enjin carian inilah pengoptimum berinteraksi, cuba memperbaiki kedudukan tapak dalam hasil carian, jadi pada masa hadapan kami akan mempertimbangkan secara terperinci semua faktor yang mempengaruhi ranking keputusan.

Indeks carian berfungsi dalam tiga peringkat, di mana dua peringkat pertama adalah persediaan dan tidak dapat dilihat oleh pengguna. Pertama, indeks carian mengumpul maklumat daripada dunia Lebar Web . Untuk tujuan ini, program khas digunakan, pelayar yang serupa. Mereka boleh menyalin halaman Web yang diberikan ke pelayan indeks carian, mengimbasnya, mencari semua hiperpautan yang mempunyai sumber tersebut ditemui di sana, mencari sekali lagi untuk hiperpautan yang terkandung di dalamnya, dsb. Program yang serupa dipanggil cacing, labah-labah, ulat, crawler, labah-labah dan nama lain yang serupa. Setiap indeks carian menggunakan indeks cariannya sendiri untuk tujuan ini. program unik, yang sering dia kembangkan sendiri. Banyak enjin carian moden dilahirkan daripada projek eksperimen yang berkaitan dengan pembangunan dan pelaksanaan program automatik yang memantau Rangkaian. Secara teorinya, dengan penyertaan yang berjaya labah-labah mampu menyisir seluruh ruang Web dalam satu penyelaman, tetapi ini mengambil banyak masa, dan dia masih perlu kembali secara berkala ke sumber yang telah dilawati sebelum ini untuk memantau perubahan yang berlaku di sana dan mengenal pasti pautan "mati", iaitu, mereka yang telah hilang kaitannya.

Mencari maklumat di Internet adalah salah satu operasi paling popular di Internet. Pelawat Internet selalunya perlu mencari dokumen mengenai topik tertentu. Jika anda mempunyai alamat tepat dokumen di Internet, maka dalam kes ini tidak ada masalah dengan mencari: dalam penyemak imbas dalam bar alamat anda boleh mendail alamat sumber yang diketahui, dan bila sambungan berjaya pelayar akan memaparkan halaman yang dikehendaki.

Jika alamat sebenar dokumen tidak tersedia, anda boleh menggunakan perkhidmatan enjin carian. Enjin carian? ia adalah "pelayan khusus di Internet yang menawarkan pelbagai kemudahan carian dokumen." Contoh pelayan carian ialah pelayan Rambler (Rambler.ru), yang terletak di http://rambler.ru. Paparan halaman utama pelayan ditunjukkan dalam rajah.

nasi. 1.

Pelayan carian biasanya mencipta direktori sumber Internet mereka sendiri. Katalog pelayan carian sentiasa dikemas kini dengan maklumat tentang sumber yang dicipta pada rangkaian, yang datang daripada robot carian. Cari robot atau labah-labah adalah istimewa program rangkaian, akses yang tersedia pada masa ini Pelayan Internet, menganalisis dokumen dan mengisi jadual enjin carian mereka. Robot carian melaksanakan kerja mencari dan mensistemkan sumber dalam latar belakang sepanjang masa.

Satu lagi sumber pendapatan untuk pelayan carian maklumat tentang tapak sedia ada - pendaftaran sumber yang jelas oleh pemilik halaman web. Pelayan mempunyai borang yang diisi oleh pemilik sumber. Borang menyatakan alamat sumber, penerangan ringkas tentang, kata kunci, khalayak sasaran dsb. Maklumat ini dianalisis dan ditambah ke direktori pelayan secara automatik program khas atau "secara manual" oleh pakar - pakar memantau pembentukan katalog sumber.

Memahami mekanisme untuk mencari maklumat di Internet membolehkan pembangun halaman web menyediakan dokumen mereka supaya kemudiannya boleh ditemui oleh enjin carian dan diletakkan di bahagian yang sesuai dalam direktori sumber.

Cari mengikut kata kunci di Internet

Satu daripada cara popular cari dokumen di WWW - cari mengikut kata kunci. Apabila anda menentukan kata kunci dalam borang carian, enjin carian akan mencari dokumen yang mengandungi kata kunci yang ditentukan. Sudah tentu, untuk memenuhi pertanyaan, enjin carian tidak akan mencari kandungan beribu-ribu komputer yang beroperasi di Internet - anda perlu menunggu beberapa hari untuk hasil carian sedemikian. Pencarian dilakukan di antara sumber-sumber (katalog, jadual) enjin carian yang sebelum ini dikumpul dan disusun secara sistematik dengan bantuan robot dan pakar.

Oleh kerana jumlah sumber rangkaian menjadi benar-benar tidak terhad, atas permintaan untuk mencari dokumen menggunakan kata kunci, enjin carian boleh menemui beberapa ribu dokumen yang mengandungi kata kunci yang ditentukan. Adalah jelas bahawa dengan begitu banyak dokumen sukar untuk mencari yang paling sesuai dengan topik tertentu. Walau bagaimanapun, enjin carian biasanya memberi peluang untuk merumuskan pertanyaan yang lebih terperinci.

Permintaan boleh mempunyai bentuk yang kompleks dan digubah menggunakan kata kunci dan fungsi logik DAN (DAN), ATAU (ATAU), penolakan (TIDAK). Atau permintaan carian boleh dijana menggunakan watak istimewa, membolehkan anda menetapkan (atau membatalkan) bentuk kata kunci. Mekanisme sedemikian membantu merumuskan keperluan untuk memilih dokumen dengan lebih tepat. Setiap enjin carian mempunyai sistem bantuan, yang akan membantu pelawat membuat pertanyaan carian.

Bagaimanakah enjin carian berfungsi? Salah satu perkara menarik tentang Internet ialah terdapat ratusan juta sumber web menunggu dan sedia untuk dibentangkan kepada kami. Tetapi perkara buruknya ialah terdapat berjuta-juta halaman yang sama, walaupun kita memerlukannya, tidak akan muncul di hadapan kita, kerana... tidak diketahui oleh kami. Bagaimana untuk mengetahui apa dan di mana anda boleh mencari di Internet? Untuk melakukan ini, kami biasanya beralih kepada enjin carian.

Enjin carian Internet ialah tapak khas dalam rangkaian global, yang direka untuk membantu orang mencari web seluruh dunia maklumat yang mereka perlukan. Terdapat perbezaan dalam cara enjin carian melaksanakan fungsinya, tetapi secara amnya terdapat 3 fungsi utama dan serupa:

Kesemua mereka "mencari" Internet (atau beberapa sektor Internet) - berdasarkan kata kunci yang diberikan;
- semua enjin carian mengindeks perkataan yang mereka cari dan tempat yang mereka temui;
- semua enjin carian membolehkan pengguna mencari perkataan atau gabungan kata kunci berdasarkan halaman web yang telah diindeks dan dimasukkan ke dalam pangkalan data mereka.

Enjin carian pertama mengindeks sehingga beberapa ratus ribu halaman dan menerima 1,000 - 2,000 permintaan setiap hari. Hari ini, enjin carian teratas telah mengindeks dan terus mengindeks ratusan juta halaman dan memproses berpuluh juta permintaan setiap hari. Di bawah ini kita akan bercakap tentang cara enjin carian berfungsi dan cara mereka "mengumpulkan" semua maklumat yang ditemui supaya dapat menjawab sebarang soalan yang menarik minat kita.

Mari lihat Web

Apabila orang bercakap tentang enjin carian Internet, apa yang mereka maksudkan sebenarnya ialah enjin carian dunia Wide Web . Sebelum Web menjadi bahagian Internet yang paling ketara, enjin carian telah wujud untuk membantu orang ramai mencari maklumat di Internet. Program yang dipanggil "gopher" dan "Archie" dapat mengindeks fail yang terdapat pada pelayan yang berbeza, berhubung dengan Internet Internet dan dengan ketara mengurangkan masa yang dihabiskan untuk mencari program yang diperlukan atau dokumen. Pada akhir 80-an abad yang lalu, sinonim untuk "keupayaan untuk bekerja di Internet" ialah keupayaan untuk menggunakan gopher, Archie, Veronica, dll. program carian. Hari ini, kebanyakan pengguna Internet mengehadkan carian mereka kepada sahaja rangkaian di seluruh dunia, atau WWW.

Permulaan yang kecil

Sebelum saya memberitahu anda di mana untuk mencari dokumen yang diperlukan atau fail, fail atau dokumen ini mesti telah ditemui pada satu ketika. Untuk mencari maklumat mengenai ratusan juta halaman WEB sedia ada, enjin carian menggunakan program robot khas. Program ini juga dipanggil labah-labah ("labah-labah") dan digunakan untuk membina senarai perkataan yang terdapat pada halaman. Proses membina senarai sedemikian dipanggil merangkak web(Merangkak web). Untuk membina dan menangkap senarai perkataan yang "berguna" (bermakna), labah-labah carian mesti "melihat" banyak halaman lain.

Bagaimana seseorang bermula? labah-labah(labah-labah) perjalanan anda di web? Biasanya titik permulaan adalah pelayan terbesar di dunia dan halaman web yang sangat popular. Labah-labah memulakan perjalanannya dari tapak sedemikian, mengindeks semua perkataan yang ditemui dan meneruskan pergerakannya lebih jauh, mengikuti pautan ke tapak lain. Oleh itu, robot labah-labah mula meliputi "kepingan" ruang web yang semakin besar. Google.com bermula sebagai enjin carian akademik. Dalam artikel yang menerangkan cara enjin carian ini dicipta, Sergey Brin dan Lawrence Page (pengasas dan pemilik Google) memberikan contoh betapa cepat labah-labah Google berfungsi. Terdapat beberapa daripada mereka dan biasanya pencarian bermula dengan penggunaan 3 labah-labah. Setiap labah-labah menyokong sehingga 300 sambungan terbuka secara serentak ke halaman web. Pada beban puncak, menggunakan 4 labah-labah, sistem Google mampu memproses 100 halaman sesaat, menjana trafik kira-kira 600 kilobait/saat.

Untuk menyediakan labah-labah dengan data yang mereka perlukan untuk memproses, sebelum Google mempunyai pelayan yang tidak melakukan apa-apa selain "membuang" lebih banyak URL pada labah-labah. Untuk tidak bergantung kepada penyedia perkhidmatan Internet dari segi pelayan nama domain (DNS) yang menterjemah URL ke alamat IP, Google memperolehnya sendiri. pelayan DNS, mengurangkan semua masa yang dihabiskan untuk mengindeks halaman kepada minimum.

Bila robot Google melawat halaman HTML, ia mengambil kira 2 perkara:

Perkataan (teks) setiap halaman;
- lokasi mereka (di bahagian mana badan halaman).

Perkataan yang terletak dengan bahagian perkhidmatan seperti tajuk, sari kata, tag meta dan yang lain telah dibenderakan sebagai penting terutamanya untuk pertanyaan carian pengguna. Google Spider dibina untuk mengindeks setiap perkataan yang serupa pada halaman, kecuali kata seru seperti "a," "an," dan "the." Enjin carian lain mempunyai pendekatan yang sedikit berbeza untuk pengindeksan.

Semua pendekatan dan algoritma enjin carian akhirnya bertujuan untuk menjadikan robot labah-labah berfungsi dengan lebih pantas dan lebih cekap. Contohnya, sesetengah robot carian menjejaki perkataan dalam tajuk, pautan dan sehingga 100 perkataan yang paling kerap digunakan pada halaman semasa pengindeksan, malah setiap perkataan dalam 20 baris pertama kandungan teks pada halaman. Ini adalah algoritma pengindeksan, khususnya, Lycos.

Enjin carian lain, seperti AltaVista, pergi ke arah yang berbeza, mengindeks setiap perkataan berasingan muka surat, termasuk "a," "an," "the" dan perkataan lain yang tidak penting.

Meta Tag

Tag meta membenarkan pemilik halaman web untuk menentukan kata kunci dan konsep yang mentakrifkan intipati kandungannya. Ini adalah alat yang sangat berguna, terutamanya apabila kata kunci ini boleh diulang sehingga 2-3 kali dalam teks halaman. Dalam kes ini, tag meta boleh "mengarahkan" robot carian ke pilihan yang tepat kata kunci untuk pengindeksan halaman. Terdapat kemungkinan "menipu" tag meta dengan pertanyaan carian popular dan konsep yang sama sekali tidak berkaitan dengan kandungan halaman itu sendiri. Robot carian dapat mengatasinya dengan, sebagai contoh, menganalisis korelasi tag meta dan kandungan halaman web, "membuang" daripada pertimbangan tag meta tersebut (masing-masing kata kunci) yang tidak sepadan dengan kandungan halaman.

Semua ini terpakai kepada kes apabila pemilik sumber web benar-benar ingin disertakan dalam hasil carian untuk perkataan carian yang diingini. Tetapi ia sering berlaku bahawa pemilik tidak mahu diindeks oleh robot sama sekali. Tetapi kes sedemikian bukan topik artikel kami.

Pembinaan indeks

Apabila labah-labah telah menyelesaikan kerja mereka mencari halaman web baharu, enjin carian mesti meletakkan semua maklumat yang ditemui supaya mudah untuk menggunakannya pada masa hadapan. Terdapat 2 komponen utama yang penting di sini:

Maklumat yang disimpan dengan data;
- kaedah di mana maklumat ini diindeks.

Dalam kes yang paling mudah, enjin carian hanya boleh meletakkan perkataan dan alamat URL, di mana ia terletak. Tetapi ini akan menjadikan enjin carian sebagai alat primitif sepenuhnya, kerana tiada maklumat tentang bahagian mana dalam dokumen perkataan ini terletak (tag meta, atau dalam teks kosong), sama ada perkataan ini digunakan sekali atau berulang kali, dan sama ada ia terkandung dalam pautan ke sumber lain yang penting dan berkaitan. Dalam erti kata lain, kaedah ini tidak akan meletakkan kedudukan tapak, tidak akan memberikan hasil yang berkaitan kepada pengguna, dsb.

Untuk memberikan kami data yang berguna, enjin carian menyimpan bukan sahaja maklumat daripada perkataan dan URLnya. Enjin carian boleh menyimpan data pada bilangan (kekerapan) sebutan perkataan pada halaman, memberikan "berat" pada perkataan, yang kemudiannya akan membantu menghasilkan penyenaraian carian (hasil) berdasarkan kedudukan wajaran untuk perkataan ini, mengambil mengambil kira lokasinya (dalam pautan, tag meta, tajuk halaman dan sebagainya.). Setiap enjin carian komersial mempunyai formula tersendiri untuk mengira "berat" kata kunci semasa pengindeksan. Ini adalah salah satu sebab mengapa enjin carian menghasilkan hasil yang berbeza sama sekali untuk pertanyaan carian yang sama.

Seterusnya perkara penting semasa memproses maklumat yang ditemui - pengekodannya untuk mengurangkan kelantangan ruang cakera untuk menyelamatkannya. Sebagai contoh, dalam asal artikel Google Diterangkan bahawa 2 bait (8 bit setiap satu) digunakan untuk menyimpan data berat perkataan - ini mengambil kira jenis perkataan (besar atau dalam huruf besar), saiz huruf itu sendiri (Font-Size), dan maklumat lain yang membantu untuk menentukan kedudukan tapak. Setiap "sekeping" maklumat tersebut memerlukan 2-3 bit data dalam set 2-bait yang lengkap. Akibatnya, sejumlah besar maklumat boleh disimpan dalam bentuk yang sangat padat. Setelah maklumat "dimampatkan", tiba masanya untuk memulakan pengindeksan.

Pengindeksan mempunyai satu matlamat: untuk memastikan maksimum pencarian pantas maklumat yang diperlukan. Terdapat beberapa cara untuk membina indeks, tetapi yang paling berkesan ialah membina jadual hash(jadual hash). Hashing menggunakan formula khusus untuk memberikan nilai berangka pada setiap perkataan.

Dalam mana-mana bahasa terdapat huruf yang bermula dengan lebih banyak perkataan berbanding dengan huruf abjad yang lain. Sebagai contoh, perkataan yang bermula dengan "M" dalam bahagian Kamus Inggeris lebih ketara daripada huruf "X". Ini bermakna bahawa mencari perkataan yang bermula dengan huruf yang paling popular akan mengambil masa yang lebih lama daripada mana-mana perkataan lain. Hashing(Hashing) menyamakan perbezaan ini dan mengurangkan purata masa carian, dan juga memisahkan indeks itu sendiri daripada data sebenar. Jadual cincang mengandungi nilai cincang bersama-sama dengan penunjuk kepada data yang sepadan dengan nilai tersebut. Pengindeksan yang cekap + penempatan yang cekap bersama-sama menyediakan kelajuan tinggi carian, walaupun pengguna bertanya pertanyaan carian yang sangat kompleks.

Masa depan enjin carian

Carian berdasarkan pengendali Boolean ("dan", "atau", "bukan") ialah carian surat-- enjin carian menerima perkataan carian tepat seperti yang mereka telah dimasukkan. Ini boleh menyebabkan masalah apabila, sebagai contoh, perkataan yang dimasukkan mempunyai pelbagai makna. "Kunci," sebagai contoh, boleh bermaksud "cara untuk membuka pintu," atau ia boleh bermaksud "kata laluan" untuk log masuk ke pelayan. Jika anda hanya berminat dengan satu makna perkataan, maka anda jelas tidak memerlukan data mengenai makna keduanya. Anda boleh, sudah tentu, membina pertanyaan literal yang akan mengecualikan output data berdasarkan makna yang tidak perlu bagi sesuatu perkataan, tetapi alangkah baiknya jika enjin carian itu sendiri boleh membantu anda.

Satu bidang penyelidikan ke dalam algoritma enjin carian masa depan ialah pengambilan maklumat konseptual. Ini adalah algoritma yang digunakan Analisis statistik halaman yang mengandungi kata kunci atau frasa carian yang diberikan. Jelas sekali bahawa "enjin carian konseptual" sedemikian memerlukan lebih banyak ruang storan untuk setiap halaman dan lebih banyak masa untuk memproses setiap permintaan. Pada masa ini, ramai penyelidik sedang mengusahakan masalah ini.

Kerja sedang dijalankan tidak kurang intensif dalam bidang pembangunan. algoritma carian berdasarkan permintaan bahasa semula jadi (Pertanyaan Bahasa Asli).

Idea di sebalik pertanyaan semula jadi ialah anda boleh menulis pertanyaan anda seolah-olah anda bertanya kepada rakan sekerja yang duduk di seberang anda. Tidak perlu risau tentang pengendali Boolean atau bergelut untuk menulis pertanyaan yang kompleks. Tapak carian bahasa semula jadi yang paling popular hari ini ialah AskJeeves.com. Ia menukar pertanyaan kepada kata kunci, yang kemudiannya digunakan semasa mengindeks tapak. Pendekatan ini hanya berfungsi jika pertanyaan mudah. Walau bagaimanapun, kemajuan tidak berhenti; ada kemungkinan bahawa tidak lama lagi kita akan "bercakap" dengan enjin carian dalam "bahasa manusia" kita sendiri.

Seorang pelajar kedoktoran boleh mencari di Internet artikel saintifik untuk menulis ulasan literatur tentang disertasi calon perubatan, artikel dalam bahasa asing untuk persediaan peperiksaan minimum calon, penerangan kaedah penyelidikan moden dan banyak lagi...

Artikel ini akan membincangkan cara mencari maklumat di Internet menggunakan enjin carian.

Bagi mereka yang belum begitu mahir dalam konsep seperti laman web, pelayan - saya maklumkan kepada anda maklumat awal tentang Internet.

Internet ialah satu set tapak yang dihoskan pada pelayan yang disambungkan melalui saluran komunikasi (talian telefon, gentian optik dan satelit).

Laman web ialah koleksi dokumen dalam format html (halaman laman web) yang saling berkaitan dengan hiperpautan.

Laman web yang besar (contohnya, "Medlink" - katalog tematik perubatan http://www.medlinks.ru - terdiri daripada 30,000 halaman, dan jumlah ruang cakera yang didudukinya pada pelayan adalah kira-kira 400 MB).
Sebuah tapak kecil terdiri daripada beberapa puluh - ratusan halaman dan mengambil masa 1 - 10 MB (contohnya, tapak saya "Doktor Pasca Siswazah" pada 25 Julai 2004 terdiri daripada 280 halaman .htm dan menduduki 6 MB pada pelayan).

Pelayan ialah komputer yang disambungkan ke Internet dan bekerja sepanjang masa. Pelayan boleh menjadi tuan rumah dari beberapa ratus hingga beberapa ribu tapak secara serentak.

Tapak web yang dihoskan pada komputer pelayan boleh dilihat dan disalin oleh pengguna Internet.

Untuk menyediakan akses tanpa gangguan ke tapak, bekalan kuasa ke pelayan dijalankan melalui bekalan kuasa yang tidak terganggu, dan bilik di mana pelayan beroperasi (pusat data) dilengkapi dengan sistem pemadam api automatik, dan tugas sepanjang masa kakitangan teknikal dianjurkan .

Lebih daripada 10 tahun kewujudannya, Runet (Internet berbahasa Rusia) telah menjadi struktur yang teratur dan pencarian maklumat di Internet menjadi lebih mudah dijangka.

Alat utama untuk mencari maklumat di Internet ialah enjin carian.

Enjin carian terdiri daripada program labah-labah yang merangkak tapak Internet dan pangkalan data (indeks) yang mengandungi maklumat tentang tapak yang dilawati.

Atas permintaan juruweb, robot labah-labah memasuki tapak dan melihat halaman tapak, memasukkan maklumat tentang halaman tapak ke dalam indeks enjin carian. Enjin carian boleh mencari tapak itu sendiri, walaupun juruwebnya belum memohon pendaftaran. Jika pautan ke tapak terjumpa di suatu tempat di laluan enjin carian (di tapak lain, contohnya), ia akan mengindeks tapak tersebut dengan serta-merta.

Labah-labah tidak menyalin halaman tapak ke dalam indeks enjin carian, tetapi menyimpan maklumat tentang struktur setiap halaman tapak - contohnya, perkataan mana yang muncul dalam dokumen dan dalam susunan apa, alamat hiperpautan halaman tapak, saiz dokumen dalam kilobait, tarikh penciptaannya, dan banyak lagi. Oleh itu, indeks enjin carian adalah beberapa kali lebih kecil daripada jumlah maklumat yang diindeks.

Apakah dan bagaimana enjin carian mencari di Internet?

Enjin carian dicipta oleh orang untuk membantu mereka mencari maklumat. Apakah maklumat dalam pemahaman manusia kita dan perwakilan visual? Ini bukan bau atau bunyi, bukan sensasi atau imej. Ini hanya perkataan, teks. Apabila kami mencari sesuatu di Internet, kami meminta perkataan - pertanyaan carian, dan sebagai tindak balas kami berharap untuk menerima teks yang mengandungi perkataan ini dengan tepat. Kerana kita tahu bahawa enjin carian akan mencari pelbagai maklumat untuk tepat perkataan yang kita minta. Kerana itulah cara dia direka untuk mencari perkataan.

Enjin carian tidak mencari perkataan di Internet, tetapi dalam indeksnya. Indeks enjin carian mengandungi maklumat hanya tentang sebilangan kecil tapak Internet. Terdapat enjin carian yang mengindeks tapak dalam bahasa Inggeris sahaja, dan terdapat enjin carian yang hanya memasukkan tapak berbahasa Rusia dalam indeksnya.

(indeks mengandungi tapak dalam bahasa Inggeris, Jerman dan bahasa Eropah yang lain)

Enjin carian Runet(indeks mengandungi tapak dalam bahasa Rusia)

Ciri-ciri beberapa enjin carian Runet

Enjin carian kereta Google tidak mengambil kira morfologi bahasa Rusia. Sebagai contoh, Google menganggap perkataan "disertasi" dan "disertasi" berbeza.

Ia adalah perlu untuk melihat bukan sahaja halaman pertama hasil pertanyaan carian, tetapi juga yang lain.

Kerana selalunya tapak yang mengandungi maklumat yang benar-benar diperlukan pengguna terletak pada halaman 4 hingga 10 hasil pertanyaan carian.

Kenapa ini terjadi? Pertama, ramai pencipta laman web tidak mengoptimumkan halaman tapak web mereka untuk enjin carian, contohnya, mereka tidak memasukkan tag meta pada halaman tapak web mereka.

Teg meta ialah elemen perkhidmatan dokumen web yang tidak kelihatan pada skrin, tetapi penting apabila tapak anda ditemui oleh enjin carian. Teg meta menjadikan carian lebih mudah enjin carian, supaya mereka tidak perlu masuk jauh ke dalam dokumen dan menganalisis keseluruhan teks tapak untuk melukis gambar tertentu mengenainya. Teg meta yang paling penting ialah meta NAME="keywords" - kata kunci halaman tapak. Jika perkataan daripada teks utama dokumen tidak dianggap sebagai "spam carian" dan merupakan antara 50 yang pertama dalam "kata kunci", maka berat perkataan ini dalam pertanyaan meningkat, iaitu, dokumen menerima perkaitan yang lebih tinggi.

Kedua, terdapat persaingan sengit antara juruweb laman web untuk kedudukan pertama hasil daripada pertanyaan carian.

Mengikut statistik, 80% pelawat ke laman web datang dari enjin carian. Lambat laun, juruweb menyedari perkara ini dan mula menyesuaikan tapak mereka dengan undang-undang enjin carian.

Malangnya, sesetengah pencipta tapak menggunakan kaedah yang tidak jujur untuk mempromosikan tapak mereka melalui enjin carian - apa yang dipanggil "spam carian" untuk mencipta hubungan yang kelihatan antara kandungan tag meta dan teks tapak yang lain - mereka meletakkan perkataan tersembunyi pada halaman tapak, ditaip dalam warna latar belakang, supaya mereka tidak mengganggu pelawat tapak. Walau bagaimanapun, pencipta enjin carian memantau helah tersebut dan tapak "spammer carian" jatuh dari ketinggian yang dicapai ke bahagian paling bawah.

Metafora dan perbandingan kiasan tidak banyak digunakan di Internet. Mereka memutarbelitkan kebenaran dan membawa pengguna Internet menjauhi maklumat yang tepat dan tidak jelas. Semakin kurang kesenian dan lebih ketepatan dalam gaya pengarang tapak, semakin tinggi kedudukan dalam hasil pertanyaan carian yang diduduki tapak.

Sebaliknya, jika anda mahu enjin carian mencari artikel untuk anda di Internet, berfikir seperti mesin, menjadi mesin. Sekurang-kurangnya untuk seketika. Semasa pencarian.