Інформаційно-пошукова система. Інформаційні ресурси та їх подання до ІПС. Інформаційно-пошукова мова системи

Геометричні та змістовні характеристики полів можуть бути як абсолютно незалежними, так і взаємопов'язаними. Наприклад, у прибутковому ордері поруч із полями "кількість" та "ціна" знаходиться поле "сума".

Документи, які підлягають скануванню, можуть бути об'єднані у групи за декількома ознаками. За способом нанесення інформації можна виділити документи, в яких використовуються мітки, друковані або рукописні тексти. Так, наприклад, "Виборчі бюлетені" використовують знахідний спосіб, у той час як "Прайс-листи" – друкований, а первинні бухгалтерські документи – в основному рукописний.

Виконання опису налаштувань системи на конкретну форму документа передбачає виконання розробки налаштування на модель введеннядокумента в інформаційну базу або в електронний архів та складання налаштування відповідності полів форми документа та полів індексаціїдля введення в інформаційну базу чи архів. Побудова цих налаштувань спирається існування трьох підходів до введення даних у базу:

Введення ключових слів. У цьому випадку одне або кілька ключових слів буде використовуватися як індекс для конкретного зображення. Надалі можливий швидкий доступ до зображення документа із застосуванням введених ключових слів – індексів.

Введення тексту документа. Здійснюється введення всіх слів документа і після цього можливе здійснення повнотекстового пошуку зображення документа за допомогою повнотекстового індексу, який складається для цього документа. Цей метод може застосовуватися за необхідності отримання текстового варіанта документа.

Формоорієнтоване введення даних. Цей методвикористовується для повної заміни ручного введення даних у комп'ютерні системи та в основному застосовується для введення даних із форм (стандартних, однотипних документів). У цьому випадку атрибути документа будуть використані для складання індексу документа для його пошуку та зберігання у базі чи архіві.

Основний етап автоматизованого введення паперових документів включає виконання таких операцій як:

Сканування;

Контроль якості відсканованих зображень та повторне сканування;

Попередня обробка тексту;

Основне опрацювання тексту документа;

Контроль якості розпізнавання та редагування;

Сканування- це дуже відповідальна операція, і, отже, до вибору конкретної моделісканера необхідно підходити досить відповідально. При виборі слід враховувати такі фактори: розміри документів, їх стан, чи є документ одностороннім або двостороннім, продуктивність сканерів, необхідна роздільна здатність зображення, надійність зображень, що одержуються, та інші.

В даний час на ринку технічних засобів пропонується достатньо велика кількістьрізних моделей сканерів, які можна класифікувати за продуктивністю наступні види(див. табл. 5.1):

Персональні;

Настільні;

Високопродуктивні потокові.

За якістю сканування, залежить від роздільної здатності, їх можна поділити на такі групи:

з низькою роздільною здатністю (200-400 точок на дюйм);

З середньою роздільною здатністю (600-800 пікселів/дюйм);

З високою роздільною здатністю (1600-2800 пікселів/дюйм);

Спеціального призначення.

Введення документів висуває досить низькі вимоги до якості сканування, зазвичай буває достатньо роздільної здатності 200-300 точок/дюйм. Професійні видавничі сканери мають роздільну здатність точок/дюйм і навіть персональні сканери мають роздільну здатність близько 600-800 точок/дюйм. Єдина відмінність - автоматична подача сторінок документів і висока швидкість сканування (від 10 до 200 аркушів формату А4 за хвилину). Дані швидкісні сканери призначені для введення розброшюрованих документів.

Для введення старих документів застосовують сканери з вакуумним притиском документів, які пред'являють дуже низькі вимоги до документа і обробляють його в режимі, що щадить. В окремих випадках, коли документ настільки старий, що його не можна поміщати навіть у планшетний сканер, застосовують сканери спеціального призначення. Такі сканери дозволяють сканувати не повністю розкриті книги та документи поганої якості. Швидкість введення таких пристроїв - 0,25-3 сторінки в хвилину.

Обробка даних, що містяться в документі,передбачає виконання наступних основних операцій:

Попередня обробка зображень;

Основне оброблення зображень документа.

Попередня обробка зображення документіввикористовується для покращення отриманих зображень і необхідна з таких причин:

Поліпшення читання зображення. Оброблені зображення більш зрозумілі під час візуального перегляду.

Підвищення точності розпізнавання. Застосування спеціальних методів покращення зображення може значно підвищити точність оптичного розпізнавання символів.

Зменшення розміру зображення. Розмір файлів оброблених зображень може бути меншим від початкового розміру на 80%. Під зменшенням розміру розуміється як простий стиск файлу, так і видалення не потрібної інформації.

Попереднє оброблення зображення документів передбачає використання наступних методів: очищення зображення застосовується для зняття з зображень окремих елементів (наприклад, точки, плями); зняття фону та виділень (наприклад, з цінних паперів); відновлення літер та символів – якщо вони виявляються перетнутими елементами форми, наприклад, лінією, (для подальшого розпізнавання символу необхідно видалити лінію, таким чином, щоб літера не постраждала); обертання зображення на довільний кут; масштабування зображення; регулювання рівня сірого; компресія та декомпресія зображення.

Процес основної обробки документівпередбачають виконання операцій:

знаходження полів (сегментація документа);

Розпізнавання тексту документів .

Вони можуть бути виконані послідовно та незалежно, якщо поля повністю визначені своїми візуальними характеристиками. Така ситуація й у машиночитаемых форм і документів з явними роздільниками полів як ліній чи великих проміжків.

Розпізнавання документа, аналіз змісту документа та вилучення данихможе здійснюватися за допомогою наступних системрозпізнавання текстів, що відрізняються за вартістю, якістю та швидкістю роботи:

OCR (Optical Character Recognition) – технологія оптичного розпізнавання друкованих символів, т. е. перекладу сканованого зображення друкованих символів у тому текстове представлення;

ICR (Intelligent Character Recognition) – розпізнавання окремих друкованих символів, написаних від руки;

OMR (Optical Mark Recognition) – розпізнавання позначок (зазвичай перекреслені хрест-навхрест або галочками квадрати чи кола);

Стилізовані цифри – розпізнавання рукописних цифр, написані від руки за шаблоном, як на поштових конвертах;

Існує кілька підходів до реалізації технологій введення рукописних символів:

Розпізнавання on-line здійснюється в той момент, коли людина пише спеціальним пером на сенсорний екран, що сприймає додаткову інформацію про траєкторію руху руки, нахилу пера, силу натиску і т. д. Застосовується в основному в персональних електронних записниках типу 3Com PalmPilot для рукописного введеннячислових та символьних даних.

Розпізнавання off-line – розпізнавання довільного рукописного тексту, введеного в комп'ютер через сканер.

Розпізнавання рукодрукних символів є підмножиною технології розпізнавання offline. Цей метод застосовується, зазвичай, для введення стандартних форм. Розпізнавання рукописного тексту значно складніше, ніж друкованого, оскільки у разі ми маємо справу з обмеженим числом варіацій зображень шрифтів (шаблонів), то рукописному варіанті число шаблонів незмірно більше.

Для OCR-систем в основному використовуються три технології розпізнавання надрукованого тексту:

Матрична (Matrix - based),

Описова (заснована на описі правил побудови символів),

Нейронна (заснована на використанні нейронних мереж).

Суворе дотримання стандарту зовнішнього вигляду форми значно підвищує точність розпізнавання полів документа.

Контроль розпізнаних данихє наступною операцією, що реалізується системою введення.

Системи автоматичного розпізнавання зазвичай разом із результатом повертають так звану «ступінь впевненості». Для підвищення надійності даних після розпізнавання застосовуються визначені користувачемавтоматизовані методи перевірки даних (наприклад, можна перевірити, чи є розпізнана інформація у базі даних , і якщо ні, то позначити поле як некоректне). Для підвищення надійності даних використовуються додаткові механізми, такі як застосування словників та таблиць, що визначаються користувачем. Крім цього системи включають спеціальні вбудовані засоби для визначення спеціальних процедур перевірки для кожного поля документа.

Якщо дані після розпізнавання позначені як не коректні, вони автоматично направляються на ручне редагування. Під час редагування оператор бачить реальне зображення нерозпізнаного поля та має можливість відкоригувати його. Після введення оператором нових даних знову застосовуються правила перевірки даних, тобто на всіх етапах введення як автоматичного, так і ручного здійснюється перевірка даних відповідно до правил, визначених користувачем.

Індексування та завантаження даних. Заключна операція процесу - це експорт зображень документів та супутніх даних у конкретну систему документообігу чи базу даних та індексування. Основними вимогами до експорту є підтримка різних форматівданих та його швидкість.

Після того, як документ розпізнаний, він надходить до бази даних або системи управління документами, де проводиться його індексування. На відміну від звичайної системи розпізнавання, система введення стандартних форм використовує формальний опис вихідної форми документа, опис моделі введення та моделі відповідності полів введення та індексування. Це дозволяє автоматично проводити індексування документів та завантажувати інформацію в поля бази даних або архів без участі оператора.

Залежно від конкретного завдання та типу документа, він може бути завантажений у повнотекстовий модуль або інформація з нього витягнута повинна буде потрапити до системи атрибутивної індексації (наприклад, значення з полів форми потрапляють до картки документа). При цьому може бути збережено зображення документа.

5.2 Вимоги до СМВ. Характеристика систем

Основний фактор при оцінці ефективності систем розпізнавання полягає у вартості виправлення помилок при розпізнаванні, а не точності та швидкості системи. У деяких випадках витрати на виправлення помилок при розпізнаванні можуть перекрити всі плюси автоматизації і зробити ручне введення зображення більш ефективним. При розробці та використанні СМВ проектувальнику потрібно виконати також великий обсяг робіт з інтеграції цієї системи введення в діючу інформаційну систему, що діє або розробляється. На продуктивність системи дуже впливають використовується технологія введення, її налаштування на поточне завдання та вид документів. Тут потрібно враховувати склад обладнання, програмне забезпечення та сумісність формату розпізнаної інформації з існуючими системами.

Існує безліч компаній, які пропонують рішення чи компоненти систем обробки форм. Рішення про впровадження системи обробки форм, а також вибір того чи іншого додатка повинні проводитися з урахуванням насамперед таких вимог:

Тип оброблюваних документів і вид даних, що містяться в них;

Точність розпізнавання;

наявність ефективної системи редагування;

Налаштовуваність системи на вимоги конкретного замовника та здатність змінюватися відповідно до змінних зовнішніх умов без програмування;

Наявність підтримки сканерів різних типів, і навіть різного роду плат обробки зображень документів;

наявність редактора форм, що налаштовує систему на нові форми або зміни старої форми, на яку система була попередньо орієнтована;

Наявність редактора схем обробки документів, відкритого інтерфейсу підключення різних модуліврозпізнавання (залежно від типу форми можна підвищення якості розпізнавання підключати той чи інший модуль, який найбільше підходить для даного типу форми);

Наявність редактора схем експорту до бази даних (дані, які витягуються під час обробки форми, мають бути передані або до бази даних для зберігання, або до інших бізнес-додатків для обробки).

Крім цього до вибору програмного забезпечення для СМВ можна пред'явити сукупність загальних вимог:

Відкритість. Система повинна дозволяти включати різні технології і програмні продуктизалежно від конкретної програми, навіть якщо ці продукти постачаються іншими фірмами. Необхідна можливість інтеграції з різними workflow-системами та з системами документообігу.

Можливість налаштування. Інтерфейс користувача повинен бути налаштованим для досягнення максимальної ефективності роботи операторів.

Масштабованість. Необхідно мати можливість додавати та зменшувати системні ресурси за різних рівнів завантаження системи.

Можливість адміністрування. Користувач повинен мати можливість гнучкого управліннясистемою. Необхідно мати можливість контролювати використовувані ресурси та інструментарій для отримання різних видівзвітів.

Розглянемо як приклад дві системи класу СМВ – Cognitive Forms компанії Cognitive Technologies та FineReader.

Cognitive Forms – російська система промислового (іноді говорять потокового) введення стандартних форм документів, що працює під управлінням операційних систем Windows 95/NT та MacOS. Система належить до класу OCR/ICR/OMR і дозволяє вводити до баз даних і інформаційні системи форми з друкованим, рукописним заповненням та відмітками (checkbox).

Cognitive Forms призначена для автоматизованого введення в інформаційні системи та бази даних довільних, одно- та багатосторінкових форм документів, що відповідають певним вимогам до оформлення та заповнення та підготовлених на лазерних, струминних та матричних принтерах або на стандартних бланках з використанням друкарських машинок.

Ця система дозволяє здійснювати розподілену потокову обробку (сканування, розпізнавання, редагування та контроль) у мережі з продуктивністю розпізнавання сторінок А4 у зміну на одному комп'ютері та здійсненням автоматичного контролю результатів розпізнавання. Експорт даних може здійснюватися до баз даних, банківські системи типу «Операційний день» та системи створення електронних архівів та автоматизації документообігу.

Впровадження системи дозволяє забезпечити прискорення введення стандартних форм документів у 5–10 разів у порівнянні з ручним уведенням.

Скановані образи можна зберегти в електронному архіві банку ведення історії діловодства організації.

Cognitive Forms складається з трьох основних модулів:

Cognitive FormDesigner відповідає за проектування опису форми документа для програм розпізнавання та редагування.

Cognitive FormReader забезпечує автоматичне розпізнавання потоку стандартних форм, що надходять зі сканера. В автоматичному режимі здійснює потокове розпізнавання форм за заданим описом та контекстну перевірку результатів.

Cognitive FormEditor призначений для операторського контролю розпізнаних форм та збереження інформації з введених форм запису бази даних і дозволяє оператору візуально контролювати і редагувати розпізнані поля форм.

Cognitive Forms дає можливість здійснювати розподілену, в рамках локальної мережі, обробку форм і домогтися ефективного доступу до даних в режимі реального часу. Наприклад, Pentium II-233 час розпізнавання системою Cognitive Forms одного бланка становить близько 2 сек. Для промислового введення застосовуються високопродуктивні сканери: Kodak, Bell+Howell, BancTec, Fujitsu та ін. мережеві пристрої(Hewlett-Packard). Продуктивність деяких моделей досягає сотень сторінок за хвилину.

Ефективність застосування системи введення паперових документів в ЕІС заснована насамперед на значному скороченні участі людини у введенні даних. Як наслідок, можна спостерігати зменшення часу введення документів та кількості помилок. Для організацій, що обробляють великі потоки форм (центральні податкові та поштові відомства, статистичні організації, центри авторизації за розрахунками за кредитні картки), використання описаних технологій дозволить вирішити проблеми ефективності обробки сотень тисяч і навіть мільйонів форм у стислий термін.

В основу системи FineReader, розробленої компанією ABBYY, покладено три принципи розпізнавання, сформульовані при спостереженні за поведінкою тварин і людини: Цілісність, Цілеспрямованість та Адаптивність, що дозволили отримати рішення, що використовує в своїй основі принципи розпізнавання, характерні для живих систем, - технологія Ціленосного розпізнавання (IPA-технологія).

Цілісність. Об'єкт описується як ціле за допомогою значних елементів та відносин між ними. Об'єкт визнається об'єктом цього класу лише за наявності всіх елементів описи та необхідних відносин з-поміж них.

Цілеспрямованість. Розпізнавання будується як процес висування та цілеспрямованої перевірки гіпотез. Традиційний підхід, який полягає в інтерпретації того, що спостерігається на зображенні, заміняться підходом, який полягає у цілеспрямованому пошуку того, що очікується на зображенні.

Адаптивність. Здатність системи до самонавчання, тобто спочатку система FineReader висуває гіпотезу про об'єкт розпізнавання (символі, частини символу або кільком склеєним символам), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи в потрібних відносинах. Як структурні використовуються елементи, значущі для сприйняття об'єкта з погляду людини, - відрізки, дуги, кільця та точки.

Наслідуючи принцип адаптивності програма самостійно "налаштовується" на новий шрифт (або на новий почерк), використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах.

Цілеспрямований пошук та облік контексту дозволяють розпізнавати розірвані та спотворені зображення, роблячи систему стійкою до дефектів друку.

Ці принципи використовуються як для розпізнавання окремих символів, і під час аналізу розкладки сторінки (виділенні ділянок тексту, картинок, таблиць). Завдяки використанню IPA-технології FineReader демонструє високу якість розпізнавання при малій чутливості до дефектів друку, а бездоганний аналіз розкладки сторінки відзначений у більшості порівняльних тестів. Компанія ABBYY отримала патент використання IPA-технологии. Система FineReader має два варіанти реалізації: FineReader Office та FineReader від Pro, які постійно розвиваються.

Система FineReader має такі вхідні формати файлів: BMP: чорно-білі, сірі, кольорові; PCX, DCX: чорно-білі, сірі, кольорові; JPEG: сірі, кольорові; PNG: чорно-білі, сірі, кольорові; TIFF: чорно-білі, сірі, кольорові, багатосторінкові.

При отриманні документів застосовується декілька методів стиснення тексту: несжатий, CCITT Group 3, CCITT Group 3 FAX (2D), CCITT Group 4, PackBits, JPEG.

Система FineReader зберігає результат розпізнавання в наступних форматах: Microsoft Word 95, Microsoft Excel 95, Microsoft Word 97, Microsoft Excel 97, Microsoft Word 2000, Microsoft Excel 2000, Text, Rich Text Format, Unicode Text, DBF, HTML, CSV, Unicode HTML, PDF.

Вимоги до системи: операційна система Microsoft Windows 2000, Windows NT Workstation 4.0 з пакетом оновлень 3 (SP3) або вище, або Windows 95/98.

Система підтримує роботу 19 типів сканерів, включаючи Acer, Samsung, Mitsubishi, Scanpaq, Canon, Syscan, E-Lux, Nikon, Silitek, Epson, Storm, Fujitsu, Packard Bell, HP, IBM, Xerox, Kodak та ін і більше 100 моделей 100% TWAIN-сумісних сканерів інших фірм.

Тема 6. Автоматизація зберігання електронних

документів

6.1 Поняття інформаційно-пошукової системи (ІПС). Склад компонентів та технологія роботи з ІПС

У роботі сучасних підприємств важливу роль відіграють його інформаційні ресурси, під якими можна розуміти проектну документацію, листування з партнерами, внутрішні накази та розпорядження, фінансові дані та інші документи, які є основою для прийняття нових рішень та використовуються у процесах управління підприємством. І якщо зберігання структурованих даних можна застосовувати спеціалізовані інформаційні системи (типу бухгалтерської чи торгової системи чи системи планового відділу), засновані, використання СУБД, то неструктурованих даних потрібні системи загального призначення - електронні архіви, які працюють на принципах інформаційно-пошукової системи.

Інформаційно-пошукова система (ІПС) - це система, призначена для зберігання та пошуку документів з текстовою, графічною, табличною інформацією за атрибутами, ключовими словами документа та змістом у будь-якій предметній галузі.

Вирізняють ІПС двох типів: фактографічні та документографічні системи. ІПС фактографічного типу призначені для зберігання та пошуку фактів, показників, характеристик будь-яких об'єктів чи процесів (наприклад, відомості про працівників, про підприємства, акціонерів тощо). Документографічні ІПС відрізняються тим, що об'єктом зберігання і пошуку в цих системах служать документи, звіти, реферати, огляди, журнали, книги і т. д. , після чого подається список імен знайдених документів. Користувач може відкрити будь-який із знайдених документів і якщо пошукова система дозволяє, входження слів, що шукаються, в документі виділяються - «підсвічуються».

Можна виділити такі особливості організації та функціонування документографічної ІПС, що відрізняють її від систем управління базами структурованих даних:

Документи можуть зберігатися на папері, на мікрографічних носіях або існувати в електронних форматах. Мікрографічні формати включають мікрофільми, мікрофіші, слайди та інші мікроформи, які виробляються різноманітними документними камерами. Електронні формати ще численніші, вони включають документи, підготовлені в текстових процесорах, системах електронної пошти та інших комп'ютерних програмах, оцифровані зображення документів, що пройшли сканування та ін. У цьому передбачається обов'язкове зберігання як електронних копій документів, і їх паперових оригіналів.

Якщо документи займають великий обсяг та повні електронні копії видавати на перегляд або зберігати неможливо, то для таких документів створюють та зберігають електронні адресиїх зберігання.

Пошук здійснюється знаходженням документа за двома принципами: за атрибутами документа - датою створення, розміром, автором та ін. та за його змістом (текстом). Зазвичай пошук за змістом документа виконується двома способами: за ключовими словами та по всьому тексту, який називають повнотекстовим, підкреслюючи тим самим, що для пошуку використовується весь текст документа, а не лише його реквізити. -

Для пошуку документів створюють та зберігають їх пошукові образи. Пошуковий образ документа (ПІД) - сукупність кодів провідних ключових слів (дескрипторів), які описують зміст, зміст документа.

Ключові слова та їх коди зберігаються у спеціальному словнику – тезаурусі.

Для того щоб здійснювати пошук документів, потрібно створити інформаційно-пошукову мову (ІПЯ), до складу якої входить тезаурус та граматика мови, тобто сукупність правил завдання безлічі висловлювань на безлічі ключових слів.

Щоб знайти документ, потрібно створити за допомогою ІПЯ пошуковий образ запиту (ПОЗ), який є сукупністю закодованих ключових слів, що описують ті документи, які потрібно знайти. Схема взаємодії компонентів ІПС представлена ​​на рис. 6.1.

файл-сервер", тому для вирішення поставлених завдань та проблем найбільш перспективним є вибір варіанта архітектури інтегрованих систем управління документами - "клієнт-сервер", який суттєво збільшує ефективність роботи користувачів, оскільки системи даного класу забезпечують не тільки швидкий пошукнеобхідних користувачам документів, але й допомагають їм організовувати та спільно використовувати інформацію. І що особливо важливо, СУД створюють зручну для користувача структуру подання всієї інформації, що зберігається в мережі. Автор документа буде позбавлений необхідності щоразу вигадувати, де його зберігати, як захищати і які права на нього надавати колегам.

Системи керування документами мають вирішувати проблему з керуванням великими обсягами документів на наступних принципах:

1. Управління має здійснюватися над електронними документами, створеними в різних прикладних програмах персональних комп'ютерів, таких як: текстові процесори, електронні таблиці, електронна пошта.

Санкт-Петербурзький державний університет

Філологічний факультет

Кафедра математичної лінгвістики

В.П. Захаров

ІНФОРМАЦІЙНО-ПОШУКОВІ
системи

Навчально-методичний посібник

Санкт-Петербург

Рецензенти:

докт. техн. наук В.Ш. Рубашкін(С.-Петерб. держ. ун-т)

канд. пед. наук О.А. Арбатська(С.-Петерб. держ. ун-т культ. та позов-в)

Друкується за постановою
Редакційно-видавнича рада
С.-Петербурзького державного університету

Захаров В.П.

З-38Інформаційно-пошукові системи: Навчально-метод. допомога. – СПб., 2005. – 48 с.

Пропонований посібник містить опис основ документального інформаційного пошуку, програму навчальної дисципліни «Теорія інформаційного пошуку», яка вивчається студентами 3-го курсу відділення структурної та прикладної лінгвістики Санкт-Петербурзького державного університету, та набір лабораторних (практичних) робіт з цієї дисципліни. Окремі лабораторні роботи використовуються для навчання студентів інших курсів та інших дисциплін. Посібник базується на дослідницькій та викладацькій діяльності автора.

Для студентів та аспірантів, що спеціалізуються в галузі прикладної лінгвістики, інформаційних систем та автоматизованих систем обробки тексту.

ã В.П. Захаров, 2005

ã Санкт-Петербурзький
державний
університет, 2005

1. Введення в теорію та практику
інформаційного пошуку

1.1. Основні поняття інформаційного пошуку

Інформаційно-пошукова система (ІПС) – це впорядкована сукупність документів (масивів документів) та інформаційних технологій, призначених для зберігання та пошуку інформації – текстів (документів) або даних (фактів). Інформаційно-пошуковими системами є будь-які належним чином організовані сховища інформації. Причому інформаційно-пошукові системи можуть бути неавтоматизованими. Головне - це цільова функція: зберігання та пошук інформації.

Залежно від об'єкта зберігання та типу запиту розрізняють два види інформаційного пошуку: документальний та фактографічний – і, відповідно, два типи ІПС – документальні та фактографічні. Останні також називають інформаційно-довідковими ІПС.

документальними називаються ІПС, в яких реалізується пошук за тематичними запитами в масиві документів або текстів з подальшим наданням користувачеві підмножини цих документів або їх копій. Поняття документа може змінюватись від системи до системи. У загальному випадку це якийсь інформаційний об'єкт, зафіксований (зазвичай за допомогою деякої знакової системи) на якомусь матеріальному носії (папір, фото- та кіноплівка, магнітна пам'ять тощо) та призначений для передачі у просторі та часі в системі соціальних комунікацій .

Фактографічні ІПС реалізують зберігання, пошук та видачу безпосередньо фактичних даних (наукових, технічних, економічних характеристик та властивостей об'єктів, процесів, явищ, адрес, найменувань, кількісних даних тощо).

Головна, сутнісна, різниця між документальним і фактографічним пошуком полягає в підході до семантики документів. У документальних системах описується зміст документів загалом з погляду їх тематичного, предметного змісту. У цьому випадку важливо виявити та назвати (перерахувати) основні теми та об'єкти, яким присвячено документ. У фактографічних системах описуються об'єкти, фіксуються їх ознаки та значення цих ознак. Звідси розбіжності у мовах описи та способах зберігання описів у системі. Відповідно для кожного виду пошуку існують свої пошукові засоби.

Фактографічні системи передбачають накопичення та пошук у масиві документів зі строго регламентованою структурою. Така структура є або результатом попередньої інтелектуальної обробки документів під час введення інформації в систему, або наявністю таких документів у готовому вигляді у конкретних сферах людської діяльності, наприклад, облікові форми, бланки, довідники, розклади тощо. Існують фактографічні ІПС, які забезпечують накопичення інформації та пошук лише за одним типом об'єктів і лише за одним типом запитів. Існують і більш розвинені фактографічні системи, що забезпечують зберігання та пошук даних, різноманітних за змістом та структурою, але ця різноманітність завжди звичайно.

Водночас між документальними та фактографічними системами немає непереборної різниці. Нерідко реальні ІПС є прикладом змішаних систем, в яких фактографічна інформація використовується як додатковий засібдокументального пошуку, і навпаки. У документальних системах тексти (документи) можуть бути структуровані, розбиті на фрагменти чи поля, і обробка і видача документальної інформації може проводитися лише на рівні окремих полів.

Вирізняють ще й третій тип систем, які називають інформаційно-логічними. Це системи, що відповідають на запити, на які інформаційної базиу явному вигляді відповіді немає. Отримати відповідь допомагає екстралінгвістична база знань та інформація, що породжується алгоритмічно з наявної (документальної або фактографічної). Ця нова інформація або видається як відповідь на запит або додатково використовується для пошуку.

Інформаційно-пошукова система документального типу є упорядкованою сукупністю документів, а також сукупністю засобів і методів, призначених для зберігання, пошуку та видачі за запитами документальної інформації. Документальна ІПС видає документи, які відповідають запиту на тему, на предмет. Документ, центральний предмет чи тема якого загалом відповідає змістовому інформаційного запиту, називається релевантним , а властивість смислової близькості між двома та більше текстами (у даному випадку- між документом та інформаційним запитом) - релевантністю . Релевантність – це фундаментальне поняття теорії інформаційного пошуку. Говорять про два види релевантності: смислову та формальну. Відповідність документа змісту інформаційного запиту називають смисловою релевантністю, а відповідність пошукового образу цього документа формалізованому пошуковому розпорядженню, що виражає даний інформаційний запит, - формальною релевантністю. Також формальну релевантність називають релевантністю документа, а смислову релевантність – релевантністю інформації (мається на увазі «інформації, що міститься в документі»).

Складові ІПС називають підсистемами. Поділ на підсистеми необхідний і корисний як у цілях розробки, так описи технології функціонування систем. Воно може мати різну основу. Зазвичай розглядають два типи розбиття ІПС на підсистеми: за функціональним принципом (функціональні підсистеми) та за типом засобів (підсистеми, що забезпечують).

Різні засоби, що реалізують функції ІПС, отримали назву забезпечують підсистем , чи «забезпечень». Вирізняють такі підсистеми: лінгвістичне забезпечення, інформаційне забезпечення, технічне забезпечення, програмне забезпечення, технологічне забезпечення, кадрове забезпечення та ін.

Інформаційне забезпечення - це інформаційні масиви (документи, запити, метадані), а також засоби та способи їх опису, побудови та класифікації.

Лінгвістичне забезпечення - це логіко-семантичний апарат, що складається з інформаційно-пошукової мови, правил застосування (методик індексування), критерію видачі та інших мовних засобів.

Програмне забезпечення - це алгоритми та програмні засоби, що реалізують всі функції ІПС, які виконуються за допомогою комп'ютера.

Технічне забезпечення - це технічні засоби (комп'ютери, засоби телекомунікацій), що забезпечують зберігання, пошук та передачу інформації.

Технологічне забезпечення - це набір та порядок виконання автоматизованих та неавтоматизованих процесів та процедур обробки інформації в ІПС, включаючи їх опис, інформаційно-технологічні схеми та інструктивно-методичні матеріали.

Кадрове (або штатне) забезпечення - це люди, що взаємодіють із системою та забезпечують її експлуатацію (обслуговуючий персонал).

ІПС також ділять на складові (підсистеми) за функціональною ознакою, коли кожна підсистема виконує певну функцію в технологічному процесі: введення документів, індексування документів, введення та коригування запитів, індексування запитів, пошук, ведення словників, ведення статистики, обробка результатів пошуку, видача документів та ін. Такі частини отримали назву функціональних підсистем .

Важливі поняття в інформаційному пошуку – документ та запит. Документ визначається як засіб закріплення будь-яким способом на спеціальному матеріалі будь-якої інформації про факти, події, явища об'єктивної дійсності та розумової діяльності людини. Документи мають різну форму подання. У автоматизованих документальних ІПС це насамперед текстова інформація природними мовами в машиночитаній формі.

Запит являє собою інформаційну потребу, сформульовану природною мовою. Результат «перекладу» інформаційного запиту інформаційно-пошуковою мовою називають пошуковим чином запиту (ПОЗ) або пошуковим розпорядженням (ВП). Під цим розуміють вираз на мовою запитів , Який включає в себе як власне ІСЯ, так і засоби управління пошуком. Синтаксис та семантика мов запитів визначається структурою та наповненням документів та загальними завданнями системи.

Третя частина інформаційного забезпечення – так звана «видача», результати пошуку. Видача існує у двох видах: короткі описидокументів та власне документи.

Найважливішою компонентою інформаційно-пошукових систем є інформаційно-пошукова мова. Людина, щоб відібрати з масиву потрібні документи, повинна прочитати або переглянути їх вміст. Для прискорення та спрощення цієї процедури з'явилися різні форми скороченого запису змісту документів – анотації, реферати, каталоги. Але у всіх цих випадках при відборі документів за їх скороченими описами використовується природна мова. Добре відомі такі недоліки мовних знаків, як омонімія, синонімія, багатозначність. Точне значення багатьох слів можна зрозуміти лише у контексті. Це перешкоджає використанню природної мови для фіксації та ототожнення понятійної інформації. Тому формальні системи, призначені для зберігання документальної інформації з метою подальшого пошуку, вимагали створення спеціальних інформаційних мов. Інформаційно-пошукові мови є знаковими системами зі своїм алфавітом, лексикою, граматикою та правилами користування. Зауважимо лише, що це штучні мови однак створювалися і створюються з урахуванням природних мов.

При зіставленні документів та запитів потрібно визначити релевантність документа стосовно запиту та ухвалити рішення про видачу або невидачу документа на даний запит. Правила, на основі яких формально визначається ступінь релевантності документа та запиту, тобто. відповідність ПІД та ПОЗ, називаються критерієм смислової відповідності (КСС), або критерієм видачі .

Математичні моделі і формули обчислення коефіцієнта релевантності можуть бути різні. На практиці повсюдне поширення набули ІПС з логічним критерієм видачі , коли ПП будуються з використанням логічних (бульових) операторів кон'юнкції (&), диз'юнкції (\/), заперечення (~). У цьому випадку логічне вираз запиту є набором пошукових елементів (зазвичай ключових слів), об'єднаних логічними операторами і дужками, необхідними для вказівки порядку виконання операторів. Ключові слова ПП відіграють роль булевих змінних, що приймають значення 1 («істина»), якщо це слово міститься в документі, і 0 («брехня»), коли воно там відсутнє. Документ визнається релевантним запиту, якщо логічна формула запиту загалом отримує для цього документа значення «істина», і нерелевантним, якщо результат обчислення логічної формули дає «брехня».

Прийняті в логіці для позначення кон'юнкції, диз'юнкції та заперечення значки (&, \/, ~) в інформаційному пошуку зазвичай замінюють на оператори AND, OR та NOT відповідно. У Росії частіше використовуються позначення І, АБО, НЕ. Однак у загальному випадку в кожній конкретній ІПС позначення для булевих операторів вибираються свої, причому іноді для зручності користувача вводиться кілька значків для одного і того ж оператора (наприклад, в ІПС «Апорт» оператор кон'юнкції може бути заданий такими знаками: &, пробіл, AND , І, +).

Використання булевих операторів забезпечує логіку порівняння документів та запитів, зрозумілу користувачеві. Пошук (обчислення істинності для елементів ПП), як правило, проводиться за спеціальними індексними (інвертованими) файлами, побудованими на основі словника документального масиву, і характеризується високою швидкістю. Ці простота і зрозумілість логічного КСС і стали причиною його поширеності.

Проблема оцінки ефективності пошуку є комплексною проблемою, що включає як теоретичну, і практичну сторону. Головні з функціональних (технічних) показників ІПС, що базуються на релевантності, - це повнота та точність, що ґрунтуються на поділі документів на релевантні та нерелевантні, а також на видані та невидані.

Повнотою пошуку (П) (англ. Recall - R) називається міра, що обчислюється як відношення кількості виданих релевантних документів до загальної кількості релевантних документів, які у інформаційному масиві.

Точність пошуку (Т) (англ. Precision - P) - це відношення кількості виданих релевантних документів до загальної кількості документів у видачі.

1.2. Інформаційний пошук у мережі Інтернет

Перехід до інформаційного суспільства XXI століття породив безпрецедентне зростання обсягів та концентрації інформації у глобальних комп'ютерних мережах. Це різко загострило проблему створення інформаційно-пошукових систем (ІПС) та їхнього ефективного використання.

Історія автоматизованих інформаційно-пошукових систем обчислюється півстоліттям. Типова ІПС перших років – це людино-машинна система, де аналіз та опис змісту документів (індексування) виконується вручну, а пошуки проводяться машиною. Спочатку основу ІПС складали інформаційно-пошукові мови (ІПЯ), основним елементом яких є дескрипторні словники та тезауруси. Сьогодні, однак, більшість ІПС, що працюють, відноситься до класу вербальних систем безтезаурусного типу, коли індексаційні терміни вибираються безпосередньо з текстів документів. Лавиноподібне зростання обсягів електронної документальної інформації, її видове, тематичне та мовне розмаїття є як причиною кризи сучасного інформаційного пошуку, так і стимулом її вдосконалення.

Проблема пошуку ресурсів у мережі Інтернет була усвідомлена досить швидко, і у відповідь з'явилися різні системиі програмні інструменти для пошуку, серед яких слід назвати системи Gopher, Archie, Veronica, WAIS, WHOIS та ін. Останнім часомна зміну цим інструментам прийшли «клієнти» та «сервери» всесвітньої павутини WWW.

Якщо спробувати дати класифікацію ІПС мережі Інтернет, можна виділити такі основні типи:

1. ІПС вербального типу (пошукові системи – search engines)

2. Класифікаційні ІПС (каталоги – directories)

3. Електронні довідники(«жовті» сторінки тощо)

4. Спеціалізовані ІПС з окремих видів ресурсів

5. Інтелектуальні агенти.

Глобальний облік усіх ресурсів Інтернету забезпечується вербальними та частково класифікаційними системами.

Класифікаційні ІПСреалізують навігацію у веб-просторі на основі спеціальних покажчиків, що становлять тематичні «дерева», що будуються на основі класифікацій. Схеми класифікації ресурсів у Інтернеті - це, зазвичай, дерев'яні структури, вузли яких названі словами природної мови. Різні класифікаційні схеми відрізняються один від одного за обсягом та методологією їх складання. Одним із недоліків універсальних ієрархічних класифікацій є те, що вони консервативні та відстають від розвитку науки, техніки та життя взагалі. Головна проблема класифікаційних пошукових служб – це автоматизація класифікації. Досі завдання автоматичної класифікації задовільного рішення не знайшло. Реєстрація веб-сайтів та веб-сторінок у каталогах, як правило, здійснюється людьми - індексаторами та модераторами даної системи. І тому обсяг бази даних систем класифікаційного типу порівняно невеликий проти інформаційної ємністю всього Інтернету.

Для вирішення проблеми максимального охоплення ресурсів Інтернету створюються системи, які називаються метапошуковими(metasearch engines). Вони не мають власних пошукових баз даних, не містять жодних індексів та при пошуку використовують ресурси інших пошукових систем. За рахунок цього ймовірність знаходження потрібної інформації зростає. Для передачі запиту до пошукової системи використовується спеціальний метапошуковий агент, який відповідає за процес ретрансляції запиту інші системи. Після обробки отриманого запиту кожна система повертає метапошуковому агенту безліч описів та посилань на документи, які вважає релевантними даному запиту. При всій привабливості метапошукових систем слід пам'ятати і про їх мінуси та недоліки. Насамперед, відсутність єдиного стандарту мови запитів не дозволяє метасистемам домагатися від пошукових систем, що виконують запити метапошукових систем, такого ж результату, якого може досягти досвідчений користувач під час роботи з кожною машиною окремо.

Основним засобом пошуку інформації в мережі сьогодні слід вважати глобальні ІПС вербального типу(search engines), що індексують (принаймні претендують на це) весь Інтернет-простір. До основних пошукових систем цього типу (насамперед, за обсягом бази даних) можна віднести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Серед російських систем головними є три: Яндекс (Yandex), Рамблер (Rambler) та Апорт! (Aport). Повнота пошукової бази та оперативність індексування веб-сайтів є головною проблемою всіх ІПС в Інтернеті. Як правило, системи з більшим обсягом бази дають у результаті пошуку і більшу кількість документів. Велика, як лінгвістична, і програмна проблема - багатомовність інформаційного просторуІнтернету та різноманітність форматів представлення даних. Проте основні глобальні системи з цими проблемами справляються.

Саме вербальним ІПС і приділено основну увагу у практичній частині посібника. Перш за все, моделюється рівень користувача, що виражається в мовах запитів і в запитально-відповідних інтерфейсах. Здійснюється порівняльний аналіз мов запитів різних ІПС мережі Інтернет.

Особливість сучасних систем – повнотекстовий пошук. Багато вербальних ІПС мережі Інтернет обчислюють релевантність документів запитам шляхом зіставлення елементів запиту з повними текстами документів, розміщених у мережі. Що стосується інформаційно-пошукової мови, то, як правило, як пошукові елементи виступають звичайні слова природних мов. Запити формулюються через спеціальний інтерфейс, реалізований як екранних форм у програмах-броузерах.

Корисно уявляти, як ці системи влаштовані. У складі будь-якої пошукової системи можна виділити три основні частини.

Робот - підсистема, що забезпечує перегляд (сканування) Інтернету та підтримку інвертованого файлу (індексної бази даних) у актуальному стані. Цей програмний комплекс є основним засобом збору інформації про наявність та стан інформаційних ресурсів мережі.

Пошукова база даних - так званий індекс -спеціальним чином організована база (англ. index database), що включає, перш за все, інвертований файл, що складається з лексичних одиниць, взятих із проіндексованих веб-документів, і містить різноманітну інформацію про них (зокрема, їх позиції в документах), а також про самі документи та сайти в цілому.

Пошукова система - підсистема пошуку, що забезпечує обробку запиту (пошукового припису) користувача, пошук у базі даних та видачу результатів пошуку користувачеві. Пошукова система спілкується з користувачем через інтерфейси - екранні форми програм-броузерів: інтерфейс формування запитів і інтерфейс перегляду результатів пошуку.

Індексний файл (або просто індекс) є набором пов'язаних між собою файлів, орієнтованих на швидкий пошук даних за запитом. В основі індексу лежить інвертований файл. Інвертована (інверсна) схемаОрганізація пошукового масиву заснована на принципі забезпечення доступу до документів через їх ідентифікатори змісту (пошукові ознаки: дескриптори, ключові слова, терміни, інші ознаки). Таку схему отримують шляхом обробки послідовного масиву документів для створення спеціальних допоміжних інвертованих файлів - точок доступу.

Кожен запис такого допоміжного масиву ідентифікований відповідним ідентифікатором змісту (дескриптор, ключове слово, просто термін, ім'я автора, назва організації тощо) та містить імена (адреси зберігання) всіх документів, у пошукових образах яких він міститься. Для кожного ідентифікатора змісту (пошукового елемента даних) в інвертованому масиві разом з адресою (номером, ім'ям) документа може зберігатися (і зазвичай зберігається) додаткова інформація, наприклад: ім'я поля, номер пропозиції, у складі яких даний елемент зустрівся в даному документі , номер слова у реченні і т.д. Фіксація положення слова в тексті з точністю до номера речення та номера цього слова в реченні дозволяє побудувати гнучку мову запитів, що дозволяє задавати відстань між словами та реченнями в документі. Позиційні характеристики також використовуються при обчисленні коефіцієнта релевантності та ранжирування документів у видачі.

Знаходження необхідних документів через инвертированный файл здійснюється не суцільним переглядом всього масиву, а переглядом лише ідентифікаторів змісту в инвертированном файлі, які в пошуковому розпорядженні, тобто. число операцій порівняння слів під час пошуку пропорційно числу термінів пошукового розпорядження. Такий спосіб роботи систем знижує час на пошук і дозволяє обслуговувати споживачів інформації у реальному масштабі часу.

Пошук в індексі - це операції над списками ідентифікаторів пошукових елементів відповідно до моделі пошуку та критерієм відповідності. Результуючий список релевантних документів (у сучасній термінології «відгук»), який перетворюється на ранжований список коротких описів документів, з гіпертекстовими посиланнями та іншими характеристиками, повертається користувачеві в його клієнтську програму-броузер. Клацніть мишею за назвою документа в його короткому описі (по гіперпосиланню) запитує цей документ або безпосередньо з сервера, на якому він знаходиться, або через базу даних пошукової системи.

Важливим компонентом сучасних ІПС є звані інтерфейсні веб-сторінки, тобто. екранні форми, якими користувач спілкується з пошуковою системою. Розрізняють два основні типи інтерфейсних сторінок: сторінки запитів та сторінки результатів пошуку.

    індексування повних текстів можливо більшої кількості сайтів;

    «грамотна» робота зі словоформами - здатність ІПС ототожнювати різні словоформи однієї і тієї ж лексеми, по-іншому, породжувати канонічну форму - лему, і можливість виділяти серед множини словоформ конкретну форму;

    пошук слів із заданим або довільним усіченням, як правим, так і лівим;

    робота зі словосполученнями - облік відстані між словами у словосполученнях та порядку їхнього прямування;

    ефективні алгоритми обчислення коефіцієнта смислової релевантності та ранжування результатів пошуку.

Також важливо, яку інформацію та в якому вигляді можна отримати з вихідних інтерфейсів ІПС. Інтерфейс видачі (форма подання результатів) у різних систем включає такі параметри: статистика слів із запиту, кількість знайдених документів, кількість сайтів, засоби управління сортуванням документів у видачі, короткий опис документів та ін. Опис кожного документа, у свою чергу, може містити в своєму складі: назва документа, URL (адреса в мережі), обсяг документа, дату створення, назва кодування, анотацію, шрифтове виділення в анотації слів із запиту, вказівку на інші релевантні веб-сторінки того ж сайту, посилання на рубрику каталогу, до якої відноситься знайдений документ або сайт, коефіцієнт релевантності, інші можливості пошуку (пошук схожих документів, пошук у знайденому). Великий інтерес становлять також частотні характеристики- відомості про кількість знайдених документів та ототожнених мовних одиниць. Деякі системи ведуть журнал запитів із можливістю повторних пошуківта видачею статистики за запитами. Корисною та цікавою можливістю є також віднесення документів до тематичних класів.

Покажемо особливості різних систем, що найбільш популярні і мають найбільш розвинене лінгвістичне забезпечення (див. Табл., с. 14). Насамперед, це російські ІПС Яндекс, Рамблер та Апорт. Можливо, найбільш потужний лінгвістичний апарат має ІПС «Артефакт» (фірма «Інтегрум-ТЕХНО», м. Москва), проте ця система є комерційною та її база даних за складом помітно відрізняється від інших. Із західних систем, які здебільшого не мають розвинених лінгвістичних засобів аналізу текстового матеріалу, візьмемо добре відомі ІПС Google і AltaVista. Коротко охарактеризуємо особливості цих систем (наявність чи відсутність відповідних можливостей позначено знаками "+" та "-").

«Пошук за лексемами» означає, що результат порівняння слів документів та запитів визнається позитивним за наявності у документі будь-якої форми слова із запиту, що забезпечується механізмом автоматичної лематизації.

«Пошук за словоформами» означає, що результат порівняння документів та запитів визнається позитивним за наявності в документі словоформи, що точно збігається зі словом із запиту, що відбувається за відсутності автоматичної лематизації або забезпечується особливим механізмом обліку словоформ.

"Частота підокументна" означає, що в результаті пошуку видається повідомлення про кількість релевантних документів, тобто документів, що містять це слово (словоформу) або словосполучення.

"Частота пословна" означає, що в результаті пошуку додатково видаються відомості про загальну кількість слововжитків даної лексеми або конкретної словоформи в пошуковій базі даних (індекс).

Характеристика пошукових систем

Пошук за лексемами

+ (однослівний запит або логічна формула)

Пошук за словоформами

+ (у синтагмах: однослівний запит у лапках або словосполучення в лапках)

Облік синтагм (нерозривних словосоч.)

Облік великих і малих букв

+ (У синтагмах)

Частота пословна

Частота підокументна

1.3. Мови запитів ІПС Інтернет

Звернувшись до будь-якої служби, користувач, не виходячи з броузера, працює з «клієнтом» цієї служби, що надає нам ту чи іншу мову запитів. Зазвичай, це мови без контролю лексики. Фактично ми маємо справу з нормальним ІПЯ, реалізованим в архітектурі «клієнт-сервер», але бачимо лише «надводну» частину цього ІПЯ – мову запитів. Мова запитів більшості систем включає як традиційні булеви оператори, так і спеціальні контекстні оператори, що враховують структурування документа, порядок слів в тексті і відстань між словами.

Мовою запитів описується сам запит і іноді форма подання результатів. У мовах запитів мережевих ІПС можна виділити такі основні компоненти.

1) Власне пошукові елементи (об'єкти пошуку).

Це чи ключові слова, чи інші ідентифікатори змісту.

2) Пошукові оператори.

Майже у всіх мовах запитів використовуються булевські логічні оператори І, АБО, НЕ. Форма, в якій ці оператори задаються в запиті, найрізноманітніша, і відрізняється вона як в окремих службах, так і в різних типах запитів (простий, складний).

3) Нормалізація елементів запиту.

Одні й самі лексичні одиниці у документах і запитах може бути представлені у різній формі. У пошукових службах є методи нормалізації таких лексичних одиниць. Ця нормалізація може задаватися самим користувачем (спосіб, відомий під назвою "усічення" (truncation) або "маскування" (wildcards)) або виконуватися автоматично (останнє краще).

4) Лінійна граматика: порядок проходження пошукових елементів та відстань між ними.

По-перше, це «фрази» (жорсткі словосполучення).

По-друге, є спеціальні контекстні оператори (контекстне І), коли умова спільного входження елементів запиту документ повинен виконуватися у контексті певної довжини.

5) Додаткові умови пошуку.

Для зменшення обсягу видачі та підвищення точності використовуються різні додаткові умовипошуку, якось:

– пошук у певних полях (частинах) документа;

- Обмеження області пошуку різними критеріями(дата, тип даних, формат тощо).

6) Вимоги до форми подання результатів пошуку.

– вимоги на сортування (ранжування) результатів пошуку, що видаються;

– вид результатів, що видаються;

– кількість документів, що видаються.

Для отримання (перегляду) самих документів (веб-сторінок) та їх перегляду необхідно надіслати за адресою http. Як правило, системи надають можливість переглянути контекст - фрагменти документів з виділеними ключовими словами запиту.

У процесі пошуку користувачеві, як правило, дається можливість повернутися до старого запиту або просто уточнити, звузити його, або перейти в інший режим пошуку, що надає складніші пошукові засоби. Досить широко поширений ще один спосіб пошуку - пошук за зразком (search similar pages). У цьому стратегія пошуку вибирається самої системою.

2. Програма навчальної дисципліни
"Теорія інформаційного пошуку"

2.1. Організаційно-методичний розділ

Програма дисципліни складена відповідно до державного освітнього стандарту вищої професійної освіти за напрямом 021800 - Лінгвістика.

Ціль курсуполягає в тому, щоб дати студентам теоретичні основи інформаційного пошуку, в першу чергу, документального та навички використання різних документальних ІПС, у тому числі в мережі Інтернет.

Завдання курсу:

    ознайомити студентів з основними поняттями та проблемами автоматизованого інформаційного пошуку;

    ознайомити студентів з основними принципами організації та функціонування інформаційно-пошукових систем (ІПС);

    вивчити різні ІПС, зокрема ІПС мережі Інтернет;

    сформувати навички дослідницької роботи з аналізу та зіставлення різних систем.

Місце курсу у професійній підготовці випускника:курс має пропедевтичний характер. Він розрахований на широке коло студентів-гуманітаріїв і покликаний дати їм основне уявлення про способи зберігання та пошуку інформації.

Вимоги до рівня освоєння змісту курсу

В результаті навчання студент:

    повинен знати:

    основні поняття, що належать до інформаційних систем;

    основні типи систем;

    поняття інформаційно-пошукової мови;

    поняття релевантності та критерію смислової відповідності;

    основні пошукові системи Інтернету;

    мови запитів та інтерфейси цих систем;

    повинен вміти:

    здійснювати пошук у мережі Інтернет;

    порівнювати та аналізувати різні системи.

Розділи курсу:

      Основи інформаційного пошуку

      Документальні ІПС

      Фактографічні ІПС

      Інформаційний пошук у мережі Інтернет

Розділ 1. Основи інформаційного пошуку

Предмет, цілі та завдання курсу. Зв'язок курсу з іншими дисциплінами.

Інформація, інформаційні процеси, інформаційні системи, інформаційні потоки, інформаційні технології. Типи інформаційних систем (АІПС, АСНТІ, АСУ, АСНІ, АОС, САПР, ЕС, БЗ та ін.).

Основні поняття інформаційного пошуку: інформація, інформаційна система, інформаційна потреба, релевантність.

Дані та документи. Види інформаційних документів. Текстові документи Опис документів.

Запити. Типи запитів. Предметний пошук. Основні проблеми автоматизації семантичних процесів обробки інформації.

Інформаційно-пошукові системи (ІПС). Типи ІПС. Короткий огляд основних типів документальні, фактографічні, інтелектуальні.

Бібліографічний пошук. Бібліографічні бази даних та електронні каталоги. Бібліотечні системи.

Нетекстові інформаційні системи (географічні, картографічні та ін.). Пошук об'єктів за їх описами (графічні файли, музичні файли тощо). Пошук зображень та відеоінформації.

Розділ 2. Документальні ІПС

Історія розвитку автоматизованих документальних ІПС, етапи розвитку. Інтегровані системи. АСНТІ. Особливості сучасного етапу.

Складові ІПС. ІПЯ. . Моделі пошуку. Абстрактна та конкретна ІПС.

Структура документальних та фактографічних ІПС. Функціональні підсистеми. Структурна схема документальної ІПС.

Двоконтурні системи. Повнотекстові ІПС. Гіпертекстові інформаційні системи.

Підсистеми, що забезпечують. Технічне забезпечення. Програмне забезпечення. Комп'ютерні мережі. Особливості побудови мережевих ІПС.

Математична модель документальної ІПС.

Організація пошукових масивів в ІПС.

Класифікація документальних ІПС з різних підстав.

Розділ 3. Фактографічні ІПС

Фактографічна інформація. Добре структурована та погано структурована фактографічна інформація.

Об'єктно-характеристичні таблиці.

Мова семантичної експлікації.

Ефективність фактографічних ІПС.

Бібліографічний пошук як вид фактографічного.

Розділ 4. Лінгвістичне забезпечення інформаційного пошуку

Лінгвістичні засоби інформаційного пошуку. Склад лінгвістичного забезпечення ІПС.

Поняття інформаційно-пошукової мови (ІПЯ). ІСЯ як основний елемент логіко-семантичного апарату ІПС.

Інформаційно-пошукові мови: класифікація, типологія. Об'єктно-ознакові мови. класифікації. Алфавітно-предметні та фасетні класифікації.

Дескрипторні мови. Вербальні мови.

Семантичні та синтагматичні мови.

Способи опису мов. Складові дескрипторних інформаційно-пошукових мов (алфавіт, словник, граматика).

Нормування лексики в ІПС. Дескрипторні словники. Тезаурус. Створення словників та тезаурусів. Авторитетний контроль як елемент лінгвістичного забезпечення автоматизованих бібліотечних систем.

Граматичні засоби ІСЯ. Парадигматичні та синтагматичні відносини.

Індексування документів та запитів. Пошукові образи документів та запитів.

Мови запитів: поняття та склад. Засоби та методи вираження інформаційної потреби. Пошукові розпорядження.

Моделі пошуку. Пошукові оператори.

Засоби морфологічної нормалізації.

Мовні засобиподання та структурування електронних документів (формати, мови SGML, HTML, XML). Мови мета-даних (Dublin Core, GILS та інших.).

Лінгвістичне забезпечення фактографічних ІПС. Основні одиниці ІПС фактографічних ІПС.

Розділ 5. Функціонування та експлуатація ІПС

Інформаційне, технологічне та кадрове забезпечення.

Технологія передмашинної обробки інформації. Індексування документів та запитів. Особливості пошуку, залежно від видів документів.

Режими функціонування ІПС (ІРІ, ретроспективний пошук). Пакетний та діалоговий режими.

Основні технічні характеристикидокументальних ІПС (повнота, точність). Чинники, що впливають на ефективність пошуку. Оцінки ефективності ІПС.

Засоби та методи вирішення лексико-семантичних проблем в ІПС. Проблеми складання пошукових розпоряджень. Зворотний зв'язок з релевантності.

Забезпечення результатів пошуку первинними документами. Електронна доставка документів.

Розділ 6. Інформаційний пошук у мережі Інтернет

Значення комп'ютерних мереж для організації інформаційного обслуговування. Способи та засоби доступу до віддалених документальних масивів. Протокол Z39.50 (Search/Retrieval).

Мережа Інтернету, її коротка характеристика. Інтернет як електронна транспортна система. Інтернет як глобальний інформаційний простір.

Інформаційні ресурси Інтернету. FTP сервери. GOPHER. WAIS.

Концепція гіпертексту. Гіпертекстові системи до Інтернету. WWW-сервери. Навігація у мережі. Проблеми пошуку інформації.

Документальні джерела. Електронні документи Формати подання текстової інформаціїу мережі (html, pdf, ps, doc та ін.). Електронні видання.

Нетекстові інформаційні об'єкти. Концепція електронної бібліотеки.

Типологія пошукових систем у мережі Інтернет. Різні підстави для класифікації (за шириною охоплення, внутрішніми характеристиками, за видами документів).

Типологія пошукових систем Інтернет. Класифікаційні інформаційно-пошукові системи (каталоги). Вербальні (текстові, словникові) інформаційно-пошукові системи (пошукові машини).

Глобальні інформаційно-пошукові системи та служби Інтернету.

Природні мови в Інтернеті. Регіональні ІПС. Регіональні версії світових систем. Російськомовний Інтернет.

Методи створення пошукових баз даних у глобальних системах. Індексування та реєстрація. Роботи-індексатори. Інструменти керування індексуванням (файл robots.txt, META-елементи).

Особливості лінгвістичного та інформаційного забезпечення ІПС в Інтернет. Вербальні ІПС. Граматичні засоби ІСЯ: синтагматика. Контекстно-позиційні оператори («фрази», оператори відстані та інших.).

Проблеми ранжирування документів у видачі. Способи керування ранжуванням.

Вхідні інтерфейси. Мови запитів (прості, розширені). Їхній склад, приклади. Порівняльний аналіз мов запитів ІПС мережі Інтернет. Збереження запитів (історія сеансу).

Вихідні інтерфейси. Подання результатів пошуку. Опис документів (сторінок), опис сайтів. Групування документів на сайтах. Ідентифікація та об'єднання дублів.

Управління пошуком. Статистика пошуку. Пошук у знайденому. Пошук за подобою.

Приклади вербальних ІПС. Порівняльний аналіз пошукових систем.

Практикум з налагодження запитів та пошуку у вербальних ІПС.

Класифікаційні ІПС. Способи формування бази даних у класифікаційних системах. Реєстрація, спеціальні реєстраційні сайти. Пошук за рубрикатором.

Практикум з пошуку у класифікаційних ІПС.

Розділ 7. Сьогодення та майбутнє інформаційного пошуку

Комерціалізація Інтернету загалом та пошукових служб зокрема. Реклама. Плата за прискорену реєстрацію.

Розвиток локальних ІПС.

Проблеми уніфікації та стандартизації.

Засоби зворотний зв'язок. Неформальні «пошукові спільноти».

Розвиток лінгвістичного забезпечення.

Системи з централізованою та децентралізованою розподіленою архітектурою.

Інтелектуалізація інформаційного пошуку. Інтелектуальні інформаційні системи.

Елементи інтелектуальної обробки в глобальних ІПС мережі Інтернет. Інтелектуальні агенти

Мови метаданих, мови XML, RDF, OWL та інші засоби опису змісту.

2.3. Зразкові питання для самоконтролю

Дати визначення:

    Критерій видачі

    Релевантність

    Тезаурус

    Складові частини ІПС

    Склад лінгвістичного забезпечення

    Інверсний файл

Вибрати правильні варіанти відповідей

    Знак «&» в ІПС Рамблер означає операцію:

    диз'юнкції (АБО)

    кон'юнкції (І)

    відстані

    Знак «|» в ІПС Яндекс означає операцію:

    слідування

    кон'юнкції (І)

    диз'юнкції (АБО)

    Функціональні підсистеми ІПС - це:

    лінгвістичне забезпечення

    програмне забезпечення

    технічне забезпечення

    введення документів

    введення запитів

    критерій смислової відповідності

    мова запитів

    видача результатів пошуку

    інвертовані файли

    Типи ІПЯ - це:

    морфологічні мови

    дескрипторні мови

    семантичні мови

    класифікаційні мови

    вербальні мови

    вторинні мови

    об'єктно-ознакові мови

    Основні способи морфологічної нормалізації в ІПС:

    на основі автоматичного морфоаналізу

    усічення

    маскування

    префіксація

    Критерій смислової відповідності – це:

    правила індексування

    правила нормалізації

    правила обчислення повноти

    методи ранжирування

    методи класифікації

    Індексування – це:

    морфологічна нормалізація

    складання пошукового образу

    переклад на мову математичної логіки

    переклад на ІПЯ

    обчислення релевантності

    складання дескрипторного словника

    Підсистеми ІПС, що забезпечують, - це:

    лінгвістичне забезпечення

    програмне забезпечення

    технічне забезпечення

    введення документів

    введення запитів

    критерій смислової відповідності

    пошукові розпорядження

    видача результатів пошуку

    інвертовані файли

    Типи ІПЯ:

    об'єктно-ознакові мови

    класифікаційні мови

    морфологічні мови

    семантичні мови

    вербальні мови

    вторинні мови

    дескрипторні мови

    Критерій видачі – це:

    правила індексування

    правила нормалізації

    правила обчислення релевантності

    правила обчислення повноти

    методи ранжирування

    методи класифікації

2.4. Прикладна тематика доповідей, рефератів
курсових робіт

    Аналіз та опис ІПС мережі Інтернет (вибір системи за погодженням з викладачем)

    Створення термінологічного банку даних за інформаційно-пошуковими системами (виявлення, класифікація термінів і тлумачень; результат - гіпертекстовий словник-покажчик або пошукова база даних)

    Дослідження способів використання онлайнових словників та тезаурусів (наприклад, WordNet) для індексування запитів в інформаційно-пошукових системах

    Аналіз та опис механізмів морфологічної нормалізації в інформаційно-пошукових системах

    Врахування синтагматичних зв'язків як засіб підвищення ефективності пошуку в повнотекстових ІПС (експериментальне дослідження)

    Обчислення релевантності в інформаційно-пошукових системах (експериментальне дослідження)

    Аналіз досліджень порівняльної ефективності повнотекстових інформаційно-пошукових систем

    Аналіз лінгвістичного забезпечення повнотекстових інформаційно-пошукових систем

    Аналітичний огляд публікацій електронного журналу з інформаційно-пошукових систем Search Engine Report

2.5. Зразковий перелік питань до іспиту
(заліку) по всьому курсу

    Абстрактна та конкретна (реальна) ІПС

    Вербальні інформаційно-пошукові системи (пошукові машини). Їхня архітектура. Приклади вербальних ІПС

    Глобальні та регіональні ІПС у мережі Інтернет. Приклади

    Граматичні засоби ІСЯ. Способи вираження граматичних відносин

    Дескрипторні словники. Тезауруси

    Документальна інформація у мережі Інтернет. Текстові документи Мовні засоби подання та структурування документів (під кутом пошуку)

    Індексування документів та запитів. Автоматизація індексування

    Інтелектуальні інформаційні системи

    Інтернет як глобальне інформаційне середовище. Інформаційні ресурси мережі. Проблеми пошуку в Інтернеті

    Інформаційна потреба, інформаційний запит, пошуковий розпорядження

    Інформаційно-пошукові системи (ІПС). Типи ІПС. Короткий огляд основних типів

    Інформаційно-пошукові мови: класифікація, типологія

    ІПЯ. Дескрипторні мови. Вербальні мови

    ІПЯ. Класифікаційні мови

    Історія розвитку автоматизованих документальних ІПС, етапи розвитку. Особливості сучасного етапу

    Класифікаційні інформаційно-пошукові системи (каталоги). Приклади класифікаційних ІПС

    Класифікація документальних ІПС з різних підстав

    Критерій смислової відповідності. Моделі пошуку

    Лінгвістичні засоби інформаційного пошуку. Склад лінгвістичного забезпечення ІПС

    Методи створення пошукових баз даних у глобальних системах (індексування, реєстрація)

    Морфологічна нормалізація лексики в ІПС

    Підсистеми, що забезпечують

    Об'єктно-ознакові мови

    Організація пошукових масивів в ІПС

    Основні технічні характеристики документальних ІПС (повнота, точність)

    Поняття інформаційно-пошукової мови (ІПЯ). Класифікація (типологія) ІПЯ

    Поняття «інформація» та «система». Інформаційні процеси та системи. Типи інформаційних систем

    Проблеми багатомовного пошуку Інтернет. Способи вирішення різних ІПС

    Проблеми пошуку документів російською. Російсько-мовні ІПС

    Проблеми складання пошукових розпоряджень. Зворотний зв'язок з релевантності

    Змішані (гібридні) системи. Метапошукові системи. Приклади

    Складові дескрипторних інформаційно-пошукових мов

    Складові ІПС. Системні взаємозв'язки між елементами ІПС

    Сутність документального інформаційного пошуку. Поняття релевантності

    Семантичні мови

    Технологія та режими функціонування ІПС. Двоконтурні ІПС

    Типологія пошукових систем в Інтернет

    Фактографічні ІПС

    Функціонально-структурна схема ІПС. Функціональні підсистеми

    Мова запитів ІПС "Altavista". Інтерфейс представлення результатів пошуку

    Мова запитів ІПС Google. Інтерфейс представлення результатів пошуку

    Мова запитів ІПС "Апорт". Інтерфейс представлення результатів пошуку

    Мова запитів ІПС "Рамблер". Інтерфейс представлення результатів пошуку

    Мова запитів ІПС «Яндекс». Інтерфейс представлення результатів пошуку

    Мови запитів сучасних інформаційно-пошукових систем. Порівняльний аналіз

    Мови запитів. Пошукові розпорядження.

2.6. Розподіл годинника курсу за темами
та видами роботи

Найменування тем
та розділів

Аудиторні
заняття (год)

В тому числі

Самостійна робота

Семінари

Основи інформаційного пошуку

Документальні ІПС

Фактографічні ІПС

Лінгвістичне забезпечення інформаційного пошуку

Функціонування та експлуатація ІПС

Інформаційний пошук
в інтернет

Сьогодення та майбутнє інформаційного пошуку

РАЗОМ:

2.7. Форма поточного, проміжного та підсумкового контролю

Протягом семестру слухачі готують письмові роботи (реферати) з однієї з обраних тем, які «захищаються» наприкінці курсу як доповідей. Наприкінці курсу – залік.

2.8. Навчально-методичне забезпечення курсу

Основна література

Захаров В.П.Інформаційні системи (документальний пошук). СПб., 2002.

Інформатика/ За ред. К.В. Тараканова. М., 1986.

Лахуті Д.Г. Автоматизовані документально-фактографічні інформаційно-пошукові системи // Підсумки науки і техніки. Інформатики. Т. 12. М., 1988. С. 6-77.

Солтон Дж.Динамічні бібліотечно-інформаційні системи. М., 1979.

Селтон Г.Автоматична обробка, зберігання та пошук інформації. М., 1973.

Чорний А.І. Введення у теорію інформаційного пошуку. М., 1975.

додаткова література

Аветисян Д.О. Проблеми інформаційного пошуку. М., 1991.

Армс У.Електронні бібліотеки М., 2001.

Білоозеров В.М.Нові стандарти на термінологію інформаційного пошуку // НТІ. Сер. 1. 1997. № 11. С. 14-21.

Войскунський В.Г.Документальний пошук та Зворотній зв'язок// Предметний пошук у традиційних та нетрадиційних інформаційно-пошукових системах. СПб., 1993. Вип. 11. С. 129-141.

Войскунський В.Г., Захаров В.П.Діалоговий налагоджувальний комплекс // Структурна та прикладна лінгвістика: Міжвузівська збірка. Вип. 4. СПб., СПбГУ, 1993. С. 197-211.

Декер С., Мельник С., Хермелен ван Ф. Semantic Web: ролі XML та RDF // Відкриті системи. 2001. № 9. С. 23-33.

Захаров В.П., Мордовченко П.Г., Цукровий Л.В.Удосконалення лінгвістичного забезпечення в ІПС «безтезаурусного» типу // НТІ. Сер. 2. 1980. № 6. С. 14-19.

Захаров В.П., Панков І.П.Інформаційно-пошукові системи // Прикладне мовознавство: Підручник/Відп. ред. А.С. Герд. СПб., СПбГУ, 1996. С. 334-359.

Захаров В.П., Піменов Є.М. Природно-мовний підхід до створення лінгвістичного забезпечення інформаційно-позовних систем // НТІ. Сер. 2. 1997. № 12.

Змітрович А.І.Інтелектуальні інформаційні системи. Мінськ, 1997.

Капустін В.А.Пошук інформації в Інтернет// Світ Internet. 1998. №9. С. 54-58.

Капустін В.А.Інформаційні ресурси - як ми їх шукатимемо? // Світ Internet. 1998. № 9. С. 58-61.

Капустін В.А.Основи пошуку інформації в Інтернеті: Методичний посібник. СПб., 1999.

Курник А.Пошук у Інтернет. СПб., 2001.

Інформаційно-пошукові системи. М., 1972.

Лахуті Д.Г.Інтелектуалізація інформаційних систем: Наукова доповідь… М., 2002.

Любарський Ю.Я.Інтелектуальні інформаційні системи. М., 1990.

Масевич А.Ц. Два підходи до теорії ІПС у світлі сучасних лінгвістичних концепцій // Предметний пошук у традиційних та нетрадиційних інформаційно-пошукових системах. Л., 1989. Вип. 9. С.25-49.

Москович В.А. Інформаційні мови. М., 1971.

Пархоменко В.Ф.Система автоматичного індексування документів ДУЖКИ ОС ЄС // М., 1983

Прикладнемовознавство: Підручник. СПб., 1996. С. 59-67, 92-99, 360-388.

Рубашкін В.Ш.Подання та аналіз сенсу в інтелектуальних інформаційних системах. М., 1989.

Соколов А.В.Автоматизація бібліографічного пошуку. - М., 1981.

Соколов А.В. Введення у теорію соціальної комунікації. СПб., 1996.

Соколов А.В. Методичні матеріали щодо розробки інформаційно-пошукових тезаурусів. Л., 1976.

Степанов В. Бібліографічний пошук до Інтернету // Бібліографія. 1998. № 1. С. 5-10.

Храмцов П.Б. Інформаційно-пошукові системи Internet // Відкриті системи. 1996. № 3. С. 46-49.

Храмцов П.Б. Моделювання та аналіз роботи інформаційно-пошукових систем Internet // Відкриті системи. 1996. № 6. С. 46-56.

Шемакін Ю.І., Романов А.А. Комп'ютерна семантика. М., 1995.

Шемакін Ю.І. Тезаурус в автоматизованих системах управління та обробки інформації. М., 1974.

Стандарти

Типові проектні рішення для автоматизованих систем науково-технічної інформації. М., 1983.

ГОСТ 34.601-90. Інформаційна технологія. Комплекс стандартів на автоматизовані системи. Стадії створення автоматизованих систем.

ГОСТ 34.602-89. Інформаційна технологія. Комплекс стандартів на автоматизовані системи. Технічне завдання створення автоматизованої системи.

ГОСТ 7.52-85. Комунікативний формат для обміну бібліографічними даними на магнітній стрічці. Пошуковий образ документа.

ГОСТ 7.74-96. Інформаційно-пошукові мови. Терміни та визначення.

РД 34.003-90. Інформаційна технологія. Терміни та визначення.

РД 34.201-89. Інформаційна технологія. Види, комплектність та позначення документів при створенні автоматизованих систем.

РД 34.680-88. Методичні вказівки. Інформаційна технологія. Основні положення.

РД 34.698-90. Методичні вказівки. Інформаційна технологія. Вимоги щодо змісту документів.

3. Практикум (лабораторні роботи)

Інструкція з виконання лабораторних робіт

Результати лабораторних робіт зберігаються на жорсткому диску в теці відповідної лабораторної роботи Lab#N, де N - номер роботи. При цьому всі ці папки зберігаються в папці студента, яка має наступний шлях: ДИСК: Прізвище Викладача Nnn-Фам, де nnn – номер (ідентифікатор) групи, Фам – прізвище студента. Наприклад, усі файли та папки, що створюються та зберігаються в ході лабораторної роботи № 2 розміщуються в папці D:\Захаров\ML_3kurs-Іванова\Lab#2. У завданнях лабораторних робіт ця поточна папка студента називається « своя папка».

У ряді випадків перед початком роботи за вказівкою викладача слід скопіювати (з комп'ютера викладача через «Мережеве оточення» або з дискети) до своєї папки додаткові файли, необхідні для виконання завдання.

Текстовий звіт з результатами виконання роботи створюється в редакторі Word. У вікні документа потрібно ввести прізвище, ім'я, номер групи/підгрупи, номер лабораторної роботи, дату виконання роботи. Далі в цей файл записувати необхідні результати виконання роботи ( під номером відповідного пункту завдання). Зберігати ці дані як файл звіту з ім'ям ReportN у своїй папці, де N - номер роботи. Щоб уникнути втрати даних при збоях, що формуються студентами під час роботи, файли рекомендується регулярно зберігати.

Для пред'явлення викладачеві результатів роботи розташувати їх на екрані в наступних вікнах, розташувавши їх каскадом зліва направо: вміст папки лабораторної роботи, що захищається (у вікні Провідника), файл звіту у вікні редактора Word, вікно броузера (якщо потрібно).

Лабораторна робота №1

(Класифікаційні ІПС)

    Відкрити сторінку пошукової системи Апорт (РОЛ, Russia On-Line). Ознайомитись із класифікатором (рубрикатором) даної системи. Рубрики верхнього рівня переписати в зошит та перенумерувати. Переходячи за рубриками рубрикатора, знайти два музеї («Літературно-меморіальний музей Ф.М. Достоєвського» та «Історико-меморіальний музей М.В. Ломоносова в селі Ломоносове Архангельської області»). Ознайомитись з формою представлення інформації про сайти в каталозі.

    Для кожного музею:

    скопіювати короткі описи вказаних музеїв у каталозі файл звіту Report1;

    вказати індекс цитованості (у вигляді числа) та лігу (у вигляді словесної назви) для даних музейних сайтів;

    перейти на сайт музею та першу домашню сторінку скопіювати у своїй папці у форматі ;

    створити «закладку» на сайт музею у своїй папці в Обраному.

    Відкрити сторінку пошукової системи Яндекс. Ознайомитись із класифікатором (рубрикатором) даної системи. Рубрики верхнього рівня переписати в зошит та перенумерувати. Позначити (обвести) рубрики, що збігаються з рубриками Апорта (повністю або частково). Переходячи за рубриками рубрикатора, знайти «Літературно-меморіальний музей Ф.М. Достоєвського» та «Історико-меморіальний музей М.В. Ломоносова у селі Ломоносове Архангельської області». Їхні описи в рубрикаторі Яндекса скопіювати у файл звіту.

    Відвідати Рейтингову систему ІПС Рамблер. Ознайомитись із класифікатором (рубрикатором) даної системи. Рубрики, що збігаються з рубриками Апорта (цілком або частково), переписати в зошит. Переглянути рейтинг сайтів на тему «Освіта». Ознайомитись з формою подання інформації в каталозі. Назву сайту, що займає п'яте місце, з його кількісними показниками, скопіювати у файл звіту Report1. Подивитись докладну статистику та статтаблицю скопіювати у файл звіту.

    Те саме повторити в системі Yahoo.

Лабораторна робота№ 2

(Російськомовні вербальні ІПС: порівняльний аналіз)

    Робота полягає у порівняльному вивченні систем Апорт, Яндекс, Рамблер. Результати вивчення студент має відобразити у вигляді таблиці (с. 34) у файлі Report2 (орієнтація таблиці – альбомна). У осередках записати, як у кожній системі представляється той чи інший елемент мови запитів чи вхідного/вихідного інтерфейсу (всі допустимі методи). У деяких випадках можна відповідати знаками "+" або "-" (наприклад, " Опис документа») або вільним текстом своїми словами (наприклад, «Релевантні сторінки того ж сайту»або «Сортування»).

    Перейти на сайт пошукової системи Апорт (потім Яндекс та Рамблер). Знайти в кожній системі посилання на її опис загалом, на опис мови запитів, інтерфейсів («Довідка», «Допомога», «Розширений пошук»і т.п . ). Перейшовши за посиланнями, уважно вивчити довідкову інформаціюі в робочому зошиту коротко закон-спектувати основні пункти. Після цього кожної системи заповнити відповідні осередки таблиці (розділи 1, 2).

Примітка.Якщо текст відповіді не міститься в осередку таблиці, рекомендується робити виноску та продовжувати її під таблицею. Зверніть увагу на те, що можливості систем у простому та розширеному пошуку різняться. Відобразити це у звіті. Звернути увагу на наявність розділів "інше".

    Повернутись назад на початкову сторінку пошукової системи Апорт (потім Яндекс і Рамблер). Ввести будь-який запит (наприклад, « Статистичні методиу лінгвістиці») у вікні для текстового запиту та провести пошук. Сторінку з результатами пошуку зберегти у своїй папці у форматі «тільки html».

    Вивчити форму подання результатів. Коротко записати в зошит, який міститься на веб-сторінці з результатами пошуку (структуру веб-сторінки). Вивчити форму подання окремих веб-документів (їх короткі описи додатковою інформацією). На основі вивчення отриманих результатів та раніше вивченої довідкової інформації заповнити відповідні осередки таблиці (розділ 3).

    Подати роботу викладачеві.

Результати порівняльного вивчення систем Апорт, Яндекс, Рамблер


розділу

Параметри

Апорт

Яндекс

Рам-Блер

Пошук за текстом

Логічні оператори:

кон'юнкція

диз'юнкція

заперечення

Синтагматичні оператори:

фрази (словосполучення, слова поряд)

відстань у словах

відстань у пропозиціях

Морфологічна нормалізація (автоматична, використовувані метасимволи)

Пошук по полях

за назвою

по полю ключових слів

за коментарем до картинок (поле ALT)

за текстом гіперпосилань

за адресами посилань

по доменному імені сайту (сервера)

за форматом

Інтерфейс видачі (форма подання результатів)

статистика слів із запиту

кількість знайдених документів

кількість знайдених сайтів

кількість документів на сторінці результатів

сортування документів на сторінці видачі

пошук у знайденому

опис документа включає такі елементи:

URL (адреса в мережі)

розмір документа (обсяг)

дата створення

кодування

анотація (короткий зміст)

вказівку на інші релевантні веб-сторінки того ж сайту

пошук схожих документів

Лабораторна робота№ 3

(Російськомовні вербальні ІПС: пошук)

Складання та налагодження тематичного запиту

    Скласти у зошиті запит на тему «Морські битви під час Великої вітчизняної війни». При цьому вилучити з теми незначні слова, розширити запит синонімами, скласти логічну формулу запиту з обов'язковим використанням операторів кон'юнкції, диз'юнкції, відстані та фрази (жорстке словосполучення).

    Показати запит викладачеві.

    Потім записати його варіанти мовами систем Апорт, Яндекс, Рамблер.

    Налагодити запит у режимі реального пошуку, проводячи послідовно сеанси у всіх трьох системах. Спробувати варіювати пошукові приписи, щоб досягти оптимальних показників пошуку. Для цього фіксувати в зошиті отримані результати за кожним варіантом: точність (за першими 20 документами) та умовну повноту (абсолютний обсяг видачі).

    Повернутися до найкращого пошукового припису та текст запиту скопіювати через буфер обміну з пошукового рядка(Вікно для введення запиту) у вікно файлу звіту Report3 (по черзі в кожній системі). Вказати при цьому у звіті показники точності та повноти. Першу веб-сторінку з результатами пошуку в кожній системі зберегти у своїй папці у форматі «тільки html».

Знайомство з пошуком полями («Розширений пошук»)

    Знайти за допомогою системи Яндекс документи, присвячені Леву Гумільову. Кількість знайдених документів та сайтів записати у файл звіту. Адреса (URL) першого документа зі списку зберегти в Обраному в папці Гумільов.

    Потім перейти в режим розширеного пошуку та знайти документи, присвячені Левові Гумільову, з датою після 1 жовтня 2004 р. Нову кількість знайдених документів та сайтів знову записати у файл звіту. Перший документ зі списку результатів пошуку зберегти у своїй папці у форматі "Веб-архів, один файл" (*.mht).

    Знайти через систему Рамблер документи на тему «Економіка міста Москви». При цьому обсяг видачі (кількість описів документів на сторінці результатів) встановити дорівнює 30. Результати пошуку відсортувати за датою (за спаданням) та першу веб-сторінку з результатами пошуку зберегти у своїй папці у форматі «тільки html»

    Перейти в режим розширеного пошуку і знайти документи на тій самій темі, але знаходяться лише на сайті. Результати пошуку відсортувати за датою (за зростанням) та першу веб-сторінку з результатами пошуку зберегти у своїй папці у форматі «тільки html». Кількість знайдених документів та сайтів зафіксувати у файлі звіту.

    Знайти через систему Яндекс документи на тему «Освіта», з яких є посилання на сайт. Першу веб-сторінку з результатами пошуку зберегти у своїй папці у форматі «тільки html». Кількість знайдених документів та сайтів зафіксувати у файлі звіту.

    Завантажити один із знайдених документів, переглянути його html-код, знайти в ньому посилання на сайт та елемент гіперпосилання (від початкового до кінцевого тега А) через буфер обміну скопіювати у файл звіту.

    Документ у форматі mht, збережений у п. 7 (про Лева Гумільова), прочитати в редакторі Word: спочатку у форматі веб-сторінки, потім у форматі «тільки текст». При другому читанні переглянути вміст вікна введення редактора Word (особливо початок і кінець файлу), скопіювати першу сторінку вікна введення файлу звіту і бути готовим пояснити, що таке формат mht.

Примітка.Формат mht кодується відповідно до стандарту MIME (RFC2046 та RFC2047).

    Подати роботу викладачеві.

Лабораторна робота №4

(Глобальні вербальні ІПС: порівняльний аналіз)

    Робота полягає у порівняльному вивченні заданих глобальних ІПС мережі Інтернет вербального типу.

Примітка.Набір систем та їх кількість може змінюватись на розсуд викладача.

    Перейти на сайт відповідної пошукової системи (тут і далі - доменне ім'я системи: www. Назва_системи.com). Знайти у кожній системі посилання її опис загалом, на опис мови запитів, інтерфейсів, режимів роботи та інших особливостей системи. Опис кожної ІПС коротко законспектувати у зошиті.

    Проаналізувати та порівняти можливості систем у режимі розширеного пошуку. Сторінки інтерфейсу розширеного пошуку зберегти у своїй папці.

    Результати аналізу у стислому вигляді подати у формі зведеної таблиці (с. 38) у файлі звіту Report4 (орієнтація таблиці - альбомна). Розмір таблиці можна збільшити. Якщо щось міститься у таблиці, в осередку робити виноску на текст під таблицею (таблиця й не так форма подання результатів, скільки схема аналізу).

    Подати роботу викладачеві.

Результати порівняльного вивчення глобальних вербальних ІПС

Параметри

Логічні оператори(які і як задаються)

Синтагматичні оператори
(які і як задаються)

Пошук по полях(Скласти список полів, відзначати їх наявність/відсутність у конкретних системах)

поле 1

поле 2

………

поле k

Вибір пошукової бази даних
(в яких ресурсах можна шукати)

ресурс 1

ресурс 2

………

ресурс k

Формат видачі містить такі елементи(Під таблицею навести приклад з кожної системи)

елемент 1

елемент 2

………

елемент k

Спеціальні можливості або характерні особливості
(описати для кожної системи)

Лабораторна робота №5

(Глобальні вербальні ІПС: вивчення та пошук)

    Провести пошук на тему «Комп'ютерна лінгвістика» в заданих глобальних ІПС ( набір систем та їх кількість може змінюватись на розсуд викладача).Пошуковий припис логічно має виглядати так:

(computationalVcomputingVcomputer) & linguistics.
Запит по-англійськи двічі, як кон'юнкцію і як стійке словосполучення(Фраза), використовуючи характерні для кожної системи способи вираження операторів (для незнайомих систем знайти відповідну довідкову інформацію). Першу веб-сторінку з результатами кожного пошуку зберегти у своїй папці у вигляді «тільки html». Кількісні результати відобразити у таблиці:

Назва ІПС

Знайдено документи/сайти

Як тільки посилка надійде на один із наших складів за кордоном або в Росії, ви отримаєте сповіщення електронною поштою. Надалі Ви зможете відстежити Вашу посилку на нашому сайті у розділі «Відстеження», для цього необхідно запровадити свій tracking-number.

Будь ласка, переконайтеся, що Ви правильно вказали свою поштову адресу в профілі IPS, і що Ваша електронна поштова скринька не переповнена.

Якщо ваш продавець (інтернет-магазин) повідомив Вам, що Ваша посилка прибула в один з наших офісів, але ви все ще не можете відстежити її, будь ласка, зв'яжіться з нами, надавши можливість повну інформаціюпро вашу посилку (назва магазину, відправника та адреса відправлення, ідентифікаційний номер, дату відправлення тощо).

    Доставка посилки з-за кордону. Як це працює?

    Всім нашим клієнтам (будь то постійний клієнт або клієнт, який бажає отримати посилку одноразово) ми надаємо поштові адреси у трьох містах світу – Лондоні, Нью-Йорку, Ганновері. На будь-який з них Ваш респондент (інтернет-магазин, друг, родич, колега тощо) може надіслати Вам посилку і через – 7-10 робочих днів після того, як вона надійде на одну з цих адрес, Ви отримаєте її в Москві.

    Як мені отримати адреси?

    Є два варіанта:

    • Ви хочете отримати поки що одну-дві посилки:

    Вам потрібно під'їхати з паспортом до офісу IPS. Тут зроблять ксерокопію Вашого паспорта, запишуть Ваші контактні телефони та видадуть потрібну Вам адресу (у Лондоні, Нью-Йорку чи Ганновері).

    • Ви плануєте регулярно (кілька разів на місяць) отримувати листи, журнали або посилки з-за кордону:

    Вам є сенс укласти договір на постійне обслуговування. Для цього потрібно абонувати поштову скриньку та регулярно вносити абонентський платіж. Мінімальний розмірмісячної абонентської плати - 755,2 руб (з урахуванням ПДВ 18%). (Є інші розміри абонентської плати, вони залежать від набору додаткових безкоштовних послуг, вже включених в абонентське обслуговування). У цьому випадку Ви отримуєте всі три адреси і можете скористатися ними на свій розсуд.

    Для отримання адреси - чи можна мені до Вас не приїжджати, а надіслати копію паспорта по e-mail?

    Можна, але тоді потрібна передплата.

    У двох вищевказаних випадках (див. питання 2) ми обслуговуємо клієнтів у режимі післяплати - ми привозимо (тобто спочатку надаємо послугу), а потім тільки отримуємо оплату від клієнта. Тому для нас важливо переконатися, що наш клієнт є реальною особою.

    Якщо Ви хочете нам надіслати копію паспорта електронно, то для подальшого обслуговування важлива передоплата від Вас у розмірі не менше ніж 4000,0 руб. Якщо після надання та оплати послуги доставки у Вас залишається сума – на першу Вашу вимогу ця сума буде Вам повернена на ті реквізити, з яких вона була надіслана Вами нам. Або надалі ви зможете використовувати її для оплати послуг у нашій компанії.

    Чому вигідно абонувати поштову скриньку?

    Клієнт, який абонує поштову скриньку, стає нашим постійним клієнтом.

    Постійні клієнти мають такі пільги:

    • Тарифи на наші послуги для наших постійних клієнтів нижче за тарифи для непостійних клієнтів на 10-30 % (залежно від виду послуг).
    • Розрахунок тарифів за доставку посилки з-за кордону здійснюється відповідно до реальної ваги цієї посилки, а не за округлену вагу до повного числа кілограм.
    • Діють накопичувальні знижки.
    • Упаковка, перепакування листів/посилок для наших постійних клієнтів здійснюється безкоштовно.
    • Для постійних клієнтів здійснюється доставка або пересилання листів/посилок з наших закордонних адрес на будь-яку іншу міжнародну адресу або до рук будь-якій особі за кордоном.
    • Постійний клієнт отримує інформацію про всі зміни наперед.
    • Постійний клієнт може замовити необхідну йому нестандартну послугу, навіть якщо ця послуга не позначена в списку послуг IPS і її потрібно виконати за межами Росії.
    • Безкоштовно зберігати довгий часлисти/посилки у наших закордонних офісах.
    • Самостійно забирати свої посилки у наших закордонних офісах.
  • Можу я використовувати поштову скриньку, що абонується, у Вашому офісі для отримання звичайної пошти, кореспонденції, рахунків, підписки з Москви чи з Росії?

    Звичайно. Абонентська плата у нас дешевша, ніж на Пошті Росії. У цьому випадку, крім абонентської плати, Ви більше нічого не платите.

    Мені потрібно надіслати посилку за кордон. Чим послуги IPS відправлення відрізняються від інших кур'єрських компаній?

    • Через нас клієнт може відправити трьома режимами:
      • поштовий режим - найдешевший, але і найповільніший - 10-12 раб.
      • кур'єрський режим середньої швидкості доставки - 4-5 раб.днів (Експрес-смарт);
      • кур'єрський режим найвищої швидкості доставки - 1-2 раб.дня (Експрес-бізнес).
    • Ми самостійно оформляємо всі документи для митниці за клієнта.
    • Безкоштовно консультуємо щодо оптимізації логістичного процесу відправлення будь-якого вантажу до будь-якої країни світу.
  • У мене 4 маленькі посилки. Ви зможете запакувати ці посилки в одну?

    Зможемо. Ми забезпечимо консолідацію посилок. Для постійних клієнтів (поштова скринька, що абонують) – ця послуга безкоштовна.

    Як я можу оплатити доставку?

    На даний момент доступні готівковий та безготівковий метод оплати.

    Яка компенсація мені буде виплачена у разі втрати посилки?

    Наша доставка має високий ступіньнадійність. Однак, якщо таке трапилося і посилка була застрахована - повна застрахована сума.

    Як довго займає доставка посилки?

    Зазвичай, доставка займає від 7 до 12 днів з дня надходження посилки на наш склад у відповідній країні.

    Чи можу я зберігати мою посилку на вашому складі у США/Великобританії/Німеччині протягом 1-2 місяців? Чи стягується за це додаткова плата?

    Якщо Ви не абонуєте поштову скриньку, компанія IPS буде зберігати безкоштовно Вашу посилку лише протягом 7 днів з моменту надходження на склад. У разі зберігання посилки понад 7 днів стягується додаткова плата. IPS залишає за собою право на свій розсуд розпоряджатися посилками, що зберігаються на складі більш ніж на 60 днів, власники яких не здійснили оплату зберігання.

    Які переваги доставки з IPS?

    Переваги доставки з компанією IPS:

    • надійність доставки;
    • розумна та зрозуміла вартість доставки;
    • виконуваний термін доставки -7-12 днів;
    • наявність московського офісу, де завжди готові допомогти;
    • можливість купівлі товарів, недоступних у Росії;
    • можливість купівлі товарів у магазинах, які не доставляють товари до Росії;
    • можливість економії на доставці, використовуючи послугу консолідації відправлення та перепакування.
  • Яку інформацію я маю вказати в полі «Адреса доставки» при купівлі товарів в інтернет-магазинах?

    Ви повинні ввести: адресу нашого закордонного офісу, надану Вам нашою компанією, Ваше Прізвище та Ім'я, номер Вашої поштової скриньки.

    Чи маю я щось Вам повідомити після здійснення покупки та відправки посилки на надану мені адресу?

    Після здійснення замовлення необхідно повідомити нас про досконале замовлення, надати дані замовлення – опис вкладення, його вагу, вартість. Ця інформація необхідна для обробки ваших посилок.

    Чи існують обмеження можливих вкладень?

    З компанією IPS ви можете надіслати посилку з будь-яким вкладенням, не забороненим законодавством України.

    До заборонених вкладень відносяться:

    • вибухові речовини,
    • легкозаймисті предмети,
    • радіоактивні матеріали,
    • стиснутий газ,
    • вогнепальну зброю,
    • будь-які предмети, які за своєю природою упаковки можуть призвести до травмування працівників IPS або спричинити пошкодження інших предметів.

    З повним переліком заборонених вкладень ви зможете ознайомитись.

    Перед тим як здійснити покупку в інтернет-магазині, будь ласка, переконайтеся, що ваша покупка не відноситься до категорії небезпечних вантажів.

    Чи гарантує IPS справжність та якість придбаного мною продукту?

    IPS не несе відповідальності перед клієнтом за справжність та якість придбаного ним товару. В цілях власної безпекиБудь ласка, купуйте товари тільки у перевірених інтернет-магазинах

    Як правильно запакувати посилку?

    Проте, якщо це необхідно, будь ласка, забезпечте належне пакування вашого відправлення, або проінформуйте співробітників IPS про необхідність додаткового пакування вашої посилки.

    Ми не несемо відповідальності за будь-які збитки та пошкодження, які можуть виникнути під час обробки, перевезення або доставки внаслідок неналежної упаковки посилки відправником.

    Які документи потрібно надати для підтвердження оцінної вартості відправлення?

    Необхідно надати інвойс, підготовлений відправником, зазначені у ньому суми повинні включати всі податки, і навіть інші можливі збори.

    У яких інтернет-магазинах я можу купувати?

    Що робити, якщо продавець надіслав не той товар/не правильну кількість товару?

    Так як компанія IPS здійснює тільки доставку вашої посилки до Росії, всі питання щодо комплектації та відповідності товару, а також можливість обміну або повернення необхідно вирішувати безпосередньо з продавцем або відправником.

    Я хочу придбати ювелірні виробиз дорогоцінних металівз дорогоцінним камінням. Це можливо?

    Ні. Ми не доставляємо вироби з дорогоцінних металів та/або з дорогоцінним камінням.

    Коли я знатиму кінцеву вартість доставки?

    Тільки після того, як посилка надійде на наш, вибраний Вами закордонний склад.

    Як тільки ваша посилка буде оброблена, ви будете повідомлені електронною поштою щодо термінів доставки та кінцевої вартості доставки. Вашій посилці буде надано персональний номер, ви зможете, дотримуючись інструкцій у листі, сплатити вартість доставки та відстежити статус свого відправлення.

    У випадку, якщо ви хочете здійснити консолідацію вашого відправлення, необхідно робити оплату після остаточного формування посилки.

    Клієнту, який абонірує поштову скриньку, не потрібно здійснювати жодних оплат до отримання своєї кореспонденції/посилок у московському офісі IPS.

    Якщо я вирішив відмовитися від доставки в Росію посилки, яка прийшла на моє ім'я до закордонного офісу IPS, чи будуть з мене утримані якісь суми, якщо необхідно повернути посилку відправнику або знищити її?

    Якщо з будь-якої причини ви вирішили зупинити доставку до Росії вашої посилки, будь ласка, терміново переговоріть з вашим відправником, щоб він не надсилав на адресу IPS вашу посилку.

    У випадку, якщо посилка все ж таки прийшла на адресу складу IPS, ми можемо за вашою вказівкою відправити посилку назад (або переправити на іншу адресу) з утриманням 10$ адміністративного збору, а також 100% вартості витрат на повернення/доставку посилки.

    Також ми можемо утилізувати посилку з утриманням 10 $ адміністративного збору (для посилок, що не перевищують 15 кг). У разі зберігання посилки більш ніж 21 день, IPS стягує оплату в розмірі $50 в день за одну посилку.

    Яка мінімальна оплачувана вага посилки, що доставляється?

    Для клієнтів, які абонірують поштову скриньку - мінімальна оплачувана вага становить 1 фунт з наступним кроком 0,1 фунт.

Доброго дня, мої шановні читачі. Сьогодні ми торкнемося надзвичайно цікавої та важливої ​​теми – інформаційно-пошукові системи. Вміння правильно працювати з ними, знання основних понять та принципів роботи зможуть допомогти початківцям навчитися швидко та оперативно шукати різну інформацію в мережі, отримувати потрібні дані та швидко розвивати свій інтернет бізнес.

У цій статті я розповім про історію створення систем пошуку, принципи їх роботи та структуру. Крім цього, зупинюся на дуже важливих фішках, які необхідно знати під час роботи з ІПС.

Отже, давайте докладніше вивчимо, що таке ІПС, які компоненти входять до їх складу.

Інформаційно – пошукові системи (ІПС) та їх види

Дане поняття виникло ще наприкінці 80-х, на початку 90-х років минулого століття. Саме тоді й виникли їхні перші прототипи як у Росії, так і за кордоном. Відповідно до визначення – це система, що дозволяє шукати, обробляти, відбирати необхідні дані запиту у своїй особливій базі, де є описи різних джерел інформації, і навіть правила користування ними.

Основним її завданням є пошук необхідної користувачеві інформації. Щоб він був ефективнішим, використовується поняття релевантності, тобто те, наскільки самі результати пошуку точно підходять тому чи іншому запиту.

До основних типів ІПС належать такі поняття:

Індексація каталогу може здійснюватися як вручну, так і автоматично з оновленням індексу. У свою чергу сам результат роботи системи включає в себе особливий список. До нього входять гіперпосилання на необхідні ресурси та опис того чи іншого документа в Інтернеті.

З найпопулярніших каталогів можна виділити: Yahoo, Magellan(закордонні) таWeblist, Равлик і @Rusіз вітчизняних.


До найпоширеніших зарубіжних ІПС відносять Google, Altavista, Excite. Росіяни - "Яндекс" і "Рамблер".

  • У світі існує безліч різних видів ІПС, які містять безліч джерел інформації. Зрозуміло, що навіть наявність найсучаснішого та найпотужнішого сервера не може задовольнити запити мільйонів користувачів. Саме тому, з'явилися спеціальні метапошукові системи.Вони можуть одночасно пересилати запити користувачів різним пошуковим серверам, а на основі свого узагальнення мають можливість надати користувачеві документ, що містить посилання на потрібний ресурс. До них можна віднести – MetaCrawler або SavvySearch.

Історія створення ІПС

Найперші ІПС з'явилися в середині 90-х років 20 століття. Вони дуже нагадували звичайні покажчики, які у будь-яких книгах, деякі довідники. У їхній базі даних містилися спеціальні ключові слова (слова), які у різний спосібзбиралися із численних сайтів. Так, як інтернет-технології були не досконалими, то й сам пошук виконувався лише за ключовими словами.

Значно пізніше було розроблено спеціальний повнотекстовий пошук, який полегшує перебування необхідної користувачевіінформації. Система робила фіксацію ключових слів. Завдяки ній користувачі могли здійснювати потрібні запити за тими чи іншими словами та різними словосполученнями.

Однією з перших була «Wandex». Її розробкою займався дуже відомий програміст Метью Греем у 1993 році. Також цього ж року виникла і нова «пошук» «Aliweb» (до речі, і до цього дня успішно працює). Проте всі вони мали досить складну структуру і не мали сучасних технологій.

Однією з найбільш вдалих стала WebCrawler, яка вперше була запущена в 1994 році. Відмінною особливістю та головною перевагою, що вигідно виділяє її серед інших систем пошуку, стало те, що вона могла знаходити будь-які ключові слова на тій чи іншій сторінці. Після цього це стало свого роду еталоном і для всіх інших ІПС, які розроблялися пізніше.

Значно пізніше виникли й інші пошукові системи, які іноді конкурували між собою. Це були - "Excite", "AltaVista", "InfoSeek", "Inktomi" та багато інших. Починаючи з 96 року, російські користувачі мережі почали працювати з «Рамблером» та «Апортом». Але справжнім тріумфом для російського інтернету став створений у 1997 році «Яндекс».

Цей російський аналог Google став справжньою гордістю російських програмістів. Сьогодні він впевнено тіснить конкурента в рунеті і також є одним з лідерів з пошукових запитів серед ІПС в Росії.

На сьогоднішній день є численні спеціальні «пошукачі», які створені для вирішення певних завдань. Так, наприклад, інформаційно-пошукова система «Патрон», розроблена для того, щоб зберігати та шукати дані щодо патронів для різної зброї і зараз застосовується, як в органах Міністерства Внутрішніх Справ та спецслужб, так і для мисливців – професіоналів та любителів.

Є й інші, розроблені для нотаріусів, лікарів, інженерів, військових, автолюбителів і т.д.

Як працює ІПС

Робота інформаційно-пошукової системи є дуже складною. Однак за бажання можна розібратися у її структурі. Перше, що треба сказати, існує особлива програма – вона називається пошуковим роботом (павуком). Ця програма систематично моніторить різні сторінки та індексує їх.

Веб сервер створює запит користувача на отримання тієї чи іншої інформації, а потім надає запит машині пошуку. Пошуковик досліджує необхідну базу даних, потім складає повний список сторінок, а потім передає веб-серверу. Він, у свою чергу, остаточно формує всі результати запиту в «читаний» вигляд, потім передає їх на «комп» користувача.

ІПС призначена для наступних цілей:

  • Зберігати значні обсяги даних;
  • Проводити оперативний пошук необхідної інформації;
  • Додавати, а також видаляти різні дані;
  • Виводити інформацію у простому та зручному вигляді.

Існують кілька основних типів ІПС:

  • Автоматизовані
  • Бібліографічні
  • Діалогові
  • Документальні

Які пошукові системи найпопулярніші сьогодні?

На першому місці, без жодного сумніву, перебуватиме невід'ємний лідер – «Google». На сьогоднішній день, до нього адресується близько 80 відсотків різних світових запитів за різними сферами. Що стосується другого місця, то його також заслужено займає американський «eBay».

На третьому місці наш, вітчизняний, російський «Яндекс». На четвертому – «Yahoo» та на п'ятому – MSN. Ще одним вітчизняним браузером, який займає лише 10 місце в рейтингу Європи – це російський «Rambler».

Google

Ця пошукова система знає величезну кількість користувачів. На сьогоднішній день це перша за популярністю система у світі! Щомісяця вона опрацьовує понад 41 млрд запитів і проводить індексацію 25 мільярдів сторінок.

Що стосується історії створення компанії Google, то ще в 1996 році, пара студентів університету Стенфорда - Ларрі Пейдж і Сергій Брін розробили браузер, створений на нових методах пошуку. Назвали вони її просто і лаконічно, як і дизайн пошукової системи «Google». Власне назва google - це спотворений googol (число десять сотою мірою).

В основі її спеціальний пошуковий робот, який називається Googlebot. Він проводить сканування сторінок та їх індексацію. Як алгоритм авторитетності, ця ПС . Власне саме він забезпечує те, як видаватимуться сторінки відвідувачу в пошукових результатах.

Одним з перших, ця фірма розробила і різними мовами, який значно полегшує введення даних у систему. Ну, і нарешті, саме і послужив основою для слова "гуглити", яке все частіше зустрічається у сленгу молодих тінейджерів.

« Yahoo» – друга за популярністю у США. Її організували в 1994 році два аспіранти Стенфорда - Девід Філо і Джеррі Янг. Наприкінці 90-х ними було придбано портал RocketMail і на його основі створено безкоштовний поштовий сервер «Yahoo». Сьогодні на її серверах можна зберігати будь-яку кількість листів. 2010 року з'являється і російськомовний ресурс пошти – Yahoo! Пошта.

Яндекс

Одним з кращих російських пошукових систем, поза всяким сумнівом, є «Яндекс». На сьогоднішній день він стоїть на четвертому місці за кількістю запитів. У той же час, за популярністю «Яндекс» займає сьогодні перше місце в Російській Федерації. Загальна кількість вироблених запитів перевищує 250 мільйонів щодня

Він був представлений у вересні 1997 року, а вже у травні 2011 року, здійснивши розміщення своїх акцій на IPO, ця фірма змогла заробити найбільшу кількість акцій серед інших інтернет – компаній.

Сьогодні, Yandex має 50 сервісів, з яких деякі унікальні - Яндекс.Пошук, Яндекс.Карти, Яндекс.Маркет. Крім цього, російських користувачівдуже цікавлять такі сервіси, як «Пошук блогів», «Яндекс Пробки». Основні запити для користувачів переважно з наступних країн ближнього зарубіжжя: Росія, Білорусь, Туреччина та Казахстан.

Історично фірму заснував бізнесмен – програміст Аркадій Волож у 1989 році. Сама назва компанії була вигадана Іллею Сегаловичем, директором «Яндекса». Завдяки співпраці з інститутом проблем передачі було створено довідковий словник з пошуком.

На відміну з інших браузерів, враховує і морфологію російської. Таким чином, сама система призначена саме для роботи у російськомовному сегменті інтернету.

Починаючи з 2010 року, крім браузера Yandex.ru з'явився ще один пошуковик Yandex.com. Даний інтернет – ресурс використовується для пошуку за кордоном.

Пошукова система "Ebay»

Ebay є інтернет-компанією зі США, яка спеціалізується на проведенні інтернет-аукціонів. Вона здійснює управління порталу eBay.com, а також версіями в інших країнах світу. Крім того, у власності компанії є ще одна eBay Enterprise.

Засновником фірми є американський програміст П'єр Омідьяр, який у середині 90-х років розробив інтернет-аукціон для свого особистого порталу. У той же час, eBay – це свого роду посередник у купівлі продажу. Щоб використовувати його продавці, вносять певний внесок, а покупці отримують можливість безкоштовного використання сайту.

Загальні принципи його наступні:

  • В основному всі люди добропорядні
  • Кожен може зробити свій внесок
  • У відкритому спілкуванні люди виявляють свої найкращі якості

Вже 1995 року на тисячах онлайн аукціонів продавалися мільйони різних предметів. Сьогодні це потужна платформа для купівлі продажу, як фізособами, так і юрособами.

З 2010 року виникла російськомовна версія популярного ресурсу і стала називатися «Міжнародний торговий центр eBay». Оплата на аукціоні здійснюється через платіжну систему PayPal.

Для того, щоб продати предмети на даному порталі, необхідно написати скільки він коштує, його стартова ціна, коли почнуться торги, а також скільки триватимуть торги. Як і в звичайному аукціоні, обраний товар отримує той, хто заплатив найвищу ціну.

З плюсів подібного аукціону варто відзначити те, що продавець і покупець можуть знаходитися в будь-якому місці земної кулі, а наявність локальних філій та тимчасових рамок надають можливість брати участь в аукціонах величезній кількості продавців та покупців.

Дана пошукова система є провідним інтернет-браузером, розробленим компанією Microsoft. Він з'явився одночасно з випуском першої операційної системи Windows 95. Далі цією назвою став користуватися і сервіс електронної пошти Hotmail, а також різні веб-сайти Майкрософт. На початку 2002 року він був одним із найбільших інтернет-провайдерів у США і мав 9 мільйонів передплатників.

Пошукова системаRambler

Другою великою російською пошуковою системою є інтернет – портал «Rambler». За своєю суттю, разом із «Яндекс» він є родоначальником рунету, а також головним гравцем на ринку медіа послуг.

Засновником його є Сергій Лисаков, який у 1994 році розробила пошукову систему, а у 1996 році був зареєстрований і домен www.rambler.ru. Починаючи з 2012 року, «Рамблер» почав працювати як портал новин.

Сьогодні він має 11 місце за популярністю серед інших сайтів РФ. Також був розроблений і спеціальний класифікатор Rambler Top-100. За своєю суттю він був першим і в Росії. Сьогодні - це зручний каталог об'єктів нерухомості "Rambler - нерухомість".

Пошуковикmail

Однією з найбільших поштових служб стала створена в 1998 році Mail.ru. Сьогодні вона є службою електронної пошти, каталогом інтернет – ресурсів та інформаційними розділами. Крім дуже зручної пошти, вона має низку спеціальних проектів, які дуже популярні і потрібні передплатникам: "Авто Mail.ru", Афіша "Mail.ru", "Діти mail.ru", "Здоров'я mail.ru", "Леді mail. ru», «Новини mail.ru» та «Нерухомість mail.ru».

Для любителів спорту та Hi-Tech є відповідні рубрики.

На цьому завершую свій матеріал. Якщо вам подобалося, то, будь ласка, підписуйтесь на мій блог та запрошуйте своїх рідних, друзів та знайомих.

(Поки що оцінок немає)

Прочитано: 469 разів

З позовом до росіянина, який замовив у закордонному Інтернет-магазині новий смартфон Motorola? Тоді було чимало нотаток на цю тему і майже всі вони могли б бути сформульовані коротко: "Російська влада закручує гайки і звичайному росіянину вже навіть через Інтернет не можна замовити нічого потрібного - скрізь фіскали та правоохоронці вставляють палиці в колеса". Треба зауважити, що такі висловлювання типові для майже будь-якої людини, котра зіткнувшись з нестандартною для себе ситуацією, в якій відбувається нібито утиск прав, починає, не розібравшись, звинувачувати в усьому всіх крім себе. Із ввезенням смартфона ситуація була саме з цієї галузі. Однак випадок цей був далеко не перший. Ще кілька років тому один із росіян, купивши на eBay маршрутизатор Cisco, зіткнувся з аналогічною ситуацією на російській митниці. А до і після було ще кілька аналогічних випадків. Спробуємо розібратися.

Справа в тому, що в Росії, а точніше на території Митного Союзу, до якого входять Росія, Білорусь та Казахстан, уже кілька років діють правила ввезення криптографічних засобів, під які потрапляють багато гаджетів та інші предмети, про які ми навіть не замислюємося, що вони підпадають під поняття засобів щифрування. Досі щодо цієї теми більше чуток та міфів, ніж достовірної інформації. Основною помилкою є дві позиції та їх похідні "В Росію не можна ввозити засоби шифрування Cisco" і "Я можу замовити в зарубіжному Інтернет-магазині або аукціоні все, що завгодно, і без проблем отримати це в Росії". Це неправильно і в цій статті нам хотілося б відповісти на найпоширеніші питання щодо імпорту ІТ-продукції, і зокрема, засобів шифрування.

А до чого тут взагалі шифрувальні засоби?

Документи, що регламентують питання ввезення-вивезення шифрувальних засобів, визначають, що засоби шифрування – це “апаратні, програмні та апаратно-програмні засоби, системи та комплекси, що реалізують алгоритми криптографічного перетворення інформації та призначені для захисту інформації від несанкціонованого доступу при її передачі каналами зв'язку та (або) при її обробці та зберіганні”. З одного боку, це дуже ємне, а з іншого – зовсім неконкретне визначення, яке може трактуватися по-різному в різних ситуаціях. Кодування – це шифрування? А електронний підпис? А криптографічна автентифікація?

Насправді з погляду митних органів контролю підлягають не лише засоби шифрування, визначені абзацом вище, але також:

  • засоби імітозахисту
  • засоби електронного цифрового підпису
  • засоби кодування
  • засоби виготовлення криптографічних ключів
  • самі криптографічні ключі
  • системи, обладнання та компоненти, розроблені або модифіковані для виконання криптоаналітичних функцій
  • системи, обладнання та компоненти, розроблені або модифіковані для застосування криптографічних методівгенерації розширюється коду для систем з спектром, що розширюється, включаючи стрибкоподібну перебудову кодів для систем з стрибкоподібною перебудовою частоти
  • системи, обладнання та компоненти, розроблені або модифіковані для застосування криптографічних методів формування каналів або кодів, що засекречують, для модульованих за часом надширокосмугових систем.

Список виходить досить великий, але для цілей ввезення не так вже й важливо саме визначення. Найважливіше те, що саме контролюється митницею. У Переліку 2.19 немає окремо визначеної групи шифрувальних засобів та відповідних кодів так званої єдиної Товарної номенклатури зовнішньоекономічної діяльності (ЕТН ЗЕД). У Переліку 2.19 зазначені найменування товарів та їх коди ЕТН ЗЕД, за належністю до яких митні органи можуть визначити ввезений продукт як шифрувальний (і не важливо, чи є там шифрування насправді чи ні). Стосовно продукції Cisco витримка з Переліку 2.19 виглядає, наприклад, таким чином:

Не варто сильно вникати в те, що написано в таблиці:-) Набагато важливіше розуміти, що митні органи контролюють усе, що так чи інакше ми використовуємо у своєму звичайному житті або у службових цілях – комп'ютери, смартфони, лептопи, GPS-приймачі, маршрутизатори , точки бездротового доступу, програмне забезпечення, телевізори та телевізійні приставки тощо. Саме тому смартфон Motorola в недавньому випадку потрапив "під роздачу" - він вважається шифрувальним засобом з точки зору митниці. Хоча треба визнати, що він таким вважається і не лише з погляду митниці, а й здоровий глуздпідказує нам, що у будь-якому сучасному смартфоні шифрування є. Воно є в чіпі, що реалізує будь-який стандарт мобільного зв'язку (наприклад, A5 GSM). Воно є в операційній системі Android чи iOS чи Blackberry. Воно є у бразуері Safari або іншому мобільному варіанті найпоширеніших браузерів. Воно є в поштовому клієнтуна смартфоні. Воно є… Та мало додатків чи мікросхем на смартфоні, де є шифрування. Якщо подивитися на багато інших наведених у таблиці пристрої, ми зрозуміємо, що шифрування там дійсно є. Як мінімум, для захисту інформації на самому пристрої, для зберігання ключів або автентифікаційної інформації, або для захищеного керування (SSH - це також шифрування).

Якщо продукт шифрувальний функціонал не є основним або його не передбачається використовувати як шифрувальний засіб, він буде вважатися шифрувальним засобом чи ні?

Поставте себе на місце рядового митника ... Як він дізнається, для чого ви будете використовувати продукт, що провозиться через кордон? Можливо ви придбаний на eBay смартфон повісите в рамочку на стіну, а може бути їм цвяхи забивати. А може, ви прихований терорист чи екстреміст, який планує використовувати імпортний засіб зв'язку для взаємодії зі своїми спільниками? Але якщо відкинути жарти убік, то позиція влади проста - якщо продукт може реалізувати алгоритми криптографічного перетворення інформації, він у будь-якому випадку вважається зашифровальним засобом, навіть якщо шифрування є неосновним або функцією, що не використовуєтьсяпродукту.

Іншими словами виходить, що будь-який ІТ-товар, що перетинає кордон Російської Федерації, стає предметом митного регулювання і на нього поширюються всі правила ввезення шифрувальних засобів. І зовсім неважливо, хто є замовником такого засобу – фізична чи юридична особа.

Чи є єдиною процедурою ввезення для різних засобів шифрувальних засобів?

Усі шифрувальні засоби (читай майже будь-які ІТ-продукти) за процедурою ввезення поділені на дві групи:
  • Спрощена процедура ввезення. Означає ввезення за так званою зареєстрованою нотифікацією, яка оформляється для шифрувальних засобів, які можуть бути включені до “Перелік категорій товарів (продукції), які є шифрувальними (криптографічними) засобами або містять у своєму складі шифрувальні (криптографічні) засоби, технічні та криптографічні характеристики яких підлягають нотифікації” (додаток до раніше згаданого Положення про ввезення, далі – Перелік НТФ).
  • Ввезення за ліцензією. Шифрувальні засоби, що не потрапили до Переліку НТВ, ввозяться на підставі разової ліцензії Мінпромторгу Росії, виданої на підставі укладання Центру ліцензування, сертифікації та захисту державної таємниці ФСБ Росії (далі - ЦЛСЗ) про можливість ввезення шифрувального засобу. Ліцензія та висновок видаються імпортеру на конкретне постачання у бік конкретного замовника (споживача).

Що ввозиться за спрощеною схемою?

Ідеально, якщо продукт потрапляє під спрощенку. У цьому випадку його ввезення нічим не відрізняється від ввезення будь-якої іншої, необмеженої заборонами продукції. На сьогоднішній день до цього списку потрапляють:
  • Товари, що містять шифрувальні (криптографічні) засоби, що мають будь-яку з таких складових:
    • симетричний криптографічний алгоритм, що використовує криптографічний ключ довжиною, що не перевищує 56 біт (це звичайний і мало де зараз застосовується DES); або
    • асиметричний криптографічний алгоритм, заснований на будь-якому з наступних методів (той самий RSA в сучасній реалізації в цей виняток теж не потрапляє):
      • на розкладанні на множники цілих чисел, розмір яких не перевищує 512 біт;
      • на обчисленні дискретних логарифмів у мультиплікативній групі кінцевого поля
        розміру, що не перевищує 512 біт; або
      • на дискретному логарифмі у групі, відмінного від наведеного у наведеному вище
        підпункті "b" розміру, що не перевищує 112 біт.
  • Товари, що містять шифрувальні (криптографічні) засоби, що мають такі обмежені функції:
    • автентифікація, що включає всі аспекти контролю доступу, де немає шифрування файлів або текстів, за винятком шифрування, яке безпосередньо пов'язане із захистом паролів, персональних ідентифікаційних номерівабо подібних даних для захисту від несанкціонованого доступу;
    • електронний цифровий підпис.
  • Шифрувальні (криптографічні) засоби, що є компонентами програмних операційних систем, криптографічні можливості яких не можуть бути змінені користувачами, які розроблені для встановлення користувачем самостійно без подальшої суттєвої підтримки постачальником та технічна документація(Опис алгоритмів криптографічних перетворень, протоколи взаємодії, опис інтерфейсів і т.д.) на які є доступною. Саме під цей виняток підпадають поширені ОС - Windows, Linux і т.п.
  • Шифрувальне (криптографічне) обладнання, спеціально розроблене та обмежене застосуванням для банківських чи фінансових операцій. Це банкомати, обладнання SWIFT і т.п. Cisco спеціально для цих цілей випускає маршрутизатори 800 серії з кодом PCI в коді продукту.
  • Персональні смарт-картки (інтелектуальні карти).
  • Приймальна апаратура для радіомовлення, комерційного телебачення або аналогічної комерційної апаратури для мовлення на обмежену аудиторію без шифрування цифрового сигналу, крім випадків використання шифрування виключно для керування відео- або аудіоканалами та надсилання рахунків або повернення інформації, пов'язаної з програмою, провайдерам мовлення.
  • Устаткування, криптографічні можливості якого недоступні користувачеві, спеціально розроблене та обмежене для застосування будь-яким із наступного.
    • програмне забезпечення виконане у захищеному від копіювання вигляді
    • доступом до будь-якого з наступного:
      • захищеному від копіювання вмісту, що зберігається тільки на доступному для читання носії інформації;
      • інформації, що зберігається у зашифрованій формі на носіях, коли ці носії інформації пропонуються на продаж населенню в ідентичних наборах
    • контролем копіювання аудіо- та відеоінформації, захищеної авторськими правами.
  • Портативні чи мобільні радіоелектронні засобицивільного призначення (наприклад, для використання в комерційних цивільних системах стільникового радіозв'язку), які не здатні наскрізного шифрування (тобто від абонента до абонента). Саме під цей виняток потрапляють звичайні мобільні телефони та багато моделей смартфонів.
  • Бездротове радіоелектронне обладнання, що здійснює шифрування інформації тільки в радіоканалі з максимальною дальністю бездротової дії без посилення та ретрансляції менше 400 м відповідно технічними умовамивиробника. Домашні точки доступу цілком підпадають під цей виняток.
  • Шифрувальні (криптографічні) засоби, що використовуються для захисту технологічних каналів інформаційно-телекомунікаційних систем та мереж зв'язку.
  • Товари, у яких криптографічна функціязаблоковано виробником. Наприклад, Cisco для багатьох своїх продуктових лінійоквипускає спеціальні версії обладнання із встановленим програмним забезпеченням NO PAYLOAD ENCRYPTION - "NPE". Таке ПЗ є для маршрутизаторів Cisco 800, ISR 1900, ISR 2900, ISR 3900, 2100 CGR, ASR1000, ASR 903, комутаторів Cisco Catalyst 3560-X, Catalyst 3750-X, 2500 CGS, Nex . Цей перелік модифікованих продуктів постійно розширюється.

Що ввозиться за складною схемою?

Якщо на товар, що перетинає кордон, відсутня нотифікація, то ввозиться він за “складною” схемою. Навіть якщо формально він міг би бути оформлений за спрощеним варіантом. Така ситуація часто виникає для нових продуктів, на які виробник ще не встиг (або зовсім не планує) оформити нотифікацію.

А інших варіантів немає?

У Положенні зазначено низку винятків, коли шифрувальний засіб може бути завезений без нотифікації, а й без ліцензії Мінпромторгу. Це відбувається у таких випадках:

  • при ввезенні та вивезенні шифрувальних засобів для здійснення ремонту або заміни відповідно до зобов'язань за договором (контрактом, угодою);
  • при тимчасовому ввезенні та тимчасовому вивезенні шифрувальних засобів з метою:
    • проведення науково-технічної експертизи
    • наукових досліджень;
    • експонування на виставках;
  • при ввезенні та вивезенні шифрувальних засобів з метою забезпечення власних потреб організацій без права їх розповсюдження та надання третім особам послуг у галузі шифрування;
  • при транзитних перевезеннях шифрувальних коштів через територію країн – учасників митного союзу.

Щоправда, у разі однаково необхідне отримання відповідного укладання ЦЛСЗ.

Хто має займатися оформленням документів на ввезення засобів шифрування?

У разі ввезення за нотифікацією, її оформленням займається виробник ввезеної продукції. Наприклад, Cisco заповнює нотифікації на свою продукцію у двох примірниках, після чого відповідна інформація потрапляє до Переліку НТФ, а Cisco передає самі нотифікації для реєстрації ЦЛСЗ. Після реєстрації один екземпляр нотифікації повертається до Cisco. ЦЛСЗ також надсилає інформацію про зареєстровану нотифікацію в ЄЕК для опублікування на сайті www.tsouz.ru/db/entr/notif/Pages/default.aspx (до речі, ви можете і самі перевірити законність ввезення продукції, що використовується). У середньому процедура реєстрації нотифікації займає не менше 2-3 тижнів. Ввезення шифрувальних засобів, що потрапляють до Переліку НТФ, здійснюється на підставі інформації про зареєстровану нотифікацію без оформлення інших дозвільних документів.

У разі ввезення за “складною” схемою всі роботи з уповноваженими державними органами (ЦЛСЗ та Мінпромторг) здійснює імпортер (а не споживач). Процедура отримання ліцензії та вся необхідна інформація детально представлена ​​на сайті Мінпромторгу - www.minpromtorg.gov.ru/services/permission/export-import. При цьому Положення про ввезення не робить різницю між юридичними або фізичними особами, але на практиці звичайний громадянин навряд чи зможе пройти всі процедури спілкування з регулюючими органами.

Загальний термін отримання ліцензії Мінпромторгу з урахуванням проведення експертизи та отримання висновку ЦЛСЗ не повинен перевищувати 90 днів з дня реєстрації звернення імпортера до ЦЛСЗ. Практика, що склалася, показує, що за умови правильно підготовлених документів, отримання дозвільних документів займає близько 7 - 9 тижнів (ЦЛСЗ - від 4 до 6 тижнів, Мінпромторг - не більше 3 тижнів). При цьому замовляти продукцію можна одразу після отримання висновку ЦЛСЗ. Процедуру отримання ліцензії Мінпромторгу можна поєднати із процесом виготовлення та транспортування продукції до Росії.

У наведеному випадку з ввезенням смартфона він повинен був потрапити під спрощену схему; але тільки після того, як російська юридична особа, яка представляє інтереси Motorola, зареєструвала б нотифікацію на даний смартфон. Так як модель ця була нова і в Росію на момент замовлення не постачалася, то до смартфона було застосовано "складну" схему. При цьому оформленням документів на ввезення смартфона мав займатися не покупець, а імпортер - кур'єрська або логістична компанія, що доставляє товар через кордон. У неї, зрозуміло, ніяких спеціальних дозвільних документів на ввезення шифрувального засобу не було, а митниця в базі зареєстрованих нотифікацій моделі смартфона, що провозиться, теж не знайшла. У результаті виникло порушення митного законодавства.

Що загрожує порушення правил ввезення засобів шифрування?

Як було написано в порядку, наведеному постраждалим любителем смартфонів Motorola, йому інкримінували порушення частини 1 статті 16.3 Кодексу про адміністративні правопорушення (“Недотримання обмежень на ввезення товарів”). Насправді митниця не дуже чітко класифікувала правопорушення - тут слід було б застосувати частину 2 цієї статті. Крім статті 16.3, можливе застосування (але вже до імпортера) статей 16.2 "Недекларування або недостовірне декларування" та 16.7 "Подання недійсних документів при митному декларуванні". Всі ці статті можуть бути застосовані як до юридичної особи, яка ввозить шифрувальні кошти через митний кордон РФ, так і фізичній особі, Що і було вже не раз продемонстровано за кілька років.

Але якщо шифрувальний засіб перетнув кордон і продається вже на території Росії, то покупцеві нічого не загрожує. Справа в тому, що купівля шифрувальних коштів на території Російської Федерації нині ніяк не регламентується. Чинне законодавство не зобов'язує покупця біля Росії перевіряти умови ввезення придбаних їм товарів. Тільки разі замовлення шифрувальних коштів поза РФ і ввезення їх через кордон Митного Союзу набирають чинності всі правила, описані вище.

А хіба кінцевий користувач не бере участі у процесі оформлення свого замовлення?

Хоч як це дивно, ні. У Положенні не визначено процедури, які має здійснювати споживач. Але відповідно до практики, що склалася, споживач надає імпортеру підтримку, надаючи в ЦЛСЗ інформаційний лист щодо застосування ввезеного обладнання (для “складної” схеми), т.к. імпортер зобов'язаний вказати кому здійснюється ввезення шифрувального кошти. У листі вказується мінімально необхідна така інформація:
  • каталожні номери (P/N), найменування, кількість шифрувальних засобів, що ввозяться
  • мета ввезення
  • коротка характеристика середовища функціонування – локалізація, користувачі, інформація, що обробляється
  • призначення шифрувальних засобів, що ввозяться, їх розміщення (адреса).

Інформаційний лист має співпадати за змістом із заявою до ЦЛСЗ від імпортера. Відсутність інформаційного листа може трактуватися як недобросовісність імпортера і, як правило, означає стовідсоткову відмову у видачі висновку на ввезення шифрувального засобу.

З практикою оформлення таких листів від споживачів - пересічних громадян нам не доводилося стикатися.

А ось інший вендор запевняє, що він не має проблем із ввезенням. Таке може бути?

Для переміщення будь-якого шифрувального засобу через митний кордон незалежно від країни походження та назви виробника обов'язковими документами є зареєстрована нотифікація або висновок ЦЛСЗ (за потреби також ліцензія Мінпромторгу Росії). Обійти цю процедуру можна єдиним способом – ввозити обладнання незаконним шляхом.

Якщо при придбанні продукції з функцією шифрування покупець не може одержати у продавця інформацію про зареєстровану нотифікацію або копію ліцензії Мінпромторгу Росії - існує висока ймовірність, що продукція ввезена на територію Росії з порушенням законодавства.

А якщо я ввіз обладнання без шифрування, а потім оновив його через Інтернет та вийшов засіб шифрування?

У чинному російському законодавстві дії щодо зміни криптографічних характеристик пристроїв, що вже знаходяться і придбаних на території Росії не регламентовані і передбачити наслідки завантаження з Інтернету апгрейду з включеною криптографічною функціональністю ніхто не візьметься. Разом з тим, в даний час існує практика отримання дозволу ЦЛСЗ на ввезення продуктів, що дозволяють змінити криптографічні характеристики наявного обладнання, наприклад, програмного забезпечення на фізичному носії (CD/DVD) або завантажуваного по мережі Інтернет. Щоправда, ця практика діє переважно для юридичних осіб, які використовують засоби шифрування. Вони повинні розуміти, що у регулюючих та перевіряючих органів можуть бути питання до організації, яка ніколи не набувала криптографічних продуктів, ввезених для неї за висновком ЦЛСЗ, але використовує їх у своїй діяльності.

Щодо пересічних громадян, які завантажують з Інтернету програмні шифрувальні засоби, правозастосовної практики поки що не склалося.

Хто регламентує питання ввезення та вивезення шифрувальних засобів?

Попри існуючу думку, що регулювання ввезення засобів шифрування у нас займається митниця або ФСБ, це не зовсім правильно, а точніше зовсім не так. Ці органи по суті лише виконують розпорядження вищої організації – Євразійської економічної комісії (далі – ЄЕК), створеної рішенням Президентів Російської Федерації, Республіки Білорусь та Республіки Казахстан наприкінці 2011 року.

ЄЕК була створена як єдиний постійно діючий регулюючий орган Митного союзу та Єдиного економічного простору. Комісія має статус наднаціонального органу управління, не підпорядкована якомусь уряду і рішення Комісії є обов'язковими для виконання на території трьох країн, включаючи і Росію. Основним завданням ЄЕК є забезпечення умов функціонування та розвитку Митного союзу та Єдиного економічного простору, а також вироблення пропозицій щодо подальшого розвитку інтеграції. ЄЕК передаються повноваження скасованої Комісії Митного союзу.

Відповідно до рішення Міждержавної Ради Євразійської економічної спільноти від 27 листопада 2009 року «Про єдине нетарифне регулювання митного союзу Республіки Білорусь, Республіки Казахстан та Російської Федерації» нинішнє Положення про ввезення, із змінами та доповненнями, діє з 01 січня 2010 року. Вступ Росії до СОТ 22 серпня 2012 року нічого не змінив у сфері нетарифного регулювання зовнішньої торгівлі.

Після підписання договору про створення Євразійського економічного союзу ситуація навряд чи зміниться і ЄЕК поки що залишається основним органом, який визначає правила ввезення засобу шифрування, а митниця лише реалізує на практиці ці правила. ФСБ ж, а точніше її ЦЛСЗ, визначає, що ввозитиметься за спрощеною схемою, а що вимагатиме більших рухів тіла.

Як висновок хотілося б відповісти ще на 2 питання, які можуть виникнути під час прочитання матеріалу.

А чи мені потрібна ліцензія ФСБ на ввезення коштів шифрування?

Ні. Незважаючи на схожі назви, ліцензії Мінпромторгу на ввезення шифрувальних засобів та ліцензії ФСБ на діяльність із шифрувальними засобами це зовсім різні гілки законодавства.

Якими документами регулюється ввезення шифрувальних коштів на територію Російської Федерації?

Рішенням Рішення Колегії Євразійської економічної комісії від 16 серпня 2012р. №134 «Про нормативні правові акти в галузі нетарифного регулювання» затверджено:
  • «Єдиний перелік товарів, до яких застосовуються заборони або обмеження на ввезення або вивезення державами - членами митного союзу в рамках Євразійського економічного співтовариства в торгівлі з третіми країнами», що включає перелік шифрувальних (криптографічних) коштів, ввезення яких на митну територію Митного союзу та вивіз із митної території Митного союзу обмежений (далі - Перелік 2.19).
  • Положення про застосування обмежень, що включають Положення про порядок ввезення на митну територію Митного союзу і вивезення з митної території Митного союзу шифрувальних (криптографічних) коштів (далі - Положення про ввезення).