Информационные системы и интернет. Интернет как глобальная информационная система. Архитектура современных ИПС для WWW

На современном этапе развития экономики и информационных технологий отчетливо видны два взаимосвязанных явления: это создание и постепенное развитие эффективных ….На современном этапе развития экономики и информационных технологий отчетливо видны два взаимосвязанных явления: это создание и постепенное развитие эффективных инструментов обмена информацией, необходимых для развития бизнеса и, в тоже время, пассивное использование подобных инструментов представителями российского бизнеса. Именно отсутствие возможности получать и размещать промышленную информацию, а также обмениваться ею порождает потерю ресурсов на посредников, рост трансакционных издержек и снижение скорости и эффективности торговли. Таким образом, подобная ситуация мешает развитию отдельных промышленных предприятий, отраслей и экономики России в целом.
Проблема снижения трансакционных издержек на обмене информацией всегда беспокоила предпринимателей, именно поэтому появлялись биржи, специализированные торговые союзы, ассоциации, комитеты, активно развивались тематические печатные издания, средства массовой рекламы.
Но настоящий прорыв был совершен в середине 90-х годов 20 века – созданная в 1979 году сеть Интернет достигла такого уровня развития, что её стало возможно использовать в бизнес-целях. Сеть Интернет в данный момент представляет наиболее глобальный, наиболее открытый и наиболее технически обеспеченный способ представления, получения и обмена информацией в мире.
Возможность предоставления огромного количества информации, легкий доступ к данной информации, относительная дешевизна дают основание предположить дальнейшее распространение Интернета в различных целях, в том числе в бизнесе.
России же на этом пути предстоит не только влиться в мировую сеть, но и преодолеть консервативность и недоверие предпринимателей, вызванные самим же содержанием и структурой русскоязычного интернета. Многие элементы электронного рынка находятся на этапе зарождения. Поиск информации затруднен, информация недостоверна и неактуальна, уровень доверия между партнерами минимален, отсутствует развитая система оплаты товаров и услуг, объем сведений ограничен, системы взаимодействия партнеров через интернет не развиты.
Перенять западные модели ведения бизнеса через интернет оказалось недостаточным, потребовалась их серьезная трансформация, а также разработка собственных методов и инструментов работы. В стремлении к достижению уровня развитых стран, Россия скопировала множество элементов их экономической, политической и общественной жизни без учета необходимости их адаптации к историческим условиям развития. Соответственно вместе с интернетом в российский бизнес были внесены хорошо себя зарекомендовавшие инструменты электронной коммерции.
Одной из таких высокоэффективных информационных систем является портал «Промышленная Витрина России». Она действительно на практике решает проблемы сбыта промышленной продукции через интернет и имеет громадный, неиспользуемый потенциал развития. Идея проекта — координация информации о промышленных предприятиях, о производстве товаров и оборудования, открытых тендерах, инновациях, событиях в промышленности на одной площадке, оснащенной интерактивными средствами он-лайн торговли и взаимодействия пользователей.
Объединение всех производителей страны в глобальную систему само по себе дает огромную отдачу в виде

  • сокращения времени на поиск нужной информации на различных торговых площадках (это дополнительные затраты на подбор веб-сайтов, регистрацию, ознакомление с правилами, изучение системы)
  • упрощение и ускорение взаимодействия между торговыми партнерами
  • повышение уровня доверия, снижение денежных затрат на информационные услуги и т.д.

Сегодня основная задача – привлечь внимание крупного и среднего бизнеса к новым возможностям и перспективам развития, которые открываются для компаний при использовании в торговле сети Интернет, внедрить разработанную информационные системы в коммерческую деятельность всех промышленных предприятий региона. В конечном счете наш проект призван объединить в глобальную систему всех производителей России, и только тогда будет получен наивысший эффект от ее внедрения.
В свою очередь, эффективность развития промышленности и торговли в целом определяется уровнем и качеством информационных технологий и скоростью обмена данными.

Интернет привычен типичному жителю современного города, но данному положению дел предшествовал довольно долгий и сложный путь становления и развития технологий, благодаря которым оказалось возможным обеспечить развертывание Всемирной паутины в мировом масштабе. Что представляют собой данные решения? Как развивалась в России?

Определение интернета

Интернет как глобальная информационная система представляет собой компьютерную сеть, узлы которой распределены по всему миру, и при этом связаны логически благодаря использованию особого адресного пространства. Функционирование данной глобальной сети возможно прежде всего благодаря унификации стандартов связи: так, в качестве главного используется TCP/IP, реализуемый одинаково на любых компьютерах, объединенных во Всемирную сеть.

В современном виде интернет как глобальная информационная система существует порядка 30 лет. Но к моменту его появления инфраструктура, на базе которой разворачивалась Всемирная сеть, была достаточно развитой во многих странах мира.

Будет полезно рассмотреть то, каким образом она выстраивалась в тех или иных государствах. Примечательно, что история развития инфраструктуры, на базе которой начал выстраиваться современный интернет, практически совпадает с периодом противостояния двух крупнейших мировых технологических систем — западной и советской. Конечно, это очень упрощенная классификация, так как и в рамках первой системы, и во второй активно развивались региональные, национальные технологии, весьма различающиеся в ряде случаев.

В конечном итоге основой для развития современного интернета стала все же западная модель — однако к моменту ее внедрения в СССР советские специалисты уже имели опыт развертывания компьютерных сетей, в некоторой степени схожих с западной моделью интернета. Рассмотрим, таким образом, то, как развивалась Всемирная сеть в рамках западной технологической системы, а также то, когда появился интернет в России исходя из специфики развития национальной инфраструктуры компьютерных сетей.

История интернета в западных странах

В конце 50-х годов, в один из самых сложных периодов холодной войны, правительство США поставило перед американскими учеными задачу: создать инфраструктуру передачи данных, которая могла бы функционировать даже в условиях глобального вооруженного конфликта. Ученые предложили концепцию подобной системы — проект получил название ARPANET.

В 1969 году компьютеры нескольких крупных американских университетов были объединены в сеть по схемам, которые были разработаны учеными в рамках указанного проекта. Впоследствии опыт, полученный исследователями, был перенят многими другими заинтересованными структурами: это привело к разрастанию компьютерных сетей, функционирующих по стандартам ARPANET, в национальном масштабе.

Появлялись и специализированные программы для данной инфраструктуры: например, уже в 1971 году для ARPANET было написано ПО, предназначенное для отправки сообщений. Фактически речь идет о появлении первой электронной почты — основные функции интернета сегодня до сих пор включают организацию обмена данными в соответствующем формате. В 70-х годах электронная почта была, как считают исследователи, и вовсе самой востребованной функцией разворачиваемой в рамках американского проекта.

Постепенно масштабы ARPANET вышли за пределы США: к сети начали подключаться различные европейские организации. Связь с американской инфраструктурой при этом организовывалась через телефонный кабель, проложенный через Атлантический океан.

Фактически с момента подключения европейцев к ARPANET, в частности в 1973 году, обмен данными с сетью начали организовывать британские и норвежские организации, проект стал международным. Однако коммуникации между компьютерами, расположенными в разных частях планеты, не всегда были стабильны по причине отсутствия общепринятых стандартов обмена данными.

Соответствующая проблема была устранена после внедрения универсального протокола TCP/IP. Его до сих пор используют практически все интернет-ресурсы.

К моменту внедрения TCP-IP еще американо-европейская сеть была, скорее, межрегиональной, чем глобальной — несмотря на то, что в 1983 году за ней закрепилось название «Интернет». Но дальнейшее ее развертывание было стремительным. Данному процессу способствовало изобретение в 1984 году стандарта DNS — на его основе стала функционировать служба доменных имен. Можно отметить, что в том же году у проекта ARPANET появился серьезный конкурент в лице сети NSFNet, объединявшей компьютеры различных университетов.

NSFNet как инфраструктурная основа интернета

Инфраструктура NSFNet позволяла обеспечивать существенно более высокую динамику Росла она при этом самыми активными темпами. Постепенно «Интернетом» стала именоваться как раз-таки разрастающаяся сеть NSFNet. В 1988 году ее ресурсы стало возможно использовать для организации мгновенной передачи сообщений в формате чата — по протоколу IRC.

В 1989 году британский ученый Тим Бернерс-Ли разработал концепцию глобальной компьютерной сети, Всемирной паутины. В течение 2 последующих лет он создает протокол передачи гипертекста — HTTP, язык HTML, а также идентификаторы URL. Как считают многие исследователи, именно благодаря изобретениям Тима Бернерса-Ли интернет как глобальная информационная система начал стремительное шествие по планете.

Указанные стандарты, а также возможности универсального протокола TCP/IP позволили масштабировать Всемирную паутину в глобальном масштабе гигантскими темпами. В начале 90-х годов сформировались основные возможности интернета, доступные современным пользователям: получение доступа к веб-страницам через браузеры, размещение информации на них, прием и передача файлов. Разумеется, остались востребованными сервисы e-mail, IRC.

Совершенствовал ся язык гипертекста, технологии управления сайтами. В качестве инфраструктурной основы интернета долгое время использовались серверы NSFNet, но в 1995 году данная функция была передана сетевым провайдерам. В 1996 году общераспространенным стал стандарт WWW, посредством которого было возможно передавать практически любые данные с использованием каналов интернета. Но свою актуальность сохранил и стандарт FTP. И сегодня многие интернет-ресурсы продолжают его использовать в целях организации эффективного обмена файлами.

В привычном нам виде Всемирная паутина в целом сформировалась к началу 2000-х годов. По мере увеличения скорости доступа пользователей к онлайн-ресурсам за счет таких технологий, как DSL, оптоволокно, 3G, 4G, особенно популярными становились ресурсы для размещения видеоконтента, такие как YouTube, игровые порталы, облачные сервисы. Через интернет организуется не только обмен данными между людьми, но и между различными устройствами — от простых бытовых вещей до крупной промышленной инфраструктуры. Существует большое количество научных концепций относительно того, как будет развиваться интернет как глобальная информационная система в будущем. Они очень разные, и во многом их реализация зависит от хода развития собственно компьютерных технологий.

История интернета в России

Изучим теперь то, когда появился интернет в России. С западной моделью развития онлайновых коммуникаций мы ознакомились, сейчас нам важно понять, каким образом внедрялась соответствующая инфраструктура в нашей стране.

Как мы отметили в начале статьи, в течение долгого времени информационные технологии в Советском Союзе развивались параллельно с западными. Надо отметить, что в значительной степени их развитие стало возможным благодаря появлению у СССР ресурсов для воспроизводства западной микропроцессорной базы, которая начала активно внедряться на различных уровнях управления коммуникациями в 60-70-х годах, хотя до этого у советских ученых имелись весьма прогрессивные собственные разработки. Но так или иначе, суть интернета в западной интерпретации могла существенно отличаться от концепций развития компьютерных сетей в СССР.

Еще в 1950-х годах советские ученые формировали компьютерные сети в рамках проектов по созданию инфраструктуры противоракетной обороны. Данные сети базировались на советских ЭВМ типа «Диана-I», «Диана-II» и других решениях. Обмен информацией между соответствующими ЭВМ осуществлялся в целях вычисления траектории полета противоракет.

В 1970-х годах компьютерные сети активно задействовались и в гражданской сфере — в частности как инфраструктура в рамках систем типа АСУ-Экспресс и «Сирена», позволяющих резервировать, соответственно, железнодорожные и авиабилеты. В 1974 году была изобретена компьютерная кодировка КОИ-8.

В первой половине 80-х институт ВНИИПАС начал осуществлять, используя компьютеры, удаленный обмен данными с зарубежными организациями. В целом в 80-х годах развертывание советских сетевых компьютерных систем шло достаточно активно, во многом благодаря появлению в СССР локализованных версий операционной системы UNIX (на принципах которой функционируют современные ОС Linux и, в свою очередь базирующиеся на ней ОС Android, которые можно отнести к самым распространенным в мире, если брать рынок мобильных устройств). Фактически к 1990 году в СССР была сформирована вся необходимая инфраструктура для последующего объединения советских компьютерных сетей и Интернета, функционировавшего на основе ресурсов NSFNet.

«РЕЛКОМ» — национальная компьютерная сеть

Появляется всесоюзная компьютерная сеть «РЕЛКОМ», в которой задействуются протоколы и технологии Интернета. Связь между компьютерами обеспечивается посредством телефонных каналов. Важнейшую роль в выстраивании данной инфраструктуры играли разработчики кооператива «Демос», осуществлявшего разработку различных программных решений.

В августе 1990 года исследователи из установили связь с Университетом Хельсинки в целях обеспечения функционирования каналов передачи почтовых сообщений в рамках, собственно, Интернета. В сентябре 1990 года специалисты «РЕЛКОМ», а также компании «Демос» зарегистрировали домен Советского Союза.Su, который до сих пор используется — и есть версии, что его популярность будет расти.

В СССР наряду с «РЕЛКОМ» развиваются пользовательские сети ФИДО. К 1991 году для советских пользователей, подключающихся к «РЕЛКОМ», становятся доступными ресурсы с доменной адресацией — как в современном интернете. В 1992 году уже в Российской Федерации появляются первые провайдеры.

Использование международного стандарта TCP/IP в России становится повсеместным. В апреле 1994 года был зарегистрирован национальный домен.Ru. С тех пор интернет в России развивался в целом так же, как и в западных странах. При этом российские специалисты также внесли значимый вклад в развитие Всемирной паутины, в частности на уровне разработки антивирусных, серверных решений.

Итак, мы изучили то, как работает сеть Интернет, особенности развития соответствующих коммуникационных технологий в России и на Западе. Изучим теперь, что представляет собой Всемирная паутина сегодня.

Современный интернет: провайдеры

Доступ в интернет для пользователей предоставляют провайдеры. Изучим специфику решаемых ими задач.

Кто такой провайдер интернета? В первые годы развития Всемирной паутины таковым считалась компания, предоставляющая коммутационные сервисы для обеспечения связи пользователя и ближайших серверов интернета. Сейчас провайдер — поставщик высокотехнологичных коммуникационных ресурсов, обеспечивающих функционирование в региональном, а иногда и в национальном масштабе. Компании, предоставляющие соответствующие услуги, могут быть как очень крупными, международными, так и локальными, которые могут работать в масштабах одного города.

Есть большое количество технологий, посредством которых провайдеры могут оказывать свои услуги: оптические и телефонные каналы, спутниковый, сотовый интернет. Каждый из них имеет свои преимущества и недостатки. От того, какие именно каналы используются, в значительной степени зависят цены на интернет, формируемые провайдером. Как правило, самыми доступными по стоимости для пользователя являются проводные каналы, немного дороже — сотовые, самые дорогие — спутниковые. При этом оплата за услуги провайдера может осуществляться:

  • в формате абонентской платы;
  • за трафик;
  • в ряде случаев — за время доступа к Сети.

Роль интернета в современном мире заключается прежде всего в предоставлении пользователям возможности посещать различные сайты.

Современный интернет: сайты

Размещенный в интернете сайт — это совокупность файлов (текстовых, графических, видео- и аудиозаписей, содержащих иные мультимедийные компоненты), доступ к которым осуществляется посредством таких протоколов как WWW, HTTP, FTP и иных, что являются оптимальными в том или ином случае. Разумеется, данные файлы определенным образом систематизированы для облегчения восприятия информации пользователем.

Основной системный элемент сайта — веб-страница. В большинстве случаев она составляется на языке HTML, часто с применением различных скриптов. Сайт может иметь разную тематику. Это может быть интернет-газета, блог, видеохостинг, спортивный, развлекательный портал — есть огромное количество видов ресурсов, которые могут размещаться во Всемирной паутине.

Современный интернет: радио и телевидение

Выше мы отметили, что по мере развития коммуникационных технологий и увеличения скорости передачи данных, набирают популярность различные видеоресурсы в интернете. Таковым можно считать, к примеру, интернет-телевидение, а также онлайн-радио. Данные технологии позволяют осуществить трансляцию теле- и радиопередач на специальных сайтах с задействованием особых технологий.

Примечательно, что многие из современных сервисов позволяют организовать собственное вещание любому желающему пользователю. Интернет-телевидение с учетом распространенности высокоскоростных линий — это уже не привилегия, а обычный ресурс. Который вместе с тем может потребовать от пользователей значительных вложений (трудовых, финансовых) в его продвижение и развитие. То же можно сказать и о сайтах. Интернет-газета или развлекательный портал могут быть зарегистрированы любым желающим пользователем, но превращение их в узнаваемый бренд — задача непростая.

Современный интернет: мобильные приложения

Одним из самых выраженных трендов развития современного интернета можно считать повсеместное распространение мобильных приложений — специального ПО, запускаемого со смартфонов или планшетов. Функционально данные приложения во многих случаях могут быть аналогичны веб-страницам. Но есть и специализированные решения соответствующего типа, например приспособленные для того, чтобы организовать защищенный доступ в какой-либо персональный аккаунт, например банковский. Интернет сегодня — это коммуникационная среда, в рамках которой можно передавать практически любые цифровые данные, и во многих случаях это требует применения особых протоколов и технологий, в том числе реализуемых в мобильных приложениях.

Резюме

Итак, мы изучили, в чем заключается концепция Всемирной паутины, а также основные технологии, которые задействуются в целях обеспечения ее функционирования. Суть интернета — в предоставлении пользователям со всего мира стабильного недорогого доступа к различным типам полезной информации, файлам, мультимедийному контенту, а также к ресурсам, посредством которых люди могут общаться между собой и обмениваться различными данными. Подобная возможность сегодня уже привычна жителям, наверное, всех стран мира, хотя ранее она была доступна очень немногим людям, во многих случаях ею можно было пользоваться только при наличии высокой квалификации в области информационных технологий.

Кто такой провайдер интернета, к какому из них можно подключиться и по какой цене — вопросы, на которые почти наверняка знает типичный житель современного мегаполиса. Всемирная паутина продолжает развиваться: появляются новые сервисы, технологии, концепции организации общения пользователей, совершенствуются устройства для передачи данных. То, каким образом будет идти технический прогресс, то, как будет развиваться мировая экономика, определит векторы для дальнейшего развития интернета.

Неотъемлемой чертой современных КИС стало применение технологий Internet . Использование Internet /Intranet-технологий в качестве базиса для построения КИС открывает новые возможности. Основной проблемой реализации подобной стратегии в рамках КИС является тот факт, что большинство данных, с которыми работает информационная система, относятся к операционной деятельности в узких рамках самой компании, и накопление и анализ всесторонних данных о круге потребителей представляет собой задачу, выходящую из этих рамок. Учитывая этот факт, при выборе составляющих КИС необходимо отдавать предпочтение программам, которые поддерживают полноценную работу из обычного браузера, фактически, имеют тонкий клиент и специальное серверное программное обеспечение, обеспечивающее функционирование данного клиента. Такое техническое решение позволяет использовать стандартные хранилища данных из локальных, корпоративных и глобальных сетей, не требуя существенных затрат на дополнительное администрирование и поддержание целостности, надежности и безопасности хранения данных.

Использование технологий Internet позволяет организовать в Internet полнофункциональное виртуальное представительство, т.е. полный спектр информационной поддержки всех поставщиков, дистрибуторов и потребителей продукции компании. Таким образом, осуществляется функция полной обратной связи по всему жизненному циклу изделий:

Управление сбытом/поставкой

Дистрибьюторы и потребители продукции могут напрямую заказывать продукцию через Internet . При этом заказ, после его ввода и подтверждения становится документом в КИС и встает в очередь на обработку. Заказчик в любое время сможет контролировать этапы выполнения заказа, вплоть до отгрузки.

Поставщики сырья и материалов, могут незамедлительно информировать КИС о переносах сроках поставки тех или иных комплектующих, для того, чтобы система успела переформировать производственный план и/или запустить в производство имеющиеся запасы комплектующих.

Поддержка продукции на протяжении всего жизненного цикла

Через сервер виртуального представительства, потребители продукции могут получать любую техническую и информационную поддержку, заполнять заказы на гарантийное и постгарантийное обслуживание, вносить свои предложения и замечания, участвовать в дискуссиях, касающихся обсуждения тех или иных изделий. Кроме того, может быть организована оперативная "горячая" линия поддержки всех потребителей, как по электронной почте, так и online . На основании анализа предложений и материалов дискуссии могут быть оперативно сделаны выводы о выпуске новых видов продукции или смене конфигурации существующих

Налаживание тесного взаимодействия с сетью распределения, контроль всей цепочки поставок

Одним из самых тривиальных и действенных методов конкурентной борьбы является снижение конечной цены продукции за счет снижения различных элементов спектра затрат, влияющих на ее себестоимость. Однако, если предприятие даже и добилось существенного уменьшения затрат, очень часто случается, что до конечного потребителя продукция доходит по прежней цене, а весь выигрыш в рентабельности распределяется замысловатым образом по цепочке распределения. Тем самым, обороты предприятия изготовителя не растут, а адекватной информации о том, почему это происходит, у руководства нет. Исходя из этого, очень важно налаживать регулярный обмен информацией между всеми участниками логистической цепочки, чтобы четко представлять себе все ее элементы, где возникает дополнительное ценообразование. С помощью виртуальных представительств, может быть налажен оперативный мониторинг движения товара по всей цепочке поставок, и проанализирована эффективность данного канала распределения в целом.

Применения Internet-технологий требует обеспечение информационной безопасности. Для предотвращения несанкционированного доступа к документам встроенных средств недостаточно. Поэтому в состав КИС обязательно должны войти специальные программно-аппаратные средства защиты.

Они, в частности, позволяют шифровать данные, поддерживают электронную цифровую подпись и могут проводить на ее основе аутентификацию пользователей. Все это обеспечивает достоверность и целостность информации внутри КИС. Эффективность программных средств защиты может быть существенно повышена за счет применения аппаратных и биометрических средств: аппаратных ключей, смарт-карт, устройств распознавания отпечатков пальцев, сетчатки глаза, голоса, лица, оцифрованной подписи.

В дополнение к ним на стыке сегментов локальных сетей и Internet желательна установка брандмауэров - средств контроля за внешними (входящими и исходящими) соединениями. Они позволяют отслеживать передачу информации практически всех известных на сегодняшний день протоколов Internet.

1

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю. Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». В данной статье рассмотрено построение информационно-аналитической системы, предназначенной для оперативного поиска информации в сети Интернет, распространение которой в Российской Федерации запрещено. Предложен подход к построению информационных систем, осуществляющих поиск информации в сетях общего пользования и обработку большого объема разнородных неструктурированных данных, которые представлены в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

анализ данных

информационно-поисковые системы

неструктурированные данные

2. Ерохин Г.Н., Дружинин В.А., Царегородцев А.Л., Махнева Т.В., Огородников И.Н., Карташев Е.А. Телемедицина отложенных консультаций на примере северных регионов // Информационно-измерительные и управляющие системы. – 2009. – Т. 7. – № 12. – С. 49–53.

3. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: труды 9-й Всероссийской научной конференции RCDL’2007: Сб. работ участников конкурса. – Т. 1. – Переславль- Залесский: «Университет города Переславля», 2007. – С. 166–174.

4. Карташев Е.А., Самков Л.М. Онлайновая информационно-аналитическая система мониторинга индикаторов жизнеобеспечения территориальных объектов Управление большими системами: сборник трудов. – 2009. – № 24. – С. 112–129.

5. Макунин, Алексей Анатольевич. Технология построения модульных автоматизированных информационных систем для сложных предметных областей и ее применение на примере информационной поддержки системы муниципального заказа органов местного самоуправления: дис. ... канд. техн. наук: 05.13.11. – Томск, 2005. – 228 с.

В настоящее время в нашем динамично развивающемся информационном мире особую значимость приобретает способность принимать своевременные и правильные решения, которые невозможны без сбора, обработки, хранения, анализа большого объема информации и предоставления результатов их обработки пользователю.

Одной из таких задач является оперативное выявление сайтов в сети Интернет, содержащих информацию, распространение которой в Российской Федерации запрещено. Перечень данной информации представлен в ч. 2 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации». Зачастую такая информация представлена на сайтах в сети Интернет, которые могут существенно различаться как по использующимся в них технологиям, так и по их функциональности. В свою очередь информация не структурирована и может быть представлена в различных форматах: текст, содержащий фрагменты из нескольких документов; аудио- и видеозаписи; изображения (фотографии и рисунки).

На рынке существует ряд информационных систем, осуществляющих подобную обработку данных и применяемых в других сферах, но информация об их структуре и применяемых методах обработки данных не раскрывается. Зачастую они предоставляются по технологии SaaS (англ. software as a service), что неприемлемо с учетом специфики обрабатываемых данных.

Цель данной работы - предложить структуру информационной системы, обеспечивающей возможность оперативного получения неструктурированной информации с большого количества различных сайтов в сети Интернет и ее хранения для последующей обработки, при этом должна предусматриваться возможность увеличения объема обрабатываемых данных за счет увеличения количества применяемого оборудования (горизонтальное масштабирование) и использование невысокопроизводительного серверного оборудования.

Разработка автоматизированной информационной системы поиска и анализа информации в сети Интернет (далее АИС Поиск) осуществлялась в Югорском научно-исследовательском институте информационных технологий и предназначена: для взаимодействия с сайтами в сети Интернет; хранения и анализа собранной информации; предоставления результатов обработки информации в виде отчетов пользователю.

Взаимодействие с сайтами в сети Интернет направлено на сбор с них исходной информации, предусматривает работу в режиме запрос - ответ по следующим направлениям: поиск требуемой информации на сайте сети Интернет; загрузка найденной информации в АИС Поиск; актуализация информации, хранящейся в АИС Поиск, за счет сравнения с версией , расположенной на сайте сети Интернет (выполняется через определенный интервал времени, определяемый с учетом обновления информации).

Контекстная диаграмма потоков данных АИС Поиск

Хранение собранной информации с сайтов в сети Интернет предусматривает множество точек входа для сбора и обработки информации, при этом каждая из них может собирать и обрабатывать данные по своим уникальным правилам.

На этапе проектирования были разработаны диаграммы потоков данных, описывающие основные процессы АИС Поиск и потоки данных, циркулирующих в системе. На рисунке представлена контекстная диаграмма потоков данных АИС Поиск.

Рассмотрим процессы контекстной диаграммы подробнее.

1. Формирование критериев поиска документов (ключевые слова, тематические фразы, поисковые запросы, образцы изображений, фрагменты аудио- и видеозаписей) - определяются требования к содержанию документов, которые должны быть найдены на информационных ресурсах, расположенных в сети Интернет, и загружены в базу данных. Первоначальное наполнение осуществляется оператором, в последующем уточняется по результатам анализа документов.

2. Формирование задач поиска документов - определяется режим поиска документов на информационных ресурсах с учетом имеющихся возможностей, периодичности обновления информации и приоритетов пользователя. Формируется в виде задачи, для которой определяется: время запуска, информационные ресурсы, критерии поиска документов.

3. Поиск документов - обеспечивает выполнение задач по поиску документов: периодическая проверка наличия требующих запуска задач поиска документов, выполнение задачи поиска документов в рамках которой по количеству установленных критериев поиска документов и информационных ресурсов выполняется набор действий:

а) формирование запроса на получение данных к информационному ресурсу на основе определенных критериев поиска документов и его синтаксиса;

б) направление запроса на получение данных в информационный ресурс и ожидание ответа;

в) обработка ответа информационного ресурса (запись ссылок на найденные документы в базу данных).

4. Загрузка документов - обеспечивает загрузку документа по найденной ссылке: проверка доступности документа по найденной ссылке; сравнение загруженного документа с предыдущей версией, при ее наличии (проверка на наличие изменений) в базе данных; запись загруженного документа в базу данных.

5. Анализ документов - обеспечивает автоматическую обработку загруженных документов: извлечение объектов из документа (структурированные данные: ФИО, должности, название территорий и веществ, контактная информация, события и т.д.); определение характера связи для выявленных объектов: объект - субъект, негатив - позитив и т.д.; расчет вероятности отнесения документа к различным группам документов, ранее определенных пользователем (классификация документа); выявление похожих документов (с использованием методов классификации объектов по группам за счет выявления наперед неизвестных общих признаков (введен в 1939 году Robert Tryon) ); уточнение критериев поиска документов на основе ранее классифицированных и кластеризованных документов.

6. Формирование отчетов - подготовка данных для отображения пользователю (выполнение операций, которые не могут быть выполнены за время ожидания пользователем отклика АИС Поиск).

7. Представление отчетов - представление данных в виде отчетов на основе определенных шаблонов с учетом предпочтений пользователя, при этом ему предоставляется возможность установки фильтра для отбора данных в него включаемых.

8. Верификация данных - подтверждаются пользователем результаты анализа документов: классификация, извлеченные объекты, установленные связи.

По результатам изучения опыта построения подобных систем, в том числе представленных в , была выбрана модульная архитектура системы. Использование модульного подхода в качестве основы для такого инструментария позволяет не только просто строить сложные приложения, собирая их из «кирпичиков», но и обеспечивать их взаимозаменяемость для доработки программного обеспечения и расширения возможностей информационных систем. Основные преимущества модульной архитектуры этим не ограничиваются. Также к ключевым особенностям выбранного подхода к построению АИС Поиск можно отнести возможность выборочной ее компоновки, многократное использование однажды написанного кода и разработанных классов .

В общем виде структура АИС Поиск состоит из следующих модулей:

База данных (совокупность средств для обеспечения хранения и доступа к найденным данным).

Интерфейс пользователя (предоставляет инструменты пользователю для просмотра имеющихся данных и результатов их обработки, а также по управлению работой каждого из модулей).

Подсистема анализа (осуществляет обработку (классификация, определение объектов и связей) найденных данных).

Подсистема сбора данных (реализует заданный пользователем алгоритм работы Модулей взаимодействия (запуск, формирование параметров) и обеспечивает загрузку получаемых от них данных в Базу данных).

Модуль взаимодействия (обеспечивает получение данных с определенного информационного ресурса в соответствии с установленными параметрами).

Все эти собранные неструктурированные данные требуется быстро анализировать, что в свою очередь невозможно без соответствующей организации хранения этих данных. Тенденции последних лет показывают, что для хранения неструктурированных данных используются современные СУБД, сочетающие в себе гибкость модели хранилища документов и строгость и простоту реляционной модели.

Например, в СУБД PostreSQL 9.2 появилась поддержка типа данных JSON (JavaScript Object Notation), а в 9.3 добавились функции обработки значений в нём. Этот же тип данных теперь поддерживается и в MySQL начиная с версии 5.7.8. Аналогичный функционал есть и в СУБД Oracle, MSSQL.

Существует несколько подходов к хранению неструктурированных данных в информационных системах:

Непосредственно в базе данных, при этом большинство современных СУБД предусматривают для этого специализированный тип данных: JSONB в PostgreSQL, CLOB в Oracle и т.д.;

Вне базы данных (в виде файлов в соответствующих хранилищах), при этом в базе данных хранятся только ссылки на них. Основными недостатками данного варианта являются сложности с администрированием, обеспечением доступности и целостности данных. В свою очередь преимуществом данного подхода является возможность использования стандартных приложений по их обработке (просмотр), сокращение общего объема базы данных (не требуется выделять большой объем дискового пространства в одном месте), данные могут храниться на большом количестве различных серверов с небольшим объемом дискового пространства. На сегодняшний день данное направление активно поддерживается разработчиками СУБД и ведутся работы по устранению указанных недостатков, в частности в MS SQL Server 2012 появились таблицы FileTable для работы с файлами, а в Oracle - параметр SecureFiles для типа данных LOB.

Принимая во внимание, что наибольшую часть (объем) будут занимать неструктурированные данные, доступ к которым нужен будет эпизодически (на этапе загрузки для извлечения метаданных и несколько раз для демонстрации результатов пользователю), была предложена следующая структура: Файловый сервер - Драйвер доступа - СУБД.

В качестве файловых серверов было принято решение использовать сервера под управлением свободно распространяемой операционной системы Linux (Debian, или Astra Linux), а в качестве СУБД Postgres, так как она: свободно распространяемая, имеет развитые инструменты для полнотекстового поиска и может быть сертифицирована по требованиям безопасности информации например в составе операционной системы Astra Linux.

В соответствии с предложенным подходом нами в Югорском НИИ информационных технологий была осуществлена реализация АИС Поиск, которая используется компетентными ведомствами Ханты-Мансийского автономного округа - Югры для поиска доменных имен, указателей страниц сайтов в информационно-телекоммуникационной сети Интернет и сетевых адресов, позволяющих идентифицировать сайты в информационно-телекоммуникационной сети Интернет, содержащие информацию, распространение которой в Российской Федерации запрещено.

В настоящее время было обработано более 75 тыс. ссылок, загружено в базу данных более 21 тыс. уникальных документов. Для 922 документов было определено с высокой долей вероятности, что они содержат информацию, распространение которой в Российской Федерации запрещено, более 75 % из них были включены в соответствующий реестр, который ведется Роскомнадзором в соответствии с ч. 3 ст. 15.1 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации».

В ходе опытной эксплуатации АИС Поиск получены положительные оценки от конечных пользователей, также ими отмечается предсказуемость появления документов в базе данных в зависимости от сформированных критериев поиска документов (результаты аналогичны полученным при ручном поиске) и снижение трудоемкости. По результатам также было рекомендовано ввести АИС Поиск в промышленную эксплуатацию.

В дальнейшем планируется проведение работ по повышению эффективности работы пользователей с АИС Поиск, в частности за счет внесения изменений в интерфейс пользователя, сокращению время отклика системы на действия пользователя за счет предварительной подготовки данных и повышению скорости работы алгоритмов обработки данных. Планируется также проведение работ по сравнению результатов классификации документов с использованием различных алгоритмов и методов.

Библиографическая ссылка

Карташев Е.А., Царегородцев А.Л. АВТОМАТИЗИРОВАННАЯ ИНФОРМАЦИОННАЯ СИСТЕМА ПОИСКА И АНАЛИЗА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ // Фундаментальные исследования. – 2016. – № 10-2. – С. 296-300;
URL: http://fundamental-research.ru/ru/article/view?id=40848 (дата обращения: 06.04.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»