Основы организации хранения информации в эвм. Основы хранения информации в компьютере

Центральный процессор имеет доступ к данным, находящимся в оперативной памяти. Работа компьютера с пользовательскими программами начинается после того как данные будут считаны из внешней памяти в ОЗУ.

ОЗУ работает синхронно с центральным процессором и имеет малое время доступа. Оперативная память сохраняет данные только при включенном питании. Отключение питания приводит к необратимой потере данных, поэтому пользователю, работающему с большими массивами данных в течение длительного времени, рекомендуют периодически сохранять промежуточные результаты на внешнем носителе.

Оперативная память

Функции памяти

1) приём информации от других устройств;

2) запоминание информации;

3) передача информации по запросу в другие устройства машины.

Периферийные устройства

К функциям периферийных устройств относятся ввод и вывод информации.

Каждое устройство имеет набор характеристик, которые позволяют подобрать такую конфигурацию устройств, которая наилучшим образом подходит для решения определенного круга задач с помощью компьютера.

Основное назначение периферийных устройств

Обеспечить поступление в ПК из окружающей среды программ и данных для обработки, а также выдачу результатов работы ПК в виде, пригодном для восприятия человека или для передачи на другую ЭВМ, или в иной, необходимой форме.

Периферийные устройства можно разделить на несколько групп по функциональному назначению:

1. Устройства ввода-вывода – предназначены для ввода информации в ПК, вывода в необходимом для оператора формате или обмена информацией с другими ПК. К такому типу ПУ можно отнести внешние накопители, модемы.

2. Устройства вывода – предназначены для вывода информации в необходимом для оператора формате. К этому типу периферийных устройств относятся: принтер, монитор, аудиосистема.

3. Устройства ввода – Устройствами ввода являются устройства, посредством которых можно ввести информацию в компьютер. Главное их предназначение - реализовывать воздействие на машину. К такому виду периферийных устройств относятся: клавиатура, сканер, графический планшет и т.д.

4. Дополнительные ПУ – такие как манипулятор «мышь», который лишь обеспечивает удобное управление графическим интерфейсом операционных систем ПК и не несет ярковыраженных функций ввода либо вывода информации; WEB-камеры, способствующие передаче видео и аудио информации в сети Internet, либо между другими ПК. Последние, правда, можно отнести и к устройствам ввода , благодаря возможности сохранения фото, видео и аудио информации на магнитных или магнитооптических носителях.

Двоичный код

Информация всегда имеет форму сообщения, а сообщение кодируется тем или иным набором знаков, символов, цифр. С технической точки зрения самым удобным и эффективным является использование двоичного кода, то есть набора символов, алфавита, состоящего из пары цифр {0,1}. Поскольку двоичный код используется для хранения информации в вычислительных машинах, его еще называют машинным кодом.

Цифры 0 и 1, образующие набор {0,1}, обычно называют двоичными цифрами, потому что они используются как алфавит в так называемой двоичной системе счисления. Система счисления представляет собой совокупность правил и приемов наименования и записи чисел, а также получения значения чисел из изображающих их символов. Количество знаков в алфавите системы счисления обычно отражается в ее названии: двоичная, троичная, восьмеричная, десятичная, шестнадцатеричная и т. д. Вообще говоря, можно рассматривать системы счисления с любым количеством знаков в алфавите. В настоящее время общепринятой является арабская десятичная система счисления, алфавит которой состоит из десяти цифр {0,1,2,3,4,5,6,7,8,9}. Однако для использования в ЭВМ десятичная система слишком сложна, так как для ее применения необходимо подобрать технические способы изображения десяти различных цифр. С точки зрения технической реализации компьютера, гораздо проще работать всего с двумя цифрами двоичной системы {0,1}.

Элементарное устройство памяти компьютера, которое применяется для изображения одной двоичной цифры, называется двоичным разрядом или битом.

Внутренняя разрядность процессора определяет, какое количество битов он может обрабатывать одновременно при выполнении арифметических операций.

Внешняя разрядность процессора определяет, сколько битов одновременно он может принимать или передавать во внешние устройства.

Литература

1. А.В. Могилев, Н.И. Пак, Е.К. Хеннер. Информатика. М., 2000.

2. А.Я. Савельев. Основы информатики. М., 2001.

3. Статьи журналов Compas за 2007г.

4. Информатика: базовый курс, 2 издание. Издательство «Питер», 2005 год

Под архитектурой компьютера понимается совокупность сведений об основных устройствах компьютера и их назначении, о способах представления программ и дан­ных в машине, об особенностях ее организации и функционирования.

Принципы ЭВМ заключаются в следующем:

1. ЭВМ – это машина с хранимой (в памяти ЭВМ) программой, представленной в виде последовательности команд.

2. Выполняемые ЭВМ команды и операнды, т.е. данные, над которыми выполняется задаваемая командой операция, представлены в ЭВМ в виде двоичного кода с определенным количеством разрядов.

3. Память ЭВМ организована в виде последовательности запоминаю-

щих ячеек, в каждой из которых может храниться (запоминаться)

некоторый двоичный код – число или код символа алфавита, представляющие обрабатываемые данные, код команды ЭВМ. В конкретный момент времени можно обратиться для записи или чтения к любой одной из этих ячеек независимо от ее расположения в памяти, указав адрес (порядковый номер этой ячейки. Таким способом организованная память называется памятью с произвольным доступом.

4. В ЭВМ используется общая память как для хранения данных, так и

для хранения команд. При этом в кодах самих данных и команд отсут ствуют признаки, позволяющие явно отличать их друг от друга. Процессор различает данные и команды только по контексту выполняемой программы.

5. Предназначение данных, их тип и способ использования также явно не указываются. Они определяются и различаются по контексту вы полняемой программы.

Типичная цифровая ЭВМ включает в себя три основных компонента:

процессор, память и внешние устройства. Ее обобщенная блок-схема представлена ниже.

Процессор или центральный процессор (ЦП) – это устройство, предназначенное для выполнения основных операций по обработке данных, арифметических и логических операций над числами, управления работой других частей ЭВМ.

Память или оперативное запоминающее устройство (ОЗУ) – предна

значено для хранения кодов команд, составляющих выполняемую ЭВМ программу, и данных или операндов, т.е. двоичных чисел или кодов, над которыми процессор ЭВМ выполняет задаваемые командами операции.

Через устройства ввода-вывода или внешние (периферийные) устройства осуществляется взаимодействие ЭВМ с внешним миром.

Компоненты ЭВМ связаны друг с другом с помощью специальной шины или канала ЭВМ, представляющих собой набор линий связи, предназначенных для передачи информационных и управляющих сигналов между компонентами ЭВМ.

При реализации современных ЭВМ используется мо­дульный принцип. Суть этого принципа сводится к тому, что ЭВМ строится из набора устройств и блоков - модулей, реализующих законченные функции и не зависящих от других модулей.


В конструктивном отношении модуль также представляет со­бой законченный элемент. Отдельные модули могут быть соеди­нены между собой в необходимую конфигурацию без изменения схем (функций) отдельных модулей.

Основные преимущества модульного принципа:

Возможность совершенствования ЭВМ без изменения ее функциональной организации даже в процессе эксплуатации путем замены отдельных блоков на новые (более быстродейст­вующие, меньшие по размерам, потребляющие меньше энергии, более дешевые) или посредством добавления новых модулей;

Возможность компоновки из модулей большого числа раз­личных по характеристикам ЭВМ, наилучшим образом приспо­собленных для конкретного применения;

Сокращение времени восстановления работоспособности ЭВМ при отказах упрощением поиска неисправностей и ремонта.

Модули между собой соединяются при помощи шин. Физиче­ски шина представляет собой проводник электрического тока и состоит из линий связи. Каждая такая линия в один момент време­ни позволяет передать одну двоичную цифру (0 или 1), т. е. бит информации. В общем случае по шинам информация может пере­даваться в обоих направлениях.

Обычно шина ЭВМ функционально делится на три группы линий связи: адресную шину, шину данных и шину управления. Адресная шина переносит информацию о том, где искать инструкции (команды) или данные в памяти ЭВМ то есть адреса соответствующих ячеек памяти; шина данных переносит эти данные или инструкции для центрального процессора; шина управления обеспечивает передачу сигналов управления между процессором и внешними устройствами.

Совокупность шин, связывающих два модуля, и алгоритм, определяющий порядок обмена информацией между ними, назы­ваются интерфейсом (сопряжением).

Интерфейс характеризуется шириной (или разрядностью) составляющих его шин (в первую очередь информационных) и скоростью обмена информацией. В первых моделях ПК использовали 8- и 16-разрядные шины данных, рассчитанные на передачу и обработку соответственно байта и слова информации (стандарт ISA). До недавнего времени в большинстве моделей ПК применяли стандарты EISA, VCA, VL-BUS, ориентированные на 32-разрядную передачу данных. В последних моделях ПК используют 64-разрядные шины данных. Разрядность шины адреса определяет величину адресного пространства внутренней памяти (число байт ОЗУ и ПЗУ), к кото­рому может непосредственно обращаться процессор компьютера.

Первые модели ПК имели 16-разрядную адресную шину и с помощью специального способа адресации обеспечивали доступ ЦП к 1 Мбайту ОЗУ и ПЗУ. У современных моделей 32- и 64-разрядные шины адреса, и они обеспечивают доступ более чем к 4 Гбайтам внутренней памяти компьютера.

Наиболее простой и естественный способ соединения уст­ройств (модулей) между собой для образования ЭВМ - использо­вание единого интерфейса - интерфейса, к которому подключают­ся все устройства, входящие в состав ЭВМ. Такой способ органи­зации реализован в ПК (рис. 1).

Рис. 3 Модульный принцип реализации ПК

Основу ПК составляет электронная плата, которая называется системной, или материнской, так как на ней располагаются основ­ные устройства компьютера: микропроцессор и микросхемы внут­ренней памяти (ОЗУ и ПЗУ). Кроме того, на системной плате раз­мещается ряд дополнительных операционных и других устройств, обеспечивающих функционирование компьютера.

Все устройства, находящиеся на системной плате, подключа­ются к шинам единого интерфейса, который также расположен на плате, и образуют единую электронную схему ПК.

Как было отмечено ранее, основными функциями компьютера являются хране­ние, обработка, прием и передача данных. Для выполнения этих функций в ком­пьютере предусмотрены различные устройства. Каждое из них выполняет ту или иную конкретную функцию. В состав любого современного компьютера входят:

· память - группа устройств, которые обеспечивают хранение программ и данных;

· процессор - одно или несколько устройств, которые обеспечивают задавае­мую программой обработку данных;

· устройства ввода-вывода - группа устройств, которые обеспечивают обмен, то есть прием и передачу данных между пользователем и машиной или между двумя или более машинами.

Различные устройства компьютера подсоединяют друг к другу с помощью стан­дартизированных и унифицированных аппаратных средств - кабелей, разъемов и т. д. При этом устройства обмениваются друг с другом информацией и управляю­щими сигналами, которые также приводятся к некоторым стандартным формам.

Совокупность этих стандартных средств и форм образует конкретный интерфейс того или иного устройства или компьютера в целом." Интерфейсом называется совокупность унифицированных стандартных соглашений, аппаратных и программных средств, методов и правил взаимодействия устройств или программ, а также устройств или программ с пользователем. Заметим, что для обозначения совокупности устройств, которые могут быть включены в состав компьютера той или иной модели, а также средств их соеди­нения используется термин аппаратное обеспечение.

Основы хранения информации в компьютере

Как было отмечено ранее, информация всегда имеет форму сообщения, а сооб­щение кодируется тем или иным набором знаков, символов, цифр. Теоретически и экспериментально было показано, что самым удобным и эффективным является использование в вычислительной технике двоичного кода, то есть набора симво­лов, алфавита, состоящего из пары цифр {0,1}. Поскольку двоичный код исполь­зуется для хранения информации в вычислительных машинах, его еще называют машинным кодом.

Цифры 0 и 1, образующие набор {0, 1}, обычно называют двоичными цифрами, потому что они используются как алфавит в так называемой двоичной системе счисления. Система счисления представляет собой совокупность правил и прие­мов наименования и записи чисел, а также получения значения чисел из изобра­жающих их символов. Количество знаков в алфавите системы счисления обычно отражается в ее названии: двоичная, троичная, восьмеричная, десятичная, шестнадцатеричная и т. д. С точки зрения технической реализации компьютера, гораздо проще работать всего с двумя цифрами двоичной системы {0, 1}.

Элементарное устройство памяти компьютера, которое применяется для хранения одной двоичной цифры машинного кода программы или данных, называется дво­ичным разрядом или битом.

Слово «бит» произошло от английского термина bit, представляющего собой сокращение словосочетания Binary digit (двоичная цифра). Технически бит может быть реализован самыми разными способами. Однако каким именно

конкретным способом это сделано в компьютере - для нас совершенно безраз­лично. Важно лишь понимание назначения, свойств и функций бита.

· Бит может находиться только в одном из двух возможных состояний, одно из которых принято считать изображением цифры «О», а другое - изображени­ем цифры «1». Свое состояние бит сохраняет сколь угодно долго, пока оно не будет изменено принудительно, следовательно, бит может хранить записан­ную в нем информацию.

· В любой момент можно узнать, в каком из двух состояний находится бит - в состоянии «О» или в состоянии «1», при этом текущее состояние бита оста­нется неизменным. Другими словами, можно прочитать записанную в бит информацию (без ее потери).

· Всегда, когда в этом возникнет необходимость, и вне зависимости от текуще­го состояния можно перевести бит из одного состояния в другое. Иначе гово­ря, в бит можно записать новую информацию.

· Итак, бит обеспечивает базу для хранения информации, одной из трех важней­ших функций компьютера.

Бит - это очень маленькая порция информации. Поэтому так же как для изобра­жения десятичных чисел используется несколько десятичных разрядов - разряд единиц разряд десятков, сотен и т. д., так и для изображения двоичных чисел и дво­ичных машинных кодов используется несколько двоичных разрядов, несколько бит.

Для хранения двоичных чисел в компьютере служит устройство, которое приня­то называть ячейкой памяти. Ячейки образуются из нескольких битов, так же как двоичные числа образуются из двоичных разрядов. А всю память компьюте­ра можно образно представить себе как автоматическую камеру хранения, со­стоящую из большого количества отдельных ячеек, в каждую из которых можно положить, записать некоторое двоичное число, двоичный машинный код.

В общем случае ячейки различных компьютеров могут состоять из различного количества битов. Однако это создает значительные сложности для организации обмена информацией между разными моделями компьютеров. Поэтому, начиная с машин третьего поколения, стандартными являются ячейки, которые состоят из восьми битов.

Элемент памяти компьютера, состоящий из 8 битов, называется байтом.

При компьютерной обработке информации приходится иметь дело с текстовой, графической, числовой, звуковой и другой информацией. Для хранения данных различной природы применяются разные способы кодировки. Кроме того, для одной и той же разновидности информации также могут использоваться различ­ные способы кодировки, которые отличаются друг от друга эффективностью, а также различными требованиями к ресурсам компьютера.

Чем больше строк и точек, тем четче и лучше изображение. В настоящее время минимально допустимым считается разрешение 800 х 600, то есть 800 точек на строку и 600 строчек на экран.

Строки, из которых состоит изображение, можно просматривать сверху вниз друг за другом, как бы составив из них одну сплошную линию. После полного просмот­ра первой строки просматривается вторая, за ней третья, потом четвертая и т. д. до последней строки экрана. Этот процесс очень похож на принятый в большинстве стран мира способ чтения текстов, когда строчки просматриваются друг за другом слева направо и сверху вниз. Такой способ работы со строками называется строч­ной разверткой, или сканированием. А так как каждая из строк представляет со­бой последовательность пикселов, то все изображение, вытянутое в линию, также можно считать линейной последовательностью элементарных точек. В рассмат­риваемом случае эта последовательность состоит из 800 600 = 480 000 пикселов. Вначале рассмотрим принципы кодирования монохромного изображения, то есть изображения, состоящего из любых двух контрастных цветов - черного и белого, зеленого и белого, коричневого и белого и т. д. Для простоты обсуждения будем считать, что один из цветов - черный, а второй - белый. Тогда каждый пиксел изображения может иметь либо черный, либо белый цвет. Поставив в соответст­вие черному цвету двоичный код «0», а белому - код «1» (либо наоборот), мы сможем закодировать в одном бите состояние одного пиксела монохромного изо­бражения. А так как байт состоит из 8 бит, то на строчку, состоящую из 800 точек, потребуется 100 байтов памяти, а на все изображение - 60 000 байтов. Однако полученное таким образом изображение будет чрезмерно контрастным. Реальное черно-белое изображение состоит не только из белого и черного цве­тов. В него входят множество различных промежуточных оттенков - серый, светло-серый, темно-серый и т. д. Если кроме белого и черного цветов использо­вать только две дополнительные градации, скажем светло-серый и темно-серый, то для того чтобы закодировать цветовое состояние одного пиксела потребу­ется уже два бита. При этом кодировка может быть, например, такой: черный, цвет - 00 2 , темно-серый - 01 2 , светло-серый - 10 2 , белый - 11 2 . Общепринятым на сегодняшний день, дающим достаточно реалистичные моно­хромные изображения считается кодирование состояния одного пиксела с помо­щью одного байта, которое позволяет передавать 256 различных оттенков серого цвета от полностью белого, до полностью черного. В этом случае для передачи всего растра из 800 х 600 пикселов потребуется уже не 60 000, а все 480 000 байтов.

Цветное изображение может формироваться различными способами. Один из них - метод RGB (от слов Red, Green, Blue - красный, зеленый, синий), кото­рый опирается на то, что глаз человека воспринимает все цвета как сумму трех основных цветов - красного, зеленого и синего. Например, сиреневый цвет - это сумма красного и синего, желтый цвет - сумма красного и зеленого и т. д. Для получения цветного пиксела в одно и то же место экрана направляется не один, а сразу три цветных луча. Упрощая ситуацию, будем считать, что для кодирования каждого из цветов достаточно одного бита. Нуль в бите будет означать, что в суммарном цвете данный основной отсутствует, а единица - при­сутствует. Следовательно, для кодирования одного цветного пиксела потребуется 3 бита - по одному на каждый цвет. Пусть первый бит соответствует красному цвету, второй - зеленому и третий - синему. Тогда код 101 2 обозначает сирене­вый цвет - красный есть, зеленого нет, синий есть, а код 110 2 - желтый цвет - красный есть, зеленый есть, синего нет. При такой схеме кодирования каждый пиксел может иметь один из восьми возможных цветов. Если же каждый из цве­тов кодировать с помощью одного байта, как это принято для реалистического монохромного изображения, появится возможность передавать по 256 оттенков каждого из основных цветов. А всего в этом случае обеспечивается передача 256 256 256 = 16 777 216 различных цветов, что довольно близко к реальной чувствительности человеческого глаза. Таким образом, при данной схеме коди­рования цвета на изображение одного пиксела требуется 3 байта, или 24 бита па­мяти. Этот способ представления цветной графики принято называть режимом True Color (true color - истинный цвет) или полноцветным режимом.

Полноцветный режим требует очень много памяти. Так, для обсуждавшегося выше растра 800 х 600 при использовании метода RGB требуется 1 440 000 байтов. В целях экономии памяти разрабатываются различные режимы и графические форматы, которые немного хуже передают цвет, но требуют гораздо меньше памя­ти. В частности, можно упомянуть режим High Color (high color - богатый цвет), в котором для передачи цвета одного пиксела используется 16 битов и, следова­тельно, можно передать 65 535 цветовых оттенков, а также индексный режим, который базируется на заранее созданной для данного рисунка таблице исполь­зуемых в нем цветовых оттенков. Затем нужный цвет пиксела выбирается из этой таблицы с помощью номера - индекса, который занимает всего один байт памяти. При записи изображения в память компьютера кроме цвета отдельных точек необходимо фиксировать много дополнительной информации - размеры рисунка, разрешение, яркость точек и т. д. Конкретный способ кодирования всей требуемой при записи изображения в память компьютера информации образует графиче­ский формат. Форматы кодирования графической информации, основанные на передаче цвета каждого отдельного пиксела, из которого состоит изображение, относят к группе растровых или BMP (Bit MaP - битовая карта) форматов.

Аудио-и видеоинформация

Развитие способов кодирования звуковой информации, а также движущихся изо­бражений - анимации 1 и видеозаписей - происходило с запаздыванием относи­тельно рассмотренных выше разновидностей информации. Приемлемые способы хранения и воспроизведения с помощью компьютера звуковых и видеозаписей.

Заметим, что под анимацией понимается похожее на мультипликацию «оживление» изображений, но выполненое с помощью средств компьютерной графики. Анимация представляет собой последовательность незначительно отличающихся друг от друга, по­лученных с помощью компьютера картинок, которые фиксируют близкие по времени со­стояния движения какого-либо объекта.

появились только: в 90-х гг. XX в. Эти способы работы со звуком и видео полу­чили название мультимедийных технологий.

Звук представляет собой довольно сложное непрерывное колебание воздуха. Не­прерывные сигналы часто называют еще и аналоговыми. Оказывается, что такие непрерывные сигналы можно приближенно, но с достаточной точностью пред­ставлять в виде суммы некоторого числа простейших синусоидальных коле­баний. Причем каждое слагаемое, то есть каждая синусоида, может быть точно задано некоторым набором числовых параметров - амплитудой, фазой и часто­той, которые можно рассматривать как код звука в некоторый момент времени. Такой подход к записи звука называется преобразованием в цифровую форму, оцифровыванием или дискретизацией, так как непрерывный звуковой сигнал заменяется дискретным (то есть состоящим из обособленных, раздельных эле­ментов) набором значений сигнала - отсчетов сигнала - в некоторые последо­вательные моменты времени Количество отсчетов сигнала в единицу времени называется частотой дискретизации. В настоя­щее время при записи звука в мультимедийных технологиях применяются час­тоты 8,11, 22, 44 кГц до 192 кГц.Ч астота дискретизации 44 кГц означает, что одна секун­да непрерывного звучания заменяется набором из 44 тысяч отдельных отсчетов сигнала. Чем выше частота дискретизации, тем лучше качество оцифрованно­го звука.

Качество преобразования звука в цифровую форму определяется не только частотой дискретизации, но и количеством битов памяти, отводимых на запись кода одного отсчета. Этот параметр принято называть разрядностью преобразования. В настоящее время обычно используется разрядность 8,16 и 24 бит. На описанных выше принципах основывается формат WAV (от WAVeform-audio - волновая форма аудио) кодирования звука. Получить запись звука в этом формате можно от подключаемых к компьютеру микрофона, проигрывателя, магнитофона, теле­визора и других стандартно используемых устройств работы со звуком. Однако формат WAV занимает большой объем памяти (при записи стереофонического звука с частотой дискретизации 44 кГц и разрядностью 16 бит на одну минуту записи требуется около 10 миллионов байтов памяти).

Кроме волнового формата WAV, для записи звука широко применяется формат MIDI (Musical Instruments Digital Interface - цифровой интерфейс музыкаль­ных инструментов). Фактически, этот формат представляет собой набор инструк­ций, команд так называемого музыкального синтезатора - устройства, которое имитирует звучание реальных музыкальных инструментов. Получить запись звука в формате MIDI можно только от специальных электромузыкальных инструмен­тов, которые поддерживают интерфейс MIDI. Формат MIDI обеспечивает вы­сокое качество звука и требует значительно меньше памяти, чем формат WAV. Кодирование видеоинформации еще более сложная проблема, чем кодирование звуковой информации, так как нужно позаботиться не только о дискретизации непрерывных движений, но и о синхронизации изображения со звуковым сопро­вождением. В настоящее время для этого используется формат, которой называ­ется AVI (Audio-Video Interleaved - чередующееся аудио и видео).

Основные мультимедийные форматы AVI и WAV очень требовательны к памя­ти. Поэтому на практике применяются различные способы компрессии, то есть сжатия звуковых и видеокодов. В настоящее время стандартными стали способы сжатия, предложенные MPEG (Moving Pictures Experts Group - группа экспер­тов по движущимся изображениям). В частности, стандарт MPEG-1 включает в себя несколько популярных в настоящее время форматов записи звука. Так, например, при записи в формате МРЗ при практически том же качестве звука требуется в десять раз меньше памяти, чем при использовании формата WAV. Существуют специальные программы, которые преобразуют записи звука из фор­мата WAV в формат МРЗ. Стандарт MPEG-2 описывает методы сжатия видео­записей, которые обеспечивают телевизионное качество изображения и стереозву­ковое сопровождение и имеют приемлемые требования к памяти. Стандарт MPEG-4 по­зволяет записать полнометражный цветной фильм со звуковым сопровождением на компакт-диск.

Для представления информации в памяти ЭВМ (как числовой так и не числовой) используется двоичный способ кодирования.

Элементарная ячейка памяти ЭВМ имеет длину 8 бит (1 байт). Каждый байт имеет свой номер (его называют адресом). Наибольшую последовательность бит, которую ЭВМ может обрабатывать как единое целое, называют машинным словом. Длина машинного слова зависит от разрядности процессора и может быть равной 16, 32 битам и т.д.

Для кодирования символов достаточно одного байта. При этом можно представить 256 символов (с десятичными кодами от 0 до 255). Набор символов персональных компьютеров чаще всего является расширением кода ASCII (American Standart Code of Information Interchange - стандартный американский код для обмена информацией).

В некоторых случаях при представлении в памяти ЭВМ чисел используется смешанная двоично-десятичная система счисления, где для хранения каждого десятичного знак нужен полубайт (4 бита) и десятичные цифры от 0 до 9 представляются соответствующими двоичными числами от 0000 до 1001. Например, упакованный десятичный формат, предназначенный для хранения целых чисел с 18-ю значащими цифрами и занимающий в памяти 10 байт (старший из которых знаковый), использует именно этот вариант.

Другой способ представления целых чисел - дополнительный код . Диапазон значений величин зависит от количества бит памяти отведенных для их хранения. Например, величины типа Integer лежат в диапазоне от
-32768 (-2 15) до 32677 (2 15 -1) и для их хранения отводится 2 байта: типа LongInt - в диапазоне от -2 31 до 2 31 -1 и размещаются в 4 байтах: типа Word - в диапазоне от 0 до 65535 (2 16 -1) используется 2 байта и т.д.

Как видно из примеров, данные могут быть интерпретированы как числа со знаком, так и без знаков. В случае представления величины со знаком самый левый (старший) разряд указывает на положительное число, если содержит нуль, и на отрицательное, если - единицу.

Вообще, разряды нумеруются справа налево, начиная с нуля.

Дополнительный код положительного числа совпадает с его прямым кодом . Прямой код целого числа может быть представлен следующим образом: число переводиться в двоичную систему счисления, а затем его двоичную запись слева дополняют таким количеством незначащих нулей, сколько требует тип данных, к которому принадлежит число. Например, если число 37 (10) = 100101 (2) объявлено величиной типа Integer, то его прямым кодом будет 0000000000100101, а если величиной типа LongInt, то его прямой код будет. Для более компактной записи чаще используют шестнадцатеричный код. Полученные коды можно переписать соответственно как 0025 (16) и 00000025 (16) .

Дополнительный код целого отрицательного числа может быть получен по следующему алгоритму:

  1. записать прямой код модуля числа;
  2. инвертировать его (заменить единицы нулями, нули - единицами);
  3. прибавить к инверсионному коду единицу.

Например, запишем дополнительный код числа -37, интерпретируя его как величину типа LongInt:

  1. прямой код числа 37 есть1
  2. инверсный код
  3. дополнительный код или FFFFFFDB (16)

При получении по дополнительному коду числа, прежде всего, необходимо определить его знак. Если число окажется положительным, то просто перевести его код в десятичную систему исчисления. В случае отрицательного числа необходимо выполнить следующий алгоритм:

  1. вычесть из кода 1;
  2. инвертировать код;
  3. перевести в десятичную систему счисления. Полученное число записать со знаком минус.

Примеры. Запишем числа, соответствующие дополнительным кодам:

  1. 0000000000010111.

    Поскольку в старшем разряде записан нуль, то результат будет положительным. Это код числа 23.

  2. 1111111111000000.

    Здесь записан код отрицательного числа, исполняем алгоритм:

    1. 1111111111000000 (2) - 1 (2) = 1111111110111111 (2) ;
    2. 0000000001000000;
    3. 1000000 (2) = 64 (10)

Несколько иной способ применяется для представления в памяти персонального компьютера действительных чисел. Рассмотрим представление величин с плавающей точкой .

Любое действительное число можно записать в стандартном виде M*10 p , где 1 ≤ M < 10, р- целое число. Например, 120100000 = 1,201*10 8 . Поскольку каждая позиция десятичного числа отличается от соседней на степень числа 10, умножение на 10 эквивалентно сдвигу десятичной запятой на 1 позицию вправо. Аналогично деление на 10 сдвигает десятичную запятую на позицию влево. Поэтому приведенный выше пример можно продолжить: 120100000 = 1,201*10 8 = 0,1201*10 9 = 12,01*10 7 ... Десятичная запятая плавает в числе и больше не помечает абсолютное место между целой и дробной частями.

В приведённой выше записи М называют мантиссой числа, а р - его порядком . Для того чтобы сохранить максимальную точность, вычислительные машины почти всегда хранят мантиссу в нормализованном виде, что означает, что мантисса в данном случае есть число, лежащее между 1 (10) и 2 (10) (1 ≤ М < 2). Основные системы счисления здесь, как уже отмечалось выше,- 2. Способ хранения мантиссы с плавающей точкой подразумевает, что двоичная запятая находится на фиксированном месте. Фактически подразумевается, что двоичная запятая следует после первой двоичной цифры, т.е. нормализация мантиссы делает единичным первый бит, помещая тем самым значение между единицей и двойкой. Место, отводимое для числа с плавающей точкой, делится на два поля. Одно поле содержит знак и значение мантиссы, а другое содержит знак и значение порядка.

Персональный компьютер IBM PC с математическим сопроцессором 8087 позволяет работать со следующими действительными типами (диапазон значений указан по абсолютной величине):

63 52 0

Можно заметить, что старший бит, отведенный под мантиссу, имеет номер 51, т.е. мантисса занимает младшие 52 бита. Черта указывает здесь на положение двоичной запятой. Перед запятой должен стоять бит целой части мантиссы, но поскольку она всегда равна единице, здесь данный бит не требуется и соответствующий разряд отсутствует в памяти (но он подразумевается). Значение порядка храниться здесь не как целое число, представленное в дополнительном коде. Для упрощения вычислений и сравнения действительных чисел значение порядка в ЭВМ хранится в виде смещенного числа , т.е. к настоящему значению порядка, перед записью его в память, прибавляется смещение. Смещение выбирается так, чтобы минимальному значению порядка соответствовал нуль. Например, для типа Double порядок занимает 11 бит и имеет диапазон от 2 -1023 до 2 1023 , поэтому смещение равно 1023 (10) = 1111111111 (2) . Наконец, бит с номером 63 указывает на знак числа.

Таким образом, из вышесказанного вытекает следующий алгоритм для получения представления действительного числа в памяти ЭВМ:

  1. перевести модуль данного числа в двоичную систему счисления;
  2. нормализовать двоичное число, т.е. записать в виде М*2 p , где М - мантисса (ее целая часть равна 1 (2)) и р - порядок, записанный в десятичной системе счисления;
  3. прибавить к порядку смещение и перевести смещенный порядок в двоичную систему счисления;
  4. учитывая знак заданного числа (0 - положительное; 1 - отрицательное), выписать его представление в памяти ЭВМ.

Пример. Запишем код числа -312,3125.

  1. Двоичная запись модуля этого числа имеет вид 100111000,0101.
  2. Имеем 100111000,0101 = 1,001110000101*2 8 .
  3. Получаем смещенный порядок 8 + 1023 = 1031. Далее имеем 1031 (10) = 10000000111 (2) .
  4. Окончательно
    63 52 0
    1. Прежде всего, замечаем, что это код положительного числа, поскольку в разряде с номером 63 записан нуль, Получим порядок этого числа. 01111111110 (2) = 1022 (10) . 1022 - 1023 = -1.
    2. Число имеет вид 1,1100011*2 -1 или 0,11100011.
    3. Переводом в десятичную систему счисления получаем 0,88671875.

    Мы рассмотрели виды представления информации в памяти ЭВМ, теперь можно приступить к проверке знаний.

    Если же вам нужны варианты на бумаге то

3.1.Представление данных в ЭВМ

При проведении математических расчетов числа внутри ЭВМ могут быть представлены с помощью естественной и нормальной форм записи.

Примером записи в естественной форме может служить число 456,43. Для записи такого числа машинное слово (операнд) делится на два фиксированных поля (части). Первое поле отводится для записи целой части числа, а второе – для записи дробной части числа. Старший разряд предназначается для указания знака числа.

В вычислительной технике принято отделять целую часть числа от дробной части точкой. Так как в этом случае положение точки между целой и дробной частью четко определено, то такое представление чисел называют представлением с фиксированной точкой . Ниже на рис. 3.1 показано машинное слово длиной 16 разрядов (2 байта).

Машинное слово является структурной единицей информации ЭВМ. С помощью машинных слов записывают числа, символы и команды. В современных ЭВМ длина машинных слов составляет 32…128 разрядов. Физически каждый разряд машинного слова представляет собой отдельный элемент памяти (триггер или запоминающий конденсатор).

Рис. 3.2. Представление целого числа

Нормальная форма записи числа имеет следующий вид:

где m – мантисса числа; p – порядок ; d – основание системы счисления.

Порядок указывает местоположение в числе точки, отделяющей целую часть числа от дробной. В зависимости от порядка точка передвигается (плавает) по мантиссе. Такая форма представления чисел называется формой с плавающей точкой . Рис. 3.3 иллюстрирует форму числа с плавающей точкой на примере 32 разрядного машинного слова.

Например, пусть m = 0.3, d = 10, а порядок будет разным:

0.3 · 10 -1 = 0.03; 0.3 · 10 -2 = 0.003; 0.3 · 10 2 = 30; 0.3 · 10 3 = 300.

Из приведенного примера видно, что благодаря изменению порядка точка перемещается (плавает) по мантиссе. При этом, если порядок отрицательный, точка смещается по мантиссе влево, а если положительный, то вправо.

31

Рис. 3.3. Представление числа с плавающей точкой

В этом случае машинное слово делится на два основных поля. В одном поле записывается мантисса числа, во втором - указывается порядок числа. Диапазон представления чисел с плавающей точкой значительно больше диапазона представления чисел с фиксированной точкой. Однако быстродействие ЭВМ при обработке чисел с плавающей точкой гораздо ниже, чем при обработке чисел с фиксированной точкой.

3.2.Представление команд в ЭВМ

Программа работы ЭВМ состоит из последовательности команд.

Под командой понимается информация, обеспечивающая выработку управляющих сигналов, формируемых в устройстве управления процессора, для выполнения машиной определенного действия.

Поле команды состоит из двух частей: операционной и адресной . В операционной части указывается код операции (КОП). Код определяет действие, которое должна выполнить ЭВМ (арифметическое – сложение, вычитание, логическое – инверсия и т.д.).

Адресная часть команды содержит адреса операндов (чисел или символов), участвующих в операции. Под адресом понимается номер ячейки ОЗУ или ПЗУ, где записана необходимая для выполнения команды информация.

Таким образом, ЭВМ (точнее, процессор) выполняет действие, которое определяется кодом операции, над данными, местоположение которых указано в адресной части команды.

Количество указываемых в команде адресов может быть различным. В зависимости от числа адресов различают следующие форматы команд: одно-, двух- и трехадресные. Бывают и безадресные команды. На рис. 3.4 представлена структура различных команд.

КОП А1
КОП А1 А2
КОП А1 А2 А3

Операционная Адресная часть команды

часть команды

Рис. 3.4. Структура команды

Трехадресная команда , выполняющая, например, операцию сложения, должна содержать код операции сложения и три адреса.

Действия, выполняемые этой командой, описываются следующей последовательностью операций.

1. Взять число, хранящееся по первому адресу А1.

2. Взять число, хранящееся по второму адресу А2, и сложить с первым числом.

3. Результат сложения записать по третьему адресу А3.

В случае двухадресной команды третий адрес отсутствует, и результат можно записать либо по второму адресу (с потерей информации, которая была там записана), либо оставить в регистре сумматора, где производилась операция сложения. Тогда для освобождения регистра сумматора требуется дополнительная команда перезаписи числа по требуемому адресу. При организации сложения двух чисел, хранящихся по адресам А1 и А2 с записью результата в А3 с использованием одноадресных команд , требуется уже три команды.

1. Вызов в сумматор (АЛУ) числа, хранящегося по адресу А1.

2. Вызов числа, хранящегося по адресу А2 и сложение его с первым числом.

3. Запись результата по адресу А3.

Таким образом, чем меньше адресов содержит команда, тем большее число команд требуется для составления одной и той же программы работы машины.

Увеличивая число адресов в команде, приходится увеличивать длину машинного слова, чтобы отвести в нем необходимые поля для адресной части команд. С увеличением объема памяти ЭВМ увеличивается длина поля, необходимого для указания одного адреса. В то же время не все команды полностью используют адресные поля. Например, для команды записи числа по заданному адресу требуется только одно адресное поле. Неоправданное увеличение длины машинного слова для использования многоадресных команд приводит к уменьшению быстродействия ЭВМ, т.к. необходимо обрабатывать поля большей длины.

Существуют безадресные команды, которые содержат только код операции, а необходимые данные заранее помещаются в определенные регистры процессора.

Современные ЭВМ автоматически выполняют несколько сотен различных команд. Все машинные команды можно разделить на группы по видам выполняемых операций:

· операции пересылки данных;

· арифметические операции;

· логические операции;

· операции обращения к внешним устройствам ЭВМ;

· операции передачи управления;

· обслуживающие и вспомогательные операции.

При проектировании новых процессоров разработчикам приходится решать сложную задачу выбора длины команды и определения списка необходимых команд (системы команд). Противоречивые требования к конфигурации команд привели к созданию процессоров с различными форматами команд (архитектуры CISC и RISC).

3.3.Кодовая таблица

Кодовая таблица – это внутреннее (закодированное) представление в машине букв, цифр, символов и управляющих сигналов. Так, латинская буква А в кодовой таблице представлена десятичным числом 65D (внутри ЭВМ это число будет представлено двоичным числом 01000001В), латинская буква С – числом 67D, латинская буква М – 77D и т.д. Таким образом, слово «САМАРА», написанное заглавными латинскими буквами будет циркулировать внутри ЭВМ в виде цифр:

67D-65D-77D-65D-80D-65D.

Если говорить точнее, то внутри ЭВМ данное слово хранится и используется в виде двоичных чисел:

01000011В-01000001В-01001101В-01000001В-0101000В-01000001В

Аналогично кодируются цифры (например, 1 – 49D, 2 – 59D) и символы (например, ! – 33D, + - 43D).

Наряду с алфавитно-цифровыми символами в кодовой таблице закодированы управляющие сигналы. Например, код 13D заставляет печатающую головку принтера вернуться в начало текущей строки, а код 10D перемещает бумагу, заправленную в принтер, на одну строку вперед.

Кодовая таблица может быть представлена не только с по-мощью десятичной СС, но и при помощи шестнадцатеричной СС. Заметим еще раз, что внутри ЭВМ циркулируют сигналы, представленные в двоичной системе счисления, а в кодовой таблице для большего удобства чтения пользователем – в десятичной или шестнадцатеричной СС.

Каждая буква, цифра, знак препинания или управляющий сигнал кодируются восьмиразрядным двоичным числом. С помощью восьмиразрядного числа (однобайтового числа) можно представить (закодировать) 256 произвольных символов – букв, цифр и любых графических образов.

Во всем мире в качестве стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange – Американский стандарт кодов для обмена информацией). Таблица ASCII регламентирует (строго определяет) ровно половину возможных символов (латинские буквы, арабские цифры, знаки препинания, управляющие сигналы). Для их кодировки используются коды от 0D до 127D.

Вторая половина кодовой таблицы ASCII (с кодами от 128 до 255) не определена американским стандартом и предназначена для размещения символов национальных алфавитов других стран (в частности, кириллицы – русских букв), псевдографических символов, некоторых математических знаков. В разных странах, на различных моделях ЭВМ, в разных операционных системах могут использоваться и разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). Например, таблица, которая используется в операционной системе MS-DOS, называется СР-866. Используя эту таблицу для кодировки слова «САМАРА», записанного русскими буквами, получим такие коды:

145D-128D-140D-128D-144D-128D.

При работе в операционной системе Windows используется таблица кодов СР-1251, в которой кодировка латинских букв совпадает с кодировкой таблиц СР-866 и ASCII, а вторая половина таблицы имеет собственную раскладку (кодировку) символов. Поэтому слово «САМАРА», написанное заглавными русскими буквами, будет иметь внутри ЭВМ другое представление:

209D-192D-204D-192D-208D-192D.

Таким образом, внешне одинаковое слово (например, «САМАРА») внутри ЭВМ может быть представлено различным образом. Естественно, это вызывает определенные неудобства. При работе в Интернет национальный текст порой становится нечитаемым. Наиболее вероятной причиной в этом случае является несовпадение кодировок второй половины кодовых таблиц.

Общим недостатком всех однобайтовых кодовых таблиц (в них для кодировки используются восьмиразрядные двоичные числа) является отсутствие в коде символа какой-либо информации, которая подсказывает машине, какая в данном случае используется кодовая таблица.

Сообществом фирм Unicode предложена в качестве стандарта другая система кодировки символов. В этой системе для представления (кодирования) одного символа используются два байта (16 битов), и это позволяет включить в код символа информацию о том, какому языку принадлежит символ и как его нужно воспроизводить на экране монитора или на принтере. Два байта позволяют закодировать 65 536 символов. Правда, объем информации, занимаемой одним и тем же текстом, увеличится вдвое. Зато тексты всегда будут «читаемыми» независимо от использованного национального языка и операционной системы.

3.4.Организация хранения данных на магнитных дисках

3.4.1. Диски

Диски – устройства для постоянного хранения информации. Любой компьютер имеет накопитель на жестком магнитном диске, предназначенный для чтения и записи на несъемный жесткий магнитный диск (винчестер), и накопитель (или дисковод) для гибких магнитных дисков, используемый для чтения и записи на гибкие магнитные диски (дискеты). Кроме этого могут быть дисководы для работы с компакт-дисками, магнитооптическими дисками и т.д.

Любой жесткий диск или магнитооптический диск можно разделить на несколько частей, которые для пользователя будут выглядеть на экране так же, как и физически существующие диски. Эти части называются логическими дисками . Каждый логический диск имеет имя (букву), по которому к нему можно обращаться. Таким образом, логический диск – это часть обычного жесткого диска, имеющая собственное имя. Например, жесткий диск объемом 3 Гбайта может быть разделен на два логических диска: диск С: объемом 2 Гбайта и диск D: объемом 1 Гбайт.

Диск, на котором записана операционная система, называется системным (или загрузочным ) диском. В качестве загрузочного диска чаще всего используется жесткий диск С:.

В операционных системах DOS и Windows каждому диску можно дополнительно давать имена (label – метка), которые отражают их содержание, например: Системный, Графика, Тексты, Дистрибутивы и т.д.

3.4.2. Файлы

Информация на дисках (жестких дисках, дискетах, магнитооптических дисках, компакт-дисках и т.д.) хранится в файлах.

Файл – это набор взаимосвязанных данных, воспринимаемых компьютером как единое целое, имеющих общее имя, находящихся на диске или другом носителе информации. В файлах могут храниться тексты программ, документы, готовые к выполнению программы, рисунки и т.д.

Чтобы операционная система и другие программы могли обращаться к файлам, файлы должны иметь обозначения. Это обозначение называют именем файла . Имя файла обычно состоит из двух частей – собственно имени (в DOS длиной от 1 до 8 символов, в Windows – от 1 до 254 символов) и расширения длиной до 3 символов. Имя и расширение отделяются друг от друга точкой. Часто имя и расширение вместе также называют именем. Примеры имен файлов:

vova.doc tetris.exe doc.arj config.sys

Имя и расширение могут состоять из прописных и строчных латинских букв (возможны и русские буквы), цифр и символов, кроме управляющих символов и символов \ / : * ? < > ; , + = . Русские буквы в именах файлов следует употреблять с осторожностью – некоторые программы не «понимают» имен с русскими буквами. Имена файлов могут включать символы “-“ (дефис), “_” (подчеркивание), “$” (доллар), “#” (решетка), “&” (амперсанд, типографское “и” в странах английского языка), “@” (“собака”), “!”, “%”, скобки, кавычки, “ ^ ” (“крышка”), “ ’ ” (апостроф), “~” (тильда или “волна”).

Расширение имени файла является необязательным. Оно, как правило, описывает содержание файла, поэтому использование расширения весьма удобно. Многие программы устанавливают определенное расширение имени файла, и по нему можно узнать, какая программа создала файл. Кроме того, многие программы (например, программы-оболочки) позволяют по расширению имени файла вызвать соответствующую программу и сразу загрузить в нее данный файл. Примеры типовых расширений:

com, exe – исполнимые файлы (готовые к выполнению программы); если выделить файл с таким расширением и нажать клавишу Enter, то программа немедленно начнет работать;

bat – командные (Batch) файлы;

txt, doc, wp, wri – текстовые файлы (документы). Расширение doc дает своим документам программа MS Word, wp – WordPerfect, wri – MS Write. В файлах с расширением txt обычно находится текст без какого-либо оформления (text-only, только текст);

bak – последняя версия текста (резервная копия);

tif, pcx, bmp, pic, gif, jpg, cdr – графические файлы разных форматов;

arj, zip, lzh, rar – особым образом сжатые (заархивированные) файлы;

hlp – файлы помощи, подсказок к разным программам;

drv, ega, vga, sys, dll и ряд других – служебные программы и программы-драйверы, с помощью которых компьютер обучается работать с разными мониторами, клавиатурами, принтерами, мышками, использовать русский язык. Эти программы не запускаются как исполнимые файлы;

ttf, fon, fnt, sfp, stl, xfr – шрифты для разных программ;

bas, c, pas, asm – содержат текст программ на языках Бейсик, Си, Паскаль, Ассемблер.

Могут быть файлы и с другими расширениями.

Важнейшая характеристика файла – его размер . Он измеряется в байтах, Кбайтах, Мбайтах.

3.4.3. Папки

Имена файлов регистрируются на дисках в каталогах (или директориях). В Windows каталоги называют папками.

Папки – это специальное место на диске, в котором хранятся имена файлов, сведения о размере файлов, времени их последнего обновления, атрибуты (свойства) файлов и т.д. Если в папке хранится имя файла, то говорят, что этот файл находится в данной папке. На каждом диске может быть несколько папок.

Каждая папка имеет имя. Требования к именам папок те же, что и к именам файлов. Как правило, расширение имени для папок не используется, хотя и не запрещается.

Полное имя файла имеет следующий вид (скобками [ и ] обозначают необязательные элементы):

[дисковод:] [путь \] имя файла

Путь – это последовательность из имен папок (каталогов) или символов “..”, разделенных символом “\”. Путь задает маршрут от текущей или корневой папки диска к той папке, в которой находится файл. Если путь начинается с символа “\”, то маршрут вычисляется от корневой папки диска, иначе – от текущей папки. Каждое имя папки в пути соответствует входу в папку с таким именем, символ “..” соответствует входу в папку на уровень выше. Например:

A:\text1.txt - файл text1.txt находится в корневой папке диска A: ;

C:\WORKS\PASCAL\prog1.pas – файл prog1.pas находится в папке PASCAL, которая, в свою очередь, находится в папке WORKS, находящемся в корневой папке диска C: .

3.4.4. Файловая структура диска

Для того чтобы на новый магнитный диск можно было записать информацию, он должен быть предварительно отформатирован. Форматирование – это подготовка диска для записи информации.

Во время форматирования на диск записывается служебная информация (делается разметка), которая затем используется для записи и чтения информации. Разметка производится с помощью электромагнитного поля, создаваемого записывающей головкой дисковода.

Запись информации осуществляется по дорожкам , причем каждая дорожка разбивается на секторы , например, по 1024 байта (рис. 3.5). Дискета диаметром 3,5 дюйма объемом 1,44 Мбайта содержит 80 дорожек и 18 секторов.


Рис. 3.6. Цилиндр винчестера

На рисунке видны два цилиндра (первый и второй), образованные равноудаленными дорожками на трех дисках винчестера. При работе винчестера несколько головок одновременно считывают информацию с дорожек одного цилиндра.

Чтобы обратиться к данным в файле, надо знать адрес первого сектора из тех, в которых хранятся данные файла. Адрес сектора определяется тремя координатами: номер дорожки (цилиндра), номер поверхности и номер сектора.

Операционная система (ОС) берет на себя хранение этих сведений для каждого файла. Для реализации доступа к файлу ОС используют корневой каталог, таблицу размещения файлов FAT(File Allocation Table) и загрузочный сектор диска. Эти элементы образуют системную область диска (или дискеты) и создаются в процессе инициализации (форматирования) диска.

Загрузочный сектор, таблица размещения файлов, корневой каталог и оставшееся свободным пространство памяти диска, называемое областью данных, являются элементами файловой структуры диска .

Жесткий диск может быть разбит на несколько разделов. Поэтому в начальных секторах жесткого диска помещается информация о количестве разделов, их местоположении и размерах. Разделы жесткого диска в дальнейшем рассматриваются как автономные диски, каждый из которых отдельно инициализируется, имеет собственное буквенное обозначение (C:, D:, E:, F: и т.д.) и свои элементы файловой структуры.

Загрузочный сектор (Boot Record) – это визитная карточка диска, в которой записаны данные, необходимые для работы с диском. Он размещается на каждом диске в логическом секторе с номером 0. В загрузочный сектор записываются следующие характеристики:

идентификатор системы, если на диске записана операционная система;

размер секторов диска в байтах;

количество секторов в кластере;

количество элементов в каталоге;

количество секторов на диске и т.д.

Если диск подготовлен как системный (загрузочный), то загрузочный сектор содержит программу загрузки операционной системы. В противном случае, он содержит программу, которая при попытке загрузки с этого диска операционной системы выводит сообщение о том, что данный диск не является системным.

За загрузочным сектором на диске следует таблица размещения файлов.

Таблица размещения файлов (File Allocation Table – сокращенно FAT) содержит описание порядка расположения всех файлов в секторах данного диска, а также информацию о дефектных участках диска. За FAT-таблицей следует ее точная копия, что повышает надежность сохранения этой очень важной таблицы.

В процессе работы пользователей на компьютере содержимое диска меняется: добавляются новые файлы, удаляются ненужные, некоторые файлы расширяются или уменьшаются и т.д.

Выполнение этих операций требует наличия специального механизма распределения запоминающего пространства диска между файлами и обеспечения доступа к ним. Этот механизм реализован путем использования таблицы размещения файлов.

При выполнении операций чтения-записи данных обмен информацией между дисковым накопителем и памятью компьютера осуществляется блоками. Минимальный объем блока равен сектору. Для уменьшения количества обращений к диску за одно обращение может записываться или считываться информация из нескольких последовательно расположенных секторов, образующих своеобразный суперблок, называемый кластером . Таким образом, кластер – несколько последовательно расположенных секторов, которые считываются или записываются в файл за одно обращение к нему. Размер кластера может быть разным.

Файлу, записываемому на диск, выделяется целое количество кластеров, причем выделяемые кластеры могут находиться в различных местах диска. В отличие от непрерывных файлов , находящихся в одной области памяти, файлы, занимающие на диске несколько областей, называются фрагментированными . Назначение FAT – хранить данные о местонахождении на диске фрагментов файлов.

Механизм доступа к файлам с использованием FAT реализуется следующим образом. Область данных диска рассматривается как последовательность пронумерованных кластеров. Каждому кластеру ставится в соответствие элемент FAT с тем же номером. Например, элемент 2FAT соответствует кластеру 2 области данных диска, элемент 3FAT кластеру 3 и т.д. В каталоге, содержащем сведения о файлах на диске, для каждого файла указан номер первого кластера, занимаемого файлом. Этот номер называется точкой входа в FAT. Система, прочитав в каталоге номер первого кластера файла, обращается к этому кластеру, например записывает в него данные. В FAT первый кластер файла содержит номер второго кластера файла или признак конца файла и т.д. Пример механизма доступа к файлам с использованием FAT представлен в табл. 3.1.

Таблица 3.1

Механизм доступа к файлам с использованием FAT

Вход в FAT Номер элементов FAT Значения элементов FAT

Даже для малых по объему разовых статистических исследований полностью окупаются усилия, затраченные на своевременное и полное описание используемых массивов, входящих в них переменных и всех шагов статистического анализа. Раннее и тщательное изготовление документации снимает много недоразумений. Большие статистические исследования выполняются коллективно, состав участников работы частично меняется в процессе ее осуществления, обработка собранных материалов растягивается во времени и проводится итеративно, когда вновь и вновь обращаются к данным для проверки возникающих по ходу анализа гипотез. Во многих исследованиях (например, медицинских) часто к тому же происходит постоянное пополнение данных новыми сведениями. В этих условиях продуманное и тщательное ведение документации становится просто необходимым как важнейшее условие обеспечения преемственности в осуществлении исследования. Остановимся кратко на отдельных аспектах этого процесса.

Паспортизация исследования, массивов, переменных, способов анализа. Для каждого из указанных выше объектов желательно в ЭВМ иметь следующее: 1) краткое имя, обязательно появляющееся во всех выдачах; 2) полное имя, идущее в основном в отчеты, но иногда и в выдачи, когда краткого имени недостаточно для однозначного понимания их смысла; 3) описание, которое для исследований кратко раскрывает содержание работы и указывает связь между массивами; для массивов уточняет условия их сбора или формирования; для переменных дает способ их получения, измерения или регистрации; для способа анализа - ссылки на источники, где может быть найдено точное описание метода. Описания используются в основном при формировании

отчетов и иногда в качестве вспомогательного комментария, облегчающего понимание отдельных выдач; и только для переменных 4) указание пределов изменения или принимаемых значений, которые обязательно должны использоваться для контроля при вводе данных, а также при построении выходных таблиц.

Если по ходу анализа выделяются отдельные массивы или вводятся новые вспомогательные переменные, то их необходимо описывать столь же подробно, как и основные массивы и переменные.

Описанная выше автоматизация документирования исследования достигается при современном уровне развития математического обеспечения довольно простыми средствами, но позволяет решать очень важные задачи: осуществляет контроль переменных при вводе; обеспечивает «автономную читаемость» всех выдаваемых таблиц; повышает вероятность обнаружения неточностей и ошибок в описаниях; облегчает составление отчетов.

Кроме того, желательно ведение в ЭВМ или с помощью специальных картотек учета: какие виды анализа (программы) и к каким подмассивам применялись; какова при этом была выявленная мера зависимости между признаками, успешности прогноза, адекватности отображения объектов в пространство меньшей размерности и т. п.; адресов, где хранятся в ЭВМ или на полках соответствующие выдачи, а также ведение разноцелевых текстовых комментариев как по логике и ходу анализа, так и к отдельным распечаткам.

10.1.2. Ввод и хранение данных.

Для ввода обычно используются либо перфокарты, либо дисплей с высвечиванием шаблона, в который вписываются кодированные значения, либо дисплей с высвечиванием списка возможных значений переменной - так называемого «меню». Последние два способа позволяют сразу же обнаруживать грубые ошибки при вводе. Использование «меню» требует большего времени на ввод. «Меню» должно настраиваться автоматически по описанию переменных. Хранение данных должно быть организовано так, чтобы их можно было легко редактировать и пополнять.

10.1.3. Просмотр данных.

Очень существенно, чтобы собранные в статистическом исследовании данные были тщательно просмотрены и отредактированы прежде, чем к ним будет применена основная статистическая техника. Ошибки

в данных могут привести к неожиданным результатам, иногда интерпретируемым, иногда нет, но всегда неверным.

Просмотр данных преследует следующие цели:

1) обнаружение грубых ошибок в словаре исследования, а также ошибок, допущенных при кодировании, перфорации и вводе данных в ЭВМ;

2) указание возможных выбросов или аномальных, т. е. резко выделяющихся по своей величине наблюдений, которые могут быть нерепрезентативными для изучаемой популяции (более подробно см. § 11.5);

3) получение первого, грубого представления об одномерных и, частично, двумерных распределениях.

Укажем некоторые приемы, облегчающие проведение просмотра данных, или, как иногда говорят, скрининга.

Распечатка введенных в ЭВМ данных в табличной форме по объектам, иногда с их предварительной сортировкой по величине какого-либо признака. При этом проверяются наличие грубых ошибок при задании формата данных, правильность и удобочитаемость названия исследования и имен переменных, полнота введенного материала и отсутствие лишних данных, а также попадание численных значений переменных или их кодов в предусмотренный диапазон. Просмотр расположенных по столбцам переменных позволяет обычно сразу же выделить грубые ошибки. При желании столбцы можно просмотреть и на экране дисплея. Однако хорошо оформленная бумажная распечатка является удобным справочным документом и по другим вопросам, которые могут возникнуть на последующих стадиях анализа.

Построение одномерных распределений. Если ЭВМ строит гистограмму (см. § 10.3), то ее столбцьгудобно заполнять номерами наблюдений. В крайнем случае если наблюдений слишком много, то указывать отдельно номера наблюдений, вышедших за -ные квантили.

Указание номеров наблюдений удобно использовать и при построении двумерных распечаток. Если в одну точку попадает несколько наблюдений, на графике ставится специальный знак, а номера наблюдений печатаются ниже. Двумерные широкоформатные распечатки очень удобны для формирования предварительных содержательных гипотез о связи переменных. Математические вопросы построения эмпирических распределений рассматриваются в § 10.3.