Процессоры pentium 4 socket 478. Canterwood: первые подробности

Серия процессоров Intel Pentium 4 является наиболее удачной, если сравнивать с другими модификациями разработчика, так как на протяжении многих лет работы было доказано право на ее существование. В представленной статье можно узнать о том, чем отличаются данные процессоры, ознакомиться с их техническими характеристиками.


Благодаря результатам проведенного тестирования и отзывам можно определиться с выбором.

Гонка за частотами

Поколения процессоров постоянно сменяются одно за другим за счет гонке разработчиков за частотами. Конечно, появились и новые технологии, однако были не на первом плане. Таким образом, не только пользователи, но и производители прекрасно понимали, что в один прекрасный день будет достигнута эффективная частота процессора. Это произошло после выхода в свет четвёртого поколения Intel Pentium.

Частота функционирования одного ядра в 4 GHz стала пределом. Это произошло по той причине, что кристаллу для работы необходимо было много электроэнергии. Таким образом, рассеиваемая мощность в форме колоссального тепловыделения поставила под сомнение функционирование всей системы. Дальнейшие модификации процессоров Intel и аналоги соперников стали производиться в районе 4 ГГц. Следует также упомянуть про технологии, в которых использовалось нескольких ядер, а также о внедрении специальных инструкций, способных оптимизировать работу по обработке данных.

Первый блин комом

В области высоких технологий монополия на рынке не привела ни к чему хорошему. Это подтверждают многочисленные производители электроники, которые смогли убедиться в этом на собственном опыте. Но компании Intel и Rambus приняли решение хорошо заработать. В результате был выпущен совместный продукт, подающий большие надежды. Таким образом, свет увидел первый процессор Intel Pentium 4, работающий на Socket 423 и на достаточно высокой скорости общался с оперативной памятью Rambus. В результате многие пользователи захотели стать обладателями этого быстрого компьютера. Правда, эти две компании так и не стали монополистами на рынке.

Этому стало помехой открытие двухканального режима памяти. Результаты проведенного тестирования показали высокий прирост производительности. Таким образом, новой технологией сразу заинтересовались все разработчики компьютерных комплектующих. А Что касается первого процессора Pentium 4, он и сокет 423 стали историей, так как производителем не была обеспечена платформа возможностью модернизации. На сегодняшний день комплектующие под данную платформу являются востребованными. Оказывается, несколько государственных предприятий закупили сверхбыстрые компьютеры. Таким образом, замена комплектующих несколько дешевле полного апгрейда.

Шаг в правильном направлении

Большинство обладателей персональных компьютеров, играющих в игры и предпочитающих работать с документацией и смотреть мультимедиа контент, имеют установленный Intel Pentium 4 (Socket 478). Многие тесты, которые были проведены профессионалами и энтузиастами, свидетельствуют о том, что мощности этой платформы вполне хватает для выполнения всех задач, поставленных перед рядовым пользователем. Такая платформа задействует две модификации ядер:

Willamette;
Prescott.

Их характеристики свидетельствуют о том, что отличия между двумя процессорами небольшие. Последняя модификация предусматривает поддержку 13 новых инструкций, предназначенных для оптимизации данных, которые получили краткое название SSE3. Частотный диапазон функционирования кристаллов пребывает в промежутке 1,4-3,4 ГГц, что вполне удовлетворяет требования рынка. Разработчик пошел на риск и ввел дополнительную ветку процессоров под сокет 478. Данные устройства должны были привлечь внимание ценителей игр и оверлокеров. Новая серия стала называться Intel Pentium 4 CPU Extreme Edition.

Плюсы и минусы 478 сокета

Отзывы ИТ-специалистов свидетельствуют о том, что процессор Intel Pentium 4, который функционирует на платформе 478 сокета, до сих пор считается востребованным. Далеко не каждый пользователь может позволить себе модернизацию, требующую покупки трёх базовых комплектующих. Стоит отметить, что для решения многих задач, предназначенных для улучшения производительности всей системы, стоит просто установить более мощный кристалл. Хорошо, что вторичный рынок ими переполнен, так как процессор долговечнее даже материнской платы.

Если разрабатывать апгрейд, первостепенное внимание следует уделить наиболее мощным представителям этой категории Extreme Edition, которые сегодня показывают высокие результаты при проведении проверки на производительность. В качестве минусов процессоров под Socket 478 стоит выделить рассеиваемую мощность, требующую достойного охлаждения. Таким образом, к расходам пользователя добавляется и потребность покупки достойного кулера.

Процессоры по низкой стоимости

Наверняка, многие пользователи сталкивались с моделями процессоров Intel Pentium 4, представленными на рынке. Они имеют в маркировке надпись Celeron. Данные устройства являются младшей линейкой агрегатов, которые обладают меньшей мощностью благодаря уменьшению инструкций, а также отключения блоков внутренней памяти микропроцессора (кэш). Intel Celeron предусмотрен для пользователей, которым важна в первую очередь стоимость компьютера, а не его производительность. Многие владельцы подобных устройств высказывают мнение, что младшая линейка процессоров считается отбраковкой в ходе производства кристаллов Intel Pentium 4.

Это предположение возникло на рынке в 1999 году, когда некоторые энтузиасты доказали, что Pentium 2 и его младшая модель Celeron представляют собой один и тот же процессор. Правда, за прошлые годы ситуация сильно изменилась. Теперь разработчик обладает отдельной линией по выпуску сравнительно дешевого устройства, предназначенного для нетребовательных покупателей. Кроме того, стоит помнить о том, что существует еще конкурент AMD, претендующий на вытеснение компании Intel с рынка. Таким образом, все ценовые ниши должны быть заняты высококачественной продукцией.

Новый виток эволюции

Большинство специалистов, работающих в области компьютерных технологий, имеют мнение, что именно возникновение на рынке процессора Intel Pentium 4 Prescott ознаменовало начало эпохи устройств с несколькими ядрами, а также завершило гонку за гигагерцами. С внедрением новых технологий разработчику потребовалось перейти на сокет 775, который и позволил раскрыть потенциал персональных компьютеров в работе с программами и динамическими играми, нуждающимися в больших объемах ресурсов.

Данные статистики свидетельствуют о том, что более 50% всех устройств, существующих на планете, способны работать на легендарном разъёме Socket 775, представленном компанией Intel. Выход процессора Intel Pentium D вызвал ажиотаж на рынке, так как у разработчика на одном ядре получалось запустить два потока инструкций, создавая тем самым прообраз двухъядерного устройства.

Данная технологи стала называться Hyper-threading. На сегодняшний день она является передовым решением в процессе производства кристаллов, обладающих высокой мощностью. Не стала останавливаться на достигнутом компания Intel и презентовала технологии Dual Core, Core 2 Duo и Core 2 Quad, имеющие на аппаратном уровне по несколько микропроцессоров на одном кристалле.

Двуликие процессоры

Если взять ориентир на критерий «цена-качество», то в преимуществе оказываются процессоры, имеющие два ядра. Они отличаются такими важными характеристиками, как низкая себестоимость и высокая производительность. Микропроцессоры Intel Pentium Dual Core и Core 2 Duo считаются наиболее продаваемыми в мире. Основное отличие заключается в том, что последний обладает двумя физическими ядрами, работающими независимо друг от друга. Что касается процессора Dual Core, он выполнен в виде двух контроллеров, установленных на одном кристалле, совместная работа которых неразрывно связана между собой.

Правда, частотный диапазон устройств, обладающих двумя ядрами, слегка занижен и находится в промежутке 2-2,66 ГГц. Основная проблема заключается в рассеиваемой мощности кристалла. Он довольно сильно нагревается на повышенных частотах. В качестве примера можно привести восьмую линейку Intel Pentium D (D820-D840). Они первыми получили два раздельных ядра, а также рабочие частоты, превышающие 3 ГГц. Потребляемая мощность данных процессоров достигает около 130 Вт.

Перебор с четырьмя ядрами

Усовершенствованные устройства, имеющие четыре ядра ядрами Intel(R) Pentium(R) 4 были рассчитаны на потребителей, которые стремятся приобрести комплектующие с запасом на будущее. Но рынок программного обеспечения вдруг остановился. Таким образом, разработка, тестирование, а также внедрение приложений осуществляется для оборудования, которые имеют одно или два ядра максимум. Что же делать с системами, которые обладают 6, 8 и более микропроцессорами?

Это обыкновенный маркетинговый ход, который ориентирован на потенциальных покупателей, желающих приобрести компьютер или ноутбук самой высокой мощности, существующей в мире. Можно провести аналогию с мегапикселями на фотоаппарате – лучшим оказывается не тот, на котором написано 20 Мп, а устройство с большей матрицей и фокусным расстоянием. В процессорах значение имеет набор инструкций, обрабатывающиеся программным кодом приложения. Они и выдают результат пользователю.

Таким образом, программисты должны оптимизировать этот ход, чтобы микропроцессор его без проблем и с высокой скоростью мог обработать. Стоит отметить, что слабых компьютеров на рынке много, поэтому производителям становится выгодно разрабатывать нересурсоёмкие программы. Из этого можно сделать вывод, что большая мощность компьютера на этом этапе эволюции не требуется.

Советы по модернизации

Обладателям процессора Intel Pentium 4 (775 сокет), которые хотят провести модернизацию с минимальными затратами, рекомендуется посмотреть в сторону вторичного рынка. Сначала необходимо ознакомиться с техническими характеристиками материнской платы, установленной в системе. Совершить это легко на официальном сайте разработчика. Там следует найти раздел «поддержка процессоров». Затем в средствах массовой информации нужно отыскать таблицу производительности процессоров, а после этого сравнить ее с характеристиками материнской платы, отобрав несколько оптимальных вариантов. Также необходимо изучить отзывы по выбранным устройствам.

Затем предлагается приступить к поиску требуемого процессора, который уже был в употреблении. Для большинства платформ, где осуществляется поддержка работы микропроцессоров с четырьмя ядрами, желательно устанавливать Intel Core Quad 6600. Когда система способна работать лишь с двухъядерными кристаллами, следует найти серверный вариант Intel Xeon или инструмент, предназначенный для оверлокера Intel Extreme Edition. Их цена на рынке пребывает в промежутке 800-1000 рублей, что значительно дешевле любого апгрейда.

Рынок мобильных устройств

Кроме стационарных компьютеров, процессоры Intel Pentium 4 могут быть установлены на ноутбуки. Для этого разработчики предусмотрели отдельную линейку, которая в собственной маркировке содержала букву «М». Что касается характеристик мобильных процессоров, они были аналогичны стационарным компьютерам. Правда, наблюдался заниженный частотный диапазон. Таким образом, наибольшей мощностью среди процессоров для ноутбуков обладает Pentium 4M 2,66 ГГц. Хотя, с развитием платформ в мобильных версиях настолько все напутано, что даже сам разработчик Intel до сегодняшнего дня не предоставил дерево развития процессоров на собственном официальном сайте.

С применением 478-контактной платформы в ноутбуках компания изменяла только технологию обработки процессорного кода. Как результат, на одном сокете получается развести множество процессоров. Наибольшей популярностью, о чем свидетельствуют данные статистики, пользуется кристалл Intel Pentium Dual Core. Стоит отметить, что он является самым дешёвым устройством в производстве, а его рассеиваемая мощность достаточно мала, если сравнивать с аналогами.

Гонка за энергосбережением

Следует заметить, что для компьютеров потребляемая процессором мощность не считается критичной для системы. В ситуации с ноутбуком дело обстоит несколько иначе. В данном случае устройства Intel Pentium 4 вытеснены менее энергозависимыми микропроцессорами. Если пользователь ознакомится с тестами мобильных процессоров, он сможет убедиться, что по производительности старый Core 2 Quad, входящий в линейку Pentium 4, не особо отстаёт от современного кристалла Core i5. Что касается энергопотребления последнего, оно в 3,5 раза меньше. Таким образом, различие отражается на автономности работы устройства. Если проследить за рынком мобильных процессоров, легко определить, что разработчик снова вернулся к технологиям, которые были популярны в прошлом десятилетии.

К началу 2004 года, компании Intel удалось успешно перевести свои процессоры на новое ядро Prescott. Правда само ядро не может похвастаться улучшенными характеристиками. В частности по производительности в большинстве приложений оно уступает ядру Northwood (в некоторых - до 15%), а по тепловыделению значительно превосходит его. Но проблема повышенного потребления энергии свойственна степпингу C0. А в последнее время, Intel перешел на выпуск процессоров на новом степпинге - D0, в котором эта проблема частично решена. А окончательно она будет решена в следующем степпинге - E0, в котором появится механизм снижения частоты во время простоя процессора. Но пока, основным степпингом является D0, на котором производятся процессоры как Socket478, так и Socket LGA775 форм-фактора.



Из-за чего появилась потребность в новом сокете? Основная версия - более равномерное распределение потребляемой мощности между различными блоками процессорного ядра. Кроме того, в ближайшее время Intel введет несколько новых технологий, таких как EM64T (64-битное расширение команд), NX-bit (дополнительные возможности в области защиты информации), а также усовершенствованный механизм энергосбережения. Вполне возможно, для их поддержки и понадобятся дополнительные контакты. Кстати, по предварительной информации все эти технологии уже присутствуют в сегодняшних процессорах Prescott, но в заблокированном виде.

Еще одна новая технология, которая должна появится в ближайшее время (ориентировочно - в степпинге E0) это SpeedStep. Благодаря ей, процессор во время простоя будет снижать тактовую частоту, и как следствие, выделять меньше тепла. И если снижение частоты будет серьезным (например в 2 раза), и будет сопровождаться снижением напряжения Vcore, то возможно кардинальное уменьшение типичного уровня тепловыделения. Напомню, что процессоры AMD Athlon64 уже сейчас поддерживают аналогичную технологию - Cool"n"Quiet, которая путем снижения частоты и напряжения более чем в 2 раза снижает уровень тепловыделения (35W против 89W подробности в обзоре AMD Athlon64).

И опять возвращаемся к проблеме потребления энергии. Специалисты Intel оценивают технологический потенциал ядра Prescott - 4Ггерц. А на этой частоте максимальное тепловыделение может достигать отметки в 150W. Поэтому использование нового сокета, нового дизайна модуля питания и новой конструкции охлаждающей системы, предназначено для реализации этого потенциала.

Компания Intel решила не ограничиваться простой сменой процессорного сокета. Фактически, на суд публике представлена совершенно новая платформа: поддержка памяти DDR 2, поддержка шины PCI Express, а также расширенные возможности по подключению периферии. Для этого были выпущены чипсеты i925X и i915P. Подробно на них мы останавливаться не будем, потому что уже тщательно разобрали возможности i925X в обзоре платы Abit AA8 DuraMAX .

Возвращаемся к процессорам - для сокета LGA775 компания Intel анонсировала следующие процессоры:

Celeron D 325 2.53Ггерц 79$
Celeron D 330 2.66Ггерц 83$
Celeron D 335 2.8Ггерц 103$
Celeron D 340 2.93Ггерц 117$ *

Pentium4 520 2.8Ггерц 163$
Pentium4 530 3.0Ггерц 178$
Pentium4 540 3.2Ггерц 218$
Pentium4 550 3.4Ггерц 278$
Pentium4 560 3.6Ггерц 417$
Pentium4 570 3.8Ггерц 637$ *

Жирным шрифтом выделен "процессорный номер", который предназначен для четкого деления процессоров на классы. Фактически это означает отход от устаревшей системы классифицирования процессоров по тактовой частоте.

После перехода процессоров Pentium4 на более скоростную 1066Мгерцовую шину, соответствующие модели скорее всего составят "шестую" серию, и займут промежуточную позицию между "пятой" и "седьмой" серией (в "седьмую" серию входят процессоры Pentium4 Extreme Edition c 2Мбайтным кешем L3).

Что касается процессоров Celeron, то стоит отметить их возросшие характеристики. В частности объем кэш-памяти L2 увеличился с 128 до 256Кбайт, а частота системной шины возросла с 100 до 133мгерц (QPB: с 400 до 533Мгерц соответственно).

Итак, посмотрим что собой представляет процессор Pentium4 540.

Утилита CPU-Z правильно определила все параметры процессора, включая степпинг (D0). Что касается внешнего вида, то для постоянных читателей здесь нет никаких неожиданностей.




Слева Socket478, справа LGA775



А для тех, кто впервые видит процессор LGA775 прошу обратить внимание на полное отсутствие ножек.



Теперь ножки находятся непосредственно на процессорном сокете (все этапы установки процессора вы можете просмотреть в предварительном обзоре платформы LGA775). Кстати, практически сразу после появления первых образцов системных плат с LGA775 многие обозреватели стали жаловаться на хрупкость и ненадежность процессорного сокета. Самой распространенной проблемой является то, что после нескольких установок процессора в сокет, ножки деформируются (или сгибаются).

Естественно после получения платформы LGA775, я устанавливал процессор с особой аккуратностью. Однако никаких трудностей в процессе установки выявлено не было. Более того, по моему мнению проблему с ненадежностью сокета носит несколько преувеличенный характер (с другой стороны "кривыми" руками можно поломать все что угодно:). В любом случае как только к нам попадет первая "бюджетная" плата с LGA775, мы проведем своеобразное "стресс-тестирование" сокета LGA775 на многократную установку процессора.

  • GTX 1080 Ti дешевле всего в Compday.ru
  • 25% скидка на GTX 1060 ASUS
  • Еще одна дешевая GTX 1060 6Gb

Вы можете отметить интересные вам фрагменты текста,
которые будут доступны по уникальной ссылке в адресной строке браузера.

Обзор Intel Pentium 4 3.2 ГГц

Gavric 23.06.2003 01:37 | версия для печати | архив

Введение

Перед началом сезона летних отпусков оба ведущих производителя процессоров, AMD и Intel, выпустили последние модели процессоров в своих современных линейках CPU, нацеленных на использование в высокопроизводительных PC. Сначала сделала последний шаг перед предстоящим качественным скачком AMD и примерно с месяц назад представила Athlon XP 3200+ , который, как предполагается, станет самым быстрым представителем семейства Athlon XP. Дальнейшие же планы AMD в этом секторе рынка связываются уже с процессором следующего поколения с x86-64 архитектурой, Athlon 64, который должен появится в сентябре этого года. Intel же выждал небольшую паузу и представил последний из Penlium 4 на 0.13-микронном ядре Northwood только сегодня. В итоге, заключительной моделью в этом семействе стал Pentium 4 с частотой 3.2 ГГц. Пауза перед выходом следующего процессора для настольных PC, основанного на новом ядре Prescott, продлится до четвертого квартала, когда Intel вновь поднимет планку быстродействия своих процессоров для настольных компьютеров благодаря росту тактовой частоты и усовершенствованной архитектуре.

Следует отметить, что за время противостояния архитектур Athlon и Pentium 4, показала себя более масштабируемой архитектура от Intel. За период существования Pentium 4, выпускаемых по различным технологическим процессам, их частота выросла уже более чем вдвое и без проблем достигла величины 3.2 ГГц при использовании обычного 0.13-микронного технологического процесса. AMD же, задержавшаяся со своими Athlon XP на отметке 2.2 ГГц, не может похвастать на настоящий момент столь же высокими частотами своих процессоров. И хотя на одинаковых частотах Athlon XP значительно превосходит по быстродействию Pentium 4, постоянно увеличивающийся разрыв в тактовых частотах сделал свое дело: Athlon XP 3200+ с частотой 2.2 ГГц назвать полноценным конкурентом Penium 4 3.2 ГГц можно лишь со значительными оговорками.

На графике ниже мы решили показать, как росли частоты процессоров семейств Pentium 4 и Athlon за последние три года:


Как видим, частота 2.2 ГГц является для AMD непреодолимым барьером, покорен который будет в лучшем случае только лишь во второй половине следующего года, когда AMD переведет свои производственные мощности на использование 90-нанометровой технологии. До этих же пор даже процессоры следующего поколения Athlon 64 будут продолжать иметь столь невысокие частоты. Смогут ли они при этом составить достойную конкуренцию Prescott – сказать трудно. Однако, похоже, AMD ждут тяжелые проблемы. Prescott, обладающий увеличенным кешем первого и второго уровня, усовершенствованной технологией Hyper-Threading и растущими частотами может стать гораздо более привлекательным предложением, нежели Athlon 64.

Что касается процессоров Pentium 4, то их масштабируемости можно только позавидовать. Частоты Pentium 4 плавно увеличиваются с самого момента выхода этих процессоров. Небольшая пауза, наблюдающаяся летом-осенью этого года, объясняется необходимостью внедрения нового технологического процесса, но она не должна повлиять на расстановку сил на процессорном рынке. Включив технологию Hyper-Threading и переведя свои процессоры на использование 800-мегагерцовой шины, Intel добился ощутимого превосходства старших моделей своих CPU над процессорами конкурента и теперь может ни о чем не беспокоиться, по крайней мере, до начала массового распространения Athlon 64.

Также на графике выше мы показали и ближайшие планы компаний AMD и Intel по выпуску новых CPU. Похоже, AMD в ближайшее время не должна питать никаких иллюзий по поводу своего положения на рынке. Борьба с Intel на равных для нее заканчивается, компания возвращается в привычную для себя роль догоняющего. Впрочем, долгосрочные прогнозы строить пока рано, посмотрим, что даст для AMD выход Athlon 64. Однако, судя по сдержанной реакции разработчиков программного обеспечения на технологию AMD64, никакой революции с выходом следующего поколения процессоров от AMD не произойдет.

Intel Pentium 4 3.2 ГГц

Новый процессор Pentium 4 3.2 ГГц, который Intel анонсировал сегодня, 23 июня, с технологической точки зрения ничего особенного собой не представляет. Это все тот же Northwood, работающий на частоте шины 800 МГц и поддерживающий технологию Hyper-Threading. То есть, по сути, процессор полностью идентичен (за исключением тактовой частоты) Pentium 4 3.0 , который был анонсирован Intel в апреле.

Процессор Pentium 4 3.2 ГГц, как и предшественники, использует ядро степпинга D1

Единственный факт, который следует отметить в связи с выходом очередного процессора Pentium 4 на ядре Northwood – это вновь возросшее тепловыделение. Теперь типичное тепловыделение Pentium 4 3.2 ГГц составляет порядка 85 Вт, а максимальное - ощутимо превышает величину 100 Вт. Именно поэтому использование грамотно спроектированных корпусов является одним из необходимых требований при эксплуатации систем на базе Pentium 4 3.2 ГГц. Одного вентилятора в корпусе теперь явно недостаточно, кроме того, необходимо следить и за тем, чтобы воздух в районе размещения процессора хорошо вентилировался. Intel также говорит и о том, что температура воздуха, окружающего процессорный радиатор, не должна превышать 42 градуса.

Ну и еще раз напомним, что представленный Pentium 4 3.2 ГГц – последний CPU от Intel для высокопроизводительных настольных систем, основанный на 0.13-микронной технологии. Следующий процессор для таких систем будет использовать уже новое ядро Prescott, изготавливаемое по 90-нанометровой технологии. Соответственно, тепловыделение будущих процессоров для настольных PC будет меньше. Следовательно, Pentium 4 3.2 ГГц так и останется рекордсменом по тепловыделению.

Официальная цена на Pentium 4 3.2 ГГц составляет $637, а это значит, что данный процессор является самым дорогим CPU для настольных компьютеров на сегодняшний день. Более того, Intel рекомендует использовать новинку с недешевыми материнскими платами на базе набора логики i875P. Однако, как мы знаем, данным требованием можно пренебречь: многие более дешевые системные платы на базе i865PE обеспечивают аналогичный уровень производительности благодаря активизации производителями технологии PAT и в наборе логики i865PE.

Как мы тестировали

Целью данного тестирования являлось выяснение того уровня производительности, который может обеспечить новый Pentium 4 3.2 ГГц по сравнению с предшественниками и старшими моделями конкурирующей линейки Athlon XP. Таким образом, в тестировании помимо Pentium 4 3.2 ГГц приняли участие Petnium 4 3.0 ГГц, Athlon XP 3200+ и Athlon XP 3000+. В качестве платформы для тестов Pentium 4 мы выбрали материнскую плату на чипсете i875P (Canterwood) с двухканальной DDR400 памятью, а тесты Athlon XP проводились при использовании материнской платы на базе наиболее производительного чипсета NVIDIA nForce 400 Ultra.

Состав тестовых систем приведен ниже:

Примечания:

  • Память во всех случаях эксплуатировалась в синхронном режиме с FSB в двухканальной конфигурации. Использовались наиболее агрессивные тайминги 2-2-2-5.
  • Тестирование выполнялось в операционной системе Windows XP SP1 с установленным пакетом DirectX 9.0a.

Производительность в офисных приложениях и приложениях для создания контента

В первую очередь по сложившейся традиции мы измерили скорость процессоров в офисных приложениях и приложениях, работающих с цифровых контентом. Для этого мы воспользовались тестовыми пакетами семейства Winstone.


В Business Winstone 2002, включающем в себя типовые офисные бизнес-приложения, на высоте оказываются процессоры семейства Athlon XP, производительность которых ощутимо превосходит скорость процессоров конкурирующего семейства. Данная ситуация достаточно привычна для этого теста и обуславливается как особенностями архитектуры Athlon XP, так и большим объемом кеш-памяти у ядра Barton, суммарная емкость которой благодаря эксклюзивности L2 достигает 640 Кбайт.


В комплексном тесте Multimedia Content Creation Winstone 2003, измеряющем скорость работы тестовых платформ в приложениях для работы с цифровым контентом, картина несколько иная. Процессоры Pentium 4, имеющие NetBurst архитектуру и обладающие высокоскоростной шиной с пропускной способностью 6.4 Гбайта в секунду оставляют старшие модели Athlon XP далеко позади.

Производительность при обработке потоковых данных


Большинство приложений, работающих с потоками данных, как известно, работает быстрее на процессорах Pentium 4. Здесь раскрываются все преимущества NetBurst архитектуры. Поэтому, результат, полученный нами в WinRAR 3.2, не должен никого удивлять. Старшие Pentium 4 значительно обгоняют по скорости сжатия информации топовые Athlon XP.


Аналогичная ситуация наблюдается и при кодировании звуковых файлов в формат mp3 кодеком LAME 3.93. Кстати, данный кодек поддерживает многопоточность, поэтому высокие результаты Pentium 4 здесь можно отнести и на счет поддержки этими CPU технологии Hyper-Threading. В итоге, Pentium 4 3.2 обгоняет старший Athlon XP с рейтингом 3200+ почти на 20%.


В данное тестирование мы включили результаты, полученные при измерении скорости кодирования AVI ролика в формат MPEG-2 одним из лучших кодеров, Canopus Procoder 1.5. Как это не удивительно, Athlon XP в данном случае показывает слегка более высокую производительность. Впрочем, отнести это, скорее всего, следует на счет высокопроизводительного блока операций с плавающей точкой, присутствующего в Athlon XP. SSE2 инструкции процессоров Pentium 4 в данном случае, как мы видим, не могут являться столь же сильной альтернативой. Правда, следует отметить, что разрыв в скорости старших моделей Athlon XP и Pentium 4 совсем небольшой.


Кодирование видео в формат MPEG-4 – еще один пример задачи, где процессоры Pentium 4 с технологией Hyper-Threading и 800-мегагерцовой шиной демонстрирует свои сильные стороны. Превосходство Pentium 4 3.2 над Athlon XP 3200+ в этом тесте составляет почти 20%.


Аналогичная ситуация наблюдается и при кодировании видео при помощи Windows Media Encoder 9: это приложение имеет оптимизацию под набор команд SSE2 и отлично приспособлено для NetBurst архитектуры. Поэтому, совершенно неудивительно, что вновь верхнюю часть диаграммы оккупировали процессоры от Intel.

Производительность в игровых приложениях


После выхода пропатченной версии 3Dmark03 результаты Pentium 4 относительно Athlon XP в этом тесте стали несколько выше. Однако расклад сил это не изменило: Pentium 4 лидировали в этом бенчмарке и ранее.


Pentium 4 подтверждает свое лидерство и в общем зачете в 3Dmark03. Правда, отрыв здесь небольшой: сказывается тот факт, что 3Dmark03 в первую очередь – это тест видеоподсистемы.


После перехода Pentium 4 на использование 800-мегагерцовой шины, Pentium 4 стали обгонять Athlon XP и в более старой версии 3Dmark2001. Причем, отрыв Pentium 4 3.2 ГГц от Athlon XP 3200+ уже достаточно существенен и составляет 6%.


В Quake3 Pentium 4 традиционно обгоняет Athlon XP, поэтому результат удивления не вызывает.


Аналогичная картина наблюдается и в игре Return to Castle Wolfenstein. Это совершенно логично, поскольку данная игра использует тот же движок Quake3.


Одно из немногих приложений, где старшей модели Athlon XP удается удержать лидерство, это – Unreal Tournament 2003. Хочется отметить, что все современные игры не имеют поддержки технологии Hyper-Threading, поэтому в играх потенциал новых Pentium 4 пока раскрывается не полностью.


А вот в Serious Sam 2 Athlon XP 3200+ больше лидером не является. С выходом нового процессора от Intel пальма первенства в этой игре переходит именно к Pentium 4 3.2 ГГц.


Новая игра Splinter Cell, хотя и основана на том же движке, что и Unreal Tournament 2003, быстрее работает на процессорах от Intel.


В целом, остается признать, что быстрейшим процессором для современных 3D игр на данный момент является Pentium 4 3.2 ГГц, обходящий Athlon XP 3200+ в большинстве игровых тестов. Ситуация меняется стремительно. Еще совсем недавно старшие Athlon XP в игровых тестах нисколько не уступали процессорам от Intel.

Производительность при 3D-рендеринге



Поскольку 3ds max 5.1, который мы использовали в данном тестировании, хорошо оптимизирован под многопоточность, Pentium 4, умеющий исполнять два потока одновременно благодаря технологии Hyper-Threading, с большим отрывом оказывается лидером. Даже старший Athlon XP 3200+ не может составить ему никакой конкуренции.



Абсолютно тоже самое можно сказать и про скорость рендеринга в Lightwave 7.5. Впрочем, в некоторых сценах, например при рендеринге Sunset, старшие модели Athlon XP смотрятся не так уж и плохо, однако такие случаи единичны.


Спорить с Pentium 4, выполняющем два потока одновременно, в задачах рендеринга для Athlon XP сложновато. К сожалению, AMD не имеет планов по внедрению технологий, подобных Hyper-Threading даже в будущих процессорах семейства Athlon 64.


Абсолютно аналогичная ситуация наблюдается и в POV-Ray 3.5.

Производительность при научных расчетах

Для тестирования скорости новых CPU от AMD при научных расчетах был использован пакет ScienceMark 2.0. Подробности об этом тесте можно получить на сайте http://www.sciencemark.org . Этот бенчмарк поддерживает многопоточность, а также все наборы SIMD-инструкций, включая MMX, 3DNow!, SSE и SSE2.




То, что в задачах математического моделирования или криптографии процессоры семейства Athlon XP показывают себя с наилучшей стороны, известно давно. Здесь мы видим еще одно подтверждение этого факта. Хотя, надо сказать, свое былое преимущество Athlon XP начинает терять. Например, в тесте Molecular Dinamics на первое место выходит уже новый Pentium 4 3.2 ГГц.

Кроме теста ScienceMark в этом разделе мы решили протестировать и скорость работы новых процессоров в клиенте российского проекта распределенных вычислений MD@home , посвященному расчету динамических свойств олигопептидов (фрагментов белков). Расчет свойств олигопептидов, возможно, сможет помочь изучению фундаментальных свойств белков, тем самым, внеся вклад в развитие науки.


Как видим, задачи молекулярной динамики новые Pentium 4 решают быстрее Athlon XP. Столь высокого результата Pentium 4 достигают благодаря своей технологии Hyper-Threading. Сам клиент MD@home, к сожалению, многопоточность не поддерживает, однако запуск двух клиентских программ в параллели на системах с процессорами с технологией Hyper-Threading позволяет ускорить процесс расчета более чем на 40%.

Выводы

Проведенное тестирование явно показывает, что на очередном этапе конкурентной борьбы Intel удалось одержать победу над AMD. Последний процессор на ядре Northwood обгоняет по своей производительности старшую и последнюю модель Athlon XP в большинстве тестов. За последнее время Intel смог значительно увеличить частоты своих CPU, увеличить частоту их шины, а также внедрить хитрую технологию Hyper-Threading, дающую дополнительный прирост скорости в ряде задач. AMD же, не имея возможности наращивать тактовые частоты своих процессоров ввиду технологических и архитектурных сложностей, не смогла адекватно усилить свои CPU. Не поправило положение даже появление нового ядра Barton: последние модели Pentium 4 оказываются явно сильнее старших Athlon XP. В результате, Pentium 4 3.2 ГГц вполне можно считать наиболее производительным CPU для настольных систем в настоящее время. Такая ситуация продлится по меньшей мере до сентября, когда AMD, наконец, должна будет анонсировать свои новые процессоры семейства Athlon 64.

Необходимо отметить и тот факт, что рейтинговая система, используемая в настоящее время AMD для маркировки своих процессоров, не может больше являться критерием, по которому Athlon XP можно сопоставлять с Pentium 4. Улучшения, которые произошли с Pentium 4, в числе которых следует отметить перевод этих CPU на 800-мегагерцовую шину и внедрение технологии Hyper-Threading, привели к тому, что Pentium 4 с частотой, равной рейтингу соответствующего Athlon XP, оказывается явно быстрее.

В общем, мы с интересом будем ожидать осени, когда и AMD и Intel представят свои новые разработки, Prescott и Athlon 64, которые, возможно, смогут обострить конкурентную борьбу между давними соперниками на процессорном рынке. Сейчас же AMD оказывается оттеснена Intel в сектор недорогих процессоров где, впрочем, эта компания чувствует себя превосходно: Celeron по сравнению с Athlon XP – откровенно слабый соперник.

  • GTX 1060 6Gb дешевле всего в Ситилинке

Итак, несколько раз переносившийся официальный анонс нового процессора фирмы Intel, носящего кодовое имя Prescott, наконец-то произошёл. Теперь можно определённо говорить о различных нововведениях, улучшениях и решениях, примененных в этом процессоре. Что в первую очередь интересно было бы узнать из разбора архитектурных изменений, случившихся в процессорном ядре? Для начала мы составим примерное представление о производительности нового процессора, тем более, что процессоры на ядре Prescott получили наименование Pentium 4E. Intel ограничилась всего лишь добавлением суффикса, как было, например, с процессорами Northwood на шине 800 МГц с технологией HT.

Интересно прикинуть, будет ли новый процессор требовать для эффективной работы новое программное обеспечение. Сразу ли можно будет использовать его на полную мощность, или, как в случае с Pentium 4, надо будет ждать некоторое время, пока появятся написанные с учётом его особенностей приложения. Тогда для многих старых приложений, не перекомпилированных для Pentium4, довольно долго оптимальным оставалось использование Pentium III.

Действительно, тогда многие были напуганы плохой производительностью первых Pentium 4 в большом количестве приложений, казалось, что новый процессор медленнее старого. Однако новая архитектура Pentium4 разрабатывалась с целью достижения больших частот и по мере их роста всё вставало на свои места. А ведь некоторые тогда требовали от Intel дальнейшего развития архитектуры Pentium III, которая якобы искусственно затормаживалась, поскольку Pentium III не получил быстрой шины, появившейся в Pentium4 и поначалу его спасавшей.

Однако, если попытаться найти некоторую логику в развитии линейки процессоров Intel, то можно настроиться на более оптимистичный лад. Действительно, рассмотрим линейку процессоров Pentium - PentiumMMX - PentiumII - PentiumIII. Тогда первый Pentium получил принципиально новый пятистадийный конвейер, а последовавший Pentium MMX - первый набор SIMD-расширений. В начале этот конвейер требовал для параллельной обработки специальной ручной оптимизации программ, так называемого U-V спаривания. Оно заключалось в том, что ассемблерные инструкции, могущие быть обработанными параллельно, одна на U, другая на V конвейере, вручную расставлялись в коде программы вместе, . Это позволяло достичь двухкратного прироста производительности.

Тогда в компьютерных играх ещё использовался software-рендеринг, и основная небольшая процедура растеризации треугольника могла быть хорошо оптимизирована под U-V конвейер. Это обеспечивало процессорам Intel большое преимущество в трёхмерных играх. А процессоры AMD тогда были лучше во всяких офисных программах, там никакого трудоёмкого U-V спаривания не могло быть. В Pentium II конвейерная обработка улучшилась, образно говоря, процессор сам стал инструкции для параллельной обработки, выполняя их вне порядка, установленного в программе, по мере готовности операндов и наличия свободных функциональных устройств. Это позволило очень серьёзно улучшить производительность.

Посмотрим, насколько история повторится в этот раз, поскольку оптимизация приложений под SSE2, крайне желательная для процессоров Pentium 4, не очень проста, и требует некоторых программистских усилий.

Анонс

Итак, 2 февраля произошёл массовый анонс целого ряда процессоров. Были анонсированы Pentium4 2800E, 3000E, 3200E, и 3400E, а также новая версия Pentium4 Extreme Edition с частотой 3400 МГц, и ещё зачем-то Pentium 4 Northwood с частотой 3400МГц. Был представлен также процессор Pentium4 2800A, процессор с ядром Prescott, но на пониженной частоте шины и без поддержки технологии Hyper-Threading. Этот процессор появился якобы из-за того, что процессоры Prescott долгое время не хотели работать на 800МГц шине, анонс и задерживался. Накопленные запасы кристаллов скопились в большом количестве на складах, и их решено было тоже пристроить.

Процессор

Технология
Hyper-Threading

КЭШ третьего уровня

Из таблицы видно, что процессоры с ядром Prescott идут вперемежку с предыдущими моделями. На текущий момент Intel не планирует более продлевать жизнь Socket 478, ограничившись моделями с частотой 3400 МГц. По слухам, некоторая кутерьма со списком плат, поддерживающих новый процессор Prescott, была вызвана именно специальными требованиями к энергопотреблению старших моделей. В итоге, низкочастотные модели не имеют особых требований к материнским платам, и должны работать практически на всех платах, поддерживающих шину 800 МГц и технологию HT. Модель 3600E, скорее всего, будет иметь уже другой конструктив, призванный обеспечить лучшее охлаждение процессоров и обслужить новые параметры энергопотребления. Таким образом, некоторые вопросы по поддержке старыми платами может вызвать только модель Pentium3400E. С другой стороны, всё равно найдётся мало желающих апгрейдить свой, например, Pentium 4 2800C на Pentium 4 3200E, потому что прирост производительности вряд ли будет очень большим.

Среди анонсированных процессоров бросается в глаза наличие обычного Pentium 4 с увеличенной до 3400 МГц частотой. Зачем он нужен, если уже есть процессор Prescott той же частоты? И тут мы подходим ко второй возможной причине переносов времени анонса. Дело в том, что производство Pentium 4E 3400 Мгц ещё не налажено так же хорошо, как производство младших моделей Prescott. И первое время обеспечить достаточно крупные поставки этих процессоров Intel, возможно, будет не в состоянии. Да что там массовые поставки - сейчас даже достаточно крупные тестовые лаборатории затрудняются эти процессоры получить. Pentium 4EE тоже совсем не массовый и, к тому же жутко дорогой, так что противостоять AMD Athlon64 3400+, получается, кроме старого проверенного бойца Pentium 4С просто некому. Однако Intel планирует перейти на производство Pentium4 Prescott в рекордно короткие сроки, и уже ко второму полугодию большинство процессоров должно будет производиться на этом ядре.

А сейчас перейдём к рассмотрению непосредственно нового ядра.

Prescott

Новые процессоры производятся с соблюдением норм 90-нанометрового технологического процесса, что позволило существенно увеличить количество транзисторов в ядре. На что пошли эти транзисторы, мы скоро увидим, а пока что посмотрим фотографии процессорного ядра.

Как достигается такое тонкое 90-нанометровое совершенство? Какие имеются отличия старого и нового технологического процесса?

Применение нового технологического процесса позволило, несмотря на увеличение количества транзисторов в кристалле, всё равно получать большее количество ядер с одной пластины, тем более что Intel переходит с 200-миллиметровых на 300-миллиметровые подложки. Однако без знания процента выхода годных кристаллов это ни о чем не говорит. А процент этот, конечно, держится в секрете.


Понятно, почему именно Intel заинтересовалась растянутым кремнием. Она делает ставку на рост частот, значит, каждый такт процессора должен становиться всё короче и короче по времени. Он может становиться настолько коротким, что электрический сигнал просто не сможет успеть дойти от одного блока процессора к другому, что будет порождать постоянные задержки в несколько тактов. Например, Pentium4 складывает содержимое двух регистров с такой же скоростью, как и копирует их. Действительно, что есть копирование одного регистра в другой? Это зануление одного и сложение.

Однако, применение новой технологии растянутого кремния имеет свои минусы. Есть смутные слухи о том, что новые уменьшенные транзисторы имеют большой. Электроны получили большую подвижность благодаря растянутому кремнию, и движутся не только куда надо, но еще и куда попало, проникая через затворы транзисторов в обратном направлении, чего быть не должно. И вот это обстоятельство якобы мешает легкому наращиванию частоты.

Prescott якобы должен был стать некоторой промежуточной моделью между Pentium 4 Northwood и процессорным ядром Tejas, которое планировалось на вторую половину этого года, и должно было быть весьма навороченным: 64 бита и много чего еще. Так что жизненный цикл Prescott должен был быть ещё более коротким, чем период Willamette. Однако известно ведь, что нет ничего более постоянного, чем временное. Так что вполне вероятно, что новое ядро надолго задержится в производстве.

Итак, настала пора посмотреть, какие изменения претерпела архитектура Netburst в новом процессоре.

Архитектура

Глянем сначала в целом на сравнительную таблицу характеристик Northwood и Prescott.

Параметр

Кэш-память первого уровня

Латентность кэша L1

Ассоциативность L1

Trace cache delivery rate

Кэш-память второго уровня

Латентность кэша L2

~18 тактов

Ассоциативность L2

Сбрасываемая длина конвейера

Расширение набора инструкций

Дополнительные улучшения Prescott

Улучшенная предвыборка данных

Улучшенное предсказание ветвлений

Дополнительные буферы комбинированной отложенной записи в память

Ускорение некоторых операций с целыми числами, в том числе, умножение

Первое, что бросается в глаза - увеличившийся размер кэшей первого и второго уровня и поддержка нового набора инструкций SSE3. Размер кэшей, особенно, кэша второго уровня, очень любят указывать в прайс-листах для удовлетворения слегка продвинутых покупателей, чтобы они могли отличать различные модификации процессоров. Люди покупают не только мегагерцы, но и килобайты кэша, особенно после того, как они получили возможность сравнить производительность Pentium 4 и P4 Celeron.

Однако производительность процессора, как мы знаем, зависит от множества показателей. Вот, например, объём кэшей увеличился, но латентность-то возросла, что может быть более важным. Давайте этот момент обсудим более плотно.

Prescott и иерархия кэшей

Так как размер кэшей увеличился в два раза, можно примерно представить, почему латентность кэша второго уровня серьёзно возросла.

Размер-то блоков памяти увеличился вдвое, однако расстояние до них тоже несколько возросло, и возросло время поиска данных в внутри блока из-за увеличившегося размера Какой из факторов должен перевесить - объем или время поиска? В общем случае сказать сложно, но есть несколько крайних случаев.

Если приложение работает с большим объёмом данных, много большим, чем размер кэш-памяти, и очень часто происходит случайный доступ к памяти, то увеличение кэша L2 в два раза не сильно увеличит процент попаданий в этот кэш, а возросшая латентность не сильно повлияет на производительность. В этом случае особых изменений в производительности не будет, так как она и так сильно ограничена эффективностью чтения из памяти. Но если объём используемых приложением данных сравним с объёмом кэша L2, то увеличение его объема вдвое сильно снизит процент и сильно повысит производительность, несмотря на возросшую латентность, так как она всё равно значительно меньше латентности оперативной памяти.

Однако, если объём используемых данных меньше размера КЭШа, данные хорошо локализуются и располагаются в памяти последовательно, то увеличение латентности приведёт к заметному падению производительности.

Таким образом, можно ожидать все три варианта изменения производительности из-за изменений характеристик кэша L2. Все зависит от приложений.

В некоторой степени похожа на ситуацию с КЭШем L2 ситуация с изменением параметров L1 КЭШа. Но если промахи в кэш второго уровня всё-таки достаточно редки, процент попаданий даже для самых программ приближается к 99%, то объем памяти первого уровня очень невелик, и промахи случаются регулярно, намного чаще, чем в L2: попаданий может быть всего около 75%. Так что увеличение объема L1 должно благотворно сказаться на производительности, так как его латентность всё равно меньше, чем латентность кэша L2. А 16 Кбайт существенно ближе к объёму современных структур данных, чем 8KB. Так что увеличение L1, не смотря на слегка увеличившуюся латентность, занесём скорее в плюс. Хотя и тут может быть некоторый отрицательный эффект в отдельных случаях.

Но помимо увеличения размера, возросла также ассоциативность L1 КЭШа с 4 до 8. Это усложняет КЭШ, но позволяет в некоторых случаях более оптимально его заполнить. Дело в том, что КЭШ не может содержать произвольный регион памяти, и дело здесь не в размере, а в его устройстве. Возвращаясь к нашей аналогии, представьте себе, что ранее ларёк мог содержать не более 4 продуктов одного типа, но разных производителей, а теперь целых 8.

Важно помнить, что латентность кэшей увеличилась не в секундах, а в тактах, и это сделано с целью дальнейшего наращивания частот. При росте частот абсолютное время доступа к кэш-памяти может уменьшиться до текущего значения, а потом стать ещё меньше. Таким образом, с целью наращивания частоты увеличивается не только стадийность конвейера, но и время доступа (в тактах) к кэшам.
Прочтите следующий абзац, и вам станет понятно, зачем были увеличены объемы кэш-памяти обоих уровней.

Prescott и удлинившийся конвейер

С целью дальнейшего наращивания частоты конвейер также был удлинён - более чем в полтора раза, с 20 до 31 ступени.

Думаю, понятно, чем плохо удлинение конвейера - при неудачно предсказанном ветвлении конвейер приходиться сбрасывать, так как он выполнял не ту работу, и чем больше стадий, тем больше штрафных тактов мы имеем в итоге. Но в Prescott обещают улучшенный блок предсказания ветвлений. Можно попробовать прикинуть, сможет ли он компенсировать за неправильно предсказанные ветвления. Процент предсказания естественно колеблется от программы к программе, но 90% и даже более являются типичным значением. Таким образом, если увеличился меньше, чем на треть, то процент неправильно предсказанных ветвлений должен уменьшиться с 10 до 7,5 процентов. То есть, процент предсказания ветвлений должен возрасти с 90% до 92.5%. Казалось бы, всего ничего, он и так во многих случаях достигает 95%.

Однако, не очень правильно считать средний процент предсказания ветвлений по программе, и прикидывать, насколько его необходимо увеличить. Дело в том, что ветвления бывают случайные и регулярные. Регулярные ветвления довольно хорошо предсказываются на основе предыдущей статистики их выполнения. А случайные ветвления в принципе невозможно предсказать на основании сбора предыдущей статистики их выполнения. Вы ведь не можете предсказать, как выпадет монетка на основании просмотра её предыдущих бросков. Таким образом, в сложных программах, насыщенных случайными ветвлениями, потери от ветвлений возрастут, а в программах с регулярными ветвлениями они могут даже уменьшиться за счёт улучшенного предсказания.

Но совсем не стоит сильно расстраиваться в связи с потерями производительности при случайных условных переходах из-за многостадийного конвейера. Дело в том, что неправильно предсказанные переходы порождают лишние обращения к памяти, а задержки памяти могут составлять сотни тактов, что гораздо больше потерь из-за сброса конвейера. Процессор автоматически осуществляет загрузку в кэш данных, как только в программе будет вычислен необходимый адрес, ещё до того, как данные будут реально использоваться. Предварительная загрузка данных в раздувшийся кэш L1, кстати, должна также скрасить ухудшенную латентность L2 кэша. Неплохой новостью в этой связи будет то, что инженеры озаботились улучшением реализации алгоритмов предвыборки данных в новом процессоре.

Не стоит забывать, что процессор кэширует не только данные, но и код, и в случае правильно предсказанного перехода необходимые инструкции уже декодированы и расположены в трэйс-кэше. В противном случае может возникнуть большая задержка. Таким образом, удлинение конвейера может лишь слегка увеличить потери от случайных ветвлений, так как есть другие, не менее важные, ограничивающие производительность факторы.

Prescott и технология Hyper-Threading

По заявлениям Intel, технология HT претерпела заметные улучшения в новых процессорах. Есть несколько предпосылок для этого. Первое, но не самое важное - увеличение количества эксклюзивных ресурсов процессора для каждой нити. Например, возросло количество разнообразных буферов записи в память, в том числе, буферов комбинированной записи в некэшируемые области памяти, например, в видеопамять. Суть их состоит в том, что данные перед отправкой по, например, AGP, сначала накапливаются в специальных буферах, а потом передаются одной транзакцией, вместо нескольких, работающих с небольшими кусками данных. Это обещает небольшое увеличение производительности многонитевого приложения при работе, например, с видео.

Другое очевидное, вероятно, более важное улучшение состоит в увеличении размеров кэш-памяти всех уровней, которые призваны обеспечивать нити данными. Две нити более прожорливы, чем одна, и требуют больше данных. Так что, в некоторых случаях прирост от использования HT может быть больше на Prescott, чем на аналогичном Northwood, именно по этойпричине.

Улучшилась поддержка HT и с точки зрения набора процессорных инструкций. Появились две новые инструкции, monitor и mwait. Они делают оптимизацию программ и компонентов операционной системы под технологию HT более легкой. Собственно, применение этих инструкций позволяет эффективно организовать лишних потоков, чтобы они сами не задействовали один из логических процессоров для постоянной проверки флага пробуждения. Процессор эффективным образом делает это за них, отслеживая запись в указанный район памяти и пробуждая по необходимости поток.

Но, конечно, это требует перекомпиляции программ и обновления операционной системы, так что это небольшое улучшение проявит себя не сразу.

Другая причина называть новую версию технологию HT состоит в том, что прирост от HT в Prescott может быть больше, чем в Northwood, за счёт уменьшения быстродействия однопоточного варианта, нрапример, из-за увеличившейся латентности кэша. А HT будет нивелировать это, так как во время ожидания данных инструкциями одной нити инструкции другой нити, данные для которых уже есть в регистрах или в L1, могут успешно выполняться.

Таким образом, для оптимизированных под Hyper-Threading приложений можно ожидать серьезный рост производительности.

Prescott и trace cache

Многие надеялись на подтверждение слухов об увеличении размера кэша инструкций (trace cache) с 12 Kmops до 16 Kmops в Prescott. Этот кэш содержит уже декодированные в микрооперации обычные инструкции x86, а поскольку одна микрооперация занимает несколько байт, физический размер кэша данных на 12 тысяч инструкций получается куда большим, чем 12 Кбайт. Истинный размер trace cache держится в большом секрете.

Инструкции в trace cache содержатся не в порядке их расположения в памяти, а в порядке их расположения в программе с учетом условных переходов, которые специально предсказываются. Такая организация позволяет непрерывно снабжать процессор потоком инструкций. То есть, это кэш получается умнее обычного кэша инструкций первого уровня. Представьте себе, например, что у вас в кошельке монеты уже расположены в том порядке, в котором вы будете платить за покупку.

Trace cache умеет доставлять в процессорное ядро 3 инструкции за такт, там они помещаются в пул инструкций и выполняются по мере готовности функциональных устройств. Ходили слухи, что кэш инструкций Prescott будет вмещать 16 тыс. операций и уметь доставлять 4 инструкции за такт, что могло поднять производительность. Однако, так как количество функциональных устройств всякого умножения-сложения и т.п. не увеличилось, то и необходимости в увеличении скорости выдачи микроопераций особой нет - их просто некому будет обрабатывать.

Prescott и 64-битность

Ходит много слухов, о том, что в Prescott якобы уже включены и пока просто спрятаны 64-битные расширения, то ли нечто, совместимое с AMD x86-64, то ли свой собственный новый набор команд. Есть даже мнение, что Prescott якобы может понимать и исполнять в режиме некоторой эмуляции систему команд процессоров Itanium. Некоторым подтверждением этого слуха стали исследования на сайте http://www.chip-arhitect.com/ . Там исследовали фотографии процессорного ядра, и сумели углядеть в сравнении с ядром Northwood увеличение площади, занимаемой trace cache. С учётом того, что его объём не увеличился, можно сделать вывод об увеличении размера микрооперации, что и требуется для 64 битного режима.

А что, в принципе, требуется для внедрения поддержки 64 бит? На самом деле, совсем не так уж много, ведь даже на примере AMD видно, что часть, отвечающая за 64битность, занимает совсем немного общей площади процессорного ядра. У процессора и так есть целая уйма внутренних регистров, гораздо больше, чем количество имён, доступных программе. Дополнительные регистры используются при переименовании регистров, что бы избежать зависимостей в командах, когда несколько команд используют один и то же регистр, но на самом деле независимы и могут выполняться параллельно. Несложно сделать эти регистры 64-битными. Регистры SSE так вообще 128-битные. Остается 64-битное умножение и сложение. Умножение в Pentium 4 выполняется в блоке FPU, у которого и так битность больше 32, а 64-битное сложение легко разбивается на два 32-битных сложения. С учётом увеличения стадий конвейера, вероятно, легко добавить одну стадию для склеивания двух 32-битных половинок при сложении на самый крайний случай. Остаётся разрядность адресов, но процессор ведь как-то может адресовать больше 4 Гбайт памяти, так что слегка переделать блок адресации не должно быть очень трудно. Тем более, что сначала больше 4 Гбайт адресовать не требуется, Athlon 64 тоже физически не все 2^64 байт может адресовать.

Таким образом, ведение 64-битных расширений в Prescott - это скорее маркетинговый, нежели технологический вопрос. Очень вероятно, что такие возможности действительно уже заложены при проектировании Prescott, и могут быть легко активированы в новой ревизии. Так что 32-битный процессор может в принципе (только в принципе, прошу заметить!) элегантным движением превратиться в 64-битный.

Prescott и автоматический дизайн ядра

При проектировании этого процессора Intel впервые использовала средства автоматизированного расположения блоков на ядре. При расположении блоков на кристалле вручную проектировщик стремился располагать вместе отдельно от других блоков схемы, отвечающие за выполнение одной функции. Это облегчало с человеческой точки зрения процесс проектирования, но не всегда было оптимально с точки зрения работы процессора. При автоматическом расположении блоки различной функциональности не обязаны располагаться далеко друг от друга, и могут хитро переплетаться, так как компьютер всё равно легко будет их различать.

Но что это дало в плане изменений в производительности? Вот Pentium 4 выполнял довольно медленно умножение целых чисел, так как оно на самом деле производилось в отдельном блоке FPU. И вот теперь блоки как-то хитро переплелись, и вполне может быть, что умножение теперь выполняется быстрее.

Prescott и SSE3

Как уже упоминалось ранее, для достижения высокой производительности для процессора Pentium 4 требовалась оптимизация программ под SSE, SSE2 или Hyper-Threading. Часто бывало, что неоптимизированная версия программы выполнялась быстрее на процессорах AMD, а оптимизированная - на процессорах intel. В новых процессорах AMD появилась поддержка набора инструкций SSE2, а поддержка SSE существовала и в AthlonXP. Но, всё равно, эти инструкции не так эффективно выполняются на Athlon - Pentium4 делает это эффективнее.

И вот новый набор инструкций в процессорах Prescott, ранее имевший рабочее название Prescott New Instruction, и получивший в итоге не совсем верное с технической точки зрения название SSE3, призван облегчить оптимизацию программ под SSE и SSE2. Причём, в первую очередь, сделать более легкой полностью автоматическую оптимизацию программ средствами компилятора. То есть, для оптимизации необходимо будет просто перекомпилировать программу.

Почему же название SSE3 не совсем корректно? Для того, чтобы ответить на этот вопрос, необходимо понять, в чём суть всех SIMD-расширений. Они позволяют одной командой оперировать сразу несколькими парами операндов. Например, одной командой сложить 4 пары чисел, или умножить 4 пары чисел. И в SSE-регистрах данные хранятся параллельно, в одном - 4 первых элемента каждой пары чисел, в другом - 4 вторых элемента.

Но совсем не удобно тогда складывать пары чисел между собой. Например, покомпонентно сложить два четырёхмерных вектора удобно, а найти скалярное произведение - неудобно, так как необходимо будет складывать последовательно произведения пар компонентов, что не поддерживается удобным образом в SSE.

В SSE3 появились удобные команды горизонтального последовательного сложения и вычитания операндов, а также другие разнообразные вспомогательные команды, облегчающие работу с данными.

Рассмотрим потенциальные выгоды от SSE3 на примере нахождения квадрата модуля комплексного числа. Пусть все данные уже находятся в регистрах. Итак, |a+bi|2=a*a+b*b. Без использования SSE2 необходимо 3 операции, два умножения и сложение. При оптимизации под SSE2 можно удвоить производительность, вычисляя модуль сразу двух комплексных чисел одновременно.

Вторая половина регистра

Первая половина регистра

Однако такая оптимизация не всегда возможна, так как не всегда приходится считать несколько модулей последовательно, часто требуется специально переписывать программу. Посмотрим, что будет при использовании SSE3.

Итак, можно обойтись всего двумя операциями, то есть, поднять производительность в полтора раза. Это меньше, чем при полной оптимизации под SSE2, но зато может быть легко осуществлено компилятором. Конечно, общий эффект по всей программе не будет таким большим, так как есть большое число других ограничивающих факторов. Но на неплохой прирост в расчётных задачах можно надеяться, при условии их перекомпиляции, конечно.

Занесём такое удобное дополнение набора SIMD-инструкций в несомненный плюс новых процессоров, который будет постепенно проявлять себя с появлением перекомпилированного программного обеспечения.

Более подробно с новыми инструкциями можно ознакомиться по .

Предварительные выводы

Какие можно сделать выводы на основании обзора архитектурных новшеств процессора Prescott? Достоин ли он названия Pentium 5, какое ему прочили? Изменений в нём, конечно, меньше, чем в Pentium 4 по сравнению с Pentium III, но можно считать, что был бы достоин, если бы сразу стартовал с высоких частот. А так как на низких частотах особенно не развернешься, многие нововведения, рассчитанные на высокие частоты, сейчас выглядят сомнительно, и улучшения могут компенсироваться некоторыми недостатками.

Однако, и на современных частотах новый процессор выглядит перспективнее, за счёт наличия нового удобного расширения набора инструкций и улучшенной поддержки HT. Но, вероятно, что в тех задачах, где Northwood был не очень силён, новый процессор может также показывать себя плохо. А уж в тех задачах, которые очень критичны к латентности кэша второго уровня, но не критичны к его объёму, все может быть еще хуже Зато в некоторых приложениях удвоенный объем кэша может серьёзно поднять производительность сам по себе.

Но без тестирования всё равно затруднительно будет сказать про изменения производительности в каждом отдельно взятом приложении. К рассмотрению результатов официального тестирования мы сейчас и переходим. Собственное же тестирование процессоров Prescott мы выложим в самое ближайшее время.

Внутренние тесты Intel

Процессоров Prescott с частотой 3400 МГц ещё совсем мало, процессоры же меньшей частоты желающих тестировать не очень много. Предлагаем вам результаты внутреннего тестирования Intel. Однако, известно, что производители процессоров - плохие тестеры, так что будет относиться к ним с известной долей настороженности.

Итак, для начала сравним начальные частоты трёх ядер, производящихся с использованием разных технологических процессов: 0,18; 0,13 и 0,9 мкм.


Это может быть интересно с точки зрения проверки масштабируемости семейства Pentium4 по частоте: получаем ли мы пропорциональный приросту частоты прирост производительности? Конфигурация тестов стандартна, только в тестовом стенде Pentium4 1500 использовалась видеокарта Geforce 4, тогда как у более новых - Radeon 9700 Pro, а также для разных процессоров использовались компиляторы разных версий. По крайней мере, с такими условиями масштабируемость по частоте более-менее соблюдается, что мы и увидим на следующей диаграмме.

Итак, картина получается достаточно интересной. Первый тест оказывается не критичен к объёму КЭШа, все три процессора с различным объёмом КЭШа идут практически вровень. А Sysmark несколько более критичен и к объему кэша, и к его латентности, так что здесь опять равенство. 3DMark03 CPU хоть и сильно зависит от памяти, но видимо, действуют и другие негативные факторы, вроде той же латентности.

QuakeIII сильно выигрывает от увеличения объёма кэша, но, видимо, содержит, что характерно для игр, слишком много условных переходов, что всё-таки снижает производительность Prescott. Тесты Spec тоже очень любят большой кэш, так что тут Prescott хорошо себя проявляет. Но SpecInt оказывается более неудобен, так как содержит больше ветвлений, что, видимо, мешает предвыборке данных в кэш первого уровня и т.п.

Однако, в данном наборе нет приложений, не то что оптимизированных, но даже перекомпилированных под Prescott (и Spec тоже не полностью перекомпилирован), так что результаты только самые предварительные.

Итак, мы сделали первый обзор архитектуры нового ядра Pentium 4. Новый процессор получился более интересным, чем предыдущий. Архитектура NetBurst приобрела благодаря улучшению системы команд некоторую законченность. Эх, лучше бы Pentium4 сразу таким вышел. Может так случиться, что это семейство станет на длительное время основным в производстве Intel, и это будет неплохо, тем более что с ростом частот все недостатки нового процессора испарятся.

В ближайшее время, как мы уже обещали, мы сделаем собственное тестирование процессоров с ядром Prescott. Следите за анонсами!

Архив Платформа

2 февраля официально увидели свет новые процессоры Pentium 4 на ядре Prescott, принципиально отличающиеся от своих предшественников на ядре Northwood. Что реально мы получаем в настоящий момент с выходом Prescott и стоит ли овчинка выделки?

См. остальные части нашего обзора:
Часть 2.
Часть 3. Быстродействие в играх.
Часть 4. Производительность в ряде профессиональных графических приложений.

Второго февраля, наконец, свершилось то, чего вся компьютерная индустрия с нетерпением ожидала по крайней мере последние полгода - Intel «опрескотилась»! Это означает, что официально увидели свет новые процессоры Pentium 4 на ядре Prescott, принципиально отличающиеся от своих предшественников на ядре Northwood по трем важнейшим категориям: прогрессивные множественные изменения в микроархитектуре процессорного ядра, использование более «тонкого» технологического процесса изготовления кристаллов с нормами 90 нанометров, применение усовершенствованных материалов для изготовления кристалла. Всё вместе это обещает открыть новые горизонты дальнейшего наращивания быстродействия процессоров архитектуры Intel NetBurst. Но обещания - обещаниями, а что реально мы получаем в настоящий момент с выходом Prescott и стоит ли овчинка выделки? Это и предстоит нам выяснить.

Давненько корпорация Intel не радовала нас новыми процессорами для настольных ПК. После феерического выхода целого сонма новых продуктов весной этого года - процессоров Pentium 4 на ядре Northwood с частотами от 2,4 до 3,0 ГГц на системной шине 800 МГц и двухканальных DDR400-чипсетов для них серий i875 и i865 (Canterwood и Springdale), см., например, обзоры на www.terralab.ru/system/25198 , www.terralab.ru/system/25235 , а также www.terralab.ru/system/28979 , последовал лишь еще один процессор в июне - Pentium 4 3,2 ГГц (см. www.terralab.ru/system/25250 ). И затем наступило до неприличия длительное затишье, пару раз нарушенное лишь появлением очередных Celeron. По сути дела, корпорация не объявляла новых Pentium 4 для массового рынка более семи (!) месяцев подряд, что в современных условиях является непростительно долгим сроком.

Конечно, в середине осени Intel провозгласила одну новинку - Pentium 4 Extreme Edition 3,2 ГГц с чудовищными для настольных систем размерами кэш-памяти (2 Мбайт третьего уровня), кристалла и количеством транзисторов (см. www.terralab.ru/system/29365 ). Но и цена этого «экстра-геймерского» процессора оказалась не менее чудовищна по понятиям персональных компьютеров - под тысячу долларов США. А если учитывать, что реально в розничных магазинах эти «монстры» появились лишь совсем недавно и их продажи на фоне обычных Pentium 4 до сих пор ничтожно малы, то Extreme Edition вполне можно отнести не к массовому сегменту, а к своеобразному «процессору ради престижа», не делающему никакой погоды на массовом рынке ПК (по самым оптимистическим прогнозам корпорации доля P4EE среди всех «Пентиумов» не будет превышать пяти процентов). В этой связи, нетерпеливое ожидание Prescott, обладающего мегабайтной кэш-памятью второго уровня, еще более усилилось.

Intel готовила индустрию к выходу Prescott задолго до его появления и делала это величественно и громогласно. Первые сведения просочились в прессу пару лет назад, а в феврале прошлого года на Intel Developer Forum в Сан-Хосе корпорация организовала публичное оглашение основных архитектурных особенностей будущего процессора и подробно рассказала о технологиях и материалах, применяемых для его изготовления (см., например, www.terralab.ru/system/23898 ). А спустя полгода продемонстрировала общественности сами процессоры в работе и показала фотографию кристалла Prescott, обнародовав дополнительные подробности - количество транзисторов, размер чипа и пр. (см. www.terralab.ru/system/29227 ).

Первоначально руководители корпорации уклончиво обещали выпустить процессор осенью 2003 года (неофициально ходили слухи то о сентябре, потом о начале декабря)… Но время текло, «уж полночь близилась», а Германа все не было… За это время основной конкурент Intel на рынке процессоров для ПК - корпорация AMD - успела трижды (!) выпустить свои новые процессоры: сперва в конце сентября вышел долгожданный Athlon 64 3200+ (см. www.terralab.ru/system/29375 ), затем в декабре появился первый недорогой настольный Athlon 64 3000+, отличавшийся от 3200+ только уменьшенной вдвое кэш-памятью второго уровня, и, наконец, в начале января появился великолепный Athlon 64 3400+, который мог не только соперничать на равных с самыми мощными настольными процессорами Intel, но даже нередко превосходил их и своего более дорогого собрата Athlon 64 FX-51 (см. www.terralab.ru/system/31549 ). И это при том, что он работал всего с одним каналом обычной памяти DDR400, тогда как все остальные «топ-модели» требовали для реализации своего скоростного потенциала как минимум двухканального DDR400-решения.

Поклонники Intel с надеждой ожидали явно застопорившегося выхода ядра Prescott, надеясь на чудо - увеличенные вдвое кэш-памяти первого и второго уровня вкупе с другими усовершенствованиями ядра (новые инструкции SSE3, улучшенные HyperThreading, механизм предвыборки и предсказание ветвлений) обещали если не прорыв, то, по крайней мере, существенный рост производительности нового ядра по сравнению со старым. Ранние «оценочные» степпинги Prescott «ходили» по лабораториям и OEM-партнерам Intel начиная с осени, однако особых восторгов от тех, кому с ними удалось «пообщаться», слыхивать не доводилось. А пока руководители корпорации уверяли, что процессор «уже готов» и начиная с четвертого квартала 2003 года «уже идут» его коммерческие поставки производителям, из недр Intel доносились слухи о задержках, связанных с необходимостью «дооптимизировать» технологию производства и ядро самих процессоров с целью получения нужного теплового режима старших моделей и приемлемого для массового производства выхода годных кристаллов.

И поскольку дальше затягивать официальное объявление Prescott было уже неприемлемо, процессоры выпустили 2 февраля. Однако удалось ли производителю при этом в полной мере побороть «детские болезни левизны» нового ядра? Судя по тому дефициту старших моделей Prescott (с частотой 3,2 и 3,4 ГГц), который испытывают сейчас даже ведущие тестовые лаборатории - не совсем удалось. Например, модель 3,40Е не видел живьем еще никто из знакомых мне людей (исключая сотрудников Intel J ), а модель 3,20E пробыла у нас в редакции всего три рабочих дня, поскольку ее как жуткий дефицит «рвали на части» другие «поклонники», и в первые дни после выхода я не обнаружил ни одного предложения модели 3,20E в российских магазинах (не уверен, что они были даже в японских). С другой стороны, подобный «ажиотаж» можно попробовать объяснить и другим - процессор настолько великолепен, что его просто «выметают» из-под прилавков толпы поклонников.

Итак, 2 февраля Intel выпустила сразу семь новых Pentium 4. Их перечень и краткие отличительные особенности приведены в таблице 1.

Процессор

Pentium 4
Extreme Edition
3,40 ГГц

Pentium 4
3,40 ГГц

Pentium 4
3,40E ГГц

Pentium 4
3,20E ГГц

Pentium 4
3,00E ГГц

Pentium 4
2,80E ГГц

Pentium 4
2,80A ГГц

Технология производства

Шина FSB, МГц

Технология Hyper-Threading

Кэш-память второго и третьего уровней

512 кбайт, 2 Mбайт L3

512 кбайт L2

Напряжение питания, В

Разъём (Socket)

Оптовая цена, $

* В официальном документе Intel для этого процессора указано ядро Northwood, но мы то с вами знаем, что Northwood с кэш-памятью третьего уровня называется ядром Gallatin, официально применяемом только в серверных процессорах Intel Xeon, хотя степпинг кристалла Pentium 4 Extreme Edition - фактически тот же самый, что у аналогичных Xeon MP, см. www.terralab.ru/system/29365 .

Если Pentium 4 3,40 ГГц (на ядре Northwood) и Pentium 4 Extreme Edition 3,40 ГГц - это по сути те же, что и раньше, процессоры - теперь с чуть более высокой частотой ядра, то наибольший интерес для нас представляет линейка новичков на ядре Prescott. «Прескотты» внешне почти ничем не отличаются от традиционных Pentium 4 - они размещены в том же корпусе для разъема Socket 478 и лишь иное расположение элементов с обратной стороны корпуса (фото 1) напоминает, что перед нами именно они.

Как видим, все новые процессоры используют системную шину 800 МГц и технологию HyperThreading, кроме самого младшего - «гадкого утенка-прескотёнка», «разжалованного» до шины 533 МГц и лишенного HT. Предположительные объяснения появления такой модели: (а) необходимость продать Prescott ранних степпингов, которые не столь высокочастотны и экономичны, как текущие модификации, (б) необходимость иметь «свой Prescott» для низкостоимостных систем на чипсетах, не поддерживающих шину 800 МГц, (в) лазейку для продажи «отходов» производства более высокочастотных моделей (отбраковка старших моделей). Последнее имеет под собой более жесткие обоснования, чем это было ранее для Northwood. Дело в том, что заметно возросшие токи утечки для ядра Prescott и более высокое тепловыделение в рабочем состоянии (более 100 ватт для старших моделей) накладывает более жесткие требования на тестирование ядер для той или иной частоты/модели. Если процессоры на ядре Northwood (и предшественники) имели близкие друг к другу характеристики зависимости рассеиваемой мощности от частоты работы (с неплохой точностью подчинялись известной для структур КМОП формуле мощности от частоты), то для Prescott имеет место (по крайней мере, на данный момент) гораздо больший разброс характеристик кристаллов даже внутри одной партии и кремниевой пластины. В результате, производитель вынужден выпускать каждый конкретный экземпляр кристалла для строго определенной (по частотным и тепловым характеристикам) модели процессора с весьма небольшими допусками (запасом на отклонение в худшую и лучшую сторону). С этим связан и тот факт, что даже младшие модели Prescott будут весьма неохотно разгоняться (первое время?) - даже небольшое повышение частоты будет вызывать у них очень резкое (гораздо больше, чем у Northwood) повышение тока потребления и температуры, что негативно скажется на стабильности и «живучести» процессора. Это, кстати, подтвердил и побывавший в нашей лаборатории экземпляр - Prescott 3,20E с большим трудом удалось разогнать до 3,4 ГГц, причем работал он при этом нестабильно, выделяя гораздо больше тепла, чем на штатной частоте (не в пример аналогичным Northwood и Extreme Edition, которые подобных проблем не имели). Попутно замечу, что с процессорами Prescott стандартный плавкий термоинтерфейс с обратной стороны боксовых кулеров (фото 2) я настоятельно рекомендую заменять хорошей термопастой.

Краткое сравнение кристаллов трех типов процессоров (Extreme Edition, Northwood и Prescott) представлено в таблице 2. Для сравнения там же приведено текущее ядро процессоров AMD Athlon 64.

Таблица 2. Краткое сравнение кристаллов современных высокопроизводительных процессоров для настольных ПК

Процессор

Intel Pentium 4
Prescott

Intel Pentium 4
Northwood

Intel Pentium 4
Extreme Edition

AMD Athlon 64
ClawHammer

Частоты, ГГц

Технология производства

90 нм,
напряженный кремний

Площадь ядра, кв. мм

Число транзисторов, млн.

Длина целочисленного конвейера

Объем кэш-памяти данных первого уровня

Латентность кэш-памяти первого уровня*

Ассоциативность кэш-памяти первого уровня

Объем кэш-памяти инструкций

12 тыс. микроопераций

12 тыс. микроопераций

12 тыс. микроопераций

Скорость доставки инструкций из кэш-памяти

Объем кэш-памяти второго уровня, кбайт

Латентность кэш-памяти второго уровня*

~30 тактов

~18 тактов

~18 тактов

~12 тактов

Ассоциативность кэш-памяти второго уровня

Объем кэш-памяти третьего уровня

Латентность кэш-памяти третьего уровня*

~45 тактов

Расширение набора инструкций

SSE2/SSE/3Dnow!/ x86-64

Технология HyperThreading

улучшенная

стандартная

стандартная

Напряжение питания, В

Допустимая тепловая мощность, TDP, Вт

* измеренная в программе CPU-Z 1.21.

Количество транзисторов у Prescott увеличилось по сравнения с Northwood более, чем вдвое, но площадь кристалла при этом за счет применения нового техпроцесса даже немного уменьшилась. Вместе с тем, оба они заметно уступают по площади и числу транзисторов ядру Gallatin. Если учесть, что ячейка кэш-памяти требует шести транзисторов (плюс примерно один транзистор в расчете на одну ячейку расходуется для «вспомогательных» нужд - магистральные буферы, мультиплексторы и пр.), и это подтверждают оценки из сравнения ядер Northwood и Gallatin, то получается, что добавление 512 кбайт кэш-памяти второго уровня потребовало лишь около 30 миллионов транзисторов, а «остальные» 40 миллионов ушли на другие архитектурные усовершенствования ядра Prescott. И это - огромное количество, ведь ядро Northwood без кэш-памяти второго уровня содержит всего-то около 25 миллионов «затворов»!


Для наглядности приведу фотографии кристаллов Prescott и Northwood, на которых обозначены те или иные блоки процессора (фото 3 и 4). Подробный анализ расположения и состава каждого из этих блоков провели еще весной прошлого года специалисты сайта «Chip Architect» (подробности см. в статьях на www.chip-architect.net/news/2003_03_06_Looking_at_Intels_Prescott.html и www.chip-architect.com/news/2003_04_20_Looking_at_Intels_Prescott_part2.html ). В частности выяснилось, что многие блоки ядра Prescott существенно избыточны и/или содержат скрытые возможности, среди которых не только достаточно очевидные модули для поддержки технологии La Grande (официально Prescott ее пока не поддерживает) и шины для связи с кэш-памятью третьего уровня (самой памяти L3 на кристалле, естественно, нет), но и вероятно, блоки для реализации технологии Vanderpool и 64-битных вычислений (последнее - пока лишь предположение).

Что же касается официально объявленных нововведений ядра Prescott, то о них мы уже писали почти год назад (см. http://www.terralab.ru/system/23898 ) и с тех пор мало, что поменялось (см. таблицу 2 и рисунок 5).

В-третьих, добавлено 13 новых инструкций (Prescott New Instructions или PNI), улучшающих комплексные расчеты по SSE/SSE2/x87-FP-командам и позволяющих ускорить выполнение мультимедийных и игровых приложений (рисунок 6). По аналогии с предшественницами, эти новые инструкции назвали SSE3, они не требуют специальной поддержки со стороны операционной системы (достаточно поддержки обычных SSE) и полностью совместимы с программным обеспечением, написанным ранее для процессоров Intel. По оценкам корпорации, простая перекомпиляция (уже вышел соответствующий компилятор от Intel) приложений под SSE3 способна поднять быстродействие в среднем на 5% (и до десятков процентов в отдельных задачах). Среди уже оптимизированных для SSE3 приложений - будущая версия Unreal II, многие видеокодировщики (MainConcept, xMPEG, Ligos, Real (RV9), On2 (VP5/VP6), Pegasys TMPGEnc 3.0, Adobe Premier, Pinnacle, Sony DVD Source Creator, Ulead (MediaStudio & Video Studio), Intervideo и другие, использующие кодек DivX 5.1.1.

Несмотря на множество улучшений, в новом ядре применено и несколько вынужденных «ухудшений». Эти «ухудшения» возникли не от хорошей жизни - они фактически являются альтернативным подходом при проектировании и призваны на самом деле улучшить те или иные показатели процессора в расчете на долговременную перспективу и рост частоты ядра процессора. Главным и наиболее критичным для быстродействия процессора изменением стало (как мы и писали еще год назад, см. www.terralab.ru/system/23898 ) увеличение длины основного конвейера - с 20 до 31 такта. Именно это, а не применение новой 90-нанометровой технологии, способно в перспективе позволить поднять тактовую частоту ядра процессора до 5 ГГц и выше.

Вместе с тем, как мы прекрасно помним по переходу с 10-стадийного до 20-стадийный конвейер (от Pentium III на Pentium 4), это может существенно ухудшить быстродействие системы в некоторых задачах, где велик процент неудачных предсказаний переходов. Чтобы снова не наступать на те же грабли, корпорация предприняла ряд шагов по существенному улучшению работы блока предсказания ветвлений и предвыборки данных. Этой же цели (уменьшения потерь производительности за счет удлинения конвейера) служит и вдвое увеличенная кэш-память. Вместе с тем, как показали наши тесты, даже всех этих мер порой оказывается недостаточно для того, чтобы в некоторых неоптимизированных для архитектуры Intel NetBurst приложениях полностью скомпенсировать «вредное» влияние длинного конвейера. С другой стороны, на оптимизированных приложениях при таком подходе прирост производительности окажется ощутимым (вспомним, с каким скрипом Pentium 4 Willamette продвигался на рынок именно из-за отсутствия поначалу оптимизированных для него приложений).

Рисунок 9.

Вторым «ухудшением» стала примерно вдвое возросшая латентность обоих кэшей (см. рисунок 9). Фактически это плата за их возросший объем и «задел» на будущий рост частоты ядра. В некоторых «линейных» задачах это может и не повлиять на быстродействие, но в других может оказаться весьма «болезненным». (Напомним, что длинный конвейер и возросшая латентность кэш-памяти призваны преодолеть трудности с согласованием работы блоков, расположенных в разных частях кристалла и оперирующих с некоторыми задержками друг относительно друга).

Cхемотехника у Prescott существенно изменилась по сравнению с предшественниками, и большинство блоков процессора фактически было спроектировано «с нуля» в тесном сотрудничестве с разработчиками технологии производства кремниевых чипов, чтобы оптимизировать подходы проектирования. Более того, при проектировании топологии кристалла Prescott впервые было применен полностью автоматизированный подход к трассировке и размещению элементов (например, с целью оптимизации задержек и более равномерного распределения тепла по кристаллу), в результате чего элементы блоков не обязательно расположены строго внутри геометрических границ этих блоков, блоки как бы взаимопроникают друг в друга (это видно, например, по размытости фотографии кристалла Prescott), а между блоками и элементами процессора много пустого места, которое удобно для исправления мелких схемотехнических ошибок, дальнейшей оптимизации кристалла и пр.

Рисунок 10.

Первоначально процессоры Prescott будут работать на чипсетах Canterwood и Springdale на системной шине 800 МГц с памятью DDR400 (см. рисунок 10), но позднее для них выйдут чипсеты Alterwood и Grantsdale с поддержкой памяти DDR II, шины PCI Express, южного моста ICH6 и, видимо, системной шины 1066 МГц. Подавляющее большинство уже выпущенных системных плат на чипсетах Intel 875/865, а также последних чипсетах SiS, VIA и ATI будут совместимы с Prescott путем простого обновления BIOS (оно необходимо для правильной инициализации большей кэш-памяти), поскольку эти платы уже разрабатывались с учетом будущих повышенных требований по питанию (старшие Prescott требуют максимальный ток питания 91 ампер). Вместе с тем, разгон «Прескотта» осилит уже далеко не каждая плата - только самые лучшие.

Процессоры на ядре Prescott изготавливаются по новой для Intel 90-нанометровой технологии (это первый 90-нанометровый процессор, вышедший на рынок), причем сразу на 300-миллиметровых подложках. При производстве Prescott применяются ряд новых материалов и технологий микроэлектроники, подробности по которым мы уже не раз описывали (см., например, статьи на www.terralab.ru/system/30717 и www.terralab.ru/system/30845 ). Перечень основных технологических новшеств приведен в таблице 3. Наиболее важной и них является технология «напряженного» (strained, то есть растянутого или сжатого) кремния: деформированная в ту или иную сторону кристаллическая решетка такого кремния обеспечивает большую подвижность электронов или дырок соответственно, а значит, и более высокие частоты работы полевых транзисторов. Для борьбы с утечками транзисторов также были применены специальные меры - технологические и схемотехнические.

Таблица 3. Основные отличия интеловских технологий производства с нормами 130 и 90 нм

130 нанометров

90 нанометров

6 слоёв медных межсоединений

7 слоёв медных межсоединений

Диэлектрик SIOF с низкой диэлектрической проницаемостью

Диэлектрик CDO (легированный кремнием оксид) с низкой диэлектрической проницаемостью

Силицид кобальта как контакт затвора

Силицид никеля как контакт затвора

Ячейка памяти SRAM площадью 2 кв. мкм

Ячейка памяти SRAM площадью 1,15 кв. мкм

248-нанометровая литография

193-нанометровая литография

Обычный кремний

Напряженный кремний

Несмотря на уменьшившуюся площадь ядра, применение новых технологии и новых материалов при производстве Prescott несколько повысило себестоимость кристаллов. Вместе с тем, себестоимость Prescott возросла незначительно, поэтому цена на модели Northwood и Prescott с одинаковой частотой будут одинаковыми. Это позволит избежать неудобных ситуаций на рынке.

Три процессора Pentium 4 с частотой 3,4 ГГц станут, по всей видимости, последними моделями для разъема Socket 478. Это связано с тем, что будущие более высокочастотные Pentium 4, даже изготовленные по более тонкой технологии, будут потреблять существенно большее количество энергии, на которое не рассчитаны существующие нынче и, как правило, приспособленные для Prescott 3,4 ГГц материнские платы. Процессоры 3,6 ГГц и выше потребуют новых спецификаций питания, и чтобы избежать путаницы с системными платами, все они будут выпускаться с разъемом Socket T (известный также как LGA 775). Аббревиатура LGA расшифровывается как Land Grid Array - по аналогии с нынешними Pin Grid Array (PGA) для процессоров или Ball Grid Array (BGA) для чипсетов или микросхем памяти. Конструктив LGA много дешевле, чем PGA или BGA и используется, например, компанией IBM.

У нас в лаборатории побывал экземпляр Pentium 4 3,20E ГГц на ядре Prescott. Безусловно, новая микроархитектура требует весьма пристального подхода для практического изучения, поэтому за те три рабочих дня, что новый процессор был в нашем распоряжении, мы лишь частично смогли постичь его потенциал. В будущем мы планируем еще не раз вернуться к детальному практическому изучению свойств нового ядра от Intel (прежде всего - быстродействия в разнообразных задачах), но уже по первым опытам стало возможным составить первое впечатление от новинки, которое мы и предлагаем вам сейчас.

Подробное описание тестовой конфигурации, участников сравнения и подробный анализ полученных данных вы сможете найти в последующих частях этого обзора на сайте www.terralab.ru , а здесь я подведу лишь предварительные краткие выводы на основе проведенных тестов.

Прежде всего, можно отметить, что у Prescott немного возросла скорость работы с системной памятью по сравнению с Northwood. Причем улучшились не только скорость чтения и полоса пропускания памяти, но и латентность, а также сложные операции (Copy, Scale, Add, Triad). Вместе с тем, на относительно старых приложениях, неоптимизированных под NetBurst, мы наблюдаем существенный проигрыш Prescott своему предшественнику (Northwood) - временами до 15%! Более того, в отдельных задачах Prescott 3,2 ГГц работает даже медленнее, чем Northwood 3,06 ГГц на шине 533 МГц! Вот этого я, признаться, не ожидал. Приложений, в которых Prescott заметно быстрее одночастотного с ним «Нортвуда», как оказалось, пока не так уж много (по крайней мере, в процентном соотношении к общему числу программ). Чаще наблюдается ситуация, когда Prescott немного проигрывает Northwood - этим, например, «грешат» многие современные и недавнего прошлого игры, аудиокодеки, простые математические расчеты. А вот видеокодирование и в некоторые профессиональные трехмерные пакеты моделирования чаще благориятствуют «Прескотту», и его преимущество над Northwood доходит, порой, до 10–15 процентов.

Таким образом, изменения в микроархитектуре NetBurst в процессорах с яром Prescott фактически потребовали новой волны оптимизации приложений. Без такой оптимизации новый процессор часто может работать даже медленнее, чем одинаковый с ним по частоте старый, невзирая на вдвое увеличившуюся кэш-память. На одинаковой частоте Prescott не может (в среднем) соперничать пока с Pentium 4 Extreme Edition. Однако у первого есть ресурсы по заметному наращиванию частоты, в то врем как P4EE и Northwood свои ресурсы практически исчерпали. Хотим мы этого или нет, но будущее Pentium 4 однозначно за Prescott. Хотя на первых порах более выгодным, видимо, будет все же приобретение процессоров на прежнем ядре. Особенно если учесть, что «Прескотты» заметно более горячие в работе, чем аналогичные Northwood и даже Extreme Edition.

Итак, Intel опрескотилась!!!

А хорошо это или плохо - судить вам. Читайте в следующих частях этого обзора:
Часть 2. Простые вычисления, работа кэш-памяти и системной памяти и производительность при работе с видео и аудио.
Часть 3.