AMD K10: архитектура, маркировка

на главную

В то время как Intel вовсю готовится к 45-нм процессорам, AMD еще не распрощалась с 90-нм. Как известно, после выхода чрезвычайно удачных в плане производительности и энергопотребления 65-нм процессоров Intel архитектуры Core для настольных ПК и ноутбуков дела у компании AMD с ее 90-нм чипами на основе K8 пошли ни шатко ни валко. Если раньше ее процессоры Athlon 64 X2 серии FX были общепризнанными лидерами по быстродействию, то теперь передовому Athlon FX-62 (2,8 ГГц) не потягаться даже с далеко не самым мощным Core 2 Duo E6600 (2,66 ГГц). А уж для четырехъядерных процессоров Intel Core 2 Quad у AMD вообще нет ответа... К слову, Intel умудрилась продать меньше чем за год более миллиона 4-ядерных чипов (в настольном, мобильном и серверном сегментах), у AMD же процессоров с четырьмя головами пока вообще нет.

Первые упоминания о новой архитектуре процессоров AMD появились в 2003 году, причем нам обещали нечто грандиозное с тактовой частотой до 10 ГГц. В 2006-м официальные лица в различных интервью подтвердили, что AMD действительно кое-что готовит, а именно — обновление K8 в лице K8L, и умерили пыл относительно наполеоновских частот. В феврале 2007-го технический директор AMD, Джузеппе Амато, в видеоинтервью заявил, что готовящаяся архитектура носит кодовое имя K10. С конца 2006-го AMD начала демонстрировать на различных выставках образцы K10 — серверные чипы Barcelona, системы на которых должны начать продавать в сентябре.

Итак, задача минимум, которая стоит перед новыми процессорами AMD, — достижение паритета с нынешними Core 2 Duo. Задача максимум — превзойти по производительности выходящие в конце этого года 45-нм процессоры Intel семейства Penryn. Каковы же слагаемые успеха новой архитектуры, за счет чего увеличится производительность по сравнению с процессорами поколения K8?

А между тем, заметим, что в роадмапах Intel уже значатся 45-нм Nehalem, идущие вслед за Penryn. Кроме отличной от Core архитектуры, Nehalem хвастаются первым для Intel встроенным контроллером для прямой работы с ОЗУ.

Некоторые особенности AMD K10

Улучшена работа с инструкциями SSE

Для справки: SSE (Streaming SIMD Extensions, потоковое SIMD-расширение процессора) — это набор инструкций, который дает увеличение производительности при выполнении одинаковой последовательности действий над большим набором однотипных данных. Активно используется 3D-играми.

Увеличена разрядность SSE блоков с 64 бит до 128 бит. Современные процессоры K8 при выполнении 128-битной SSE-операции вынуждены разбивать ее на две 64-битных и выполнять по очереди. Само дробление операции, кстати, тоже является операцией, поэтому налицо узкое место архитектуры. Таким образом, одна 128-битная SSE-инструкция требует от процессора K8 выполнения минимум трех операций.

·      Чипы K10 могут выполнять 64-битные SSE-инструкции как одну. Именно поэтому увеличение разрядности SSE-блоков так важно и производительность должна вырасти довольно значительно.

·      Увеличена разрядность интерфейса между SSE-блоками и кэшем данных первого уровня. Теперь за один такт стала возможной загрузка двух 128-битных инструкций за такт против двух 64-битных у K8.

·      Связь между кэшем L2 и контроллером памяти также увеличила разрядность и теперь составляет 128 бит.

·      Поддерживаются инструкции SSE4a, которые, помимо стандартного набора, включают: комбинированный набор инструкций (EXTRQ/INSERTQ) и векторные потоковые инструкции (MOVNTSD/MOVNTSS). 

Улучшенное предсказание ветвлений

Архитектура K10 позволяет отслеживать гораздо больше переходов и ветвлений, за счет чего повышается точность предсказаний. А чем точнее предсказания переходов, тем более полно процессор способен загрузить работой свои исполнительные блоки.

Также вдвое в сравнении с K8 увеличен размер стека возврата. У K8 при выполнении длинной цепочки запросов возможна ситуация, когда места для записи начального адреса в стеке возврата не хватает и тогда предсказания ветвлений становятся невозможными. Теперь вероятность этого значительно снизилась.

Внеочередная загрузка команд способна повысить производительность.

В процессорах архитектуры K8, а также Intel NetBurst (Pentium 4) процессор выгружает обработанные данные только после получения новых, что несколько снижает производительность. Часть исполнительных блоков процессора простаивает.

Архитектура K10 дает возможность загружать новые данные до выгрузки обработанных. Подобное отличие существует и между архитектурами NetBurst и Core, но реализация технологии у AMD и Intel разная. Если у Intel используется предсказатель, который предотвращает опережение загрузки данных над их выгрузкой из одной и той же ячейки памяти, то чипы AMD адрес выгрузки рассчитывают, что исключает возможность ошибки. Если подобная ошибка происходит, то данные будут потеряны и выполнение команды придется начинать сначала.

Реализация технологии внеочередной загрузки команд у K10 выглядит привлекательней.

Работа с ОЗУ

Как известно, контроллер памяти в чипах K8 способен производить одновременно только чтение или только запись. Переключение с одной операции на другую вызывает нежелательные задержки.

Контроллер памяти в процессорах новой архитектуры также способен одновременно производить только один тип операций, но оснащен специальным буфером. В него предварительно записываются команды на запись, которые начнут выполняться после заполнения буфера до определенного уровня. Данное решение должно снизить задержки при работе с памятью.

Также надо отметить, что процессоры K8 имеют один 128-битный контроллер памяти, в то время как чипы K10 обзаведутся двумя 64-разрядными контроллерами. Данное решение особенно кстати должно придтись четырехъядерным процессорам, так как обладает большей гибкостью при работе с памятью.

Адресация памяти 48-битная, что означает поддержку 256 Тб ОЗУ.

Новые блоки предвыборки

Также как и чипы K8, K10 имеют по два блока предвыборки на ядро (для данных и для инструкций), но сами блоки улучшены. Главное нововведение — теперь блоки предвыборки могут записывать данные непосредственно в кэш L1, а не в L2, что, несомненно, ускорит работу.

Также в чипах K10 появился новый блок предвыборки. Расположен он непосредственно в контроллере памяти и называется блоком предвыборки DRAM. Этот блок анализирует запросы к памяти, предсказывает, какие данные понадобятся процессору, и извлекает их в собственный буфер, не занимая объем кэша.

Предсказание инструкций стало 32-байтным против 16-байтного в K8.

Кэш третьего уровня

Процессоры архитектуры K10 получат кэш-память третьего уровня объемом 2 Мб. Кэш L3 будет общим, то есть использовать его смогут все ядра процессора. Объем кэша L2 останется прежним — 512 Кб на ядро. Схема работы кэшей проста: те данные, что используются наиболее часто, располагаются в кэше L1, те, что туда не входят, помещаются в L2 и, наконец, наименее используемые данные выводятся в кэш L3.

Улучшения подсистемы питания: CoolCore, Independent Dynamic Core и Dual Dynamic Power Management (DDPM)

CoolCore: неиспользуемые цепи процессора отключаются, чем и достигается экономия энергии.

Independent Dynamic Core (улучшенная PowerNow!): каждое ядро процессора может динамически изменять собственную частоту. Предусмотрено пять энергетических уровней. В режимах частичной нагрузки, а это 99% времени работы абсолютного большинства настольных ПК, экономия может быть очень существенной.

Dual Dynamic Power Management (DDPM): питание контроллера памяти будет независимым от питания ядер. Это позволит контроллеру работать с ОЗУ в обычном режиме, даже если одно или несколько ядер снизили свою частоту. Зачем это надо? Допустим, процессор работает с однопоточным, не оптимизированным под несколько ядер приложением. Нагружено будет только одно ядро, в то время как остальные понизят свою частоту до минимума. Контроллер памяти будет продолжать работать на максимальной частоте, за счет чего скорость обмена данными с ОЗУ останется прежней и падения производительности не случится.

Начиная с серверных процессоров Barcelona компания AMD вводит новый стандарт для определения энергопотребления процессоров - ACP (Average CPU Power). К примеру, если TDP - потребление процессора при пиковой нагрузке - составляет 95 Вт, то ACP чипа, при решении рутинных задач, вряд ли превысит 70 Вт. К примеру, городской автомобиль способен развить скорость 150 км/ч, однако в реальности он редко разгоняется и до 100 км/ч.

Составляется новация по количеству потребляемых ватт ядрами, контроллером памяти и линиям HyperTransport. Компания не собирается отказываться от TDP, но вместе с тем активно заявляет о преимуществах ACP. Подробно прочесть о стандарте можно здесь.

 

Более быстрая шина HyperTransport 3.0 и поддержка сопроцессоров

 

Частота новой шины HyperTransport 3.0 теперь зависит от тактовой частоты и на самых высокочастотных процессорах может достигать 2,6 ГГц (5200 МТ/c или 20,8 Гб/c = 2,6 ГГц * (32 бит/8) в одну сторону)! Это особенно важно для двух- и четырехъядерных процессоров для обеспечения высокой скорости обмена данными между ядрами. Другая особенность HT 3.0 - поддержка горячего подключения устройств и возможность конфигурации канала. Например, шину 1x16 HT можно виртуально превратить в две 2x8 HT, в итоге каждому ядру многоядерного процессора можно назначить персональный HT-канал.

В многопроцессорных системах чипы K10 будут связываться друг с другом и с HTX-сопроцессорами с помощью HT 3.0.

K10: узнай их по именам

Новая архитектура принесет процессорам и новое имя. Да-да, чипы с именем Athlon, столько лет служившие верой и правдой и которые для многих стали синонимом надежности, производительности и адекватной цены, теперь сместятся в сегмент mainsteam или даже low-end. Процессоры K10 выйдут под маркой Phenom. Возможно, кому-то это может показаться грустным, но решение выглядит довольно удачным. Похожим образом поступил в свое время «заклятый друг» AMD — компания Intel: долгое время процессоры Pentium не могли сравняться по производительности с Athlon, и при запуске новой архитектуры Core Intel не без сожаления (вспомним процессоры Pentium Dual Core архитектуры Core) отказалась от старого бренда.

В рамках новой архитектуры AMD начнет выпуск новых для себя четырехъядерных процессоров. Это будут серверные процессоры с кодовым названием Barcelona и настольные чипы Agena FX и Agena. В отличие от конкурента — Intel Kentsfield, который, по сути, представляет два двухъядерных Conroe, — чипы AMD представляют монолитное ядро. Такое решение, несомненно, более технологично, но имеет недостаток: кристаллы очень сложны в производстве и процент выхода, скорее всего, оставит желать лучшего. По некоторым данным представители AMD жалеют о своем решении производить монолитные четырехъядерные процессоры. По крайней мере, будущие восьмиядерные чипы Montreal будут представлять пару 45-нм чипов Shanghai.

Изменится и система маркировки. Привычные нам рейтинги производительности (которые не всегда эту производительность адекватно отражают) сменятся на абсолютно условные обозначения.

Итак, все новые процессоры поделены на три класса, в зависимости от их производительности. Литера G означает принадлежность к hi-end сегменту, в него войдут Phenom X4 (Agena) и Phenom X2 (Kuma). Букву B в названии получат mainstream чипы на базе выпускающихся сегодня 65-нм чипов Brisbane. Ну а L означает low-end сегмент.

Первая цифра указывает на семейство к которому принадлежит процессор, а вторая — его уровень производительности в рамках этого семейства. 1ххх — это одноядерные чипы Athlon и Sempron, 2ххх — двухъядерные чипы Athlon, а двух- и четырехъядерные процессоры Phenom будут маркироваться как 6ххх и 7ххх соответственно. Оставшиеся две цифры зарезервированы для маркировки близких по характеристикам чипов.

Флагманские процессоры будут называться проще — Phenom FX-xx.

Серверные процессоры AMD Barcelona появились в прайс-листах:

Модель

Тактовая частота

TDP

Стоимость

Opteron 2350

2,0 ГГц

95 Вт

$372

Opteron 2347

1,9 ГГц

95 Вт

$312

Opteron 2347 HE

1,9 ГГц

68 Вт

$372

Opteron 2346 HE

1,8 ГГц

68 Вт

$251

Opteron 2344 HE

1,7 ГГц

68 Вт

$260

Opteron 8350

2,0 ГГц

95 Вт

$1004

Opteron 8347

1,9 ГГц

95 Вт

$774

Opteron 8347 HE

1,9 ГГц

68 Вт

$861

Opteron 8346 HE

1,8 ГГц

68 Вт

$688

 

Socket AM2 и AM2+

Сегодня процессоры Athlon X2 используют Socket AM2 и могут быть использованы с грядущим Socket AM2+. Все процессоры K10, кроме Phenom FX, предназначены для установки в материнские платы с разъемами AM2+. Только в таком случае новые процессоры смогут раскрыть свой потенциал по быстродействию. Примечательно, что у K10 предусмотрена совместимость с AM2. В этом случае производительность чипа будет несколько ниже и примерно на 10% возрастет расход энергии.

Главные два отличия AM2+ от AM2:

·HyperTransport 3.0 до 2,6 ГГц.

·Технология Dual Dynamic Power Management (независимое питание ядер и контроллера памяти).

Флагманские чипы Phenom FX планируют выпускать в двух исполнениях: AM2+ и F+. Последнее подразумевает создание двухпроцессорных систем AMD FASN8 (First AMD Silicon Nextgen 8-core). Сложно придумать, в каких задачах настольному компьютеру может понадобиться производительность восьми (!) ядер, ведь сегодня и четыре ядра сложно загрузить, но для имиджа компании как производителя мощных систем это, безусловно, плюс.

Система маркировки

XY-Zxxx; X — сегмент рынка, Y — класс энергопотребления, Z — серия.

Пример: Phenom X4 (Agena) — GP-7xxx, Athlon X2 BE-2xxx

Сегмент рынка

Маркировка

Hi-end

G

Mainstream

B

Low-end

L

 

Класс энергопотребления

Маркировка

Больше 65 Вт

P (premium)

В пределах 65 Вт

S (standart)

Меньше 65 Вт

E (energy efficient)

 

Серия

Маркировка

Phenom X4

7

Phenom X2

6

Athlon X2

2

Sempron

1

на главную