Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

Arm, принадлежащий SoftBank, продолжает доминировать на рынке архитектуры с низким энергопотреблением и эффективными процессорами, которые используются сегодня на подавляющем большинстве смартфонов на рынке. Хотя Arm не производит никаких собственных продуктов, оставляя это на усмотрение широкого круга партнеров, линейка Cortex вездесуща в кремниевых разработках всех ведущих игроков.

В прошлом году Arm повысила производительность, выпустив , предлагая на 35% больше производительности по сравнению с предыдущим поколением, а также специальные улучшения для машинного обучения. Таким образом, Cortex-A76 многое сделал для повышения производительности однопоточности по сравнению со своим предшественником.

Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

На этом фоне Arm уже год выпускает новый улучшенный процессор Cortex-A77. Якобы такие же, как и у его предшественника, с точки зрения высокого уровня, инженеры Arm внесли изменения в конструкцию, чтобы значительно увеличить количество инструкций за такт.

Таким образом, цель состояла в том, чтобы повысить производительность посредством улучшений IPC, не увеличивая ключевой ограничитель: мощность. Так как же Arm смог претендовать на красивые однопоточные улучшения без масштабного пересмотра дизайна? Читать дальше.

Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

Эта блок-схема подчеркивает сходства и архитектурные улучшения по сравнению с Cortex-A76. Давайте возьмем каждого по очереди.

Трата времени и ресурсов на этот интерфейсный блок улучшает способность процессора оптимизировать поток команд, поступающих в области выборки, декодирования и отправки, что позволяет процессору, так сказать, кормить исполняющего зверя.

Отличное место для начала – модуль прогнозирования ветвлений (BPU), который, как следует из названия, пытается угадать, куда пойдет ветвь. Причина ветвления заключается в том, чтобы поддерживать процессор как можно более загруженным, выполняя инструкции не последовательным образом – внеочередную обработку – поэтому архитекторы обычно тратят здесь много времени и усилий. Компромисс между усилением BPU заключается в увеличении мощности и площади кремния, поэтому это прекрасный баланс для архитектуры с ограничением TDP, такой как Cortex-A77.

Прогнозирование веток и использование СС

Тем не менее, поскольку этот новый Cortex имеет более мощное ядро ​​выполнения – подробнее об этом – BPU также нуждается в обновлении. Таким образом, Arm удваивает пропускную способность предсказания ветвления, до 64 байтов за цикл, и, следовательно, сглаживает любые нежелательные пузырьки – там, где ничего не происходит в течение этого цикла – от основного ядра. Есть также какой-то секретный соус, который уменьшает вероятность ошибочных прогнозов. Помните, что неправильно на первом этапе нужно очистить весь конвейер, что является дорогостоящим с точки зрения энергопотребления и производительности. В совокупности Cortex-A77 имеет больший целевой буфер ветвления (имеет неявный смысл) и намного больший вход L1-BTB.

Интересной частью внешнего интерфейса является наличие микрооперационного кэша (обозначенного как MOP), также присутствующего на последних процессорах x86 от Intel и AMD. Цель MOP проста: хранить / кэшировать инструкции по мере их декодирования. Преимущество этого кэша состоит в том, что он позволяет выборочной части проекта, показанной выше, извлекать инструкцию из кэша и экономить электроэнергию, не требуя выяснения необходимых инструкций с нуля. Это также сокращает шаг от конвейера до 10 циклов, так что это беспроигрышный вариант во всем раунде.

Конечно, указывая на очевидное, микрооперационный кеш работает по инструкциям «второй раз» (потому что это хранимый кеш), что означает, что выигрыш в производительности не будет очевиден при первом запуске инструкций. Будучи включенным в i-кэш L1, Arm считает, что размер MOP 1,5 КБ (около 6 КБ для обычного кеша инструкций) имеет скорость попадания около 85% в широком диапазоне рабочих нагрузок. Кэш MOP имеет огромное значение для сред с ограниченным энергопотреблением, которые обычно разрабатывает Arm.

Один вопрос, который вы, возможно, задаете себе, заключается в том, почему Arm не внедрил выделенный кэш MOP в более ранних архитектурах, если он эффективен для повышения производительности при одновременном потенциальном снижении энергопотребления? Ответ двоякий: это не тривиальная задача, и, во-вторых, производительность процессора должна быть достаточно сильной, чтобы гарантировать такой кэш. Cortex-A77 – первое, что Arm считает достаточно хорошим, чтобы извлечь выгоду из увеличения общего силиконового следа.

Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

Широкий и умный

Переходя к декодированию, поклонники архитектуры поймут, что Arm увеличивает пропускную способность диспетчеризации на 50 процентов, с четырех команд за цикл до шести. Эта ширина сохраняется до регистрации переименования / отправки, и общая диспетчеризация на ядре выполнения увеличивается с восьми на Cortex-A76 до 10 здесь. Чтобы вместить такие изменения, нужно большее окно не по порядку, чтобы оно перепрыгнуло со 128 записей до 160, снова питая исполняющего зверя.

Эта ширина передней и средней части не годится, если вы не можете ее использовать. Cortex-A77 приносит с собой второй бренд и третий арифметико-логический блок (ALU) для более параллельной обработки команд. На верхнем уровне исполнительного ядра рассматривается увеличение обработки на 50% – Cortex-A76 имеет одну ветвь, двойное ALU и многоцелевое ALU, поэтому здесь отсутствуют две дополнительные возможности исполнения, доступные здесь. Хотя это и не показано явно, у Cortex-A77 есть и второй канал AES. Также стоит отметить, что Cortex-A77 использует единую очередь команд из-за повышенной эффективности.

Другим интересным отличием является то, как функционирует блок управления памятью, и это область, в которой Arm добивается значительного прироста производительности. Прежде всего, по сравнению со своим предшественником, Cortex-A77 обеспечивает конвейерам с датой хранения прямой доступ к очереди проблем – он представлен на блок-схеме двумя самыми верхними оранжевыми линиями в MMU. На самом деле это означает дополнительную пропускную способность, что всегда хорошо.

Очередь load-store, как следует из названия, отвечает за загрузку и хранение данных в и из памяти, поэтому с точки зрения дизайна все, что можно сделать для повышения эффективности этого процесса, приносит немалые дивиденды. Arm использует так называемый «предварительный сборщик данных следующего поколения», который предлагает множество преимуществ, в том числе обеспечивает более широкую полосу пропускания из основной памяти, снижает необходимость заходить так далеко и в результате повышает энергоэффективность.

Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

Сумма всех этих архитектурных изменений – более интеллектуальный интерфейс, более широкая диспетчеризация и выполнение, а также более интеллектуальная предварительная выборка данных – в целом улучшается на 20% по сравнению с Cortex-A76 на ровном игровом поле.

Можно ожидать приличного прироста в целочисленном тестировании, но немного удивляет прирост производительности с плавающей запятой, в основном за счет более умного обращения с памятью. Конечно, нельзя считать эталонные тесты SPEC евангелием – некоторые части тестов работают очень хорошо на Cortex-A77, возможно, слишком хорошо, но вывод состоит в том, что любой смартфон, оснащенный этим процессором, должен предлагать легкий переход для дизайнера SoC и дополнительный скачок производительности во всех сценариях.

Производитель смартфонов должен решить, сколько ядер сложить, на какой скорости и т. Д., Хотя сравнение с яблоками и яблоками означает, что аппаратное обеспечение Cortex в следующем году должно оставаться конкурентоспособным.

ARM сделала очень здоровые шаги в производительности при переходе от Cortex-A75 к Cortex-A76. Новейшая итерация строится на основе Cortex-A76 и повышает производительность, делая ее более широкой конструкцией … и все это без значительного увеличения мощности или занимаемой площади. Две выдающиеся функции – кэш MOP и совершенно новый предварительный выбор – делают все возможное, чтобы повысить все важные IPC.

ARM вышла на новый уровень с новым процессорным ядром Cortex-A77, которое неизбежно заменит нынешний Cortex-A76 в качестве выбора для ряда премиальных разработчиков SoC. Лучше, чем его предшественник во всех отношениях, и достаточно хорошие, или, так сказать, эталонные тесты, чтобы быть настоящим процессором класса ноутбука, мы ждем затаив дыхание, чтобы увидеть, сможет ли Arm наконец сломать хватку x86 в этом пространстве.

ОСТАВЬТЕ ОТВЕТ

нажмите Enter и отправьте ваш комментарий
Пожалуйста, введите ваше имя

Встречайте Эльбрус-16S: 16-ядерный процессор с тактовой частотой 2 ГГц, разработанный в России по 16-нм техпроцессу

  На форуме «Микроэлектроника-2020» был продемонстрирован инженерный образец Эльбрус-16С - первого процессора на базе российской технологии. Он содержит в общей сложности 16 ядер с тактовой...

Ryzen 7 4700G от AMD быстрее, чем PS4: Режим Death Stranding & GTA V 1080p 50-60 FPS

Мы уже прошли множество тестов, показывающих возможности процессора APU Renoir на AM4, но на самом деле это более достойный внимания графический процессор, а не...

Intel в 2021 году передаст 180 тыс. Чипов по 6 нм из TSMC; AMD удвоит заказы на 7 нм до 200K

Похоже, что объявление Intel о приближении к сторонним литейным цехам пришло хорошо после того, как решение было фактически принято внутри компании. Согласно источникам, Intel...

На ноутбуки приходится 30% дохода Intel в 2 квартале 2020 года (5 844 млрд долларов), на ПК – 12% или 2 368 млрд долларов

Рынок ноутбуков - один из основных рынков Intel, на который приходится около 30% общего дохода компании во втором квартале 2020 года. Зная, что неудивительно,...

Доход Intel для настольных ПК во втором квартале 2020 года упал на 460 миллионов долларов на фоне высоких продаж AMD

Общий отчет Intel о доходах за второй квартал, возможно, был положительным, но не все сегменты сделали так же хорошо, как остальные. Платформа настольных компьютеров,...

AMD Ryzen 7 4700G разогнан до 5 ГГц по всем ядрам без LN2

Накануне запуска настольного компьютера Renoir у нас есть еще один впечатляющий результат, показывающий флагманский APU, Ryzen 7 4700G. Процессор был разогнан почти до 5...

В теме дня

Arm выпускает процессор Cortex-A77 для мобильных устройств нового поколения

Экран монитора: IPS vs TN vs VA: описание и сравнение характеристик

0
Представьте, что вы покупаете новый игровой монитор. Теперь, прежде чем отправиться (или онлайн), есть много вещей, чтобы рассмотреть. Разрешение и частота обновления - это...