https://youtube.com/watch?v=7-ZW1LnKJ60
В этом году Arm представила свои новейшие процессорные технологии для будущих мобильных устройств, которые могут появиться в продаже к концу года. Как обычно, мы обсудим новые компоненты CPU и GPU, но есть также некоторые сложные изменения в традиционной структуре, которые требуют нашего внимания в этот раз.
"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.
Поверить в рынокЭто неудивительно, учитывая стремительные изменения в индустрии за последний год. В ответ на это Qualcomm выбрала собственные процессоры на базе Arm с Snapdragon 8 Elite, что привело к уменьшению числа крупных флагманских устройств, использующих интеллектуальную собственность Arm в этом году. Одновременно с этим Google перешла на Imagination Technologies для графики, а быстрое развитие искусственного интеллекта нарушило традиционные методы измерения производительности. Последнее заявление Arm направлено на прямое решение некоторых из этих трудностей.
Для начала, пришло время для очередного изменения в нашей линейке продуктов. Процессоры Cortex-X и A прошлого года заменяются новыми процессорами C1, которые классифицируются как ядра Ultra, Performance, Pro и Nano. Я подробнее расскажу об этих изменениях через некоторое время. Что касается нашего графического подразделения, изменения менее значительны; Mali остается в команде, но Immortalis – термин, который мы недавно представили для высокопроизводительной графики, постепенно выводится из употребления в пользу более простой схемы наименований: G1-Ultra, Premium и Pro.
Происходит значительный сдвиг, поскольку Arm увеличивает свою вовлеченность в разработку платформ и предложение готовых решений, что по сути означает предоставление конструкций, которые можно напрямую внедрить в чип. Это изменение может вызвать вопросы о том, как оно повлияет на традиционную модель лицензирования отдельных компонентов. Однако Arm утверждает, что клиенты по-прежнему будут иметь возможность настраивать свои платформы, выбирая конкретные CPU и GPU компоненты в соответствии со своими предпочтениями. Тем не менее, укрепляя более тесные отношения с такими производителями, как TSMC, и тесно интегрируя свою платформу, Arm стремится ускорить выход на рынок. Стоит отметить, что решения, включающие ядра C1-Ultra и Premium, брендируются под маркой Arm Lumex.
Пора углубиться в последние достижения, касающиеся физических аспектов нашего разума.
Познакомьтесь с Arm C1, от Ultra до Nano
С представлением процессорных ядер Arm C1 произошло небольшое изменение в архитектурном дизайне. Все новейшие ядра были обновлены до ArmV9.3, что означает, что мы прощаемся с комбинированием и переключением между предыдущими моделями Cortex-X и A. В этом году вы больше не найдете многоуровневых компонентов Cortex-X в наших анонсах чипсетов. Однако, C1-Ultra и Performance можно считать преемниками Cortex-X925, в то время как C1-Pro берет на себя функции Cortex-A725, а C1-Nano по сути является улучшенной версией Cortex-A520. Таким образом, мы по-прежнему имеем дело с тремя различными микроархитектурами. Основное различие между C1-Ultra и Performance заключается в том, что последний оптимизирован для уменьшения площади на 35%, что делает его более доступным для чипсетов среднего и высокого уровня, хотя это может привести к незначительному снижению производительности.
Обсуждая улучшения, следует отметить, что прирост IPC в этом году, при схожей тактовой частоте и настройках кэша с прошлым годом, является достойным, но, возможно, не таким революционным, как можно было бы ожидать от переименования. Arm C1-Ultra кажется примерно на 12% быстрее, чем Cortex-X925, цифра, полученная из графика, которому не хватает более четкой маркировки. Однако, с учетом перехода на 3-нм технологию и более высокого потенциала тактовой частоты C1-Ultra на 4,1 ГГц по сравнению с 3,6 ГГц Cortex-X925, этот показатель увеличивается до 25%. Интересно, что более значительным развитием может быть то, что C1-Ultra способен обеспечить ту же производительность, что и в прошлом году, потребляя на 28% меньше энергии.
Arm C1-Ultra, более новая версия своего предшественника, может похвастаться более эффективной архитектурой с увеличенным окном вне очереди на 25%, что позволяет ей одновременно обрабатывать примерно 2000 инструкций по сравнению с 1500 у X925. Также наблюдается увеличение пропускной способности кэша L1 инструкций на 33% для более быстрого извлечения инструкций. Хотя неясно, улучшила ли Arm исполнительные устройства для использования этих дополнительных инструкций, фокус, похоже, направлен на улучшение производительности на начальном этапе, поскольку наблюдается лишь незначительное увеличение прироста инструкций на цикл (IPC). Arm заверяет, что их премиальные ядра предназначены для обеспечения высочайшей производительности в широком диапазоне устройств, от планшетов до ноутбуков; я буду следить за дальнейшими разработками.
C1-Pro демонстрирует акцент на своей передней части, предлагая более крупный и интеллектуальный предсказатель переходов, а также увеличенный буфер целей переходов (BTB) для минимизации неверных предсказаний. Чтобы уменьшить циклы простоя, он также может похвастаться увеличенной пропускной способностью данных L1 и уменьшенной задержкой TLB L2 в своих кэшах. Эти улучшения приводят к экономии энергии, поскольку Arm прогнозирует, что C1-Pro обеспечит эквивалентную производительность Cortex-A725, потребляя на 26% меньше энергии или предлагая на 11% более высокую производительность при том же энергопотреблении, при условии учета SME2 (что мы рассмотрим подробнее через мгновение).
Новая C1-Premium на 35% меньше, чем C1-Ultra.
Как исследователь, я рад отметить впечатляющий скачок в энергоэффективности нашего последнего творения, C1-Nano. По сравнению с Cortex-A520, он демонстрирует существенное увеличение энергоэффективности на 26%. Ключ к этому улучшению лежит в основном в усовершенствовании предсказателя ветвлений и повышении функциональности кэша – то, что я люблю называть «секретным ингредиентом».
Кроме того, мы добились прогресса в улучшении векторной производительности ядра, оптимизировали управление тактовой частотой во время задержек для дальнейшего повышения энергоэффективности и значительно сократили трафик L3/DRAM. Это не только повышает общую энергоэффективность системы, но и обеспечивает более эффективную работу.
Хотя прирост производительности несколько скромнее, около 5-8%, важно помнить, что C1-Nano в первую очередь предназначен для фоновых задач, где эффективность выходит на первый план. Речь идет о предоставлении первоклассных результатов при поддержании лаконичного и энергоэффективного профиля.
Несмотря на переименованные процессоры, чипы Arm неизменно демонстрируют двузначные улучшения в количестве инструкций за такт (IPC), что, безусловно, примечательно и заслуживает признания. Однако, наиболее значительное изменение в этом году заключается в изменившемся подходе Arm к обработке рабочих нагрузок искусственного интеллекта.
Ставить всё на SME2 в сфере искусственного интеллекта.
С последними процессорами мы наблюдаем важное развитие — появление SME2, расширения, разработанного Arm для ускорения общих задач машинного обучения. SME2 расширяет первоначальный SME, функцию, которой в основном избегали чипы Android. Он включает многовекторные инструкции и предикаты, сжатие весов 2b/4b и 1b бинарные сети. Говоря проще, это означает, что он может быстрее обрабатывать больше типов рабочих нагрузок искусственного интеллекта.
Уникальность SME2 заключается в его размещении вне ядра центрального процессора, напоминая автономный ускоритель, в отличие от расширений NEON и SVE от ARM, которые интегрированы в процессор. Примечательно, что каждое ядро процессора в серии C1 может декодировать инструкции SME2, превращая его в общее вычислительное устройство. Эта настройка предлагает два немедленных преимущества: во-первых, когда устройство не требуется, его можно полностью отключить, а во-вторых, вы избегаете использования чрезмерно больших процессоров со встроенным SME2, который может редко использоваться. Более того, эта конструкция позволяет как премиальным, так и экономичным конфигурациям процессоров более легко предоставлять сопоставимые возможности SME2. Например, высокопроизводительная платформа Lumex CSS от Arm демонстрирует восемь ядер процессора в сочетании с двумя блоками C1-SME2, однако более компактная конфигурация также может предложить аналогичные возможности SME2, хотя и с несколько сниженной пропускной способностью инструкций.
SME2 не позволит вашему телефону запускать огромную чат-модель с 20 миллиардами параметров, но он повысит скорость работы более компактных моделей и инструментов искусственного интеллекта непосредственно на будущих процессорах для смартфонов. Согласно Arm, наблюдается снижение задержки в 4,7 раза при задачах распознавания речи, ускорение кодирования токенов для Gemma3 в 4,7 раза, увеличение скорости генерации Stable Audio в 2,8 раза и в среднем 3,7-кратное повышение производительности в различных других рабочих нагрузках по сравнению с тем же ядром C1-Pro CPU без SME2. Однако важно отметить, что многие задачи искусственного интеллекта все равно будут выполняться примерно в десять раз медленнее на процессоре с SME2 по сравнению с специализированной конфигурацией NPU или GPU.
Эта перефразировка направлена на сохранение исходного смысла, делая его более доступным и легким для чтения для широкой аудитории.
Как наблюдатель, я заметил, что библиотека XNNPACK от Google для Android уже включила SME2, технологию, которая также поддерживается различными фреймворками, такими как llama.cpp, MNN от Alibaba и ONNX от Microsoft. Эти фреймворки кипят машинным обучением. Кроме того, разработчики, которые в настоящее время используют программную библиотеку KleidiAI от Arm, которая интегрируется с этими фреймворками, автоматически получат выгоду от SME2, как только она станет доступной на смартфонах Android. Таким образом, будущие телефоны могут потенциально получить преимущество в приложениях искусственного интеллекта, которые не используют их блок нейронных вычислений (NPU) или графический процессор (GPU), но только если партнеры решат реализовать SME2, решение о котором пока не определено.
Трассировка лучей и машинное обучение на вашей видеокарте.
Новейший графический процессор Mali G1-Ultra от Arm демонстрирует заметные улучшения в этом году. По сравнению с Immortalis G925 с 14-ядерной конфигурацией прошлого года, G1 Ultra обеспечивает примерно на 20% более высокую производительность в играх и машинном обучении, потребляет на 9% меньше энергии на кадр и предлагает до двухкратной скорости трассировки лучей. Значительная часть увеличения производительности графического процессора ARM в этом году объясняется зависимостями областей изображения, которые помогают графическому процессору минимизировать избыточные задачи, обходить ожидание несвязанных тайлов и оптимизировать использование памяти. Кроме того, новый графический процессор оснащен улучшенными межсоединениями на чипе, которые удваивают пропускную способность и кэш-память, тем самым снижая перегрузку и повышая общую скорость, по сути, поддерживая ядро активным.
Проще говоря, новый подход компании Arm к трассировке лучей значительно превосходит предыдущие методы в два раза. Это достижение стало возможным благодаря инновации Arm в области непосредственной обработки обхода BVH в аппаратном обеспечении и использованию одного луча вместо упакованных лучей для вычислений. Хотя параллельная обработка упакованных лучей обычно полезна, она менее важна, когда алгоритм обрабатывается в выделенном блоке. Подход с использованием одного луча также упрощает работу систем с ограниченным объемом памяти, хотя он может не использовать преимущества кэширования для близлежащих лучей. Кроме того, объединив трассировку лучей и тестирование на пересечение в одну структуру, Arm может экономить энергию, отключая RTU, когда он не используется, тем самым повышая общую энергоэффективность. Однако из-за этого конструктивного решения может незначительно увеличиться требуемое количество места.
Улучшение производительности во многом зависит от количества используемого трассировки лучей в сцене. В настоящее время существует лишь несколько игр, использующих трассировку лучей, и еще меньше, в которых присутствуют интенсивные элементы трассировки лучей. Таким образом, хотя производители, такие как Arm, заявляют об увеличении производительности в 2 раза, реальные результаты могут быть ближе к 40%. Однако важно отметить, что это значительное улучшение по сравнению с предыдущей программной трассировкой лучей, но все же не соответствует заявленному увеличению в 2 раза.
В случае с бенчмарком Lumilings RT от Arm, построенным на Unreal Engine 5, фактическая выгода ниже, чем у старого программного обеспечения. Бенчмарк показывает в среднем 37,5 кадров в секунду, но были случаи, когда частота кадров опускалась ниже 24 кадров в секунду. Это означает, что выгоды могут варьироваться от одного сценария к другому, поэтому к заявлениям об увеличении производительности в 2 раза следует относиться со скептицизмом при рассмотрении реальных рабочих нагрузок.
Подобно предыдущим версиям, графический процессор G1 доступен под различными брендами в зависимости от количества ядер. Если графический процессор Mali G1 имеет 10 или более ядер с постоянными возможностями трассировки лучей, он классифицируется как G1-Ultra. Обозначение G1-Premium указывает на 6–9 ядер, а G1-Pro с 1–5 ядрами представляет собой более компактную конфигурацию, обычно встречающуюся в бюджетных чипсетах.
Как будут выглядеть мобильные SoC следующего поколения?
В предыдущие годы конкретные компоненты Arm, которые мы видели, сильно зависели от приоритетов, установленных партнерами. Возможно, мы столкнемся с более производительными решениями, подобными недавней серии Dimensity от MediaTek, в то время как другие могут придерживаться более традиционного кластерного подхода. Нам просто придется дождаться анонсов продуктов нового поколения, чтобы узнать наверняка.
Если говорить проще, платформа Lumex Reference FPGA от Arm указывает на их высокопроизводительную мобильную конфигурацию. Этот набор включает в себя два мощных ядра C1-Ultra, работающих на частоте 4.1 ГГц, в сопровождении шести ядер C1-Pro, работающих на частоте 3.5 ГГц. Кроме того, имеются два блока SME2 и большой L3-кэш объемом 16 МБ. Важно отметить, что эта конфигурация не включает менее мощные ядра.
Более того, она включает в себя мощный 14-ядерный графический процессор Mali-G1 Ultra с 4 МБ L2-кэша и 16 МБ системного кэша, все построенное по 3-нм техпроцессу. Эта разработка была бы довольно крупной и требовательной к памяти из-за широкого использования оперативной памяти.
Исторически партнеры Arm проявляли осторожность в использовании больших кэшей из-за соображений стоимости. Однако, обилие памяти помогает максимально раскрыть потенциал последних CPU и GPU ядер Arm.
Компания Arm рекомендует своим партнерам рассмотреть возможность перехода с C1-Ultra на C1-Premium в их чипсетах почти флагманского уровня для более экономичной конструкции, которая экономит площадь, слегка жертвуя производительностью в однопоточном режиме. Это изменение также может включать в себя меньшую конфигурацию графического процессора, но при этом будет поддерживаться трассировка лучей и SME2 для возможностей искусственного интеллекта.
Для чипсетов среднего уровня компания Arm обычно планирует использовать либо ядро Ultra, либо Premium в сочетании с тремя ядрами Pro и четырьмя Nano. Основной ценовой сегмент будет обслуживаться двумя ядрами Pro и шестью Nano. Любая из этих конфигураций может быть объединена с SME2 для повышения производительности машинного обучения. Однако маломощные чипсеты, для которых приоритетна экономичность, могут отказаться от более крупных конфигураций Mali-G1 в пользу более компактных.
Предстоящие мобильные процессоры, использующие новейшие технологии C1 и G1 от Arm, предположительно обеспечат значительное повышение производительности в повседневных задачах и экономию энергии. Однако наиболее существенные улучшения наблюдаются в специализированных областях машинного обучения и возможностей трассировки лучей, но потребители не так стремятся к этим функциям, как лидеры индустрии. Ожидается, что MediaTek Dimensity 9500 станет первым флагманским чипсетом, в котором будут использоваться новые ядра CPU C1 и GPU G1-Ultra. Возможно, что Google Tensor G6 следующего года также примет технологию C1, но в конфигурации 1+6 с GPU другого производителя, и это объявление еще примерно через год.
Смотрите также
- 10 лучших чехлов, которые обязательно нужно иметь для вашего нового Samsung Galaxy S25 Ultra!
- Лучшие телефоны Android для студентов 2024 года
- Сайрус 40 СТ
- Лучшие телефоны для людей, чувствительных к ШИМ/мерцанию, 2024 г.
- Обзор Fiio SR11: доступный сетевой стример с интеграцией Roon
- Первые 11 вещей, которые нужно сделать с Samsung Galaxy Watch Ultra
- Муби обеспечивает гей -роман Пола Мескала и Джоша О’Коннора «История звука» для Северной Америки
- 20 лучших рождественских ЛГБТ-фильмов всех времен
- 20 самых желанных холостяков Голливуда в 2025 году, ранжированные
- 30 лучших фильмов об обмене парой и женой, которые вам нужно посмотреть
2025-09-10 05:21