Как технический энтузиаст с более чем семилетним опытом погружения в мир ускорителей машинного обучения и приложений искусственного интеллекта, я должен сказать, что последние достижения Arm были не чем иным, как революционными. Став свидетелем эволюции различных процессоров, от графических процессоров до NPU, приятно видеть сдвиг в парадигме, когда вам не нужен NPU для задач ИИ.
В эту быстро развивающуюся технологическую эпоху машинное обучение и искусственный интеллект трансформируют отрасли и революционизируют взаимодействие человека с миром. Искусственный интеллект позволяет разработчикам программного обеспечения создавать более умные, адаптируемые и повышающие производительность приложения. Благодаря своей стратегической позиции в отрасли, Arm уже более десяти лет содействует внедрению решений искусственного интеллекта на различных платформах.
В этой статье я объясню, как технологии Arm позволяют разработчикам сконцентрироваться на творческих достижениях и уникальных функциях в своих проектах, используя уже существующие технологии Arm.
Вам не нужен NPU для приложений ИИ
Вот уже около семи лет я создаю контент, в котором обсуждаются плюсы и минусы различных ускорителей машинного обучения, часто называемых NPU. Вопреки распространенному заблуждению, эти процессоры не необходимы для выполнения операций машинного обучения или искусственного интеллекта. Вместо этого эти задачи могут выполняться на широком спектре оборудования, например, на процессорах или графических процессорах. Благодаря технологии, встроенной в микропроцессоры Arm v8 и Arm v9, можно эффективно выполнять задачи ускоренного машинного обучения на процессорах Arm.
Фундаментальной математической операцией в машинном обучении и искусственном интеллекте является умножение матриц, и эту задачу эффективно решают графические и NPU. Интересно, что современные процессоры Arm также хорошо справляются с этими вычислениями и оснащены аппаратными ускорителями для той же цели. Независимо от того, процессоры ли это Arm v8 или Arm v9, Cortex-A или Cortex-X или даже процессоры Arm Neoverse, все они обладают уникальными технологиями, которые способствуют ускорению операций умножения матриц.
Как энтузиаст технологий, я всегда в восторге от расширенных возможностей процессоров Arm. Например, они оснащены технологией Neon и масштабируемыми векторными расширениями (SVE), которые весьма примечательны. Знаете ли вы, что эти процессоры также имеют в своем наборе команд 8-битные инструкции по матричному умножению?
Технология Kleidi от Arm
Клейди играет решающую роль в стратегии Arm по внедрению искусственного интеллекта в мобильных и серверных системах на базе Arm. Он включает в себя разнообразные инструменты и возможности совместной работы, предназначенные для быстрого ускорения разработки ИИ на Arm. Сюда входит библиотека KleidiAI — набор высокоскоростных ядер машинного обучения, оптимизированных для процессоров Arm и использующих различные аппаратные ускорители.
Включив технологию Kleidi в известные платформы искусственного интеллекта, такие как PyTorch и ExecuTorch, Arm значительно повысила производительность этих инструментов для разработчиков, предложив заметные улучшения прямо из коробки. Эта интеграция позволяет разработчикам легко использовать оптимизированные библиотеки Arm в своих текущих рабочих процессах, потенциально достигая 12-кратного увеличения производительности с минимальными дополнительными усилиями.
Проще говоря, Arm объединилась с Meta, чтобы обеспечить безупречную работу новейшей модели искусственного интеллекта Llama 3.2 на процессорах Arm. Меньшие версии этого ИИ, например, с одним миллиардом и тремя миллиардами параметров, необходимы для решения крупномасштабных текстовых задач ИИ. Более крупные модели, такие как Llama 3.2 (11 миллиардов параметров) и облачная модель с 90 миллиардами параметров, могут работать на процессорах Arm. Эти более крупные модели идеально подходят для облачных рабочих нагрузок по созданию текста и изображений.
Версия Llama 3.2 с 11 миллиардами параметров, работающая на процессоре Amazon AWS Graviton4, может достигать 29,3 токенов в секунду на этапе генерации, и это только на ЦП. Благодаря сотрудничеству Arm и Meta в рамках платформы ExecuTorch теперь вы можете добиться оптимальной производительности, запуская эти модели на периферии. Запуск нового трехмиллиардного LLM Llama 3.2 на смартфоне с питанием от Arm посредством оптимизации процессора Arm приводит к 5-кратному улучшению оперативной обработки и 3-кратному улучшению генерации токенов, достигая 19,92 токенов в секунду на этапе генерации.
Если вы хотите продемонстрировать это, посмотрите мое видео выше.
Огромный стимул для разработчиков
Благодаря этим достижениям потенциал для разработчиков огромен. Представьте себе, чего вы могли бы достичь с помощью мощной языковой модели, работающей на телефоне с использованием процессора Arm — нет необходимости в графическом процессоре, NPU или облачных сервисах; только сам процессор. Стратегия Arm делает упор на переносимость производительности, позволяя разработчикам ИИ один раз оптимизировать свои модели, а затем беспрепятственно развертывать их на нескольких платформах без каких-либо корректировок. Это невероятно полезно для разработчиков, которым необходимо распространять модели на периферийных устройствах, таких как смартфоны, а также в облаке. Выбирая Arm, разработчики могут с уверенностью ожидать, что их модель будет эффективно работать на других платформах после оптимизации для одной конкретной платформы.
Платформа Arm предлагает ценные ресурсы для разработчиков, такие как руководства по оптимизации скорости задач генеративного искусственного интеллекта и машинного обучения при их выполнении на процессорах Arm. Кроме того, он позволяет разработчикам использовать возможности искусственного интеллекта и машинного обучения на устройствах Android.
Смотрите также
- Аниме «Возможно, величайший алхимик всех времен» раскрывает превью новой серии 1 в преддверии январской премьеры
- Обзор Fiio SR11: доступный сетевой стример с интеграцией Roon
- Google до сих пор не исправил задержку уведомлений на пикселях, но вы можете попробовать это
- Какой цвет Galaxy S24 лучший? Мы проверили их все
- Можно ли использовать поврежденное устройство Stellar Blade после «Неизвестного подарка»?
- Лучшие фильмы десятилетия в формате Dolby Atmos (на данный момент) для проверки вашего домашнего кинотеатра
- Лучшие телефоны для людей, чувствительных к ШИМ/мерцанию, 2024 г.
- Беспроводные наушники Sony WH-1000XM6 планируют выпустить в 2025 году
- Проблемы Google Pixel 7a и как их исправить
- Pixel 4a получит неожиданное обновление в 2025 году
2024-12-16 19:17