Последние модели Gemma 4 используют трюк при обучении, чтобы значительно уменьшить объем памяти на устройстве.

TLDR

Модели Gemma 4 теперь доступны для загрузки с использованием обучения с учётом квантования (QAT), которое уменьшает размер и потребление памяти моделями.
Эти модели с открытым исходным кодом лучше сохраняют качество благодаря QAT по сравнению с теми, которые используют пост-тренировочную квантизацию (PTQ).
Модели Gemma 4, оптимизированные с помощью QAT, доступны в пяти размерах: Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B и Gemma 4 31B.

На этой неделе Google выпустила обновленные версии своей модели Gemma 4 12B, изначально выпущенной для ноутбуков, с использованием техники, называемой обучением с учетом квантования. Квантование помогает уменьшить объем памяти, необходимый для запуска этих небольших моделей. Хотя распространенный метод, постобработочное квантование, иногда может снизить производительность, новые версии Google используют обучение с учетом квантования для поддержания качества модели и ускорения обработки, как объясняется в недавней записи в блоге.

"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.

Поверить в рынок

Google обнаружил, что обучение моделей с использованием квантования напрямую приводит к лучшим результатам, чем просто сжатие готовой модели. Это позволяет создавать высокосжатые модели, которые эффективно работают на таких устройствах, как телефоны и ноутбуки. Они достигают этого благодаря специальному методу сжатия, который использует предустановленные конфигурации, снижает точность некоторых компонентов модели до всего лишь 2 битов и сжимает словарь и кратковременную память. В конечном итоге, это означает, что пользователи получают модели меньшего размера и с меньшим потреблением памяти.

Gemma представлена в разных размерах, все оптимизированы для более высокой производительности. К ним относятся Gemma 4 E2B, E4B, 12B, 26B A4B и 31B. Меньшие версии, такие как Gemma 4 E2B только для текста, используют менее 1 ГБ памяти, что делает их идеальными для запуска на мобильных телефонах.

Google опубликовала приблизительные требования к памяти для загрузки новых моделей Gemma 4 с использованием обучения с учетом квантования (Quantization Aware Training (QAT)), разбитые по размеру модели.

Google предлагает модели Gemma 4 QAT в четырех версиях: стандартные контрольные точки, формат, называемый GPT-Generated Unified Format (GGUF), версия, оптимизированная для мобильных устройств, и сжатые тензоры. Google заявляет, что эти версии сохраняют качество, сравнимое с bfloat16, при значительно меньшем использовании памяти.

Как только вы скачаете модель Gemma 4 QAT, вы сможете использовать её на своем телефоне, ноутбуке или компьютере. Модели доступны на Hugging Face и в LM Studio.

Смотрите также

2026-06-05 23:48