
TLDR
- Модели Gemma 4 теперь доступны для загрузки с использованием обучения с учётом квантования (QAT), которое уменьшает размер и потребление памяти моделями.
- Эти модели с открытым исходным кодом лучше сохраняют качество благодаря QAT по сравнению с теми, которые используют пост-тренировочную квантизацию (PTQ).
- Модели Gemma 4, оптимизированные с помощью QAT, доступны в пяти размерах: Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B и Gemma 4 31B.
На этой неделе Google выпустила обновленные версии своей модели Gemma 4 12B, изначально выпущенной для ноутбуков, с использованием техники, называемой обучением с учетом квантования. Квантование помогает уменьшить объем памяти, необходимый для запуска этих небольших моделей. Хотя распространенный метод, постобработочное квантование, иногда может снизить производительность, новые версии Google используют обучение с учетом квантования для поддержания качества модели и ускорения обработки, как объясняется в недавней записи в блоге.
"Просто покупай индекс", говорили они. "Это надежно". Здесь мы обсуждаем, почему это не всегда так, и как жить с вечно красным портфелем.
Поверить в рынокGoogle обнаружил, что обучение моделей с использованием квантования напрямую приводит к лучшим результатам, чем просто сжатие готовой модели. Это позволяет создавать высокосжатые модели, которые эффективно работают на таких устройствах, как телефоны и ноутбуки. Они достигают этого благодаря специальному методу сжатия, который использует предустановленные конфигурации, снижает точность некоторых компонентов модели до всего лишь 2 битов и сжимает словарь и кратковременную память. В конечном итоге, это означает, что пользователи получают модели меньшего размера и с меньшим потреблением памяти.
Gemma представлена в разных размерах, все оптимизированы для более высокой производительности. К ним относятся Gemma 4 E2B, E4B, 12B, 26B A4B и 31B. Меньшие версии, такие как Gemma 4 E2B только для текста, используют менее 1 ГБ памяти, что делает их идеальными для запуска на мобильных телефонах.
Google опубликовала приблизительные требования к памяти для загрузки новых моделей Gemma 4 с использованием обучения с учетом квантования (Quantization Aware Training (QAT)), разбитые по размеру модели.

Google предлагает модели Gemma 4 QAT в четырех версиях: стандартные контрольные точки, формат, называемый GPT-Generated Unified Format (GGUF), версия, оптимизированная для мобильных устройств, и сжатые тензоры. Google заявляет, что эти версии сохраняют качество, сравнимое с bfloat16, при значительно меньшем использовании памяти.
Как только вы скачаете модель Gemma 4 QAT, вы сможете использовать её на своем телефоне, ноутбуке или компьютере. Модели доступны на Hugging Face и в LM Studio.
Смотрите также
- Первые 11 вещей, которые нужно сделать с Samsung Galaxy Watch Ultra
- Приложение Quick Share для Windows теперь выглядит немного больше как Android-приложение.
- Поддерживает ли Samsung Galaxy S24 FE eSIM и две SIM-карты?
- Фильм, который Анджелина Джоли сказала, был недостаточно сексуальным для неё.
- Самые мощные оружия из Властелина Колец — ранжированные по разрушительной силе
- Терминал и Скидроу получили награду из Modern Warfare 3 Ranked
- Практический курс Google Gemini «Спросите это видео»: возможности YouTube в одно мгновение
- 10 лучших чехлов, которые обязательно нужно иметь для вашего нового Samsung Galaxy S25 Ultra!
- Проблема предустановленного ненужного ПО на устройствах Samsung вот-вот усугубится.
- Лучшие хиты этого года — «Наизнанку 2» и «Дикий робот» — поборются за лучший анимационный фильм на «Золотом глобусе»
2026-06-05 23:48