Последние модели Gemma 4 используют трюк при обучении, чтобы значительно уменьшить объем памяти на устройстве.

Google обнаружил, что обучение моделей с использованием квантования напрямую приводит к лучшим результатам, чем просто сжатие готовой модели. Это позволяет создавать высокосжатые модели, которые эффективно работают на таких устройствах, как телефоны и ноутбуки. Они достигают этого благодаря специальному методу сжатия, который использует предустановленные конфигурации, снижает точность некоторых компонентов модели до всего лишь 2 битов и сжимает словарь и кратковременную память. В конечном итоге, это означает, что пользователи получают модели меньшего размера и с меньшим потреблением памяти.







