GLM-Image - это модель генерации изображений на основе искусственного интеллекта, разработанная компанией zai-org и использующая гибридную архитектуру авторегрессионного и диффузионного декодера. Позиционируясь в одном ряду с основными латентно-диффузионными подходами к общему качеству генерации изображений, инструмент предлагает заметные преимущества в сценариях, требующих рендеринга текста и генерации, требующей больших знаний.
Он демонстрирует впечатляющую производительность в задачах, требующих надежного семантического понимания и сложного выражения информации, обеспечивая при этом высокую точность и детальность генерации изображений.
Архитектура включает 9B-параметрический авторегрессионный генератор, инициализирующийся из GLM-4-9B-0414 с дополнительными визуальными лексемами, диффузионный декодер и систему посттренинга с алгоритмом обучения с подкреплением GRPO для улучшения семантического понимания и качества визуальных деталей.
GLM-Image может работать как с переводом текста в изображение, так и с переводом изображения в изображение. Он позволяет генерировать изображения с высокой детализацией на основе текстовых описаний и поддерживает широкий спектр задач, связанных с преобразованием изображений в изображения, включая редактирование изображений, передачу стиля, последовательную генерацию нескольких объектов и генерацию с сохранением идентичности.

Отзывы