Генерация изображений и видео – что нового за последний год?

Генерация изображений и видео – что нового за последний год?

С высокоуровневой аналитикой и сложными научно-исследовательскими проектами ГИИ еще долго не достигнет «минимального порога зрелости», когда технологию можно будет применять в бизнес-проектах, в науке или при создании новых технологий.

Однако, есть сегменты, где прогресс более, чем впечатляющий – это изображение и видео. Я отследил весь процесс эволюции от первых кастрированных версий до весьма развитых инструментов генерации изображений и видео.

Честно говоря, не было еще ни одного раза за пару лет, где бы весь этот синтетический контент можно было бы применить (с моей стороны). Пользуюсь даже не ради забавы (особо нет на это времени), а из-за необходимости отслеживания прогресса в технологиях.

С точки зрения темпов развития технологии – достаточно любопытно, а конечный результат часто бывает весьма захватывающим. ГИИ в формате создания изображений и видео похож на волшебный инструмент, действительно можно создавать шедевры при должной подготовке. Пространство для творчества – невероятное.

Если бы я был художником и дизайнером, имел бы более восторженное мнение о ГИИ.

Отрасль только зарождается, поэтому здесь нет и быть не может стабильности. Лидеры, которые были вчера - могут уйти в конец списка (DALL-E от OpenAI), а новые игроки (FLUX) создают правила функционирования и определяют тренды.

В наибольшей степень трансформирующее влияние на экономику окажет сегмент ГИИ в генерации изображений и видео. Здесь будут затронуты широкие сегменты: видеоигры, дизайн и искусство, кинематограф (в перспективе 3-4 лет), маркетинг и реклама, контент для медиа индустрии и социальных сетей, образование и обучение (интерактивные курсы).

В перспективе технологии могут быть применены в архитектуре, промышленном инжиниринге, медицине и т.д.

Актуальный список (на январь 2025) топовых инструментов по генерации изображений (по собственным тестам):

1. FLUX

2. Midjourney

3. ImageFX от Google

4. Ideogram

5. Recraft

6. Playground

7. Dall-e

8. Artflow

9. Leonardo

10. Stable Diffusion

Тестировал все сервисы. В самом начале 1.5 года назад лидерами были Dall-e и Stable Diffusion, теперь в конце списка.

Сейчас по качеству, наверное, первые три в списке. Все очень быстро меняется. Никто бы не мог предположить, что вечно отстающий Google создаст неплохой инструмент ImageFX, но на практике слишком зацензурированный и малопригодный для генерации, плюс нет редактирования и контроля сцены. Самый развитый инструментарий у Midjourney.

Актуальный список (на январь 2025) топовых инструментов по генерации видео:

1. Kling (Китай)

2. Runway

3. Sora от OpenAI

4. Voe 2 от Google

5. PixVerse

6. Hailuo MiniMax (Китай)

7. Pika

8. Hunyuan (Китай)

9. Luma Dream Machine

10. Genmo

В начальной фазе развития технологий генерации видео в топах были Luma Dream Machine и Genmo, а сейчас хуже всех.

Открытие года – внедрение в топы китайцев, которые развиваются более высокими темпами, чем коллеги из США. Распиаренная Sora оказалась средней, на мой взгляд, плюс проблема цензуры и невозможности генерировать сцены по запросам. Самый развитый инструментарий у Runway.

В конце года удивили Google DeepMind с Voe 2, который потенциально один из лучших на рынке, но полноценно еще не тестировал.

С изображениями уже очень хорошо, с видео пока плохо – несогласованность и неадекватное взаимодействие объектов, нереалистичная симуляция физических и природных процессов, света, теней и так далее.

Конкуренция невероятно высокая. Как минимум, 10 сервисов по каждому направлению, причем все очень быстро меняется, как в представленной группе, так и в плане внедрения новых игроков. Через год все опять поменяется.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей