Нова функція: тепер користувачі ChatGPT можуть генерувати зображення

зображення в chatgpt

Відучора OpenAI інтегрує нові можливості створення зображень безпосередньо в ChatGPT — ця функція називається «Зображення в ChatGPT» – “Images in ChatGPT.” Тепер користувачі можуть використовувати GPT-4o для створення зображень у самому ChatGPT.

Американське видання TechCrunch повідомляє, що під час прямої трансляції у вівторок генеральний директор OpenAI Сем Альтман оголосив про перше велике оновлення можливостей генерації зображень ChatGPT за більш ніж рік.

Images in ChatGPT

Тепер ChatGPT може використовувати модель компанії GPT-4o для створення та редагування зображень і фотографій.

GPT-4o вже давно лежить в основі платформи чат-ботів на основі штучного інтелекту, але досі ця модель могла створювати та редагувати лише текст, а не зображення.

Альтман сказав, що власне створення зображень GPT-4o вже доступно в ChatGPT і Sora, продукті генерації відео зі штучним інтелектом OpenAI, для підписників на план компанії Pro за 200 доларів на місяць.

OpenAI каже, що ця функція незабаром стане доступною для користувачів Plus і безкоштовних користувачів ChatGPT, а також розробників, які використовують службу API компанії.

Генерація зображень

GPT-4o з виведенням зображень «думає» трохи довше, ніж модель генерації зображень, яку він ефективно замінює, DALL-E 3, щоб створювати те, що OpenAI описує як більш точні та детальні зображення.

Що тепер вміє GPT-4o?

GPT-4o може редагувати існуючі зображення, включно з зображеннями людей, перетворюючи їх або «домальовуючи» такі деталі, як об’єкти переднього плану та фону.

Цей початковий випуск зосереджений виключно на створенні зображень і буде доступний на рівнях підписки ChatGPT Plus, Pro, Team і Free.

Ліміт використання безкоштовного рівня такий самий, як і DALL-E, повідомила The Verge речник Тайя Крістіансон, але додала, що у них «не було конкретного номера, яким можна було б поділитися», і «вони можуть змінюватися з часом залежно від попиту».

Відповідно до поширених запитань ChatGPT, безкоштовні користувачі раніше могли створювати «три зображення на день за допомогою DALL·E 3». Що стосується долі DALL-E, Крістіансон сказав, що «шанувальники» «все ще матимуть доступ через спеціальний GPT».

«Ця модель є кроком у порівнянні з попередніми моделями», — сказав The Verge керівник дослідження Габріель Гох, додавши, що команда використала «омнімодальний» GPT-4o — або модель, яка може генерувати будь-які дані, такі як текст, зображення, аудіо та відео — основу для цієї функції.

Деякі з покращень, які зазначив Гох, включають «зв’язування», що стосується того, наскільки добре генератори зображень AI підтримують правильні відносини між атрибутами та об’єктами; модель із поганим зв’язуванням, наприклад, може отримати запит на синю зірку та червоний трикутник і створити червону зірку без трикутника.

Більшість моделей зображень стикаються з цим, сказав Го, часто змішуючи кольори та форми, коли їх просять відобразити кілька елементів — зазвичай близько 5-8. Він каже, що цей новий інструмент генерації зображень може правильно прив’язувати атрибути для 15-20 об’єктів без плутанини, що представляє значне покращення точності та надійності.

Чи навчився ChatGPT відтворювати текст на зображеннях?

Користувачі також помітять покращення у відтворенні тексту, що полегшує створення зв’язного тексту без помилок на зображенні (в існуючих інструментах ви часто помічаєте, що текст досить легко спотворюється).

Гох сказав, що правильно відтворити текст було серйозною проблемою. Якщо невеликі заголовки або текстові елементи містять опечатки або помилки, все зображення може стати непридатним для використання.

«Це було схоже на процес ітерації, який потребував багато-багато місяців, щоб отримати правильний результат», — сказав Го.

Хоча він не ідеальний, він сказав, що команда досягла точки, коли якість тексту стабільно придатна для використання (там, де він має тенденцію до помилок, це дійсно маленький текст). «Пройшло лише багато місяців невеликих покращень».

Система використовує авторегресійний підхід — генерування зображень послідовно зліва направо та зверху вниз, подібно до того, як пишеться текст — замість техніки дифузійної моделі, яка використовується більшістю генераторів зображень (наприклад, DALL-E), які створюють все зображення відразу.

Го припускає, що ця технічна відмінність може бути тим, що надає зображенням у ChatGPT кращі можливості для відтворення тексту та прив’язки.

Під час брифінгу перед запуском функції команда продемонструвала кілька прикладів, що демонструють можливості системи, зокрема наукові діаграми, такі як експеримент із призмою Ньютона з правильно позначеними компонентами, багатопанельні комікси з послідовними символами та текстовими бульбашками та інформаційні плакати з точним текстом. Вони також виділили такі практичні застосування, як створення прозорих фонових зображень для наклейок, меню ресторанів і логотипів.

«Якщо я збираюся намалювати зображення, я роблю це з обмеженням власних навичок... але також з усіма знаннями про світ, які я накопичив», — пояснила керівник мультимодального продукту ChatGPT Джекі Шеннон.

«Ця модель об’єднує світові знання в рівняння, тому, коли ви просите зображення експерименту з призмою Ньютона, вам не потрібно пояснювати, що це таке, щоб отримати зображення».

Нова система дійсно займає більше часу для створення зображень, ніж раніше, хоча OpenAI вважає, що це вартий компроміс.

«Хоча у нас, звичайно, є можливість покращити затримку… якість цих зображень, можливості, знання світу справді компенсують додаткові секунди, які вони витрачатимуть на очікування», — сказав Шеннон.

На чому навчається ця модель ШІ?

Щоб забезпечити нову функцію зображення, OpenAI повідомила Wall Street Journal, що навчила GPT-4o на «загальнодоступних даних», а також на приватних даних, отриманих у партнерстві з такими компаніями, як Shutterstock.

Багато постачальників генеративного штучного інтелекту бачать навчальні дані як конкурентну перевагу, тому вони зберігають їх і всю пов’язану з ними інформацію поблизу. Але деталі навчальних даних також є потенційним джерелом судових позовів, пов’язаних з інтелектуальною власністю, що є ще одним перешкодою для компаній розкривати багато.

«Ми поважаємо права художників щодо того, як ми робимо вихід, і ми маємо політику, яка забороняє нам створювати зображення, які безпосередньо імітують роботи будь-яких живих художників», — сказав Бред Лайткоп, головний операційний директор OpenAI, у заяві для Journal.

OpenAI пропонує форму відмови, яка дозволяє творцям вимагати видалення їхніх робіт із наборів навчальних даних.

Компанія також заявляє, що поважає прохання заборонити своїм веб-збиральникам збирати навчальні дані, включаючи зображення, з вебсайтів.

Наступні плани щодо AI

Оновлена функція генерації зображень ChatGPT слідує за експериментальним виведенням нативних зображень Google для Gemini 2.0 Flash, однієї з флагманських моделей компанії.

Потужна функція стала вірусною в соціальних мережах — але не обов’язково з найкращих причин. Виявилося, що компонент зображення Gemini 2.0 Flash має кілька огорож, що дозволяє людям видаляти водяні знаки та створювати зображення персонажів, захищених авторським правом.

Захист проти фейків, згенерованих Images in ChatGPT

Американське видання The Verge повідомляє, що коли запитали про заходи безпеки — вказавши на сумнозвісні дипфейки оголеної Тейлор Свіфт, створені за допомогою моделі Microsoft, здатність xAI Grok відтворювати Камалу Гарріс із пістолетом і вміння Google Gemini видаляти водяні знаки — команда OpenAI підкреслила, що система включає надійні засоби захисту для запобігання зловживанням.

Шеннон сказав, що інструмент запобігає видаленню водяних знаків, блокує створення сексуальних дипфейків і відхиляє запити на створення CSAM.

Нова система генерації зображень OpenAI не містить візуальних водяних знаків або індикаторів, які показують, що зображення створено ШІ.

Проте Шеннон пояснив, що «всі створені нами зображення міститимуть стандартні метадані C2PA, щоб позначати зображення як створене за допомогою OpenAI», і компанія «матиме деякі внутрішні інструменти, щоб також мати можливість шукати зображення».

«Зрештою, жодна система не є ідеальною для такого типу речей, але ми постійно вдосконалюємо наші гарантії та вважаємо це відправною точкою», — додав Шеннон.

«Що стосується всіх зображень, створених за допомогою ChatGPT, є те, що вони є власниками користувачів і можуть вільно використовувати їх у межах нашої політики використання, як їм заманеться».

Джерело: TechCrunch, The Verge, OpenAi

Інформує proidei.com

Якщо ви помітили помилку, виділіть необхідний текст і натисніть Ctrl + Enter, щоб повідомити про це редакцію

Ефименко Анастасия

0,0

Оцініть першим

Авторизуйтесь, щоб оцінити