Брак обчислювальної потужності затримує випуск продуктів компанії

4 лист 2024 р. Читати 2 хв.

У Reddit AMA генеральний директор OpenAI Сем Альтман визнав, що брак обчислювальної потужності є одним з основних факторів, який заважає компанії постачати продукти так часто, як хотілося б.

«Усі ці моделі стали досить складними», — написав він у відповідь на запитання про те, чому наступні моделі штучного інтелекту OpenAI йшли так довго. «Ми також стикаємося з багатьма обмеженнями та важкими рішеннями щодо того, [як] ми розподілили наш обчислювальний ресурс для багатьох чудових ідей».

Багато звітів показують, що OpenAI намагається забезпечити достатню обчислювальну інфраструктуру для запуску та навчання своїх генеративних моделей. Буквально цього тижня агентство Reuters з посиланням на джерела повідомило , що OpenAI вже кілька місяців працює з Broadcom над створенням чіпа AI для запущених моделей, який може з’явитися вже у 2026 році.

За словами Альтмана, частково через напружену здатність розмовна функція OpenAI для ChatGPT із реалістичним звучанням , розширений голосовий режим , не отримає можливості бачення, які вперше будуть представлені в квітні найближчим часом. На своїй квітневій прес-конференції OpenAI показала додаток ChatGPT, що працює на смартфоні та реагує на візуальні підказки, такі як одяг, який хтось носив, у полі зору камери телефону.

Звіт Fortune пізніше показав, що демонстрація була поспішна, щоб відвернути увагу від конференції розробників Google I/O, яка проходила того ж тижня. Багато хто в OpenAI не думав, що GPT-4o готовий до розкриття. Показово, що лише голосова версія розширеного голосового режиму була відкладена на місяці.

У AMA Альтман зазначив, що наступний великий випуск генератора зображень OpenAI, DALL-E , не має графіка запуску. («У нас ще немає плану випуску», — сказав він.) Тим часом Sora , інструмент для створення відео OpenAI, стримувався через «необхідність удосконалити модель, налагодити безпеку/уособлення/інші речі та масштабні обчислення», — написав Кевін Вейл, директор із продуктів OpenAI, який також брав участь у AMA.

Повідомляється, що Sora страждає від технічних недоліків, які погано позиціонують її проти конкуруючих систем від Luma, Runway та інших. Відповідно до інформації, оригінальна система, представлена в лютому, потребувала більше 10 хвилин обробки, щоб створити 1-хвилинний відеоролик.

У жовтні один із співведучих Sora Тім Брукс пішов до Google.

Пізніше в AMA Альтман сказав, що OpenAI все ще розглядає можливість дозволити вміст «NSFW» у ChatGPT «колись» («ми повністю віримо в те, що дорослі користувачі повинні ставитися до дорослих», — написав він), і що головним пріоритетом компанії є вдосконалення серії o1 моделі «міркування» та їх наступники. Цього тижня на конференції DevDay у Лондоні OpenAI попередньо опублікував низку функцій, зокрема розуміння зображень.

«У нас є кілька дуже хороших релізів, які вийдуть пізніше цього року», — написав Альтман. «Нічого, що ми будемо називати GPT-5».