Microsoft патентує технологію перетворення мови в зображення
Корпорація Майкрософт щойно подала заявку на патент на інноваційну інновацію ШІ, яка змінить спосіб спілкування в режимі реального часу, наприклад на зустрічах і конференціях. Патент був опублікований Управлінням патентів і торгових марок США 10 жовтня 2024 року. У ньому описується система на основі штучного інтелекту, яка перетворює живе мовлення в зображення в реальному часі. Хоча це ще на ранніх стадіях, це зробить вербальне спілкування більш динамічним і веселим, особливо в Microsoft Teams , де вже є багато функцій зі штучним інтелектом.
Основна технологія
Запатентована система записує аудіо в реальному часі під час розмов, зустрічей або лекцій. Мікрофон записує аудіопотік, який потім обробляється мовною моделлю , яка транскрибує та сегментує мову на керовані фрагменти. Кожен сегмент узагальнюється та аналізується, і в режимі реального часу запускається генерація відповідних зображень . Ці зображення відображаються на екрані поруч із розмовою, щоб допомогти зрозуміти та залучити.
Microsoft каже, що зображення можуть допомогти прояснити складні поняття, особливо для тих, хто навчається візуально. У патентному документі пояснюється, що ці зображення можна динамічно коригувати на основі потоку розмов , а система може перемикатися між візуальними елементами, коли змінюються теми . Наприклад, під час ділової зустрічі доповідач, який обговорює цифри продажів, може побачити миттєві візуальні ефекти, створені штучним інтелектом, що робить дані більш сприйнятливими для аудиторії.
Інтеграція ШІ з Microsoft Teams
Цей патент вписується в загальне бачення Microsoft щодо створення своїх інструментів продуктивності на базі штучного інтелекту. Microsoft Teams, центральний центр для віртуальних зустрічей, уже має штучний інтелект через Copilot, який підсумовує зустрічі, генерує корисну інформацію та пропонує пропозиції в реальному часі. Додавання функції, яка генерує живі зображення з мовлення, може зробити спілкування ще ефективнішим для обробки інформації користувачами.
Для компаній це може кардинально змінити правила віртуальної співпраці. Членам команди більше не доведеться переглядати статичні слайди чи електронні таблиці. Вони побачать динамічні зображення, створені штучним інтелектом, які розвиваються разом із розмовою, оживляючи презентації та обговорення. Це також може мати величезне значення для освіти, де вчителі чи викладачі можуть візуально представляти складні теми в реальному часі та краще залучати студентів.
Стрибок у візуальній комунікації на основі ШІ
Візуальна генерація в реальному часі може здатися науковою фантастикою, але вона побудована на існуючих можливостях ШІ. Створення зображень із тексту вже є добре запровадженою функцією в моделях штучного інтелекту, таких як OpenAI DALL-E та Stable Diffusion, які створюють високоякісні зображення з письмових підказок. Запатентована технологія Microsoft виводить це на новий рівень, генеруючи зображення з живих вимовлених слів, а не з письмового тексту, що є новим виміром взаємодії людини зі штучним інтелектом.
Це не обмежується діловими зустрічами та аудиторіями. У сфері охорони здоров’я це може допомогти лікарям пояснити пацієнтам діагнози за допомогою візуальних зображень у режимі реального часу, а в творчих сферах, як-от зображення, створені штучним інтелектом, можуть стати миттєвим натхненням під час мозкового штурму. Здатність генерувати значущі зображення в реальному часі з усної комунікації відкриває цілий новий світ застосувань у різних галузях.
Бачення та плани на майбутнє Microsoft
Патент Microsoft є ще однією ознакою стратегії компанії AI everywhere . Вони розширюють межі ШІ за допомогою Copilot для Microsoft 365, який інтегрує ШІ в Word, Excel і Outlook. Ця запатентована система, якщо її перетворити на продукт, може відрізняти Microsoft від інших платформ віртуальних зустрічей.
Однак, як і з будь-яким іншим патентом, немає гарантії, що він коли-небудь стане продуктом. Як ви знаєте, багато патентів ніколи не виходять на ринок. Але потенціал живих зображень, створених штучним інтелектом, у поєднанні з існуючою роботою Microsoft AI вказує на майбутнє, де ШІ зробить нас продуктивнішими та креативнішими на роботі.
Потенціал мистецтва, створеного ШІ, у спілкуванні в реальному часі
Патент Microsoft спрямований на підвищення ефективності зв’язку, але він відкриває цікаву можливість: мистецтво, створене ШІ в реальному часі.
Уявіть собі зустріч, на якій, поки люди говорять, система створює унікальне абстрактне мистецтво на основі того, що вони говорять. Це можуть бути пейзажі або сюрреалістичні колажі. Це може бути формою спільної арт-терапії за допомогою штучного інтелекту, щоб розпалити творчість і зв’язок.
Ось як це може працювати:
- Емоційний аналіз: штучний інтелект може проаналізувати тон і зміст промови, щоб визначити емоції мовця.
- Вибір стилю : на основі емоцій штучний інтелект може вибрати художній стиль, наприклад, абстрактний експресіонізм для гніву або імпресіонізм для радості.
- Генерація в реальному часі : за допомогою GAN штучний інтелект може створити унікальний витвір мистецтва на основі емоцій оратора та того, що він говорить.
Це може бути новий спосіб спілкування, де ідеї та емоції виражаються не лише словами, а й красивим мистецтвом, створеним штучним інтелектом. Особливо для тих, кому важко висловлюватись або відчувати емоції.
Це може здатися надуманим, але це відповідає тенденції мистецтва, створеного штучним інтелектом, і штучного інтелекту, який посилює людську творчість.
Потенціал телепатії, керованої ШІ
Патент Microsoft зосереджений на візуальній комунікації, але може призвести до чогось набагато більш радикального: телепатії ШІ.
Подумайте про це: якщо штучний інтелект може розуміти й інтерпретувати усну мову, він теоретично міг би подолати розрив між мисленням і спілкуванням. Аналізуючи нюанси мови – тон, інтонацію, контекст – ШІ може зробити висновок, що відбувається в голові людини.
Уявіть собі майбутнє, де ми зможемо спілкуватися один з одним безпосередньо за допомогою думки, взагалі без мови. Це може бути:
- Декодування нейронних сигналів: розробка технології виявлення та інтерпретації сигналів мозку, щоб ШІ міг читати думки людини.
- Переклад у реальному часі: використання штучного інтелекту для перекладу цих думок у візуальний або звуковий формат, який інші можуть зрозуміти.
Це звучить як наукова фантастика, але ШІ та нейронаука роблять це можливим. Патент Microsoft зосереджений на більш негайному застосуванні, але може стати кроком до цього.
Поки що ще рано, але це вписується в ширшу тенденцію інтерфейсів мозок-комп’ютер (BCI), подібних до тих, які розробляє Neuralink Ілона Маска. Neuralink зосереджена на медицині, але базова технологія може бути використана для телепатії, керованої ШІ.
Генерація зображень у реальному часі від Microsoft і робота Neuralink щодо BCI можуть означати, що ми зможемо спілкуватися з комп’ютерами та один з одним лише своїми думками. Це співпраця, творчість і соціальна взаємодія на абсолютно новому рівні.
Тому ми повинні думати про етику всього цього. Конфіденційність, безпека, неправильне використання тощо тощо тощо.
Samsung змінює лідерство в просуванні чіпів ШІ
Читати 1 хв.