Улютому 2023 року чат-бот Google зі штучним інтелектом Bard заявив, що космічний телескоп Джеймса Вебба зробив перше зображення планети за межами нашої Сонячної системи. Це не було. Коли дослідники з Університету Пердью поставили OpenAI's ChatGPT понад 500 запитань щодо програмування, більше половини відповідей були неточними

Ці помилки було легко помітити, але експерти стурбовані тим, що в міру збільшення моделей і відповідей на складніші запитання їхній досвід з часом перевершить досвід більшості користувачів. Якщо такі «надлюдські» системи виникнуть, як ми зможемо довіряти тому, що вони говорять? «Йдеться про те, що проблеми, які ви намагаєтесь вирішити, виходять за межі ваших практичних можливостей», — сказав Джуліан Майкл(відкриває нову вкладку), комп’ютерний науковець у Центрі науки про дані Нью-Йоркського університету. «Як контролювати систему, щоб успішно виконувати завдання, яке ви не можете?»

Одна можливість настільки ж проста, наскільки й дивовижна: нехай дві великі моделі обговорюють відповідь на задане запитання, а простішій моделі (або людині) залишається розпізнати точнішу відповідь. Теоретично цей процес дозволяє двом агентам виправляти аргументи один одного, поки суддя не отримає достатньо інформації, щоб розпізнати істину. Цей підхід вперше було запропоновано шість років тому, але на початку цього року було опубліковано два набори результатів — один у лютому(відкриває нову вкладку)від AI-стартапу Anthropic і другий у липні(відкриває нову вкладку)від Google DeepMind — запропонуйте перші емпіричні докази того, що дебати між двома магістрами права допомагають судді (людині чи машині) розпізнати правду.

«Ці роботи були дуже важливими з огляду на те, що вони створили та зробили свій внесок», — сказав Майкл. Вони також пропонують нові шляхи для вивчення. Наприклад, Майкл і його група звітували у вересні(відкриває нову вкладку)що навчання учасників дебатів зі штучним інтелектом перемагати, а не просто розмовляти, як у двох попередніх дослідженнях, ще більше підвищило здатність неекспертів розпізнавати правду.

Аргумент

Створення надійних систем штучного інтелекту є частиною більшої мети під назвою «вирівнювання» , яка зосереджується на тому, щоб система штучного інтелекту мала ті самі цінності та цілі, що й її користувачі. Сьогодні узгодження покладається на зворотній зв’язок людей — люди оцінюють ШІ. Але людського відгуку незабаром може виявитися недостатньо для забезпечення точності системи. Останніми роками дослідники все частіше закликають до нових підходів у «масштабованому нагляді», який є способом гарантувати правду, навіть коли надлюдські системи виконують завдання, які люди не можуть.

Вчені-комп’ютерники роками думали про масштабований нагляд. Дебати виникли як можливий підхід у 2018 році, до того, як LLMs стали такими великими та повсюдними, як сьогодні. Одним з його архітекторів був Джеффрі Ірвінг(відкриває нову вкладку), який зараз є головним науковим співробітником Інституту безпеки штучного інтелекту Великобританії. Він приєднався до OpenAI у 2017 році — за два роки до того, як компанія випустила GPT-2, одну з перших LLM, яка привернула широку увагу — сподіваючись зрештою працювати над узгодженням систем ШІ з цілями людини. Їхньою метою була безпека, сказав він, «намагаючись просто запитати людей, чого вони хочуть, і [змусити модель] зробити це».

Його колега Пол Крістіано, який нині очолює відділ безпеки в Інституті безпеки штучного інтелекту США, підійшов до цієї проблеми, шукаючи способи розбити складні запитання на менші, простіші, на які мовна модель могла б чесно відповісти. «Дебати стали різновидом цієї схеми», — сказав Ірвінг, де послідовні аргументи ефективно розбивали велике питання на менші компоненти, які можна було вважати точними.

Ірвінг і Крістіано працювали з Даріо Амодеї (який у 2021 році створив Anthropic разом зі своєю сестрою Даніелою) над використанням дебатів у системах природної мови. (Оскільки це було до GPT-2, мовні моделі були надто слабкими, щоб випробувати дебати емпірично, тому вони зосередилися на концептуальних аргументах та іграшковому експерименті.) Ідея була простою: поставте запитання двом подібним копіям сильної моделі ШІ. і нехай вони обговорять відповідь, щоб переконати суддю, що вони мають рацію. Ірвінг порівняв це з самостійною грою, яка допомогла системам штучного інтелекту покращити свої стратегії в таких іграх, як шахи та го.

Тріо розробило рудиментарні ігри з зображеннями та текстовими запитаннями. В одній з двох моделей штучного інтелекту кожна мала доступ до одного зображення, яке зображувало число 5. Одна модель стверджувала, що зображення насправді було числом 5; інший стверджував, що це 6. Конкуруючі моделі по черзі показували більше пікселів судді, який був слабшою моделлю. Після шести раундів суддя точно вгадав число у 89% випадків. Коли показували випадкові пікселі, суддя вгадав правильно лише приблизно в 59% випадків.

Той простий приклад, описаний у жовтні 2018 року(відкриває нову вкладку), припустив, що дебати можуть дати перевагу. Але автори звернули увагу на кілька застережень. Наприклад, люди схильні вірити тому, що вони хочуть почути, і в реальних ситуаціях цей інстинкт може переважити користь дебатів. Крім того, деякі люди, ймовірно, краще оцінюють дебати, ніж інші — можливо, те саме стосується мовних моделей?

Автори також закликали краще зрозуміти, як люди думають. У нарисі 2019 р(відкриває нову вкладку), Ірвінг і Аманда Аскелл, які зараз працюють в Anthropic, стверджували, що якщо системи штучного інтелекту будуть відповідати людським цінностям, нам потрібно краще зрозуміти, як люди діють згідно з нашими цінностями. Вони стверджували, що дослідження штучного інтелекту повинні включати більше досліджень про те, як люди приймають рішення та роблять висновки щодо правди та брехні. Дослідники не зможуть зрозуміти, як організувати дискусію, якщо вони не знатимуть, як люди оцінюють аргументи або як вони приходять до істини.

Сила переконання

Невелика група комп’ютерників і лінгвістів незабаром почала шукати переваги дебатів. Знайшли приклади, коли це не допомогло. Дослідження 2022 року(відкриває нову вкладку)дав людям складний тест з множинним вибором і змусив магістра надати аргументи для різних відповідей. Але люди, які чули аргументи, згенеровані штучним інтелектом, виконали тест не краще, ніж інші, які взагалі не взаємодіяли з LLM.

Навіть якщо LLM не допомагають людям, є натяки, що вони можуть допомогти мовним моделям. У статті 2023 року дослідники повідомили(відкриває нову вкладку)що коли кілька копій LLM дозволяли обговорити та звести відповідь, а не переконати суддю, вони були точнішими та частіше. Два результати цього року є одними з перших емпіричних тестів, які показують, що дебати між магістрами можуть бути ефективними, якщо їх оцінюють за іншою, менш поінформованою моделлю.

Група Anthropic показала двом експертним моделям уривки з науково-фантастичної історії, а потім поставила запитання на розуміння. Кожна модель пропонувала відповідь і протягом кількох раундів захищала власну відповідь і сперечалася проти іншої. Потім суддя оцінював аргументи та вирішував, хто правий. У деяких випадках суддя мав доступ до перевірених цитат з оригінального тексту; в інших – ні.

Коли LLM спеціально навчали бути переконливими, неексперти LLM судді приходили до правильної відповіді в 76% випадків. Навпаки, у тестах без дебатів судді-нелюди відповідали правильно лише в 54% випадків, результат трохи кращий, ніж підкидання монети.

«Вони отримали достатньо хороші моделі для обговорення, щоб ви могли побачити певні результати», — сказав Майкл.

Через два місяці команда Google DeepMind повідомила про подібний експеримент із різними завданнями та обмеженнями — наприклад, дозволивши мовним моделям вибрати власну сторону дискусії. Завдання включали запитання з можливістю відповіді на розуміння прочитаного, запитання щодо статей у Вікіпедії та запитання з відповідями «так/ні» на теми математики та природничих наук коледжу. Деякі запитання стосувалися зображень і тексту.

У всіх завданнях і експериментальних установках дебати завжди приводили до більшої точності. Це було надихаючим і не зовсім неочікуваним. «У принципі ми очікуємо, що дебати перевершать ці базові показники для більшості завдань», — сказав Закарі Кентон(відкриває нову вкладку), який був одним із керівників дослідження DeepMind. «Це тому, що суддя бачить обидві сторони аргументу під час дебатів, і тому повинен бути більш поінформованим».

Завдяки цим двом дослідженням дослідники вперше показали, що дебати можуть мати значення, дозволяючи іншим системам ШІ оцінювати точність висловлювань магістра. Це захоплюючий крок, але ще багато роботи, перш ніж ми зможемо надійно отримати вигоду від протистояння цифрових дебатів.

Гра в дебати

Перше питання полягає в тому, наскільки LLM чутливі до специфіки своїх вхідних даних і структури аргументу. Поведінка LLM «сприйнятлива до несуттєвих особливостей, наприклад, за тим, хто з учасників дискусії мав останнє слово», — сказав Кентон. «Це може призвести до дебатів про те, що ці прості базові показники не перевершують деякі завдання».

Це тільки початок. Група Anthropic знайшла докази того, що на суддів штучного інтелекту можна вплинути довшою аргументацією, навіть якщо вона менш переконлива. Інші тести показали, що моделі можуть демонструвати те, що називається підлабузницьким упередженням — схильність LLM відступати від правильної відповіді, щоб догодити користувачеві. «Багато людей мають такий досвід роботи з моделями, коли щось написано, і якщо ви скажете «Ні, це не так», вони скажуть: «О, мені дуже шкода», — сказав Майкл. «Модель каже: «О, ти маєш рацію». Два плюс два — це п’ять».

Існує також загальна картина: дослідники з Оксфордського Інтернет-інституту зазначають, що, хоча нові статті пропонують емпіричні докази того, що LLMs можуть спрямовувати один одного на точність, результати можуть не бути широко застосовними. Сандра Вахтер(відкриває нову вкладку), який вивчає етику та право, зазначає, що відповіді на тести були однозначно правильними чи неправильними. «Це може бути правдою для чогось на кшталт математики, де існує загальноприйнята істина», — сказала вона, але в інших випадках «це дуже складно, або дуже сіро, або вам потрібно багато нюансів». І, зрештою, самі ці моделі все ще не повністю зрозумілі, тому їм важко довіряти як потенційним суддям.

Нарешті, Ірвінг зазначає, що існують ширші питання, на які дослідники, які працюють над дебатами, повинні будуть відповісти. Дебати вимагають від учасників дебатів бути кращими за суддю, але «кращий» залежатиме від завдання. «Який вимір, про який дискутанти знають більше?» запитав він. У цих тестах це знання. У завданнях, які вимагають міркувань або, скажімо, як провести електрику в будинку, цей вимір може бути іншим.

За словами Ірвінга, пошук масштабованих рішень для нагляду зараз є критично важливим відкритим викликом для безпеки ШІ.

Тож наявність емпіричних доказів того, що метод працює навіть у деяких ситуаціях, надихає. «Це кроки в правильному напрямку», — сказав Ірвінг. «Можливо, ми продовжуємо проводити ці експерименти й отримуємо позитивні результати, які з часом стануть сильнішими».