ШІ-ГАЛЮЦИНАЦІЇ: від «навчання незнання» до «веселої маячні».

 


Сьогодні майже ні в кого немає сумнівів, що ШІ здатний до невпізнання змінити наш світ. Однак великі мовні моделі й досі відчувають труднощі з тим, щоб говорити правду, всю правду і нічого, крім правди. Чи є способи заборонити штучному інтелекту вигадувати неіснуючі речі?

 

БРЕШИ, ТА НЕ ЗАБРЕХУЙСЯ!

 

Усі без винятку види генеративного ШІ, включно з великими мовними моделями (LLM), що лежать в основі чат-ботів, схильні до галюцинацій. Вони постійно вигадують неіснуючі речі, що є одночасно і сильною, і слабкою їхньою стороною. Це причина їхньої знаменитої винахідницької здібності, але це також означає, що вони іноді розмивають правду й вигадку.

Часто-густо подібне стає величезною проблемою — наприклад, неправдиві наукові посилання. В одному дослідженні 2024 року різні чат-боти припускалися помилок у посиланнях із частотою від 30% до 90% випадків: у заголовках статті, імені автора або році публікації…

Безумовно, користувачі обізнані про те, що слід перевіряти всю важливу інформацію, яку надають чат-боти. Але якщо приймати відповіді чат-бота за чисту монету, їхні галюцинації можуть призвести до серйозних проблем.

Відомим є випадок з американським адвокатом Стівеном Шварцем, який у 2023 році після використання ChatGPT послався на неіснуючі судові справи у своєму позові.

 

ГАЛЮЦИНАЦІЇ ЧИ ПРОСТО НІСЕНІТНИЦЯ?

 

Фахівці з інформатики схильні називати збої чат-ботів «галюцинаціями», натякаючи на аналогічні збої в людській свідомості. У 2023 році сайт Dictionary.com навіть вибрав «галюцинації» словом року. Однак менш толерантні користувачі пропонують термін «конфабуляції» або, простіше кажучи, «нісенітниця».

Погана новина в тому, що дослідники стверджують: повністю усунути галюцинації ШІ неможливо. Але можна зробити їх менш частими і менш проблемними. З цією метою розробляється набір прийомів, включно із зовнішньою перевіркою фактів, внутрішньою саморефлексією або навіть проведенням «сканування мозку» штучних нейронів LLM для виявлення закономірностей обману.

Останнім якраз і займається в Університеті Карнегі-Меллона в Піттсбурзі Енді Цзоу разом з іншими дослідниками. Вони кажуть, що можуть створити чат-ботів, які будуть менше верзти дурниці. Принаймні, їх можна буде підштовхнути озвучувати свої сумніви, якщо вони не впевнені у відповідях.

Утім, навіть Цзоу вважає, що перш ніж покращитися, галюцинаторна поведінка може навіть посилитися.

 

БРЕХНЯ, НАХАБНА БРЕХНЯ І СТАТИСТИКА

 

По суті, варто визнати, що LLM не призначені для видачі фактів. Вони здатні складати відповіді, які є статистично ймовірними. Ця ймовірність ґрунтується на закономірностях їхніх навчальних даних і подальшому тонкому налаштуванні за допомогою зворотного зв’язку від людей-тестерів.

Начебто ці процеси добре вивчені та зрозумілі. Однак експерти змушені визнати, що багато чого в них, зокрема й природа галюцинацій, залишається загадкою. Одна з основних причин «загадковості» в тому, що під час навчання LLM стискають співвідношення між десятками трильйонів слів у мільярди параметрів — змінних, які визначають силу зв’язків між штучними нейронами.

Тому вони обов’язково втрачають частину інформації, коли дають відповіді, — фактично знову розширюючи стислі статистичні закономірності. Вони здатні реконструювати майже 98% того, чого їх навчали. Але решта 2% неминуче виходять з-під контролю.

 

ЗАМКНЕНЕ КОЛО: ОДНІ ПОМИЛКИ ЗАМІСТЬ ІНШИХ

 

Деякі помилки виникають через двозначність або помилки в даних. Наприклад, сумнозвісна відповідь, у якій чат-бот пропонував додати клей до соусу для піци, щоб сир не зісковзував, простежилася до саркастичного посту в одній із соціальних мереж.

Коли Google випустив свій Bard у 2023 році, цей чат-бот пропонував батькам розповісти своїм дітям, що космічний телескоп НАСА «Джеймс Вебб» зробив найперші знімки планети за межами нашої Сонячної системи. Хоча вперше це зробив телескоп у Чилі.

Джерелом невірної інформації була заява НАСА. Щоправда, там ішлося про перший знімок конкретно цього телескопа, а не про перший знімок взагалі. LLM нездатна вловлювати такі нюанси. Навіть за ідеально точного набору даних для навчання модель все одно буде галюцинувати з невеликою швидкістю.

Мабуть, ця швидкість відповідає частці фактів, які представлені в наборі даних лише один раз.

 

НЕ УХИЛЯТИСЯ ВІД ВІДПОВІДІ ТА ПОГОДЖУВАТИСЯ З КОРИСТУВАЧЕМ

 

Усунути деякі галюцинації здатне навчання з підкріпленням на основі зворотного зв’язку з людиною. Однак цей процес, підштовхуючи чат-ботів до повноти, а не точності, створює інші галюцинації.

Такі моделі схильні не ухилятися від відповіді. Тому вони часто помиляються, висловлюючись за межами своїх знань. Ще одна категорія помилок виникає, коли користувач пише хибні факти чи припущення в підказках. Чат-боти «підіграють» розмові, оскільки призначені для створення відповіді, яка відповідає ситуації.

«Я знаю, що гелій — найлегший і найпоширеніший елемент у нашому Всесвіті. Це правда..?» На це запитання чат-бот відповість ствердно, хоча правильною відповіддю буде «водень».

ПІДРАХУНОК КОНФАБУЛЯЦІЙ

 

Наскільки серйозною є проблема галюцинацій? Дослідники розробили Індекс уразливості до галюцинацій, який сортує їх за 6 категоріями та 3 ступенями тяжкості. На основі відкритих даних про зміни в оцінках «осудності» ботів на платформі HuggingFace створили навіть «Таблицю лідерів галюцинацій».

Причому це не єдина подібна таблиця. Згідно з ними деякі чат-боти вигадують факти в 30% випадків. Але загалом ситуація, схоже, поліпшується. До прикладу, в GPT-3.5 від OpenAI рівень галюцинацій у листопаді 2023 року становив 3,5%, а в січні 2025 року у GPT-4 – 1,8%.

Існує безліч простих способів зменшити галюцинації. Модель із великою кількістю параметрів, яку навчали довше, зазвичай галюцинує менше, але це вимагає великих обчислювальних витрат і передбачає компроміси з іншими навичками чат-бота, скажімо, здатністю узагальнювати.

 

НЕ ДОВІРЯЙ, ПЕРЕВІР

 

Одним із підходів до обмеження галюцинацій є пошукова генерація доповненої реальності (RAG), в якій чат-бот звертається до заданого, надійного тексту, перш ніж відповісти. Деякі моделі з RAG, розроблені для юридичних досліджень, вважаються «майже ідеальними».

RAG справді може значно покращити фактологію. Але треба розуміти, що це кінцева система. У нескінченному просторі знань і фактів вона не працює. Тому для перевірки відповіді чат-бота за результатами пошуку в інтернеті розробники використовують незалежну систему, яка не була навчена так само, як ШІ.

Наприклад, система Gemini від Google має опцію «подвійна перевірка відповіді». Вона виділяє частини своєї відповіді зеленим кольором (якщо її було перевірено пошуком в інтернеті) або коричневим кольором (для спірного контенту). На жаль, такі системи теж галюцинують, оскільки інтернет сповнений недостовірних фактів.

 

САМОРЕФЛЕКСІЯ НА ПРОТИВАГУ ГАЛЮЦИНАЦІЯМ

 

Паралельний підхід — виявлення невідповідностей за допомогою опитування внутрішнього стану чат-бота. Його можна змусити розмовляти з самими собою, іншими чат-ботами або людьми. Така саморефлексія здатна зупинити галюцинації.

Можна ставити чат-ботам кілька запитань про цитовану статтю, скажімо, «Ви впевнені в цьому?» Боти будуть менш послідовними у своїх відповідях, якщо в них є галюцинації. Робилися спроби навіть автоматизувати подібні перевірки узгодженості відповідей чат-бота на один і той самий запит.

Такі схеми не потребують додаткового навчання чат-ботів, але вони вимагають великого обсягу обчислень під час відповіді на запити. Над розвитком «самосвідомості» LLM шляхом навчання його на картах власних внутрішніх станів зараз, зокрема, працює Енді Цзоу зі своєю командою.

За його словами, незабаром ШІ отримуватиме «винагороду» не лише за правильну відповідь із вдалою здогадкою, а й за розуміння того, що ця відповідь є правильною. А у випадках, коли впевненість низька, чат-ботів слід заохочувати відмовлятися відповідати. Потенційно такий бот здатен сам передбачити, чи матиме він галюцинації, із середньою точністю 84%.

 

НАВЧАННЯ НЕЗНАННЯ

 

Що найбільше в чат-ботах збиває з пантелику людей, так це впевненість, коли вони помиляються. Моделі здебільшого знають те, що вони знають. Але при цьому досить нерідкі зворотні ситуації. Ось цього «незнання» їх ще й належить навчити.

Було б чудово змусити чат-бота сумлінно повідомляти, чи знає він щось насправді, чи тільки здогадується. Але як пояснити, коли йому слід бути обережнішим із власними даними навчання?

Або що йому слід робити, коли наданий текст чи інструкція конфліктують з його внутрішніми знаннями? У чат-ботів немає ідеальної пам’яті, і вони можуть неправильно запам’ятовувати речі. Таке навіть із людиною розумною часом трапляється, що вже казати про машину!

 

СУЦІЛЬНА МАЯЧНЯ, ПРОТЕ ВЕСЕЛО!

 

Мовні моделі, принаймні на даний момент, продукують сфабриковану інформацію, до якої варто ставитися з обережністю. Однак дослідники вважають, що в міру розширення спектра доступних чат-ботів вони, ймовірно, демонструватимуть різноманітну поведінку.

Деякі з них почнуть настільки чітко дотримуватися фактів, що стануть вельми нудними співрозмовниками. Інші, навпаки, будуть настільки сильно спекулювати даними, що ми швидко перестанемо довіряти їм у чомусь важливому.

При цьому у вас завжди залишиться право сказати: «Ця модель у 60% випадків несе цілковиту нісенітницю, але з нею так весело спілкуватися!»

 

Оригінальне дослідження:

 Джерело інформації: www.huxley.media


Коментарі

Популярні публікації