Роздуми про сучасну науку.
У ПОЛОНІ ЦИФРОВОЇ ІЛЮЗІЇ: ШІ гальмує науковий прогрес навмисне?
З цього приводу б'є сполох науковий журнал Nature. Історики науки давно зауважили, що швидкість значних наукових відкриттів та їх масштаби останніми десятиліттями неухильно знижувалися. Хоча при цьому фінансування, кількість публікацій та персоналу, навпаки, зростали. На цьому тлі значну частину оптимізму у науковій спільноті додали відкриття у галузі ШІ. Однак тепер вчені знову стурбовані: зростаюча роль штучного інтелекту в науці може принести більше шкоди, ніж користі.
ШІ ПОГІРШУЄ МЕТОДІ СТАТИСТИКИ?
З2012 до 2022 року середня частка наукових робіт, присвячених використанню штучного інтелекту у 20 провідних наукових галузях, збільшилася у 4 рази. Його стали широко використовувати при прогнозуванні дуже багатьох слів: результатів впровадження економічних моделей, впливу спалахів захворювань, громадянських воєн... Однак цей ажіотаж мав певні наслідки. Статистичні методи як такі не вільні від суттєвих помилок.
ШІ додає до них ще більші ризики через свою «природу чорної скриньки». Ці помилки ще більше посилюються, коли готові інструменти використовуються вченими, які мають обмежені знання у галузі комп'ютерних наук. Люди дуже легко переоцінюють можливості моделей ШІ, і ця переоцінка фатально позначається на прогнозуванні, оскільки створює ілюзію прогресу та гальмує реальні досягнення.
БЕНЗОПИЛИ ЗАМІСТЬ СОКИР
Існує безліч способів використання ШІ у науці. Наприклад, для ефективного аналізу робіт, створених природним людським інтелектом. Один із способів застосування ШІ в науці — машинне навчання. Його можна розглядати як удосконалення традиційного статистичного моделювання. Якщо звичайна ручна статистика – це сокира, то моделювання машинного навчання – бензопила. Цей автоматизований інструмент, безперечно, потужний, але при неправильному використанні дуже небезпечний і травматичний. Тому саме моделювання, при якому для прогнозування чи перевірки гіпотез використовується ШІ, викликає найбільші побоювання.
«ВІТІК» РОБИТИ МОДЕЛІ НЕКОРИСНИМИ
Один із найпоширеніших джерел помилок — так званий вітік. Ця проблема виникає, коли модель машинного навчання запам'ятовує закономірності даних оцінки, а не закономірності явища, що цікавить вчених. Нещодавно виявилося, що статті щонайменше у 30 наукових галузях, у яких використовувалося машинне навчання, потерпіли від такого «витоку».
Ошибки, породжені ШІ, містяться у безлічі наукових робіт — від психіатрії та молекулярної біології до комп'ютерної безпеки. Наприклад, під час пандемії COVID-19 сотні досліджень стверджували, що ШІ може діагностувати захворювання, використовуючи тільки рентген грудної клітки або КТ. І лише 62 з 415 таких досліджень відповідали основним стандартам якості.
Та навіть у цих 62 були поширені некоректні методи оцінки, дублювання даних та плутанина у діагностиці. Приблизно у 12 роботах вчені використовували навчальний набір даних, у якому всі позитивні випадки COVID були у дорослих, а негативні – у дітей віком від 1 до 5 років. Нарешті модель ШІ просто навчилася розрізняти дорослих та дітей за цим знаком. Але дослідники претендували на те, що розробили детектор COVID-19!
КРИЗА ВІДТВОРЮВАНОСТІ
На жаль, для оцінки точності прогнозування немає стандартів. Принаймні, поки що. Бази комп'ютерних кодів — це тисячі рядків, тому помилки важко виявити. А ціна навіть однієї з них може бути надзвичайно великою. Таким чином, ми знаходимося лише на самому початку кризи відтворюваності у наукі, заснованій на машинному навчанні. Але вона може розростися до чималих масштабів. Скажімо, зараз стало популярним використання великих мовних моделей як сурогатів для учасників психологічних експериментів. Більшість з них виявляються не відтворюваними, оскільки ці моделі є чутливими навіть до найнезначніших змін вхідних даних.
У ПОЛОНІ САМООБМАНУ
Переможне вторгнення машинного навчання в науку — це лише форма самообману. Справа в тому, що потік відкриттів, зроблених за допомогою ШІ, навіть якщо вони не містять помилок, може не призвести до справжнього наукового прогресу. Вперше на це звернув увагу ще у 2001 році Лео Брейман, який описав культурні та методологічні відмінності між галузями статистики та машинного навчання. Але громадська думка поважала за краще мати справу з гарною утопічною мрією, а не з реальністю.
Пропагандисти ШІ досі вважають за краще згадувати тільки про його можливості, а не про давно відомі і при тому істотні обмеження машинного навчання. Брейман доводив, що засновані на ньому моделі можуть неплохо працювати в інженерії, але важко застосовні у природничих науках, сенсом яких є пояснення природи. На жаль, ШІ навряд чи може тут щось пояснити, не бачивши при цьому помилки. Але надто багато дослідників, соблазнившись комерційним успіхом ШІ, ігнорують це обмеження.
ШІ — ГАЛЬМО НАУКОВОГО ПРОГРЕСУ
Причина проста: щоб використовувати результати роботи моделей для отримання інформації про світ, потрібно багато праці. Причому з боку людського, а не штучного інтелекту. Інструментарій машинного навчання лише спрощує побудову моделей, а ось витяг з них реальних знань про світ, навпаки, ускладнює.
У підсумку ми виробляємо більше наукового контенту при щодалі меншому розумінні світу. І тут виникає благодатний ґрунт для конспірологів: а може, «чорна скринька» робить це навмисне? Хоча, якщо відволіктися від апокаліптичної фантастики, доведеться визнати, що у ситуації, що склалася, людина винна сама.
Якогось моменту ми почали невірно дивитися на саму науку — як на механічний набір фактів чи відкриттів. Насправді науковий прогрес відбувається інакше. Без пояснювальної функції людського мислення він не працює. Наука рухається від відкриттів до теорій і парадигм, які є концептуальними інструментами для розуміння та дослідження. На цьому шляху наукові уявлення стають абстрактнішими і не піддаються автоматизації. Саме тому швидке поширення наукових відкриттів, заснованих на ШІ, не прискорює, а гальмує науковий прогрес.
«КОЛІЯ», ЩО ВЕДЕ У ГЛУХИЙ КУТ
Тільки не думайте, що це таке вже незвичайне явище! Історія науки рясніє подібними прикладами: від алхімії – до хімії, від астрономії – до копернікової революції, від геології – до тектоніки плит. Цілі наукові галузі неодноразово і надовго застрягали у накатаній колії. І вона нерідко вела вчених у глухий кут, навіть якщо вони досягали окремих результатів. В історії астрономії, наприклад, чільне місце посідає уявлення про «епіцикли». Відповідно до нього планети рухаються по колах навколо Землі.
Ця модель була досить точною у своїх передбаченнях планетарних рухів. І навіть після того, як вона перестала відповідати науковим знанням, сучасні проектори планетаріїв використовують саме цей метод для обчислення траєкторій. ШІ – це сучасний еквівалент описаних вище епіциклів. Можливо, їх здатність вичавлювати більше прогностичної сили з недосконалих теорій та неадекватних парадигм допоможе їм досить довго триматися на плаву. Але що довше це відбуватиметься, то більше ШІ буде перешкоджати справжньому науковому прогресу.
ЯК УНИКНУТИ ІЛЮЗІЇ ПРОГРЕСУ?
Відповідь на це запитання міститься у чесному науковому діалозі. Як відправні точки для його початку можуть бути запропоновані такі тези.
Машинне навчання — це не готова до використання технологія для науковців, а лише набір інструментів. І застосування цих інструментів потребує глибоких знань, вивчення кількісних методів і хоча б типових ловушек та обмежень. Необхідна більш тісна співпраця між експертами у предметній області та фахівцями з машинного навчання.
Можливо, потрібно знайти способи, за які не самі дослідники оцінювали б власну роботу. Оскільки результатів, заснованих на ШІ, величезна кількість, є потреба в синтетичних методах, які охоплюють різні форми аналізу.
І, нарешті, організації, що фінансують науку, повинні орієнтуватися на якість, а не на кількість, стимулюючи відтворюваність — перевірку та повторення результатів іншими дослідниками, а також синтез доказів — об'єднання даних з різних джерел для більш надійних висновків.
Хто виявиться сильнішим?
Оригінальні дослідження:
- Is AI leading to a reproducibility crisis in science?
- Why an overreliance на AI-driven modelling is bad for science
- Джерело інформації: www.huxley.media

Коментарі
Дописати коментар