Хто знає, той перемагає.

 

ЗАКОН ЦИПФА: як «математика мови» відрізняє нас від тварин


                                                                      Photo by Raphael Schaller on Unsplash

Зв’язок математики і фізичної реальності — одна з найцікавіших проблем, які намагається розв’язати філософія науки. Але виявляється, що математика працює не тільки в зовнішньому світі. «Математично» влаштована навіть наша з вами мова. Більшість мов світу підкоряється рівнянню, відомому як закон Ципфа. І науковці навіть гадки не мають, чому це відбувається.

 

МАТЕМАТИЧНИЙ ВСЕСВІТ

 

Згідно з Гіпотезою математичного всесвіту, яку висунув астрофізик, професор Массачусетського університету Макс Тегмарк, наша зовнішня фізична реальність є математичною структурою. Зрозуміло, що це лише гіпотеза, і погоджуються з нею геть не всі вчені.

Проте зрозумілої відповіді на запитання, чому математика так добре описує те, що відбувається у Всесвіті, немає навіть в опонентів Тегмарка. Ми можемо лише констатувати той факт, що математика стала основою для опису багатьох фізичних законів, хоча сама вона формувалася без будь-якої участі фізики.

Крім того, деякі об’єкти спочатку були відкриті суто математично і лише згодом були виявлені в реальності. Наприклад, Урбен Левер’є «вирахував» існування планети Нептун задовго до того, як люди на власні очі переконалися в її існуванні.

Дірак математично обчислив існування позитронів Максвелла — хвиль, що породжують коливання в електричному або магнітному полі. Енштейнівській теорії відносності передувала неевклідова геометрія, а кеплерівським описам планетарних орбіт — давньогрецькі праці про конічні перерізи.

Лауреат Нобелівської премії з фізики Юджин Вігнер у 60-х роках XX століття писав: «Неймовірна ефективність математики в природничих науках є чимось таким, що межує з містикою, бо жодного раціонального пояснення цьому факту немає».

 

НА МЕЖІ МІСТИКИ

 

Межує з містикою і закон Ципфа, для якого досі не існує виразного наукового обґрунтування. Джордж Кінгслі Ципф — американський учений, який працював у Гарвардському університеті та спеціалізувався на вивченні психобіології мови й методах статистики.

У результаті своїх досліджень він помітив, що деякі слова люди використовують набагато частіше, ніж інші. При цьому найпопулярніше слово завжди буде вживатися вдвічі частіше, ніж друге за популярністю.

В англійській, скажімо, найчастіше використовується слово the. Його вимовляють удвічі частіше, ніж наступне за частотою слово, утричі частіше, ніж наступне, учетверо частіше, ніж наступне, і так далі. Але найдивовижніше — що таку саму закономірність було виявлено і в інших галузях.

Зокрема, у розподілі доходів і величини міст: людина з найбільшим доходом рівно вдвічі багатша за наступного за нею багатія. А в першому за величиною населення місті країни жителів буде вдвічі більше, ніж у тому, що посідає друге місце.

 

ЩО САМЕ ВІДКРИВ ЦИПФ?

 

Якщо повернутися до мови, то Ципф виявив тут ще одну дивину. Спочатку вчений присвоїв словам номери: слова, що вживаються найчастіше, — номер 1, з частотністю нижче — 2, ще на рівень нижче — 3, і так далі. Після цього він обчислив імовірність зустріти слово Ікс у тексті. Для цього кількість слів Ікс у тексті він розділив на кількість усіх слів.

Далі, множачи ймовірність для слова Ікс на порядковий номер рангу, в якому воно опинилося, Ципф щоразу отримував приблизно одну й ту саму величину. Наприклад, для англійської мови ця константа дорівнює приблизно 0,1, а для російської — близько 0,06. І як, скажіть, після цього відкриття не станеться екзистенційна криза?

Адже нам, як і раніше, подобається думати, що люди — непередбачувані істоти, керовані власною вільною волею, що виникає якимось чином із фізичних процесів. Натомість лінгвістичні дослідження ставлять людську зарозумілість під значний сумнів.

 

ОЦИПФРОВАНИЙ ГУТЕНБЕРГ

 

Схоже, що закону Ципфа підкоряється більшість мов світу. Абсолютно неважливо, чи говорите ви англійською, хінді, французькою, мандаринською, чи іспанською: закон Ципфа застосовний до перших 10 мільйонів слів 30 різними мовами. Ба більше, він вірний і для тих мов, які ще не розшифрували.

Приміром, цей закон правильний щодо таємничого Манускрипту Войнича, написаного в XV столітті невідомим алфавітом невідомою мовою. Закон Ципфа працює не тільки щодо мов, а й щодо наукових і художніх текстів. Він стосується і «Походження видів» Чарльза Дарвіна, і «Гамлета» Вільяма Шекспіра. Щоправда, з книжками не все так однозначно.

Одного разу математики вирішили перевірити закон Ципфа на великому масиві даних проєкту «Гутенберг» — електронної універсальної бібліотеки, що включає 31 075 книг англійською мовою. Виявилося, що на великих масивах даних закон Ципфа працює не абсолютно, але все одно у 55 відсотках випадків працює.

При цьому, мабуть, існує якийсь клас текстів, які в цю математичну закономірність не вписуються. Але де гарантія, що цей клас не описує якийсь інший, поки що не відкритий закон?

 

ЗАПИТАНЬ СТАЛО НАБАГАТО БІЛЬШЕ

 

У будь-якому разі закон Ципфа, безумовно, є нетривіальною властивістю людської мови. До його відкриття можна було логічно, але помилково припускати, що в мовній практиці всі слова використовуються з приблизно однаковою частотою. Однак і після відкриття науковцям легше не стало, адже тепер доводиться шукати відповідь на запитання: чому слова підкоряються саме цьому точному математичному правилу?

Існує безліч потенційних пояснень — від статистичних викривлень до обмежень, накладених людською пам’яттю та словниковим запасом. Сам Джордж Ципф припустив, що закон виходить із балансу мінімізації зусиль тих, хто говорить і слухає.

Люди намагаються передати сенс якомога ефективніше, тому прагнуть використовувати слова, які допомагають максимізувати обсяг інформації. Річ у тім, що Ципф помітив ще одну важливу деталь: що вище слово опиняється в цьому списку, то воно коротше. Є й інші пояснення, але жодне з них не визнано задовільним.

 

УСЯ СПРАВА В ЕВОЛЮЦІЇ?

 

Ймовірно, основи мови мають дуже глибоке, не до кінця зрозуміле нами еволюційне коріння. Приміром, вивчаючи поведінку макак, шимпанзе та дельфінів, лінгвісти виявили, що їхні крики й моделі спілкування частково підкоряються принципам, характерним для природних людських мов.

Зокрема, закону Мензерата, який стверджує, що довші мовні одиниці складаються з коротших блоків: склади у відносно довгому слові будуть коротшими, ніж склади в короткому слові. А ось із законом Ципфа все виявилося не так просто.

У результаті масштабного аналізу науковці змушені були констатувати: загалом закон Ципфа — суто людська особливість, у тварин він не працює. У шимпанзе виявилася лише помічена Ципфом зворотна залежність між довжиною жесту і його регулярністю, яка була присутня в групі найкоротших жестів.

 

Оригінальні дослідження:

 Джерело інформації: www.huxley.media


Коментарі

Популярні публікації