Prawo Benforda
Czy zastanawialiście się kiedyś, czytając gazetę, jaka będzie kolejna liczba, którą napotkacie w tekście? Jeśli tekst jest o polityce finansowej być może będą to niedobory w budżecie. A może jest to popularny artykuł o Wielkim Zderzaczu Hadronów i pojawią się wielkie prędkości i gigantyczne energie? Tak czy inaczej, pierwszą cyfrą tej liczby będzie $1$ w około 30% przypadków, $2$ pojawi się nieco rzadziej, w około 17.6% przypadków. Nie wierzycie? Chwyćcie dowolną gazetę i znajdźcie jakąś liczbę, która nie będzie numerem strony. Prawo Benforda przewiduje, że w tym eksperymencie otrzymamy cyfry z następującymi (przybliżonymi) prawdopodobieństwami (jest to tzw. rozkład Benforda).
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
0,301 | 0,176 | 0,125 | 0,097 | 0,079 | 0,067 | 0,058 | 0,051 | 0,046 |
Cyfry z gazet
Jeśli w pobliżu nie macie gazety, przeprowadziłem tę próbę za was. Wyniki widać poniżej.
Dane z języka naturalnego. Na osi poziomej są początkowe cyfry zaś na osi pionowej ich częstość występowania w bazie danych artykułów z angielskiej wikipedii (ok. 3000 artykułów). Z danych zostały usunięte liczby oznaczające rok ze względu na znaczną nadreprezentację w porównaniu do artykułów w prasie. Widoczna nadwyżka w cyfrach $1$ i $2$ może pochodzić od liczby dni i miesięcy często pojawiających się w datach.
Rzeczywiście cyfra $1$ pojawi się najczęściej. Być może jednak to tylko przypadek (w końcu Wikipedia to bardzo specyficzne źródło). Spróbujmy więc gdzie indziej. Weźmy populację 80974 miast w USA. Jak kształtują się częstości występowania pierwszej cyfry? Znów wykres zgadza się niemal idealnie z przewidywaniami Prawa Benforda. Na wykresie przedstawione są również częstości dla innych zbiorów danych.
Zbiory danych, które podlegają prawu Benforda: populacja miast w USA (80974 miasta), populacja państw świata (260 państw), PKB w USD (260 państw).
Dlaczego tak różne zbiory danych mają rozkład częstości występowania pierwszej cyfry zbliżony do przewidywań Benforda? Żeby odpowiedzieć na pytanie musimy odłożyć gazetę lub rocznik statystyczny i zastanowić się jak ten problem ,,wymodelować matematycznie” w ściśle kontrolowanych warunkach. Tylko wtedy będzie można coś rzetelnie o nim powiedzieć.
Potęgi liczby $2$
Ponieważ znalezienie wzoru opisującego liczby pojawiające się w losowych artykułach w gazecie (lub prognozowanie wartości PKB państw) jest zadaniem dosyć trudnym, spróbujmy uprościć sobie potencjalne liczby, które będziemy rozważać. Jeśli przeglądaliśmy akurat prasę z branży komputerowej, jest dość prawdopodobne, że liczbą, na którą się natkniemy jest $512$, $1024$, $2048$ lub inna potęga dwójki. Zastanówmy się więc jakie mogą być pierwsze cyfry takich potęg.
$2^0 = 1$ | $2^1=2$ | $2^2=4$ | $2^3 = 8$ | $2^4=16$ |
$2^5 = 32$ | $64$ | $128$ | $256$ | $512$ |
$2^{10} = 1024$ | $2048$ | $4096$ | $8192$ | $16384$ |
$2^{15} = 32768$ | $65536$ | $131072$ | $262144$ | $524288$ |
$2^{20} = 1048576$ | $2097152$ | $4194304$ | $8388608$ | $16777216$ |
$\ldots$ |
Widzimy, że cyfra $1$ pojawia się bardzo często, pozostałe cyfry… mniej często, ale trudno wywnioskować, czy faktycznie będą się zachowywały tak, jak te z Wikipedii. Na przykład, patrząc na wykres dla tej (bardzo) ograniczonej próby powiedzielibyśmy, że $7$ czy $9$ nie pojawiają się w ogóle, zaś $8$ pojawia się częściej niż $5$. Rzeczywiście pierwsza siódemka pojawia się dla $2^{46}=70368744177664$, a do tego czasu $8$ zdążyła wystąpić już $5$ razy. Czy potrafisz oszacować, kiedy potęga dwójki będzie zaczynać się od cyfry $9$ po raz pierwszy?
Rozkłady częstości występowania dla pierwszych cyfr pierwszych 50, 100, 250 i 1000 kolejnych potęg liczby $2$
Ewolucja pierwszej cyfry
Aby spróbować zrozumieć asymptotykę (czyli zachowanie się pierwszych cyfr gdy rozważamy coraz więcej potęg liczby $2$) przyjmijmy, że pierwszą cyfrą jest $1$. Jaka może być kolejna? To zależy od drugiej cyfry – jeśli jest mniejsza od $5$ (to znaczy mamy do czynienia z liczbą postaci np. $137\!\ldots$), to po przemnożeniu przez $2$ liczba ta będzie zaczynać się od $2$ (w przykładzie $27\!\ldots$). Jeśli natomiast druga cyfra jest większa lub równa $5$ (jak np. $164\!\ldots$), to po przemnożeniu przez $2$ otrzymamy liczbę, której pierwszą cyfrą będzie $3$ (w przykładzie $32\!\ldots$).
To pozwala nam stwierdzić, że ciągu pierwszych cyfr jedynek będzie sumarycznie mniej więcej tyle samo, co dwójek i trójek razem wziętych.
Ile będzie liczb rozpoczynających się od $2$? Rozumując tak samo, można stwierdzić, że tyle co tych zaczynających się od $3$ lub $4$. Cykl w jakim przebiega ,,ewolucja” pierwszej cyfry jest przedstawiony poniżej.
Ewolucyjny cykl pierwszej cyfry podczas podwajania.
Normalizacja
Próba dokładniejszej odpowiedzi na pytanie o częstości pierwszych cyfr będzie bardziej skomplikowana – spróbujmy więc nieco zmienić nasze podejście (i sparafrazować pytanie). Każdą liczbę, którą rozważamy, unormujmy – to znaczy pomnóżmy ją przez taką potęgę $10$, aby wynik był mniejszy od $10$ i większy od $1$. Na przykład dla $2^{10}=1024$ będzie to $10^{-3}$ (i otrzymamy wtedy $1,024$), a dla $2^{25}=33554432$ będzie to $10^{-7}$. Widać, że każdą potęgę liczby $2$ (o wykładniku dowolnym, nie tylko naturalnym!) możemy w ten sposób znormalizować, tj. umiejscowić w przedziale $[1,10)$. Nasze początkowe pytanie (jaka jest częstość występowania jedynki jako początkowej cyfry) przyjmuje teraz postać:
Jak wiele znormalizowanych potęg $2$ znajdzie się w przedziale $[1,2)$?
Sparafrazowana odpowiedź będzie brzmiała, że jest ich tyle samo, co w przedziale $[2,4)$.
Ilość potęg dwójki rozpoczynających się od $1$ jest taka sama jak łączna ilość potęg rozpoczynająca się od $2$ lub $3$.
Drugie pytanie (o to, co się stanie z pierwszą cyfrą, gdy liczbę zaczynającą się od $1$ pomnożymy przez $2$) w nowym podejściu będzie następujące:
Jak wiele znormalizowanych potęg $2$ znajdzie się w przedziale $\left[1,1\frac{1}{2}\right)$? A jak wiele w przedziale $\left[1\frac{1}{2},2\right)$?
Odpowiedzi teraz brzmią: dokładnie tyle samo, co odpowiednio w przedziałach $[2,3)$ i $[3,4)$.
Ilość znormalizowanych potęg dwójki w przedziale $[1,1.5)$ jest taka sama jak łączna ilość potęg w przedziale $[2,3)$ (czerwony). Podobna odpowiedniość jest spełniona dla przedziałów $[1.5,2)$ i $[3,4)$ (zielony).
Gęstość prawdopodobieństwa
To, co w poprzednim paragrafie próbowaliśmy zrobić, to znaleźć opis prawdopodobieństwa tego, że dowolna potęga $2$ (po znormalizowaniu) znajduje się w pewnym przedziale (jak np. $[1,2)$). Jeśli funkcja opisująca to prawdopodobieństwo istnieje, to widzieliśmy, że musi mieć pewne własności (jej ,,wartość na przedziale” $[1,2)$ musi być taka sama, jak ta ,,na przedziale” $[2,4)$ itd.). Czy możemy odpowiedzieć na pytanie, jaka jest wartość tej funkcji w punkcie $2$?
Oczywiście to samo pytanie nie ma sensownej odpowiedzi, gdy zapytamy jakie jest prawdopodobieństwo, że potęga dwójki (po znormalizowaniu) będzie równa $2$. Jest tylko jedna taka potęga (dlaczego?), co wobec nieskończonej liczby innych wyborów niewiele znaczy. Jednak znormalizowanych potęg liczby $2$ leżących blisko liczby $2$ (np. w przedziale $\left(2-\frac{1}{100}, 2 + \frac{1}{100}\right)$ ) będzie już sporo (wśród pierwszego tysiąca potęg znajdziemy dokładnie $5$ takich liczb).
Funkcja gęstości
Mamy więc dosyć dziwną sytuację, w której nasza ,,funkcja” opisująca prawdopodobieństwo ma wartość (niezerową) na dowolnie małych przedziałach wokół $2$, ale jej wartość na zbiorze $\{2\}$ jest równa $0$ (jest tylko jedna potęga dwójki, której normalizacja wynosi $2$, co wobec coraz większego zbioru potęg…). Może to przypominać sytuację, w której dzielimy pręt długości 10 centymetrów i pytamy o masę powstających kawałków.
Fragment między drugim a trzecim centymetrem będzie miał swoją masę tak, jak każdy inny o niezerowej długości (czyli gęstość materiału razy objętość fragmentu). Ale pytanie o to, ile waży fragment pomiędzy drugim a drugim centymetrem jest w zasadzie pozbawione sensu (fizycznego). Wracając do naszych potęg – uciekając się do tej analogii w pewnym sensie pytamy o masę lub o gęstość występowania (znormalizowanych) potęg liczby $2$ w odcinku $[1,10)$.
Funkcja opisująca tę gęstość potęg nosi nazwę gęstości prawdopodobieństwa i ma następującą własność:
Pole pod funkcją gęstości prawdopodobieństwa pomiędzy $1$ a $2$ odpowiada (jest równe) dokładnie prawdopodobieństwu, że losowo wybrana znormalizowana potęga liczby $2$ leży w przedziale $[1,2)$.
Wykres funkcji $f(x) = \frac{1}{\ln(10)x}$ – gęstości prawdopodobieństwa. Pole pod wykresem funkcji między $1$ a $2$ jest równe dokładnie polu pod wykresem funkcji pomiędzy $2$ a $4$.
Z powodów, które dokładnie przeanalizujemy w drugiej części tego artykułu, funkcją opisującą gęstość rozkładu pierwszych cyfr jest \[f(x) = \frac{1}{\ln(10)x}.\] Jeśli policzymy teraz pole (przybliżone) pomiędzy $1$ a $2$, otrzymamy
\[P_{[1,2)}(f) \simeq 0,30103,\] zaś pola pomiędzy $2$ i $3$, oraz między $3$ i $4$ to około \[P_{[2,3)}(f) + P_{[3,4)}(f) \simeq 0,17609 + 0,12494 = 0,30103.\] W ten sposób obliczone prawdopodobieństwa znajdziemy w tabeli na początku artykułu.
Niezmienniczość
Być może część z was zastanawia się, czy przykłady przedstawione na początku nie zostały dobrane tendencyjnie? Wszak wszystkie z nich były jakoś związane z danymi populacyjnymi – ilością słów lub danymi demograficznymi. Być może jest to specjalna cecha takich zbiorów. Przygotowałem więc dwa inne zbiory, które posłużą zobrazowaniu kolejnej ciekawej cechy: niezmienniczości. Korzystając z zasobów Głównego Urzędu Statystycznego oraz brytyjskiej Environment Agency będziemy rozważać dwa zbiory danych:
- zbiór A: eksport Polski w 2014r. z podziałem na branże i państwa (w tys. zł; 3786 kategorii), oraz
- zbiór B: długość wszystkich rzek w Wielkiej Brytanii (w km; 5818 rzek).
Znów z każdej danej liczby interesuje nas tylko pierwsza cyfra i znów rozkład częstości tych cyfr dobrze przybliża rozkład Benforda. Ze względu na wielkość zbioru danych oba zbiory charakteryzują się podobnym odchyleniem od rozkładu dokładnego.
Skalowanie
Czy ta zbieżność to może tylko kwestia jednostki? Kolejny wykres przedstawia te same dane, jednak długość jest wyrażona w stopach ($1\;$km$ \simeq 3280.839\;$ft) i w fikcyjnej jednostce łokci pitagorejskich ($1\;$m$ = \sqrt{2}\;$łokci pitagorejskich), zaś złotówki przeliczone są na dolary ($1\;$PLN = $0.27\;$USD) oraz na fikcyjną walutę $\pi$ędzy ($1$ PLN = $\frac{1}{\pi}\;$$\pi$DZ).
Oryginalny zbiór $A$ i wartości ze zbioru $A$ pomnożone odpowiednio przez $0.27$ (wyrażone w USD) i przez $\frac{1}{\pi}$.
Oryginalny zbiór $B$ i długości ze zbioru $B$ wyrażone w stopach (pomnożone przez $3280.839$) oraz te same długości wyrażone w stopach pitagorejskich ($\sqrt{2}\cdot A$).
Jak widać, skalowanie (niemal) nie zmienia rozkładu częstości pierwszych cyfr, choć nie jest to do końca przypadek: rozkład Benforda jest jedynym rozkładem o tej własności. Pokażemy to w drugiej, bardziej matematycznej, części tego artykułu. Jak na razie na potwierdzenie tej własności rozważmy liczby, które są losowane z jednakowym prawdopodobieństwem z odcinka $[1,10)$. Oczekiwalibyśmy, że każda cyfra pojawia się jako pierwsza z takim samym prawdopodobieństwem. W istocie tak jest. Natomiast po zastosowaniu jednej z operacji jak w przypadku zbiorów $A$ i $B$ rozkład pierwszych cyfr ulega wyraźnej zmianie.
Rozkład pierwszych cyfr losowanych jednostajnie. Początkowy zbiór (rozkład cyfr opisany przez niebieską linię) poddano różnym transformacjom. W czytelny sposób widać, że rozkład jednostajny nie jest niezmienniczy ze względu na skalowanie (tj. zmianę jednostki).
Zastosowania
Kiedy nie możemy oczekiwać że dane spełniają rozkład Benforda:
- pomiary ustalonej własności o niewielkiej zmienności (np. wzrost wyrażony w centymetrach będzie niemal zawsze zaczynać się od 1);
- dane, które zostały w sztuczny sposób ograniczone (np. populacja wiosek, gdy definicja wioski zakłada liczbę mieszkańców pomiędzy 300 a 1000);
- wyniki powtarzalnych eksperymentów fizycznych;
- ogólnie: dane o niewielkiej zmienności.
Kiedy możemy oczekiwać że dane spełnią rozkład Benforda:
- dane, które sztucznie nie zostały ograniczone (np. ceny nie spełniają tego warunku, z psychologiczną barierą typu $9,99$);
- dane zagregowane z wielu źródeł (np. zmieszane kilka zbiorów danych o różnych jednostkach);
- dane bezjednostkowe (np. bazy danych stałych matematycznych lub fizycznych);
- ogólnie: dane o zmienności obejmującej kilka rzędów wielkości.
W części drugiej pokażemy dlaczego dane o dużej zmienności najczęściej spełniają rozkład Benforda. Jeśli jesteście zaznajomieni z logarytmami możecie zacząć się zastanawiać jaki jest związek pomiędzy skalą logarytmiczną a rzędami wielkości i jakie to ma znaczenie dla pierwszej cyfry. My skończymy pierwszą część podając dwa ciekawe przykłady zastosowań tego prawa.
Dane Wyborcze
Mogłoby się zdawać, że dane wyborcze (np. liczby głosów oddane na poszczególnych kandydatów w różnych okręgach wyborczych będą dobrym przykładem danych spełniających prawo Benforda. Podczas elekcji prezydenckich w 2009 roku w Iranie pojawiły się podejrzenia co do uczciwości zliczania głosów. Rzeczywiście, rozkład pierwszych cyfr liczb głosów oddanych na jednego kandydata w okręgach wyborczych nie spełniał prawa Benforda. Jednak wynik ten uznano za zbyt niejasny – nie ma sensownej teorii, która by tłumaczyła, dlaczego dane wyborcze głosów na wszystkich kandydatów powinny spełniać prawo Benforda. Ponadto autorzy publikacji krytycznych argumentują, że nie ma podstaw teoretycznych ani empirycznych by przypuszczać, iż (wysoko zdecentralizowane) manipulacje liczbą głosów spowodują odejście pierwszych cyfr tychże od rozkładu Benforda.
Przykładem potwierdzającym te wątpliwości są dane z niedawnych wyborów prezydenckich w Polsce. Można zauważyć odejścia od prawa Benforda (zwłaszcza w drugiej turze) głosów na danego kandydata.
Dane wyborcze z wyborów prezydenckich 2015 w Polsce. Widać wyraźne odbieganie od prawa Benforda. Można to uzasadnić tym, że populacja okręgów wyborczych jest zależna od podziału administracyjnego, który (w Polsce) prawa Benforda nie spełnia. Widać natomiast, że zagregowane dane dobrze dopasowują się do rozkładu Benforda.
Dane finansowe
Mając dane finansowe pewnej firmy można stworzyć bazę danych zawierającą wszystkie transakcje przychodzące i wychodzące w roku rozliczeniowym. Nieprawidłowości w rozkładzie pierwszej (ale też drugiej i trzeciej!) cyfry w tych danych mogą być przez sąd w Stanach Zjednoczonych uznane za wystarczające, by orzec o malwersacjach finansowych. Nieuczciwi księgowi dopisujący fikcyjne transakcje rzadko kiedy pamiętają, aby zadbać o niezmienniczość rozkładu pierwszych cyfr.