Wnioskowanie Bayesowskie Home     Rachunek prawdopodobieństwa i statystyka

Weźmy kwadrat. Jeżeli jego bok wynosi 1, to pole też, i wtedy możemy łatwo przejść na prawdopodobieństwa, rzecz niewątpliwie bardziej abstrakcyjną. Oznaczmy pole powierzchni czerwonej elipsy jako S(B). Jeżeli zamiast S napiszemy P; P(B), to ta sama liczba stanie się prawdopodobieństwem - taki żart. Prawdopodobieństwem czego? Trafienia losowym punktem, jak w tym programiku.

Krytyczne będzie tu pojęcie prawdopodobieństwa warunkowego.

P(B) to prawdopodobieństwo trafienia w B (równe polu powierzchni elipsy B). W tym programiku kropki są liczone, a liczba czerwonych dzielona przez sumę czerwonych plus niebieskie, co daje żądane prawdopodobieństwo. P(B) wychodzi ok. 0.2.

Prawdopodobieństwo B, pod warunkiem, że zaszło A7

P(B|A7)

Jakie jest prawdopodobieństwo trafienia w B, jeżeli wiemy, że punkt będzie wewnątrz A7? Tak jak w tym programiku. Inne będzie. Jakie jest prawdopodobieństwo zachorowania na COVID-19? A jakie, jak się ma 60+?
P(B) to też pole powierzchni. P(B)=P(B|Ω), gdzie Ω to cały kwadrat, czyli P(Ω)=1. P(B|Ω)=P(B)/P(Ω)=P(B)/1=P(B) jaki ładny dowód. Prawdopodobieństwo warunkowe, że trafimy w B, pod warunkiem, że trafimy w kwadrat, a inaczej się nie da, to, po prostu pole B. Natomiast P(B|A7) to będzie ta część pola B, którą wycina A7 (różowawe), podzielona przez P(A7) (błękitnawe + różowawe). Czyli tak:

P(B|A7) = P(B ∩ A7) / P(A7)

Ten znaczek ∩, to iloczyn albo część wspólna. Np. K - kobiety, M - młodzi, to wtedy K ∩ M ...
Jeszcze jest suma: ∪, np. u nas Ω = A1 ∪ A2 ∪ ... ∪ A9.

Powyższy, wycentrowany wzór to definicja prawdopodobieństwa warunkowego. Teraz do twierdzenia Bayesa. Zgodnie z definicją, możemy napisać tak:
P(B|Ai) = P(B ∩ Ai) / P(Ai)
P(Ai|B) = P(B ∩ Ai) / P(B), oraz P(B) = ΣP(B ∩ Ai) = P(B ∩ A1) + P(B ∩ A2) + ... + P(B ∩ A9). Tak więc, po prostych reorganizacjach:

P(Ai|B) = P(B|Ai)*P(Ai) / Σ P(B|Ai)*P(Ai)

Mianownik po prawej stronie równania, po prosu dba o to by wszystkie prawdopodobieństwa (i=1, 2, ... 9) sumowały sie do 1. Jest on więc nieciekawy i można go opuścić pisząc proporcjonalność:

P(Ai|B) ∝ P(B|Ai)*P(Ai)

To ważne, żeby mieć klarowny wzór, bo jest o czym mówić. Ten wzór, twierdzenie Bayesa, odwraca kolejność, z B|Ai na Ai|B. W tej chwili nie widzimy wagi tej operacji, która jest wielka. Płacimy za nią czynnikiem P(Ai), który musimy znać, żeby wnioskować. Powyższy rysunek nie wyczerpuje i nie ilustruje dobrze złożoności problemu. P(Ai) to prawdopodobieństwa a priori, natomiast P(Ai|B) to prawdopodobieństwa a posteriori, nowa wiedza o Ai, zyskana po zaobserwowaniu B. Kłopot z P(Ai) polega na tym, że to jest nasza wiedza PRZED. A skąd przed pomiarem, badaniem, ankietą mamy mieć jakąś wiedzę? Otóż zawsze mamy jakąś wiedzę. Jeżeli badamy symetrię monety, to sprawa jest prosta, prawdopodobieństwa a priori: P(O)=P(R)=1/2. Potem rzucamy nią wiele razy. Jeżeli mamy 9 możliwych wyników, patrz kwadrat, i NIC nie wiemy, to P(Ai)=1/9 dla wszystkich i.

Zróbmy liczbowy przykład. Już bardziej realny niż symetria monety, choć, dla prostoty, niech to są czerwone i zielone kulki w worku. Niech wiedza a priori będzie taka, że z jednakowym prawdopodobieństwem podejrzewamy, że zachodzi jeden z trzech przypadków
A1: w worku jest 40% zielonych kulek (reszta czerwone)
A2: w worku jest 50% zielonych
A3: w worku jest 60% zielonych, czyli P(A1)=P(A2)=P(A3)=1/3.
Wykonujemy BADANIE, wyciągamy z worka jedną kulkę. Okazuje się, że jest ona ZIELONA. Jaka teraz jest nasza wiedza o Ai? Jak się zmieniła? Spodziewamy się, że na korzyść zielonych kulek. Spodziewamy się, że P(A3) powinno wzrosnąć z 1/3 do...? Kosztem P(A1), które preferowało czerwone kulki. Liczmy więc.
Prawdopodobieństwo, że wyciągniemy kulkę zieloną (B) o ile mamy do czynienie z workiem numer 1 wynosi P(B|A1)=0.4, kolejno 0.5 i 0.6 (jest to napisane wyżej w %). Prawdopodobieństwa a priori znamy: P(Ai)=1/3.
P(Ai|B) = P(B|Ai)*P(Ai) / Σ P(B|Ai)*P(Ai) dzielimy licznik i mianownik przez P(Ai), które są takie same.
P(Ai|B) = P(B|Ai) / Σ P(B|Ai)
P(A1|B) = 0.4/(0.4+0.5+0.6)= 0.4/1.5=0.8/3 mniej niż a prioryczna 1/3.
P(A2|B) = 0.5/(0.4+0.5+0.6)= 1/3 b.z.
P(A3|B) = 0.6/1.5=1.2/3=0.44 ten przypadek, ten worek, jest obecnie najbardziej prawdopodobny.

A gdyby? A gdyby to były dwa worki, jeden z samymi czerwonymi, a drugi wyłącznie z zielonymi kulkami (0%, 100%)? Sytuacja banalna, wyciągamy zieloną - mamy worek drugi. Ale jak zadziała tw. Bayesa?
P(A1)=P(A2)=1/2, P(B|A1)=0, P(B|A2)=1.
P(Ai|B) = P(B|Ai) / Σ P(B|Ai) - w mianowniku 1, w liczniku 0 albo 1, działa.

Przejdźmy do zmiennej ciągłej, do rozkładu normalnego. Mamy wynik pomiaru wielkości x, mianowicie x1 = μ1 ± σ1. Użycie tutaj literek μ i σ może się komuś nie podobać, to zdrowy odruch, ale... Był to pomiar o słabej dokładności, powiedzmy σ/μ=20%. My robimy teraz nowy pomiar, lepszym miernikiem, mamy wynik: x2 = μ2 ± σ2 (może np. σ/μ=5%). Jaki jest końcowy wynik, uwzględniający oczywiście wynik pierwszy? W poniższych wzorach f(x;μ,σ) będzie oznaczało funkcję gęstości prawdopodobieństwa rozkładu normalnego zmiennej x z parametrami, jak widać.
Jak przepisać wzór: P(Ai|B) ∝ P(B|Ai)*P(Ai)? To, że zamiast prawdopodobieństw P będziemy mieli gęstości prawdopodobieństw f, nie powinno nas specjalnie zastanawiać. Zamiast P(Ai) mamy f(x; μ1, σ1). Niech nas nie zmylą oznaczenia; w pierwszym wypadku zmienną jest i, w drugim x, bo przeszliśmy ze zmiennej skokowej na ciągłą. A co w miejsce P(B|Ai)? Po prostu f(x; μ2, σ2)? Bo to jest gęstość prawdopodobieństwa pod warunkiem, że x=x. Czyli wynik końcowy:
f(x) ∝ f(x; μ2, σ2)*f(x; μ1, σ1)
exp(-1/2*((x-μ1)/σ1)2) * exp(-1/2*((x-μ2)/σ2)2) = exp(-1/2*(((x-μ1)/σ1)2 + ((x-μ2)/σ2)2)) = ...
Podnosimy do kwadratu, porządkujemy składniki, porządkujemy składniki, wyrzucamy albo dodajemy (w wykładniku) dowolne składniki stałe (bez x), pamiętając, że liczymy proporcjonalność... =
exp(-1/2*((x-(μ122 + μ212) / (σ12 + σ22)) / (σ1 * σ2)2 / (σ12 + σ22))2)    a to, oczywiście jest też rozkład normalny, o następujących parametrach:

μ = (μ122 + μ212) / (σ12 + σ22)  ,    σ = σ1 * σ2 / √(σ12 + σ22)

Tak wygląda gromadzenie nowej wiedzy. Uprośćmy ten wzór przyjmując σ1=1. Dla potrzeb komentarza.
μ = (μ122 + μ2) / (1 + σ22)      σ = σ2 / √(1 + σ22)
Jeżeli σ2 jest małe, bo nowy pomiar miał być dokładny, to σ22 jest jeszcze mniejsze, to we wzorze na μ μ1 nie będzie miało znaczenia, zostaje praktycznie tylko μ2, i dobrze. Jeżeli σ2=1, czyli oba pomiary były tak samo dokładne, to μ jest średnią z μ1 i μ2, też dobrze. Jeżeli σ2 miałaby być wyraźnie większa od 1, to sytuacja się odwraca. Nie ważne, z punktu widzenia wzoru, czy pierwszy, czy drugi pomiar jest dokładniejszy. Dokładniejszy pomiar ma większy wpływa na wynik końcowy, a posteriori.
Ze wzorem na σ sprawa jest prostsza. Od razu widać, że σ a posteriori jest mniejsza od każdej z sigm. Jeżeli σ2 jest małe, tak jak miało być, to σ jest niewiele mniejsza od σ2.


Tak to wygląda. Stary pomiar, mniej dokładny, z wynikiem 5 pociąga nieco wynik końcowy do siebie, czyli w lewo. Oraz zmniejsza minimalnie jego sigmę. Widać tu, że stary pomiar, o sigmie zaledwie dwa razy większej od tej, jaką ma nowy pomiar, praktycznie nie ma znaczenia. Wagami w omawianym wzorze są kwadraty sigm, a 22 to już jest 4.
Tak działa wnioskowanie Bayesowskie.

W tym programiku możemy klikaniem zmieniać μ1, μ2, σ1, σ2 i obserwować wynik.

Rozpatrzmy pewien, niestety bardzo życiowy przykład. Niech oba pomiary mają taką samą dokładność. ALE, po prostu, NIE ZGADZAJĄ SIĘ ZE SOBĄ. Zaraz wrócimy do tego, co to znaczy nie zgadzać się ze sobą. Na razie stwierdzamy, że jeden pomiar dał wynik 2, a drugi 8, przy sigmach równych 0.4. Niestety, Twierdzenie Bayesa bez wahania mnoży oba Gaussy nawet tam, gdzie mają one wartość 6e-13 (przy x=5).

Wynik zgodny z wzorem, jest taki: średnia z 2 i 8 (czyli 5) i sigma trochę mniejsza 0.4/√2. Ale tak nie może być, tak nie wolno. Trzeba to wszystko urealnić. Mamy wynik 2±0.4. Czyli wiemy o x, że leży gdzieś niedaleko 2. Załóżmy, na chwilę, że prawdziwa wartość x, na prawdę wynosi 2. A pomiar, na prawdę miał σ=0.4 (taką miał precyzję). W takiej sytuacji, prawdopodobieństwo otrzymania w innym, podobnym pomiarze wartości 8 (lub większej) wynosi ... niestety =1-NORMDIST(6,0,0.566,true) daje wynik dokładnie 0, ma prawo, to tylko podwójna precyzja. Gdyby ktoś się uparł żeby to policzyć, trzeba Googlować Mills ratio.
Co zrobić? Gdyby przerobić rozkład normalny, tak, że ucinamy mu ogony powyżej 3, albo nawet 4, to mnożenie zer zawsze daje zero. Nie będzie wyniku. Tylko, że zrobić trzeba odwrotnie. Bo prawdziwe, realne sytuacje są raczej odwrotne. Ogony gaussowskie należy pogrubić. Po prostu, ZAWSZE istnieje możliwość błędu grubego. W porządnym laboratorium może on być, co najwyżej bardzo mało prawdopodobny. Co to jest błąd gruby? To zmienna losowa, która ma σgross error = 10* σ. Model jest taki:
=IF(RAND()>0.1,NORMINV(RAND(),5,0.1),NORMINV(RAND(),5,10)) przy czym parametry są tu przesadzone, raz na 10 razy (średnio) pojawiała się będzie wartość zupełnie odleciana (sigma 100 razy większa). Oczywiście μ=5 można też zmienić dla błędu grubego. Ale one polegają raczej na tym, że nie wiemy co się stało. Wiemy tylko, że coś się popsuło, a to opisuje dość dobrze wzrost sigmy.
Rozkład normalny bardzo szybko maleje, oddalając się od środka. W życiu jest gorzej. Czerwony rozkład wyżej jest do niczego. Musimy znaleźć błąd gruby w pierwszym, lub drugim pomiarze. Tu do wnioskowania wchodzą kwestie takie, jak pytanie o klasę Laboratoriów, które wykonywały pomiary, czy mają tam porządek? Robi się ślisko, to już nie banalna matematyka. Patrz też, Całun Turyński a datowanie radiowęglowe. I jeszcze jedno, co zrobić jeśli nie znajdziemy przyczyny tak poważnej rozbieżności dwóch pomiarów, ani nie zdyskwalifikujemy jednego z nich, bo wykonali go... ci bałaganiarze? Wycofujemy oba pomiary i podajemy się do dymisji.

Wiedza a priori. Przykład. Czytamy nie po kolei (z jakiegoś powodu), najpierw mniejsze literki: "Z GUMĄ TRUFLOWĄ"? Gdybyśmy czytali jak trzeba, mielibyśmy wiedzę a priori "ZUPA GRZYBOWA", która to wiedza naprowadziła by nas na właściwy wybór: "Z OLIWĄ TRUFLOWĄ".

Wszyscy jesteśmy Bayesowcami (zwierzęta też). Bayesian Brains and Efficient Computing.

Twierdzenie Bayesa w archeologii.