Statystyka marzec 2021 90min↓ Home
1 2 3 4 5 6: probability, statistics, MonteCarlo. Khan Academy OECD GUS
List of probability distributions
Js kody Histogram Histogram z Js Dane GDP Irysy PłodnośćSinusoida skalowalna, przesuwalna Dayton szybko Dayton przeglądanie Dayton 2 parametry Js Rzut n kostkami Losowe znaki Rozkład normalny Normalny skumulowany Uniform to normal by inv. cumul. Outliers Normalny 2D RGB ISO
g-2 .. at a significance of 4.2 sigma .. muon is sensitive to something that is not in our best theory
Arkusz Google: =LICZ.JEŻELI(A1:A100;">"&B1)
Estymacja
Oporniki [Ω] 1592,1592,1594,1595,1596,1597,1601,1608,1612,1619,1623,1624,1628,1634,1646,1648,1655,1667
Dystrybuanta empiryczna oporników
Odchylenie standardowe średniej: sśr=s/√n
Odchylenie standardowe odchylenia standardowego: ss=s/√(2n)
Oporniki w R
x=c(1592,1592,1594,1595,1596,1597,1601,1608,1612,1619,1623,1624,1628,1634,1646,1648,1655,1667)
m=mean(x); m
s=sd(x); s
n=length(x); n
sm=s/sqrt(n); sm
t=(m-1600)/sm; t
p=pt(t,n-2); p; 1-p
Kurtoza, skośność sskosność = √(6*n*(n-1)/((n-2)*(n+1)*(n+3))) skurtoza = √(24*n*(n-1)2/((n-3)*(n-2)*(n+3)*(n+5)))
Dwuwymiarowy rozkład normalny
Generowanie skorelowanych
X1 i X2 to niezależne losowe normalne. Y i X1 są skorelowane w stopniu ρ.
Macierz korelacji w VBA Excel Poniższy kod generuje 5 zmiennych losowych normalnych N(0,1), skorelowanych. Następnie liczy macierz korelacji. Sub korelacja() n = 5: m = 1000 For i = 1 To m Cells(i, 1) = WorksheetFunction.NormInv(Rnd, 0, 1) Cells(i, 2) = WorksheetFunction.NormInv(Rnd, 0, 1) r = 0.9: r1 = (1 - r * r) ^ 0.5 Cells(i, 3) = r * Cells(i, 1) + r1 * WorksheetFunction.NormInv(Rnd, 0, 1) r = -0.99: r1 = (1 - r * r) ^ 0.5 Cells(i, 4) = r * Cells(i, 1) + r1 * WorksheetFunction.NormInv(Rnd, 0, 1) r = 0.5: r1 = (1 - r * r) ^ 0.5 Cells(i, 5) = r * Cells(i, 2) + r1 * WorksheetFunction.NormInv(Rnd, 0, 1) Next i For i = 1 To n For j = i + 1 To n Cells(i, j + n + 2) = WorksheetFunction.Correl(Range(Cells(1, i), Cells(m, i)), Range(Cells(1, j), Cells(m, j))) Next j Next i End Sub
PCA w R x=rnorm(1000) y=rnorm(1000) x1=x+y x2=x-y x3=x+0.1*y x4=0.1*x+y x5=x+0.2*rnorm(1000) x6=rnorm(1000) f=data.frame(x1,x2,x3,x4,x5,x6) pca=prcomp(f) pca plot(pca$sdev) plot(pca$x[,1],pca$x[,2]) cor(pca$x[,1],pca$x[,2])
Płodność wg GUS, plik danych txt jest tu d = read.table("D://AGH//zajecia21//R//plodnosc_pca.txt", header = TRUE) prcomp(d) Standard deviations (1, .., p=7): [1] 2.1027300 1.3417795 0.7491581 0.4615064 0.2660486 0.1529702 0.1486402 PC1 PC2 PC3 PC4 PC5 PC6 PC7 w15w19 -0.2588221 0.57744799 -0.37292812 0.2008855 -0.09760806 -0.635291289 -0.083739020 w20w24 -0.0685826 0.71627355 0.21190066 0.1532995 -0.15913268 0.611838197 0.119066426 w25w29 0.3581409 0.32252356 0.60954998 -0.3237610 0.33234327 -0.328380273 -0.270288082 w30w34 0.4660994 0.01521344 0.14042077 0.1359038 -0.28799304 -0.272282167 0.766325343 w35w39 0.4596466 -0.06997781 0.01271054 0.2965415 -0.61549797 0.004204555 -0.562915802 w40w44 0.4623772 0.06065745 -0.31254603 0.5279261 0.62333256 0.126607260 -0.039548988 w45w49 0.3971477 0.20168514 -0.57175780 -0.6679898 -0.06615272 0.155050769 0.007903176 pca$x[,1] Dolnoslaskie Kujawsko-pomorskie Lubelskie Lubuskie Lodzkie -0.7263709 -1.4084370 0.5451276 -2.5509589 0.2395690 Malopolskie Mazowieckie Opolskie Podkarpackie Podlaskie 2.9336302 5.1683316 -1.9702629 0.6059703 1.2294747 Pomorskie Slaskie Swietokrzyskie Warminsko-mazurskie Wielkopolskie 1.5654710 -1.0153874 -1.9466597 -2.0230219 1.1426205 Zachodniopomorskie -1.7890962 pca$x[,2] Dolnoslaskie Kujawsko-pomorskie Lubelskie Lubuskie Lodzkie 0.07486652 1.12826189 -1.60514675 0.57814219 -0.77551312 Malopolskie Mazowieckie Opolskie Podkarpackie Podlaskie -0.65038997 0.04743787 -0.35157988 -1.76658204 -0.79969631 Pomorskie Slaskie Swietokrzyskie Warminsko-mazurskie Wielkopolskie 3.00111085 -0.48479017 -2.00831235 0.99835200 1.63696049 Zachodniopomorskie 0.97687879
Testowanie hipotez
Hipoteza TAK | Hipoteza NIE | |
---|---|---|
Rzeczywistość TAK | OK | Błąd I α |
Rzeczywistość NIE | Błąd II β | OK |
Średnia z dwóch wyników
Np. 123.4±1.2, 120.1±2.4, średnia = 122.7±1.1. Oczywiście, średnią liczymy tylko
w przypadku, gdy wyniki są zgodne, czyli, gdy różnica między nimi nie jest wieksza od, np.
3σ, gdzie σ jest sigmą różnicy:
σ2 = s12 + s22.
Całkowanie numeryczne funkcji gestości prawdopodobieństwa rozkładu normalnego
Całkowanie numeryczne krzywej dzwonowej daje zadziwiająco dobre rezultaty.
Nawet przy kroku tak dużym jak Δx = 0.2, czyli 5 przedziałów na σ, suma wynosi 1, przy całkowaniu od -10 do 10. Jest to 1 dokładne, przy liczeniu podwójnej precyzji, jak to w arkuszu kalkulacyjnym. Jest to możliwe, ponieważ w zakresie od -1 do +1 krzywa jest wypukła, a poza nim, wklęsła. W części wypukłej dostajemy za małe wartości. Zielony trójkącik jest mniejszy od pomarańczowego. Widać to na lewym wykresie, gdzie żółta krzywa pokazuje różnicę między polem prostokąta w całkowaniu numerycznym, a dokładną wartością prawdopodobieństwa liczoną z dystrybuanty (patrz formuły). Dziwne jest to, że pole pod żółtą krzywą jest tak dokładnie równe zeru.
Czerwona krzywa dzwonowa na wykresie przykrywa niemal dokładnie niebieską. Żółta krzywa różnic (L) jest 100-krotnie powiększona.
Na rysunku całkowanie biegnie tylko od -6 do 6, wtedy sumy, numeryczna i probabilistyczna (tak ją nazwijmy) są mniejsze od 1 o wartości podane w M i N. Te różnice są niemal identyczne.
Taki to jest kształt e-x^2!
J1 =NORM.DIST(I1,0,1,1=0)*H$1
K1 =NORM.DIST(I1+H$1/2,0,1,0=0)-NORM.DIST(I1-H$1/2,0,1,0=0)