Formelblad till statistik

Statistikformler på First of April

Här är de allra vanligaste formlerna till kurserna i statistik på universitetens kandidatnivå. Listan är under utveckling och komplimenteras fortlöpande med fler formler. Klicka på plus-tecknet för att få fram formler för respektive område.

  • +

    Medelvärde, väntevärde, varians och korrelation

    Väntevärde:\mu = E(X) =\sum_{x}^{} {xP(x)}medelvärdet för ett försöks utfall om försöket utförs ett oändligt antal gånger.
    Varians:\sigma^{2} = {\sum\limits_{i = 1}^n P(x_i)(x_i-\mu)^{2}}visar det genomsnittliga avståndet från väntevärdet.
    Standardavvikelse:\sigma = \sqrt{\sum\limits_{i = 1}^n P(x_i)(x_i-\mu)^{2}}är ett mått på hur mycket olika värden avviker från väntevärdet.
    Varians (väntevärde):\sigma^2 = E((X-E(X))^2) = E(X^2) - E(X)^2uträkning av varians m.h.a. väntevärde.
    Standardavvikelse (väntevärde):\sigma =\sqrt{E[X^2] - (E[X])^2}uträkning av standardavvikelse m.h.a. väntevärde.
    Kovarians:\sigma_{XY}={E}[(X - \mu_X) (Y - \mu_Y)]=E( XY)-E(X)E(Y)
    Korrelation:\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}visar styrkan och riktningen av ett samband mellan två variabler.
    Korrelation (Pearson):R_{xy} = \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}},korrelation i ett urval.
    Medelvärde:{\bar x}={\frac {1}{n}}\sum _{{i=1}}^{{n}}x_{i}medelvärdet av ett urval.
    Varians (urval):s^2 = \frac{1}{n-1}  \sum_{i=1}^n (x_i - \bar{x})^2variansen av ett urval (stickprov).
    Standardavvikelse (urval):s = \sqrt{\frac{1}{n-1}  \sum_{i=1}^n (x_i - \bar{x})^2}standardavvikelsen i ett urval (stickprov).
    Kovarians (urval):s_{xy}=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1)}
    Korrelation (urval):\rho_{xy}=\frac{s_{xy}}{s_xs_y}

  • +

    Kombinatorik

    {_nC_r}=\frac{n}{r}=\frac{n(n-1)\dotsb(n-r+1)}{r!}att välja ett objekt (r) utan hänsyn till ordning och utan återläggning.
    Viktiga regler för formeln ovan:{n \choose 0}={n \choose n}=1
    {n \choose r}={n \choose n-r}
    Exempel till formeln ovan:{8 \choose 5} = \frac{8 \cdot 7 \cdot 6 \cdot 5 \cdot 4}{5 \cdot 4 \cdot 3 \cdot 2 \cdot 1} = \frac{8 \cdot 7 \cdot 6 \cdot 5 \cdot 4 \cdot 3 \cdot 2 \cdot 1}{(5 \cdot 4 \cdot 3 \cdot 2 \cdot 1) \cdot (3 \cdot 2 \cdot 1)}= \frac{8 \cdot 7 \cdot 6 }{3 \cdot 2} = 56
    {_nP_r}={n(n-1)\dotsb(n-r+1)}att välja ett objekt (r) med hänsyn till ordning och utan återläggning.
    {n^r}att välja ett objekt (r) med hänsyn till ordning och med återläggning.

  • +

    Fördelningar

    Binomialfördelningen:

    P(X=r) = {n \choose r} p^r (1-p)^{n-r}

    Binomialfördelning är en diskret fördelning där dragning med återläggning måste ske. Motsvarigheten till binomialfördelningen är hypergeometrisk fördelning.

    Förväntning i en binomialfördelning:

    E (X) = np

    Variansen i en binomialfördelning:

    \sigma^2 = np (1-p)


    Hypergeometrisk fördelning:

    Typexempel: Man väljer ut n objekt utan hänsyn till ordning bland N stycken, utan återläggning. Antag att av de N objekten a stycken är defekta, medan resten b = N – a inte är defekta. Då är sannolikheten att man får precis defekta objekt =

    {{a \choose r} {b \choose n-r} \over {N \choose n}}

    En hypergeometrisk fördelning är en diskret fördelning där dragning utan återläggning med två föremål måste ske. Motsvarigheten till hypergeometrisk fördelning är binomialfördelningen.

    Förväntning i en hypergeometrisk fördelning:

    E(X) = {na \over N}

    Variansen i en hypergeometrisk fördelning:

    \sigma^2 = {N-n \over N-1} {nab \over N^2}


  • +

    Sannolikheter

    Teckenförklaring:

    P(A) sannolikheten för att A inträffar.

    P(A^c) sannolikheten för att A inte inträffar.

    P(A \cup B) sannolikheten för att A och B inträffar. (A union B = sannolikheten för både A och B)

    P(A\cap B) sannolikheten för att AB inträffar. (A snitt B = sannolikheten som gäller både A och B, men inte den som bara gäller för A eller B)

    P(A|B) sannolikheten för att A inträffar då B har inträffat.


    Om A och B inte har gemensamma element:

    P(A \cup B) = P(A) + P(B)

    Annars:

    P(A\cup B)=P(A)+P(B)-P(A\cap B)

    P(A^c\cap B^c)=1-P(A\cup B)

    Om A har en del som även gäller för B visas den genom ”A snitt B” eller:

    P(A\cap B)=P(A)P(B|A)=P(B)P(A|B)


    Vid exempelvis P(B^c) ”komplement B” så gäller:

    P(B^c|A^c)=\frac{P(B^c\cap A^c)}{P(A^c)}=\frac{P(A^c\cap B^c)}{P(A^c)}

    P(B^c)=1-P(B)


    Sannolikheten för att A är betingat B:

    P(A|B)=\frac{P(A\cap B)}{P(B)}

    Bayes sats: (när n=1)

    P(A|B) = \frac{P(A)P(B|A)}{P(B)}


    A och B är oberoende (uavhengige) om P(A\cap B) = P(A)P(B) som även betyder att P(A|B)=P(A) och P(B|A)=P(B)


    Enligt lagen om total sannolikhet är:

    P(A) = P(B)P(A|B) + P(B^c)P(A|B^c)


    Om händelsen H_1...H_n måste inträffa betyder det att:

    P(A)=P(H_1)P(A|H_1)+\cdots+P(H_n)P(A|H_n)


  • +

    Konfidensintervall

    Konfidensintervall för sannolikhet (andel) där np(1-p) \geq 10

    \hat p \pm z_{a/2} \sqrt{\frac{1}{n}\hat p \left(1 - \hat p \right)}

    Med många observationer använder man sig av normalfördelningen:

    \bar{X} \pm z_{a/2}\frac{S_X} {\sqrt{n}}

    Vid få observationer (exempelvis urval) används t-fördelningen:

    \bar{X} \pm t^{n-1}_{a/2}\frac{S_X} {\sqrt{n}}

  • +

    Hypotesprövning

    Tips till formlerna nedanför:

    P-värde större än, eller lika med, signifikansnivå? Behåll nollhypotesen.

    Vid test där man söker efter sannolikheten att något är större än X, fås P-värdet fram genom 1-Z när Z=P-värdet

    Vid test där man söker efter sannolikheten att något är mindre än X, fås P-värdet fram m.h.a. Z-värdet.

    När Z är negativt fås P-värdet fram genom att se efter motsvarigheten för Z om det varit positivt, och sedan m.h.a. 1-Z

    Vid test mellan två hypoteser räknar man ut bådas P-värde och tar det större X-värdets P-värde minus det mindre X-värdets P-värde.


    Prövning av hypoteser angående \mu:

    När \sigma är känd:

    Z = \frac{x- \mu}{\frac{\sigma} {\sqrt{n}}}

    När \sigma inte är känd. T är fördelat med n-1 frihetsgrader:

    t = \frac{x- \mu}{\frac{s} {\sqrt{n}}}

    När \sigma inte är känd men stickprovet är stort (n>30):

    Z = \frac{x- \mu}{\frac{s} {\sqrt{n}}}

    Z-värdet visar avståndet mellan z-värdet och populationens medelvärde i form av antal standardavvikelser. Z är negativt när det är under medelvärdet, och positivt över medelvärdet.


    Speciella hypotestester:

    Test av binomiska variabler: är sannolikheten för att samma sak sker igen annorlunda?

    T-test för väntevärde: är väntevärdet i ett urval annorlunda från förut?

    T-test för två urval: är väntevärdet i två urval lika eller ej?

    U-test: är sannolikheten för ett lyckat utfall i två grupper lika eller ej?

    Chikvadrattest (Q-test) för sannolikheter: är en modell trovärdig eller ej?

    Chikvadrattest (Q-test) för oberoende: är det sammanahng mellan två kännetecken?

1 kommentar

Svara Avbryt

Sociala nätverk

Tillbaka till början