Skip to content
Snippets Groups Projects
Select Git revision
  • b86b7c88d5d120a7cafbd1f4bf49e760f42a229e
  • master default protected
2 results

cvic13.tex

Blame
  • cvic13.tex 7.03 KiB
    \documentclass{article}
    \usepackage{cvika}
    \usepackage{listings}
    \lstset{language=python}
    %    basicstyle=\small\ttfamily,
    %    stringstyle=\color{DarkGreen},
    %    otherkeywords={0,1,2,3,4,5,6,7,8,9},
    %    morekeywords={TRUE,FALSE},
    %    deletekeywords={data,frame,length,as,character},
    %    keywordstyle=\color{blue},
    %    commentstyle=\color{DarkGreen},
    %}
    
    
    
    \begin{document}
    
    \Nadpis{\bf 13. cvičení z PSt --- 15.5.2025} 
    
    \nadpis{Bodové odhady}
    
    \begin{itemize}
      \item Zkoumáme posloupnost n.n.v. se stejným rozdělením, např. $Geom(\theta)$, $U(0,\theta)$, kde $\theta$ je parametr.
      \item Zapisujeme $X_1, \dots, X_n \sim F_\theta$, tzv. \textbf{náhodný výběr} z $F_\theta$ (model s parametrem). 
      \item Naměříme $X_1 = x_1$, \dots, chceme odhadnout $\theta$. 
      \item $\hat\theta_n$ \dots nějaká metoda jak odhadnout $\theta$ pomocí naměřených dat (hodnot $X_1, \dots, X_n$),
        angl. \emph{estimator} 
      \item $m_r(\theta) = \E(X^r)$ pro $X \sim F_\theta$   \dots\ \textbf{$r$-tý moment}, ideální vlastnost rozdělení
      \item $\widehat m_r(\theta) = \tfrac 1n \sum_{i=1}^n X_i^r$ \dots\ \textbf{$r$-tý výběrový moment}, náhodná veličina, funkce našeho
        naměřeného vzorku (tj. statistika)
      \item \textbf{Odhad metodou momentů} vyřešíme rovnici $m_1(\theta) = \widehat m_1(\theta)$ pro neznámou $\theta$. 
      \item event. soustavu rovnic $m_r(\theta) = \widehat m_r(\theta)$ pro $r=1, 2, \dots$ podle potřeby. 
      \goodbreak
      \item $L(\theta; x_1, \dots, x_n) = \P(X_1=x_1 \AND \dots \AND X_n = x_n)$ \dots pravd. pozorovaných dat závislá na
        parametru $\theta$. 
      \item nebo $L(\dots) = f_{X_1, \dots, X_n}(x_1, \dots, x_n)$ \dots hustota pravděpodobnosti \dots
      \item $\ell(\theta; x_1, \dots, x_n) = \log L(\dots)$ \dots pro snazší výpočty. 
      \item \textbf{Odhad metodou maximální věrohodnosti (Maximal Likelihood)} hledáme $\theta$, pro které je 
        maximální $L(\theta; x_1, \dots, x_n)$, resp. $\ell(\dots)$. Obvykle pomocí derivací funkce $L$, resp. $\ell$. \\[2mm]
      \item \textbf{bias (vychýlení):} $\E(\hat\theta_n - \theta)$ \dots $\theta$ skutečný parametr, $\hat\theta_n$ náš odhad (náhodná veličina, protože závisí na naměřených datech)
      \item odhad je \textbf{nevychýlený/nestranný/unbiased:} $bias = 0$
      \item odhad je \textbf{asymptoticky nevychýlený:} bias konverguje k 0, neboli $\E(\hat\theta_n) \to \theta$
      \item odhad je \textbf{konzistentní:} $\hat\theta_n \xrightarrow{P} \theta$: pro všechna $\eps>0$ \ 
        $\Prob(|\hat\theta_n-\theta|>\eps) \to 0$
      \item \textbf{MSE (mean square error, střední kvadratická odchylka):}
        $\E((\hat\theta_n - \theta)^2 )$ 
      \item Věta: $MSE = bias^2 + \var(\hat\theta_n)$.
    \end{itemize}
    
    \textbf{Pro praktickou ukázku, viz pythonový notebook na webu přednášky
      \url{https://iuuk.mff.cuni.cz/~samal/vyuka/PSt1/}.} 
    
    \pr
    Máme náhodný výběr $X_1, \dots, X_n \sim U(0,\theta)$. 
    
    \cast Navrhněte bodový odhad $\theta$ momentovou metodou. % (Bylo na přednášce, připomeňte si, jak se to dělalo.) 
    \cast Navrhněte bodový odhad $\theta$ metodou maximální věrohodnosti. 
    \cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. 
    \cast Pro každý z nich spočtěte střední kvadratickou odchylku (MSE).
      (Stačí experimentálně na počítači.) 
    \cast Který odhad je lepší? Napadá vás nějaký ještě lepší? 
    
    \pr
    Máme náhodný výběr $X_1, \dots, X_n \sim Geom(p)$. 
    
    \cast Navrhněte bodový odhad $p$ momentovou metodou. 
    \cast Navrhněte bodový odhad $p$ metodou maximální věrohodnosti. 
    \cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. 
    
    
    \nadpis{Intervalové odhady} 
    
    \textbf{Čebyševova nerovnost:} $\P({|X-\E(X)|} \ge t \sigma_X ) \le \frac{1}{t^2}$.
    
    \textbf{Distribuční funkce standardního normálního rozdělení $N(0,1)$:}
    \vskip4pt
    \begin{tabular}{|c|c|c|c|c|c|c|c|c|c|}
      \hline
      $x$ & $-4$ & $-3$ & $-2$ & $-1$ & $0$ & $1$ & $2$ & $3$ & $4$ \\
      \hline
      $\Phi(x)$ & $0.00003$ &$0.00135$ & $0.02275$ & $0.15866$ & $ 0.500000$ & $0.84135$ & $0.97725$ & $0.99865$ & $0.99997$ \\
      \hline
    \end{tabular}
    \bigskip
    
    \pr
    Máme jedno měření $X \sim N(\mu, 1)$. (Tj. parametr $\theta = \mu$.) 
    
      \cast 
      Najděte intervalový odhad pro $\mu$ se spolehlivostí 95 \%. 
      (Pro konkrétnost: naměřili jsme $x=2.9$.) 
    
      \cast 
      Místo jednoho měření jich provedeme $n$ (pochopitelně nezávislých). 
      Jaký bude teď intervalový odhad pro $\mu$? 
      Pro konkrétnost: naměřili jsme 
      $x_1, \dots, x_9 = 1.82$, 1.00, 2.50, 3.00, 0.50, 2.97, 1.76, 1.35, 3.41. 
    
      \cast
      Nechť $X$ má stále střední hodnotu $\mu$ a rozptyl $1$, ale není už nutně normální. Co se změní? 
    
    \pr
    Nechť $X \sim Exp(\lambda)$ popisuje dráhu, kterou uletí radioaktivní částice, nechť se rozpadne. 
    Náš přístroj její rozpad (a polohu rozpadu, tj. hodnotu $X$) zachytí, ale jen pokud $1 \le X \le 2$. 
    Formálně, budeme zkoumat náhodný výběr $X_1, \dots, X_n \sim F_{X | B}$ pro jev 
    $B = { 1 \le X \le 2}$. 
    
    \cast Navrhněte bodový odhad $\lambda$ momentovou metodou. 
    \cast Navrhněte bodový odhad $\lambda$ metodou maximální věrohodnosti. 
    \cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. 
    
    
    
    \pr
    Máme náhodný výběr $X_1, \dots, X_n \sim Pois(\lambda)$. 
    
    \cast Navrhněte bodový odhad $\lambda$ momentovou metodou. 
    \cast Navrhněte bodový odhad $\lambda$ metodou maximální věrohodnosti. 
    \cast Spočtěte střední kvadratickou odchylku (MSE).
    
    
    
    \nadpis{Testování hypotéz} 
    
    \pr (Všimněte si podobnosti a rozdílu oproti příkladům na intervalový odhad.) 
    Máme jedno měření $X \sim N(\mu, 1)$. Chceme ověřit hypotézu $H_0$: $\mu = 5$ s hladinou významnosti $\alpha = 5\ \%$. 
    
      \cast 
      Jaký zvolíme kritický obor -- množinu měření, ve které hypotézu zamítneme? 
      (Co řekneme, pokud jsme naměřili $x=6$?)
    
      \cast 
      Místo jednoho měření jich provedeme $n$ (pochopitelně nezávislých). Jaký bude kritický obor pro $\Xbar_n$?
      (Co řekneme, pokud jsme naměřili 6.5, 6, 5, 4.8, 5.5?) 
    
      \cast
      Pokud je ve skutečnosti $\mu=4$ a máme $n=10$ měření, jaká je pravděpodobnost, že hypotézu nezamítneme? 
    
      \cast
      Nechť $X$ má stále střední hodnotu $\mu$ a rozptyl $1$, ale není už nutně normální. Co se změní? 
    
      \cast
      Co když nevíme nic o rozptylu $X$? 
    
    \pr 
    Co když vybíráme vzorky ze dvou populací? (Obě s normálním rozdělením.) 
      \cast Co můžeme testovat?
      \cast Vytvořte vhodný model.
      \cast Zkuste vymyslet dvě různé situace, ke kterým je třeba přistupovat různě. 
        (Nápověda: v jedné situaci je nutné, aby měly obě populace stejnou velikost.) 
    
    \pr 
    Podle slibu výrobce bude jeho stroj dělat chyby nejvýše ve $3\ \%$ případů. Z $600$ pokusů došlo k chybě v~28 případech. 
    Posuďte slib výrobce (coby nulovou hypotézu) na hladině významnosti $5\ \%$. 
    
      \cast 
      Počet chyb modelujte přesně, tj. pomocí binomického rozdělení. 
    
      \cast
      Počet chyb modelujte přibližně pomocí normálního rozdělení (s~vhodným $\mu$, $\sigma^2$). 
    
    \end{document}