diff --git a/jk_web/teaching_25_past1/__init__.py b/jk_web/teaching_25_past1/__init__.py index 6f594e9ede652af037b6cdac74c25da2ef566d76..1b9748f38f7557c0a45652d9fc136a625d83708f 100644 --- a/jk_web/teaching_25_past1/__init__.py +++ b/jk_web/teaching_25_past1/__init__.py @@ -104,6 +104,9 @@ with web.Module("teaching_25_past1") as module: b<<lesson(8, "10. 4.", "Spojité náhodné veličiny") b<<lesson(9, "17. 4.", "Spojité náhodné vektory") b<<lesson(10, "23. 4.", "Spojitý rozbor případů a konvoluce, nerovnosti.") + b<<lesson(11, "1. 5.", "Svátek poprvé", pdf=False) + b<<lesson(12, "8. 5.", "Svátek podruhé", pdf=False) + b<<lesson(13, "15. 5.", "Statistika poprvé") return base_page(b.root) diff --git a/jk_web/teaching_25_past1/cvic13.tex b/jk_web/teaching_25_past1/cvic13.tex new file mode 100644 index 0000000000000000000000000000000000000000..5a34ab89a3bbb52a64d2210e38ca779db4d25b31 --- /dev/null +++ b/jk_web/teaching_25_past1/cvic13.tex @@ -0,0 +1,162 @@ +\documentclass{article} +\usepackage{cvika} +\usepackage{listings} +\lstset{language=python} +% basicstyle=\small\ttfamily, +% stringstyle=\color{DarkGreen}, +% otherkeywords={0,1,2,3,4,5,6,7,8,9}, +% morekeywords={TRUE,FALSE}, +% deletekeywords={data,frame,length,as,character}, +% keywordstyle=\color{blue}, +% commentstyle=\color{DarkGreen}, +%} + + + +\begin{document} + +\Nadpis{\bf 13. cvičení z PSt --- 15.5.2025} + +\nadpis{Bodové odhady} + +\begin{itemize} + \item Zkoumáme posloupnost n.n.v. se stejným rozdělením, např. $Geom(\theta)$, $U(0,\theta)$, kde $\theta$ je parametr. + \item Zapisujeme $X_1, \dots, X_n \sim F_\theta$, tzv. \textbf{náhodný výběr} z $F_\theta$ (model s parametrem). + \item Naměříme $X_1 = x_1$, \dots, chceme odhadnout $\theta$. + \item $\hat\theta_n$ \dots nějaká metoda jak odhadnout $\theta$ pomocí naměřených dat (hodnot $X_1, \dots, X_n$), + angl. \emph{estimator} + \item $m_r(\theta) = \E(X^r)$ pro $X \sim F_\theta$ \dots\ \textbf{$r$-tý moment}, ideální vlastnost rozdělení + \item $\widehat m_r(\theta) = \tfrac 1n \sum_{i=1}^n X_i^r$ \dots\ \textbf{$r$-tý výběrový moment}, náhodná veličina, funkce našeho + naměřeného vzorku (tj. statistika) + \item \textbf{Odhad metodou momentů} vyřešíme rovnici $m_1(\theta) = \widehat m_1(\theta)$ pro neznámou $\theta$. + \item event. soustavu rovnic $m_r(\theta) = \widehat m_r(\theta)$ pro $r=1, 2, \dots$ podle potřeby. + \goodbreak + \item $L(\theta; x_1, \dots, x_n) = \P(X_1=x_1 \AND \dots \AND X_n = x_n)$ \dots pravd. pozorovaných dat závislá na + parametru $\theta$. + \item nebo $L(\dots) = f_{X_1, \dots, X_n}(x_1, \dots, x_n)$ \dots hustota pravděpodobnosti \dots + \item $\ell(\theta; x_1, \dots, x_n) = \log L(\dots)$ \dots pro snazší výpočty. + \item \textbf{Odhad metodou maximální věrohodnosti (Maximal Likelihood)} hledáme $\theta$, pro které je + maximální $L(\theta; x_1, \dots, x_n)$, resp. $\ell(\dots)$. Obvykle pomocí derivací funkce $L$, resp. $\ell$. \\[2mm] + \item \textbf{bias (vychýlení):} $\E(\hat\theta_n - \theta)$ \dots $\theta$ skutečný parametr, $\hat\theta_n$ náš odhad (náhodná veličina, protože závisí na naměřených datech) + \item odhad je \textbf{nevychýlený/nestranný/unbiased:} $bias = 0$ + \item odhad je \textbf{asymptoticky nevychýlený:} bias konverguje k 0, neboli $\E(\hat\theta_n) \to \theta$ + \item odhad je \textbf{konzistentní:} $\hat\theta_n \xrightarrow{P} \theta$: pro všechna $\eps>0$ \ + $\Prob(|\hat\theta_n-\theta|>\eps) \to 0$ + \item \textbf{MSE (mean square error, střední kvadratická odchylka):} + $\E((\hat\theta_n - \theta)^2 )$ + \item Věta: $MSE = bias^2 + \var(\hat\theta_n)$. +\end{itemize} + +\textbf{Pro praktickou ukázku, viz pythonový notebook na webu přednášky + \url{https://iuuk.mff.cuni.cz/~samal/vyuka/PSt1/}.} + +\pr +Máme náhodný výběr $X_1, \dots, X_n \sim U(0,\theta)$. + +\cast Navrhněte bodový odhad $\theta$ momentovou metodou. % (Bylo na přednášce, připomeňte si, jak se to dělalo.) +\cast Navrhněte bodový odhad $\theta$ metodou maximální věrohodnosti. +\cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. +\cast Pro každý z nich spočtěte střední kvadratickou odchylku (MSE). + (Stačí experimentálně na počítači.) +\cast Který odhad je lepší? Napadá vás nějaký ještě lepší? + +\pr +Máme náhodný výběr $X_1, \dots, X_n \sim Geom(p)$. + +\cast Navrhněte bodový odhad $p$ momentovou metodou. +\cast Navrhněte bodový odhad $p$ metodou maximální věrohodnosti. +\cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. + + +\nadpis{Intervalové odhady} + +\textbf{Čebyševova nerovnost:} $\P({|X-\E(X)|} \ge t \sigma_X ) \le \frac{1}{t^2}$. + +\textbf{Distribuční funkce standardního normálního rozdělení $N(0,1)$:} +\vskip4pt +\begin{tabular}{|c|c|c|c|c|c|c|c|c|c|} + \hline + $x$ & $-4$ & $-3$ & $-2$ & $-1$ & $0$ & $1$ & $2$ & $3$ & $4$ \\ + \hline + $\Phi(x)$ & $0.00003$ &$0.00135$ & $0.02275$ & $0.15866$ & $ 0.500000$ & $0.84135$ & $0.97725$ & $0.99865$ & $0.99997$ \\ + \hline +\end{tabular} +\bigskip + +\pr +Máme jedno měření $X \sim N(\mu, 1)$. (Tj. parametr $\theta = \mu$.) + + \cast + Najděte intervalový odhad pro $\mu$ se spolehlivostí 95 \%. + (Pro konkrétnost: naměřili jsme $x=2.9$.) + + \cast + Místo jednoho měření jich provedeme $n$ (pochopitelně nezávislých). + Jaký bude teď intervalový odhad pro $\mu$? + Pro konkrétnost: naměřili jsme + $x_1, \dots, x_9 = 1.82$, 1.00, 2.50, 3.00, 0.50, 2.97, 1.76, 1.35, 3.41. + + \cast + Nechť $X$ má stále střední hodnotu $\mu$ a rozptyl $1$, ale není už nutně normální. Co se změní? + +\pr +Nechť $X \sim Exp(\lambda)$ popisuje dráhu, kterou uletí radioaktivní částice, nechť se rozpadne. +Náš přístroj její rozpad (a polohu rozpadu, tj. hodnotu $X$) zachytí, ale jen pokud $1 \le X \le 2$. +Formálně, budeme zkoumat náhodný výběr $X_1, \dots, X_n \sim F_{X | B}$ pro jev +$B = { 1 \le X \le 2}$. + +\cast Navrhněte bodový odhad $\lambda$ momentovou metodou. +\cast Navrhněte bodový odhad $\lambda$ metodou maximální věrohodnosti. +\cast Pro každý z nich zjistěte, zda je nestranný a konzistentní. + + + +\pr +Máme náhodný výběr $X_1, \dots, X_n \sim Pois(\lambda)$. + +\cast Navrhněte bodový odhad $\lambda$ momentovou metodou. +\cast Navrhněte bodový odhad $\lambda$ metodou maximální věrohodnosti. +\cast Spočtěte střední kvadratickou odchylku (MSE). + + + +\nadpis{Testování hypotéz} + +\pr (Všimněte si podobnosti a rozdílu oproti příkladům na intervalový odhad.) +Máme jedno měření $X \sim N(\mu, 1)$. Chceme ověřit hypotézu $H_0$: $\mu = 5$ s hladinou významnosti $\alpha = 5\ \%$. + + \cast + Jaký zvolíme kritický obor -- množinu měření, ve které hypotézu zamítneme? + (Co řekneme, pokud jsme naměřili $x=6$?) + + \cast + Místo jednoho měření jich provedeme $n$ (pochopitelně nezávislých). Jaký bude kritický obor pro $\Xbar_n$? + (Co řekneme, pokud jsme naměřili 6.5, 6, 5, 4.8, 5.5?) + + \cast + Pokud je ve skutečnosti $\mu=4$ a máme $n=10$ měření, jaká je pravděpodobnost, že hypotézu nezamítneme? + + \cast + Nechť $X$ má stále střední hodnotu $\mu$ a rozptyl $1$, ale není už nutně normální. Co se změní? + + \cast + Co když nevíme nic o rozptylu $X$? + +\pr +Co když vybíráme vzorky ze dvou populací? (Obě s normálním rozdělením.) + \cast Co můžeme testovat? + \cast Vytvořte vhodný model. + \cast Zkuste vymyslet dvě různé situace, ke kterým je třeba přistupovat různě. + (Nápověda: v jedné situaci je nutné, aby měly obě populace stejnou velikost.) + +\pr +Podle slibu výrobce bude jeho stroj dělat chyby nejvýše ve $3\ \%$ případů. Z $600$ pokusů došlo k chybě v~28 případech. +Posuďte slib výrobce (coby nulovou hypotézu) na hladině významnosti $5\ \%$. + + \cast + Počet chyb modelujte přesně, tj. pomocí binomického rozdělení. + + \cast + Počet chyb modelujte přibližně pomocí normálního rozdělení (s~vhodným $\mu$, $\sigma^2$). + +\end{document}