Statistics101: Probability distributions
Contents
Úvod
Co je to pravděpodobnost [1]
Uvažujeme pokus spočívající v hodu symetrickou (homogenní) mincí. Tento experiment má dva možné výsledky:
• Na minci padl rub
• na minci padl líc
Běžně činíme v této souvislosti následující prohlášení:
(1) pravděpodobnost toho, že na minci padne rub, je rovna ½.
Odhlédneme-li od toho, že vlastně ještě nevíme, co pravděpodobnost je, není obtížné zjistit dva zdroje důvěry v rozumnost tohoto výsledku:
(2) Logická spekulace . Není důvod, proč by na symetrické minci měl častěji padat rub nebo líc
(3) Zkušenost . Opakujeme-li pokus mnohokrát a zjišťujeme-li četnosti Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle S_n} výsledku rub po n pokusech, budou se relativní četnosti (Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle S_n/n } ) postupně stabilizovat v okolí čísla ½.
Je samozřejmě otázkou spíše filozofického charakteru, do jaké míry a v jakém smyslu je spekulace (2) založena na zkušenosti (3). A jakým mechanismem jsou zkušenosti typu (3) ukládány do vědomí člověka, když ve velké většině podobné pokusy pro velká n nekoná.
Předmětem teorie pravděpodobnosti je tedy studium matematických modelů náhodných pokusů.
Uvážíme-li příklad pokusu se symetrickou mincí, můžeme vymezit tento pojem jako pokus, jehož výsledek není jednoznačně určen podmínkami, za kterých je vykonáván , přičemž tyto výsledky vykazují statistickou stabilitu typu (3), která vlastně umožňuje hovořit o pravděpodobnostech výsledků pokusu . Teorie pravděpodobnosti modeluje náhodný experiment způsobem, který umožňuje nejen deduktivní ověření této stability, ale i odhadování zákonitostí, které leží mimo dosah běžné zkušenosti.
S náhodným pokusem je vždy spojena neprázdná množina Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle \Omega} všech výsledků pokusu.
Pravděpodobnostní rozdělení
Prvky Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle \omega \in \Omega } se nazývají elementární jevy .
Pravděpodobnostní rozdělení je vlastně zobrazení, které každému elementárnímu jevu (prvkům z množiny Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle \omega \in \Omega } ) přiřazuje jejich pravděpodobnost. (Číslo mezi 0 a 1). Podrobněji k definicím naleznete na pravděpodobnostní rozdělení
Ukázka
Pojdmě si vše vysvětlit na rozboru názorných příkladů.
Diskrétní rozdělení [2]
V našem hypotetickém městě se začala šířit infekční nemoc Sars-cov-3000. Tato nemoc je léčitelná a nezpůsobuje dlouhodobé komplikace. V nemocnici je léčena přípravkem Prymlo. Jeho aplikace je komplikovaná a můžeme proto podat léčbu právě 10 lidem.
Ukazuje se, že léčba není vždy účinná. V průběhu času jsme naměřili, že je 60% pravděpodobnost, že se léčba povadla a 40% pravděpodobnost, že léčba selhala.
To znamená, že v průměru je každý den vyléčeno 6 lidí z těch 10. To ale neznamená, že bude každý den vyléčeno právě 6 lidí. Některé kdy může být vyléčeno méně a některé dny více.
A právě kolik lidí bude vyléčeno každý jednotlivý den nám určuje pravděpodobnostní rozdělení. Představme si, že chceme nějak předvídat hodnotu X (počet lidí, kteří budou vyléčeni zítra).
To znamená, že chceme například zjistit, jaká je pravděpodobnost, že zítra bude vyléčeno právě šest lidí Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle P(X = 6)} nebo jaká je pravděpodobnost, že zítra bude vyléčeno něco mezi čtyřmi a osmi lidmi P(4 ≤ X ≤ 8)?
K tomu, abychom tyto hodnoty dokázali určit, potřebujeme znát pravděpodobnostní rozdělení. V rámci našeho hypotetického města jsme predikovali, že rozdělení pravděpodobnosti vypadá
Toto je binomické rozdělení, které popisuje četnost výskytu náhodného jevu v n nezávislých pokusech, v nichž má jev stále stejnou pravděpodobnost. (Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle X ~ Bi(n, p)} )
Z pravděpodobnostního rozdělení můžeme hned vidět, že hodnota pro 6 je 0.25. (Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle P(X = 6) = 0.25} ). Takže je 25%, že v patřičný den bude vyléčeno právě 6 pacientů.
Příklad:
Jaká je tedy pravděpodobnost, že že zítra bude vyléčeno něco mezi čtyřmi a osmi lidmi (Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle P(4 \leq X \leq 8)} )?
Řešení:
P(4 ≤ X ≤ 8) = P(X = 4) + P(X = 5) + P(X = 6) + P(X = 7) + P(X = 8) = 0.9
Pravděpodobnost, že bude vyléčeno mezi čtyřmi a osmi lidmi, je 90%.
Po delší době se ukazuje, že naše distribuční funkce neplatí. S větším množstvím dat zjištůjeme, že počty vyléčených pacientů vypadají
Ukázalo se totiž, že lék Prymlo distribuují dva dodavatelé. Jeden s účinnou látkou Pifcer a druhý s účinnou látkou Spadnik. Každý den byl náhodně vybrán lék od jednoho dodavatele, vždy s 50% pravděpodobností. První přípravek měl však účinnost 80% a druhý pouze 40%. A proto bylo výsledné rozdělení mixem 2 rozdělení
Po tomto zjištění bylo možné distribuovat léčivo Pifcer ve větší míře a zvýšit tak počet vyléčených.
Poslední část, na kterou se můžeme podívat, je pravděpodobnost nákazy. Z vedených statistik ve městě vyšlo, že pravděpodobnost, že se zítra nakazíte, je 0.001.
Město má v současnosti 20 000 dříve nenakažených obyvatel. Jak vypadá pravděpodobnostní rozdělení?
Za předpokladů, že jsou naše data správná, pak se jedná opět o binomiální rozdělení Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle Bi(20000, 0.001)} . Problémem je, že při výpočtu binomického rozdělení Binomické rozdělení se pracuje s faktoriály a při výpočtech s takovými čísly bychom záhy narazili na problémy. Výhodou je, že pro binomická rozdělení, kde je p malé, můžeme velice dobře aproximovat pomocí Pissonova rozdělení. Poissonovo rozdělení
Z toho celkově máme, že rozdělení nově infikovaných pacientů je Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle Pois(20)} a při použití léčiva Pifcer (80% účinnost) je počet vyléčených Failed to parse (MathML with SVG or PNG fallback (recommended for modern browsers and accessibility tools): Invalid response ("Math extension cannot connect to Restbase.") from server "https://en.wikipedia.org/api/rest_v1/":): {\displaystyle Pois(20*0.8) = Pois(16) } a počet neúspěšně vyléčených je Pois(4).
Zde jsme si na hypotetickém příkladu ukázali motivaci a základní použití diskrétního pravděpodobnostního rozdělení. Více příkladů k procvičení najdene v Typy diskrétních rozdělení.
Citace
- ↑ Teorie pravděpodobnosti, Josef Štěpán. Teorie pravděpodobnosti., Academia/Praha, 1987. 19s
- ↑ https://www.youtube.com/watch?v=ZoIPuTIPviY&ab_channel=HarvardX