Binomické rozdělení

From Simulace.info
Revision as of 22:08, 1 June 2023 by Petj22 (talk | contribs)
Jump to: navigation, search

Přemýšleli jste někdy o tom, jak předpovědět počet úspěchů v sérii nezávislých pokusů? Nebo jste možná zvědaví na pravděpodobnost dosažení konkrétního výsledku v sekvenci otázek s odpověďmi ano/ne? Pokud ano, hovoříme v podstatě o binomickém rozdělení, které se vztahuje k binomickým experimentům (tj. s binárními výsledky). Binomické rozdělení je důležitým konceptem v oblasti datové vědy a často se používá v rámci podnikových aplikací.

Úvod

Pravděpodobnostní rozdělení pro experiment s mincí. Počet pokusů N.png = 10 a pravděpodobností úspěchu (pád orla při jedném hodu) P2.png = 0,5. [1]

Přemýšlejme o následujících experimentech a náhodných veličinách:

  1. Házíme 10krát mincí. Označme X.png počet kolikrát padne orel.
  2. Stroj vyrábí díly a některé z nich jsou vadné. Označme X.png jako počet vadných dílů ze 100 z nich náhodně vybraných.
  3. Z celkového počtu pacientů trpících konkrétním onemocněním 35 % zažije zlepšení díky určitému léku. U následujících 1000 pacientů, kterým je podán ten samý lék, označme X.png jako počet pacientů, kteří zpozorují zlepšení.
  4. Test obsahuje 10 otázek s více možnými odpověďmi, každá s čtyřmi možnostmi, a vy hádáte u každé otázky. Označme X.png jako počet správně zodpovězených otázek.

Každý z těchto náhodných experimentů si lze představit jako soubor opakovaných náhodných pokusů: 10 hodů mincí nebo třeba 1000 pacientů užívajících lék. Náhodná veličina X.png je počet pokusů, které splňují určité kritérium. Výsledek každého pokusu buď splňuje kritérium, nebo ne; proto lze každý pokus shrnout jako „úspěch“ nebo „neúspěch“. Například v experimentu s testem je pro každou otázku pouze jedna kombinace možností, která je správná, a tedy považována za úspěch.

Termíny „úspěch“ a „neúspěch“ jsou pouze označení. V případě experimentu 2 je vyrobení vadného dílu označováno jako „úspěch“, protože X.png počítá vadné díly. Stejně dobře můžeme použít označení „A“ a „B“ nebo „0“ a „1“. [1] [2]

Terminologie

Binomický experiment

Nebo také Bernoulliho experiment/Bernoulliho schéma jsme si v úvodu představili, pojďme si ho nadefinovat a formalizovat.

Požadavky

Požadavky pro to, aby náhodný experiment byl binomickým experimentem, jsou následující:

  • Pevný počet (N.png) pokusů.
  • Každý pokus musí být nezávislý na ostatních. (výsledek jednoho pokusu nemá žádný vliv na výsledek ostatních pokusů.)
  • Každý pokus má právě dva možné výsledky, nazývané "úspěch" (výsledek, který nás zajímá) a "neúspěch".
  • Existuje konstantní pravděpodobnost (pravděpodobnost, že pokus skončí „úspěchem“, je stejná v každém z pokusů) (P2.png) úspěchu pro každý pokus, přičemž doplňkem této pravděpodobnosti je pravděpodobnost „neúspěchu“, která se někdy označuje jako Q-formula.png.

[1] [3]

Náhodná veličina

Pro definici binomického rozdělení začneme s definicí náhodné veličiny X.png. Tu lze jednoduše definovat jako číselné vyjádření výsledku náhodného jevu.

Binomická náhodná veličina

V binomických náhodných experimentech je počet „úspěchů“ v n pokusech náhodný. Může nabývat celočíselných hodnot od 0, pokud všechny pokusy skončí „neúspěchem“, nebo může být tak vysoký jako je N.png, pokud všechny pokusy skončí „úspěchem“. Náhodná proměnná X.png, která reprezentuje počet „úspěchů“ v těchto N.png pokusech, se nazývá binomická náhodná veličina a je určena hodnotami N.png a P2.png.

Definice

Binomická náhodná veličina X.png je definována jako počet výskytu události (úspěchů) v N.png Bernoulliho pokusech. To, že má náhodná veličina binomické rozdělení zapisujeme: [4]

Vbr.png

Příklad: Binomické nebo ne?

Zvažme ještě několik náhodných experimentů. U každého z nich rozhodneme, zda je náhodná proměnná binomická. Pokud je, určíme hodnoty pro N.png a P2.png. Pokud není, vysvětlíme proč.

Příklad A
Házíme spravedlivou kostkou 50krát; X.png je počet krát, kdy padla šestka.
X.png je binomická s N.png = 50 a P2.png = 1/6.
Příklad B
Opět házíme spravedlivou kostkou, X.png je počet hodů potřebných k dosažení šestky.
X.png není binomická, protože počet pokusů není pevně stanovený.
Příklad C
Vybíráme náhodně 3 karty jednu po druhé, nevracíme je zpátky do balíčku, z klasické sady obsahující 4 druhy karet. X.png je počet vybraných karet se znakem srdce.
X.png není binomická, protože výběry nejsou nezávislé. (Pravděpodobnost úspěchu (P2.png) není konstantní, protože je ovlivněna předchozími výběry.)
Příklad D
Odpovídáme na 10 testových otázek zcela náhodně, prvních pět otázek je ano/ne a druhých pět otázek má čtyři možnosti, ze kterých je jedna správná. X.png představuje počet správných odpovědí.
X.png není binomická, protože pravděpodobnost P2.png se mění z 1/2 na 1/4.
Příklad E
Pravděpodobnost mít krevní skupinu B je 0,1. Vybíráme 4 náhodné osoby. X.png je počet osob s krevní skupinou B.
X.png je binomická s N.png = 4 a P2.png = 0,1.
Komentář: Při výběru relativně malé náhodné vzorky (4 osoby) z velké populace, i když se odběr provádí bez „náhrady“, můžeme předpokládat nezávislost, protože matematický vliv odstranění jednoho jedince z velké populace na další výběr je zanedbatelný.

[3]

Binomické pravděpodobnostní rozdělení

Nyní je čas diskutovat o pravděpodobnostním rozdělení binomické náhodné veličiny. Začneme jednoduchým příkladem a poté se přesuneme k obecnému vzorci.

Příklad Přenosový kanál

Mějme digitální přenosový kanál, který přenáší 4 bitový signál. Pokusy o přenos jsou nezávislé. Šance, že se jeden bit, který je přenesen přes kanál, přenese s chybou je 0,1. Nechť je X.png označuje počet bitů s chybou. Určeme Vbr.png.

  • Použijme písmeno E pro označení bitu s chybou a písmeno O pro označení bitu bez chyby, tedy přijatého správně. Výsledky tohoto můžeme reprezentovat jako seznam čtyř písmen, která označují bity s chybou a bity bez chyby. Například výsledek OEOE znamená, že druhý a čtvrtý bit jsou s chybou a ostatní dva bity jsou bez chyby. Příslušné hodnoty tedy jsou:
Výsledek přenosu x Výsledek přenosu x
OOOO 0 OEOE 2
OOOE 1 EOEO 2
OOEO 1 EOOE 2
OEOO 1 OEEE 3
EOOO 1 EOEE 3
OOEE 2 EEEO 3
OEEO 2 EEOE 3
EEOO 2 EEEE 4
  • Pro X.png = 2 je tedy možných 6 výsledků přenosu: {OOEE, OEEO, EEOO, OEOE, EOEO, EOOE}
  • Za předpokladu, že jsou pokusy o přenos jednoho bitu nezávislé, je pravděpodobnost možnosti {EEOO}:

Formula1.png

  • Také platí, že každý z šesti výsledků, kde X.png=2, má stejnou pravděpodobnost výskytu a proto

Formula2.png

Nebo všeobecně: Pxx.png = počet možných „úspěšných“ výsledků pro x chyb * pravděpodobnost každé „úspěšné“ možnosti s výsledkem x chyb a délkou 4

  • Pro jednoduší odvození můžeme vytvořit tabulku pravděpodobností:

Petj22Tab1.png

  • Všimneme si vlastnosti v tabulce:

Petj22Tab2.png

Můžeme zevšeobecnit na: pravděpodobnost každé „úspěšné“ možnosti s výsledkem Formula3.png

  • Ještě nám zbývá odvodit část počet možných „úspěšných“ výsledků pro x, která není na první pohled tak intuitivní. Po krátkém zamyšlení je ale jasné, že se jedná o jednoduchou kombinaci, kdy z množiny N.png objektů vybíráme počet objektů (x), přičemž nám nezáleží na pořadí. Tedy:

Formula4.png

[2] [3]

Definice

Formalizujme tedy uvedené informace do definice binomického rozdělení:

Podmínky

Náhodný experiment se skládá z N.png Bernoulliho experimentů tak, že:

  1. Každý experiment je nezávislý
  2. Každý experiment má právě dva možné výsledky – „úspěch“ a „neúspěch“
  3. Pravděpodobnost „úspěchu“, označována P2.png, pro každý pokus, zůstává konstantní
Vzorec

Náhodná proměnná X.png, která udává počet pokusů s „úspěchem“, má binomické rozdělení s parametry 0<P2.png<1 a N.png = 1, 2, … Pravděpodobnostní funkce proměnné X.png je dána následovně: Formula5.png

[3]

Charakteristiky rozdělení

Pro odvození střední hodnoty opět využijeme intuitivního příkladu: Jak nám je již známo, pravděpodobnost mít krevní skupinu typu B je 0,1. Nebo tedy jinými slovy, zhruba 10 % populace má krevní skupinu B. Předpokládejme, že náhodně vybereme 120 lidí. Kolik lidí můžeme očekávat, že bude mít krevní skupinu typu B? Odpověď, 12, se zdá být zřejmá. Automaticky jsme vynásobili počet lidí - 120, pravděpodobností výskytu krevního typu B – 0,1. Z toho jednoduchého příkladu můžeme začít odvozovat. [3]

Střední hodnota

Pokud je X.png binomická náhodná veličina s parametry N.png a P2.png, pak střední hodnota (očekávaná hodnota) X.png je:

Formula6.png

Rozptyl

Rozptyl je na odvození méně intuitivní, ale ne nemožný. Nicméně je tato problematika odvození mimo rámec této kapitoly, a proto ho uvedeme jenom jako vzorec:

Formula7.png

Pro příklad s krví by to tedy znamenalo:

Formula8.png

V náhodném vzorku 120 lidí bychom očekávali přibližně 12 osob s krevním typem B, s odchylkou přibližně 3,3.

Příklady

Modelový příklad - znečištění vody

Zadání

Každý vzorek vody má 10% šanci obsahovat určitý objem znečišťujících látek. Předpokládejme, že vzorky jsou nezávislé s ohledem na přítomnost znečišťující látky.

Otázky

Spočítejte pravděpodobnost, že v následujících 18 vzorcích budou právě 2 vzorky obsahovat znečišťující látku.

Nechť X představuje počet vzorků obsahujících znečišťující látku z 18 analyzovaných vzorků. Potom X je binomická náhodná veličina s parametry p = 0.1 a n = 18.

Formula9.png

Případně použití excelu:

Excel1.png

Spočítejte pravděpodobnost, že alespoň čtyři vzorky obsahují znečišťující látku.

Z důvodu jednoduššího výpočtu využijeme raději komplementární pravděpodobnost k pravděpodobnosti P(X≥4).

Formula10.png

Případně použití excelu:

Excel2.png

Spočítejte pravděpodobnost, že vzorek bude obsahovat 3 nebo víc znečišťujících látek a zároveň míň než 7

Formula11.png

Případně použití excelu:

Excel3.png

[2]

Příklad reálné aplikace

Zadání

Po všech definicích se zaměříme na reálnou aplikaci pomocí příkladu s letenkami.

Stude ukázaly, že ze všech rezervací se k letu skutečně dostaví 90 % pasažérů. Předpokládejme, že malý přepravní letoun má 45 sedadel. Budeme předpokládat, že pasažéři přicházejí nezávisle na sobě (i když tato předpokládaná nezávislost není zcela přesná, protože ne všichni cestují sami, ale pro účely našeho experimentu ji použijeme).

Často se stává, že letecké společnosti pro let prodá víc letenek, než je ve skutečnosti v letadle sedadel. Dělají to proto, aby eliminovali počet neobsazených sedadel, pokud se někteří pasažéři nedostaví. Nicméně, pokud se rozhodnou přeobsadit let, vystavují se riziku, že budou mít více pasažérů než sedadel a někteří pasažéři mohou být nespokojeni. Společnost také musí nést dodatečné náklady spojené s přeřazením těchto pasažérů na jiný let a případně jim poskytnout ubytování.

S ohledem na tato rizika se letecká společnost i tak rozhodne prodat více než 45 letenek. Pokud chtějí udržet pravděpodobnost, že na let dorazí více než 45 cestujících, na méně než 0.05, kolik lístků by měli prodat?

Řešení

Jedná se o binomickou náhodnou proměnnou, která představuje počet cestujících, kteří se dostaví na let.

Máme hodnotu p = 0,90 a n musíme určit.

Pro n budeme uvažovat o hodnotách n>45.

V zadaní máme zadánu pravděpodobnost pro „chybějící“ pasažéry P(X ≤ 45). My budeme chtít znát ale pravděpodobnosti P(X > 45), co můžeme napsat jako 1 – P(X ≤ 45)

Pro výpočet si pomůžeme Excelem: Hodnota „TRUE“ ve vzorci pro pravděpodobnost „X ≤ 45“, TRUE znamená, že chceme získat součet pravděpodobností pro hodnoty od 0 do 45. Pokud bychom místo toho použili FALSE, funkce by vrátila pravděpodobnost přesně pro hodnotu 45, a ne součet pravděpodobností pro hodnoty menší nebo rovny 45.

Excel4.png

Zanalyzujme si výsledky. Pokud letecká společnost prodá 50 lístků, bude pravděpodobnost, že na let dorazí více než 45 cestujících 0,43 co je rozhodně víc, než požadovaných 5 %.

Můžeme tím pádem dospět k závěru, že pokud společnost prodá 47 lístků, tak sníží pravděpodobnost, že se dostaví víc než 45 cestujících na 4 %, co je míň než požadovaných 5 %.

[3]

Zajímavé fakty

  • Švýcarský matematik Jakob Bernoulli (1655-1705) buď nebyl spokojen se svými výsledky, nebo nenašel vhodné aplikace pro širší využití svých teorií, a proto na knize, kde se objevil důkaz patrně od roku 1692 nepracoval. Vyšla až posmrtně v roce 1713. [5] [6]
  • V roce 1936 britský statistik Ronald Fisher využil binomického rozdělení k publikaci důkazů možné vědecké manipulace - ve slavných experimentech s genetikou hrachu, které popsal rakouský botanik Gregor Mendel v roce 1866. Fisher zpozoroval, že Mendelovy zákony dědičnosti by diktovaly, že počet žlutých hrachových zrn v jednom z Mendelových experimentů bude mít binomické rozdělení s n = 8023 a p = 3/4, což by dávalo průměr np ≅ 6 017 žlutých zrn. Fisher zjistil pozoruhodnou shodu mezi tímto číslem a Mendelovými daty, které ukázaly 6 022 žlutých zrn ze 8 023. Očekávalo by se, že číslo bude blízké, ale taková blízkost by se měla vyskytovat jen 1 z 10krát. Fisher navíc zjistil, že všechny ze sedmi výsledků Mendelových pokusů s hrachem byly extrémně blízké očekávaným hodnotám, dokonce i v jednom případě, kdy Mendelovy výpočty obsahovaly drobnou chybu. Fisherova analýza vyvolala dlouhotrvající kontroverzi, která zůstává dodnes nevyřešena. [7]
  • Jak už bylo na příkladech uvedeno, binomické rozdělení se používá v inženýrství, biologií a medicíně. Nalezneme ho také v psychologii, kde ho lze použít k modelování počtu správných odpovědí v paměťovém testu nebo počtu lidí, kteří preferují určitý podnět před jiným. Ve společenských vědách, demografii a politologii lze binomické rozdělení použít k modelování počtu voličů, kteří podporují určitého kandidáta, nebo počtu domácností, které vlastní určitý typ spotřebiče. A nebo třeba také v sociologii k modelování pravděpodobnosti, že určitý počet osob sleduje určitý televizní kanál na základě ano/ne dotazníku. Nebo si možná samy namodelujete počet spamu, který za den dostanete do emailu.

Citace

  1. 1.0 1.1 1.2 KUMAR, Ajitesh Binomial Distribution Explained with Examples [online]. 2023 [cit. 2023-06-01] Dostupné z: https://vitalflux.com/binomial-distribution-defined-with-10-examples/
  2. 2.0 2.1 2.2 MONTGOMERY, Douglas C. Applied Statistics and Probability for Engineers [online]. 2011 [cit. 2023-06-01] Dostupné z: https://industri.fatek.unpatti.ac.id/wp-content/uploads/2019/03/088-Applied-Statistics-and-Probability-for-Engineers-Douglas-C.-Montgomery-George-C.-Runger-Edisi-5-2011.pdf
  3. 3.0 3.1 3.2 3.3 3.4 3.5 UF Health Binomial Random Variables [online]. 2014 [cit. 2023-06-01] Dostupné z: https://bolt.mph.ufl.edu/6050-6052/unit-3b/binomial-random-variables/
  4. VŠB DISKRÉTNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI [online].[cit. 2023-06-01] Dostupné z: https://homel.vsb.cz/~dom033/predmety/statistika/ucebni_text/7DNV.pdf
  5. SHUKLA Gaurav Jakob Bernoulli [online]. 2006 [cit. 2023-06-01] Dostupné z: https://www.britannica.com/biography/Johann-Bernoulli
  6. SAXL Ivan JMatematika v proměnách věků. V [online]. 2007 [cit. 2023-06-01] Dostupné z: https://dml.cz/bitstream/handle/10338.dmlcz/400885/DejinyMat_33-2007-1_4.pdf
  7. LOTHA Gloria binomial distribution [online]. 2018 [cit. 2023-06-01] Dostupné z: https://www.britannica.com/science/binomial-distribution