Logaritmicko-normální rozdělení

From Simulace.info
Revision as of 17:28, 26 May 2022 by Dvojta (talk | contribs) (první verze; otázka, zda přidávat víc, aby se to přibližovalo k minimálnímu počtu znaků. Přijde mi, že by to mohlo být naopak na škodu, protože by se to nafouklo zbytečným obsahem)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Úvod

Logaritmicko-normální rozdělení, někdy také nazýváno Galtonovo rozdělení, je varianta normálního rozdělení. I jako u normálního rozdělení, se jedná o rozdělení spojité. Čím se však liší je, že na rozdíl od normálního rozdělení je logaritmicko-normální rozdělení asymetrické a zešikmené doleva. Tato šikmost umožňuje vyjadřovat přirozenou asymetričnost sady dat, kdy položky nejsou v uzavřeném intervalu, ale naopak v intervalu, který je z jedné strany neohraničený. [1] Používá např. extenzivně v modelech pro určování kvality produktu [2] nebo při modelování přijmů a platů.


Definice

Náhodná veličina X má logaritmicko-normální (lognormální) rozdělení s parametry μ a σ2, jestliže náhodná veličina ln X má normální rozdělení N(μ,σ2). [1]

Lognormal1.png[1]

Kde µ je střední hodnota a σ² je směrodatná odchylka. Střední hodnotou je definována jako součet všech hodnot náhodné proměnné x dělený počtem hodnot. Vypočtený průměr pak udává, jaká stejná část z úhrnu hodnot sledované číselné proměnné připadá na jednu jednotku souboru. [3] Směrodatná odchylka je odmocnina z rozptylu, který se definuje jako aritmetický průměr čtverců odchylek jednotlivých hodnot sledované proměnné x od průměru celého souboru. [4] Logaritmicko-normální rozdělení pak vypadá takto:

Graf hustoty pravděpodobnosti logaritmicko-normálního rozdělení[5]

Zde je vidět v porovnání s normálním rozdělením níže, které není šikmé a je symetrické:

Graf hustoty pravděpodobnosti normálního rozdělení[6]


Vzorce

Hustota pravděpodobnosti: Lognormal1.png[1]

V grafu nabývá následujícího tvaru:

Graf hustoty pravděpodobnosti s různými proměnnými [7]

Distribuční funkce: Lognormal2.png[1]

V grafu nabývá následujícího tvaru:

Graf kumulativního rozdělení s různými proměnnými [8]


Reálné aplikace

Jak již bylo zmíněno výše, logaritmicko-normální rozdělení je na rozdíl od normálního rozdělení asymetrické a šikmé. Tyto vlastnosti však způsobují, že se toto rozdělení častěji svými jevy blíží realitě. Je to možné pozorovat v různých oborech, kde nachází široké využití.

Například ve financích a investování se používá velmi zběžně ke sledování růstu či poklesu cenných papírů. Neváže se to však jen na burzovní obchody, ale lze předpovídat zhodnocení jakékoliv komodity, ať už se jedná třeba o hodnotu nemovitosti, nebo cenu sběratelských předmětů. [9]

Graf mzdové sféry ČR v 1. pololetí 2021[10]

Často se také využívá jako ilustrace platového či mzdového rozdělení v populaci. Graf ilustruje mzdovou sféru ČR. Hned si lze všimnou, že průměr se nachází téměř u 3. kvartilu a mzdy se logaritmickou křivkou (proto se jedná o logaritmicko-normální rozdělení) blíží k vodorovné ose x. Tedy existuje minimální mzda, která značí ohraničení rozdělení z levé strany. Jak se mzda zvyšuje, tak stoupá i počet zaměstnanců s danou mzdou. Toto stoupání však brzo skončí a nadále platí, že čím více se zvyšuje mzda, tím menší je četnost zaměstnanců s takovou mzdou. Je však možné, že budou existovat i zaměstnanci s tak mzdou tak vysoké částky, že ne grafu již není. Právě díky nim je rozdělení ohraničeno pouze z jedné strany, a to minimální mzdou. Zatímco u normálního rozdělení jsou hodnoty mediánu, průměru a modu všechny totožné, zde je možné pozorovat značný rozdíl mezi mediánem a průměrem, kdy mediánem je téměř o 20% menší než průměr. Logaritmicko-normální rozdělení lze tedy využít pro většinu jevů, kdy je rozdělení z jedné strany ohraničeno.


Další příklad může být rozdělení nezbytného času pro nasazení přístroje pro dojení mléka.

Graf času nasazení přístroje pro dojení[11]

Zde je možné pozorovat, že tento graf se daleko víc blíží k vzhledu normálního rozdělení, ale vzhledem k povaze dostupných dat byla velká variance operátorů, kteří nasazovali přístroje pro dojení krev déle než 20 sekundd, zatímco nejběžnější bylo nasadit přístroj kolem 10 sekund. Je tedy vidět, že samotná povaha dostupných dat (která může být ovlivněna poskytovatelem) má velký vliv na vyobrazení grafu. V tomto případě na to měl vliv i fakt, že velikost vzorku, tedy dat, byla relativně malá. [11]


Existuje velké množství aplikací pro logaritmicko-normálního rozdělení. Příklad těchto aplikací je:

  • znázornění délky šachové hry [12]
  • měření velikosti živé tkáně [13]
  • rozdělení velikosti souborů obsahující zvukové či video stopy [14]


Modelové příklady

1. Excel příklad

Mějme medián = 104Kč, směrodatnou odchylku = 20,4%. Zjistěte hustoty pravděpodobnosti v případě, že modus je 70Kč, 100Kč a 125Kč:

  1. Nejdříve je třeba připravit hodnoty pro vložení do excel funkce
    1. Medián vydělíme 100 a dostaneme 1,04, dále spočítáme logaritmus 1,04, což je 0,039
    2. Procento směrodatné odchylky vydělíme 100, bude tedy 0,204
    3. Připravíme mody stejně jako ostatní hodnoty, tedy vydělíme 100, hodnoty budou tedy 0,7, 1 a 1,25.
  2. Vložíme do funkce LOGNORM.DIST(x,střed_hodn,sm_odchylka,kumulativní), kde
    1. x je modus, tedy 0,7, 1 a 1,25
    2. střed_hodn je medián, tedy 0,039
    3. sm_odchylka je směrodatná odchylka, tedy 0,204
    4. protože chceme funkci hustoty pravděpodobnosti, vložíme NEPRAVDA
  • V případě modu 70Kč je hustota pravděpodobnosti = 0,002
  • V případě modu 100Kč je hustota pravděpodobnosti = 0,01
  • V případě modu 125Kč je hustota pravděpodobnosti = 0,005


2. Excel příklad

Firma XY má průměrnou mzdu 50 000 Kč, jejíž směrodatná odchylka je 10 000 Kč. Zjistěte pravděpodobnost v 95% kvantilu:

  1. Nejdříve je třeba připravit hodnoty pro vložení do excel funkce
    1. Spočítáme logaritmus průměrné mzdy 50 000, což je 10,8197
    2. Směrodatná odchylka je 10 000, potřebujeme však získat procento a 10 000 z 50 000 je 20%. Toto procento dále vydělíme 100 a dostaneme 0,2
    3. Potřebujeme 95% kvantil, což pro nás bude 0,95 po vydělením 100
  2. Použijeme funkci LOGNORM.INV(pravděpodobnost; střed_hodn; sm_odch)
    1. pravděpodobnost je kvantil, tedy 0,95
    2. střed_hodn je logaritmus průměrné mzdy, tedy 10,8197
    3. sm_odchylka je směrodatná odchylka, tedy 0,2
  • 95% kvantil je 69 471,42 Kč


Počítací příklad

Mějme hodnotu A, která je LN[3;5] s parametry μ a σ2

  • Určete distribuční funkci pro hodnotu 8
    • Jak je vidět na obrázku níže, v první řadě si do funkce dosadíme naše hodnoty. Vypočítáme "pravou stranu" a výsledek použijeme pro vyhledání kýžené hodnoty v tabulkách distribuční funkce normovaného normálního rozdělení. Tím, že jsme vypočítali logaritmy na začátku jsme z toho prakticky udělali normální rozdělení. Výsledek odečteme od 1 pro získání hodnotu distribuční funkce

Lognormal6.png

  • Určete medián
    • Medián lze považovat za 50% kvantil a tak to budeme počítat. Podle tabulek normovaného rozdělení je 50% kvantil roven 0. Dosadíme se tedy do exponentu eulerova čísla naše hodnoty podle obrázku níže a dostaneme výsledek

Lognormal7.png

  • Určete 95% kvantil
    • Postup je zde obdoný jako u zjišťování mediánu s rozdílem, že tentokrát hledáme 95% kvantil. Musíme se tedy podívat do tabulky pro kvantily normálního rozdělení, kde zjístíme, že 95% kvantil, tedy 0,95 má hodnotu 1,645. To dosadíme do vzorce (viz obrázek níže) a získáme výsledek

Lognormal8.png


Funkce v Excelu

Při práci s logaritmicko-normálními rozdělení používáme primárně Microsoft Excel. V něm jsou již definované funkce, které můžeme používat. Voláme je pomocí prefixu "=".

LOGNORM.DIST(x,střed_hodn,sm_odchylka,kumulativní)

  • x - vybraná hodnota, pro kterou se bude počítat
  • střed_hodn - střední hodnota
  • sm_odchylka - směrodatná odchylka
  • kumulativní
    • PRAVDA vrátí kumulativní distribuční funkci
    • NEPRAVDA vrátí funkci hustoty pravděpodobnosti


LOGNORM.INV(pravděpodobnost; střed_hodn; sm_odch)

  • pravděpodobnost
  • střed_hodn - střední hodnota
  • sm_odchylka - směrodatná odchylka


Zajímavosti

Jedna ze zajímavosti týkající se logaritmicko-normálního rozdělení lze replikovat následovně:

  1. Vytvořte sadu dat, která obsahuje náhodná normální čísla s průměrem 100 a směrodatnou odchylkou 5
  2. Vytvořte nový sloupec čísel s přirozeným logaritmem pro každou náhodnou hodnotu, tedy pro každou náhodnou hodnotu uděláme ln(x)
  3. Vytvořte logaritmicko-normální pravděpodobnostní graf dat přirozeného logaritmu
  4. Podívejte se na parametry logaritmicko-normálního rozdělení. Měli by vypadat povědomě

Ano, parametry logaritmicko-normálního rozdělení jsou průměr a směrodatná odchylka normálního rozdělení, které mohly být použity k vytvoření logaritmicko-normálních dat prostřednictvím přirozené logaritmické transformace.[15]


Příklady k procvičení

Logaritmicko-normální rozdělení se velmi podobá normálnímu rozdělení, pro které existuje více podkladů, příkladů i vysvětlení. Je tedy možné si trénovat normální rozdělení, případně lehce upravit zadání pro podobu logaritmického-normálního rozdělení.


Příklad 1 Sběratel známek je dlouholetým zákazníkem pojišťovacího podniku, která pojišťuje jeho sbírku. Tím se dostal mezi vybrané dlouholeté zákazníky, kteří jsou drahocení pro pojišťovnu a mají zvýhodněné pojištění. V rámci tohoto zvýhodnění platí 65 % základního pojistného, které činí 14 900 Kč. Parametr λ Poissonova rozdělení počtu pojistních událostí je roven 0,2 a výše škody se řídí logaritmicko normálním rozdělením s parametry μ=5 a σ2=2:

  • určete pravděpodobnost, že klient uplatní pojistnou událost
  • určete střední hodnotu škody


Příklad 2 Máme náhodnou veličinu X s logaritmicko-normálním rozdělením s parametry: μ=2; σ2=9. Určete:

  • pravděpodobnost, že náhodná veličina X je z intervalu (0;30)
  • medián daného rozdělení
  • střední hodnotu a rozptyl náhodné veličiny X


Příklad 3 Předpokládejme, že Y následuje logaritmicko-normální rozdělení s parametry: μ=2; σ2=9. Mějme Y1 = 1,25Y. Zjistěte následujicí:

  • Pravděpodobnost, že Y1 bude vyšší než 1.
  • 40% kvantil Y1.
  • 80% kvantil Y1.


Příklad 4 Předpokládejme, že známe následujicí informace o logaritmicko-normálním rozdělení:

  • Spodní kvartil (tedy 25% percentil) je 1000
  • Vrchní kvartil (tedy 75% percentil) je 4000

Zjistěte průměr a rozptyl s danými informacemi.

Reference

  1. 1.0 1.1 1.2 1.3 1.4 Logaritmicko normální rozdělení. Statistika a pravděpodobnost [online]. [cit. 2022-05-25]. Dostupné z: https://is.muni.cz/do/rect/el/estud/prif/ps15/statistika/web/pages/logaritmicko-normalni.html
  2. Lognormal distribution. National institute of Standards and Technology [online]. [cit. 2022-05-25]. Dostupné z: https://www.itl.nist.gov/div898/handbook/eda/section3/eda3669.htm
  3. Popisné charakteristiky statistických souborů. Fakulta veterinární hygieny a ekologie Veterinární univerzity Brno - Biostatistika [online]. [cit. 2022-05-25]. Dostupné z: https://cit.vfu.cz/statpotr/POTR/Teorie/Predn1/strednih.htm
  4. Popisné charakteristiky statistických souborů. Fakulta veterinární hygieny a ekologie Veterinární univerzity Brno - Biostatistika [online]. [cit. 2022-05-25]. Dostupné z: https://cit.vfu.cz/statpotr/POTR/Teorie/Predn1/variabil.htm
  5. Lognormal distribution. Lognormal distribution in base B [online]. [cit. 2022-05-25]. Dostupné z: https://www.vosesoftware.com/riskwiki/images/image1c99.gif
  6. OTIPKA, Petr a Vladislav ŠMAJSTRLA. Pravděpodobnost a statistika. Ostrava: Vysoká škola báňská - Technická univerzita Ostrava, 2006. [online]. Dostupné z: https://homel.vsb.cz/~oti73/cdpast1/
  7. Log-normal Distribution - A simple explanation [online]. [cit. 2022-05-26]. Dostupné z: https://miro.medium.com/max/1290/1*5yM7k43zgHzE_twI-Y9DXA.png
  8. Lognormal distribution [online]. [cit. 2022-05-26]. Dostupné z: http://www.montecarloexceladdin.com/wp-content/uploads/2016/01/LogNormalDistributionCDF.jpg
  9. ANTONIOU, I., Vi V. IVANOV, Va V. IVANOV a P.V. ZRELOV. On the log-normal distribution of stock market data [online]. [cit. 2022-05-26]. Dostupné z: https://doi.org/10.1016/j.physa.2003.09.034
  10. Mzdová sféra ČR - 1. pololetí 2021. Informační systém o průměru výdělku [online]. [cit. 2022-05-25]. Dostupné z: https://www.ispv.cz/getattachment/eb70c203-d142-4a32-90d6-b48acbb9588b/CR_212_MZS-xlsx.aspx?disposition=attachment
  11. 11.0 11.1 Distribution Fitting and Parameterization of Individual Operator Work Routine Times for Small Dairy Parlors [online]. 2006 [cit. 2022-05-25]. Dostupné z: doi:https://doi.org/10.3168/jds.S0022-0302(06)72305-0
  12. AHLE, Thomas. What is the average length of a game of chess? [online]. [cit. 2022-05-26]. Dostupné z: https://chess.stackexchange.com/questions/2506/what-is-the-average-length-of-a-game-of-chess/4899#4899
  13. Millet, A. A Universal Model for the Log-Normal Distribution of Elasticity in Polymeric Gels and Its Relevance to Mechanical Signature of Biological Tissues. Biology 2021, 10, 64. https://doi.org/10.3390/biology10010064
  14. Gros, C., Kaczor, G. & Marković, D. Neuropsychological constraints to human data production on a global scale. Eur. Phys. J. B 85, 28 (2012). https://doi.org/10.1140/epjb/e2011-20581-3
  15. HAYNES, Rick. An interesting fact about the Lognormal Distribution [online]. [cit. 2022-05-26]. Dostupné z: https://smartersolutions.com/an-interesting-fact-about-the-lognormal-distribution.html/