Difference between revisions of "Simulace profitability"
m |
m |
||
(One intermediate revision by the same user not shown) | |||
Line 5: | Line 5: | ||
== Analýza dat == | == Analýza dat == | ||
− | Původní data pochází s online výukové aplikace[https://app.datacamp.com/learn/courses/credit-risk-modeling-in-python]. Obsahují chybějící hodnoty a relativně malé množství logicky nesprávnávných záznamů (např. věk výrazně nad sto let). Po odstranění nekompletních záznamů a vyčištění dat bylo možné na základě dat připravit grafy za účelem nalezení nejbližšího rozdělení pravděpodobnosti výskytu hodnot sledovanách atributů. V datech byla identifikována závislá proměnná určující, zda byl úvěr splacen, nebo jeho splacení selhalo (úvěr tzv. defaultoval). Pro její odhad byly hodnoty normalizovány podle nejvyšší hodnoty daného atributu ve vyčištěných datech a byla spočítána korelace mezi jednotlivými atributy a závislou proměnnou. Tento postup umožnil tvorbu indexu součtem všech atributů vážených podle | + | Původní data pochází s online výukové aplikace[https://app.datacamp.com/learn/courses/credit-risk-modeling-in-python]. Obsahují chybějící hodnoty a relativně malé množství logicky nesprávnávných záznamů (např. věk výrazně nad sto let). Po odstranění nekompletních záznamů a vyčištění dat bylo možné na základě dat připravit grafy za účelem nalezení nejbližšího rozdělení pravděpodobnosti výskytu hodnot sledovanách atributů. V datech byla identifikována závislá proměnná určující, zda byl úvěr splacen, nebo jeho splacení selhalo (úvěr tzv. defaultoval). Pro její odhad byly hodnoty normalizovány podle nejvyšší hodnoty daného atributu ve vyčištěných datech a byla spočítána korelace mezi jednotlivými atributy a závislou proměnnou. Tento postup umožnil tvorbu indexu součtem všech atributů vážených podle určené korelace se závislou proměnnou. Pro simulaci defaultování byla připravena prahová hodnota indexu pomocí expertního odhadu a následné optimalizace. Celková přesnost odhadu defaultování pro defaultující i nedefaultující kategorii podle prahové hodnoty indexu byla ověřena na vstupních datech a činila 72,64 %. Pro účely simulace byly z normalizovaných dat spočítány přirozené logaritmy a byly určeny průměry a směrodatné odchylky těchto hodnot. Dokumentace postupu je také dostupná přímo v souboru se simulací, kde jsou uvedeny i grafy, příslušné hodnoty indexů a prahová hodnota. |
== Sestavení simulace == | == Sestavení simulace == |
Latest revision as of 12:22, 11 June 2024
Podrobný popis a návod k použití je k dispozici přímo v souboru formou komentářů, připravených polí pro vstupy a grafů. Účel a shrnutí simulace odpovídají původnímu zadání, výsledkem je "break-even" RPSN závislé na vstupech uživatele.
Contents
Analýza dat
Původní data pochází s online výukové aplikace[1]. Obsahují chybějící hodnoty a relativně malé množství logicky nesprávnávných záznamů (např. věk výrazně nad sto let). Po odstranění nekompletních záznamů a vyčištění dat bylo možné na základě dat připravit grafy za účelem nalezení nejbližšího rozdělení pravděpodobnosti výskytu hodnot sledovanách atributů. V datech byla identifikována závislá proměnná určující, zda byl úvěr splacen, nebo jeho splacení selhalo (úvěr tzv. defaultoval). Pro její odhad byly hodnoty normalizovány podle nejvyšší hodnoty daného atributu ve vyčištěných datech a byla spočítána korelace mezi jednotlivými atributy a závislou proměnnou. Tento postup umožnil tvorbu indexu součtem všech atributů vážených podle určené korelace se závislou proměnnou. Pro simulaci defaultování byla připravena prahová hodnota indexu pomocí expertního odhadu a následné optimalizace. Celková přesnost odhadu defaultování pro defaultující i nedefaultující kategorii podle prahové hodnoty indexu byla ověřena na vstupních datech a činila 72,64 %. Pro účely simulace byly z normalizovaných dat spočítány přirozené logaritmy a byly určeny průměry a směrodatné odchylky těchto hodnot. Dokumentace postupu je také dostupná přímo v souboru se simulací, kde jsou uvedeny i grafy, příslušné hodnoty indexů a prahová hodnota.
Sestavení simulace
Simulace využívá metodu Monte Carlo. Jsou počítány sledované atributy na základě statisticky určených vlastností pro 10 000 fiktivních úvěrů. Z těchto atributů jsou následně počítány indexy a odhad defaultování těchto fiktivních úvěrů. Podle defaultování jsou následně počítány dodatečné náklady (očekávané na vstupu od uživatele) a spolu s "fixními" náklady na finanční prostředky úvěru jsou určeny celkové náklady na poskytnutí 10 000 úvěrů jako relativní metrika vůči celkové hodnotě těchto úvěrů. Normalizace hodnoty výše úvěru v simulaci možňuje na základě vstupu změnit výsledky simulace pro rozdílné maximální výše úvěru, což ovlivňuje vliv dodatečných nákladů na celkové náklady skupiny úvěrů.
Výsledky a omezení
Výslednou hodnotou je break-even RPSN, tedy celková relativní roční hodnota nákladů, které je nutné pokrýt sazbou a/nebo poplatky, aby byly úvěry při daných parametrech neztrátové. Vlastnosti generovaných parametrů fiktivních úvěrů je možné změnit podle statistických vstupů na úvodní obrazovce. Zásadním omezením je absence splatnosti úvěrů ve vstupních datech a tedy také v simulaci. Simulace je upravena pro roční období, což vyhovuje výpočtu RPSN, ale zanedbává se možnost vlivu délky splatnosti na defaultování úvěru. Dále se zanedbávají korelace mezi jednotlivými parametry úvěru, s výjimkou korelace ostatních parametrů s identifikovanou závislou proměnnou a korelace výše úvěru a ročního příjmu. Simulace v některých případech generuje vyšší hodnoty indexů, než by bylo u reálných úvěrů možné. To v praxi znamená, že výsledná hodnota "RPSN" je marginálně vyšší. Tato nepřesnost byla zachována v zájmu opatrného přístupu, který je v bankovnictví typický - je tak nižší praděpdobonost, že bude výsledek příliš optimistický.
Restrospektiva - co ne/dělat jinak, pokud se rozhodnete zabývat podobným tématem
Bylo by vhodnější použít data obsahující splatnost a zahrnout ji do simulace, v případě finančních datasetů je však dostupnost pro veřejné použití omezená. Osvědčila se příprava analýzy postupu před samotným zpracováním dat a tvorbou simulace, nebylo tak nutné upravovat již zpracované části nebo dohledávat chybějící informace. Po určení korelace při přípravě indexů je možné vyloučit méně významné parametry, což snižuje pracnost dalšího postupu. Zároveň by bylo možné z dat vytěžit další metriky, které by mohly zpřesnit odhad.