Difference between revisions of "Vydavatelství slovníků"

From Simulace.info
Jump to: navigation, search
(Doplnění následovnických funkcí)
(menší opravy a doplňky)
 
(One intermediate revision by the same user not shown)
Line 5: Line 5:
 
=Definice problému=
 
=Definice problému=
  
Bude simulována firma, která se zabývá tvorbou a prodejem překladových slovníků, kde na 1 straně je čeština. Postupně buduje svoje portfolio produktů na základě toho, jak rychle zpracovává slovníková hesla pro vydání potřebné velikosti slovníku, a na základě poptávky ovlivněné geopolitickými událostmi vydává nová vydání. Jejím cílem je mít konsistentní zpracování všech předem vytyčených jazyků s pomocí počítačových technologií, a zacelit tak všechny díry na trhu českých překladových slovníků, jejichž zpracování nebylo v minulých režimech možné z politických či technických důvodů. Noví zaměstnanci (zvyšující rychlost zpracování hesel) jsou z důvodu stability týmového prostředí nabíráni jen v případě zvýšené poptávky. Simulace je inspirována příhodným vydáním ukrajinského slovníčku od firmy Lingea z pekuliárního roku 2022, a ukrajinské konverzace z roku 2023.
+
Bude simulována firma, která se zabývá tvorbou a prodejem překladových slovníků, kde na 1 straně je čeština. Postupně buduje svoje portfolio produktů na základě toho, jak rychle zpracovává slovníková hesla pro vydání potřebné velikosti slovníku, a na základě poptávky ovlivněné geopolitickými událostmi vydává nová vydání. Jejím cílem je mít konsistentní zpracování všech předem vytyčených jazyků s pomocí počítačových technologií, a zacelit tak všechny díry na trhu českých překladových slovníků, jejichž zpracování nebylo v minulých režimech možné z politických či technických důvodů. Noví zaměstnanci (zvyšující rychlost zpracování hesel) jsou z důvodu stability týmového prostředí nabíráni jen v případě zvýšené poptávky (prozatím náhodně). Simulace je inspirována příhodným vydáním ukrajinského slovníčku od firmy Lingea z pekuliárního roku 2022, a ukrajinské konverzace z roku 2023.
  
 
== Cíl simulace ==
 
== Cíl simulace ==
Line 33: Line 33:
 
=Model=
 
=Model=
  
V LibreOffice byla simulace rozdělená do 6 různých listů:
+
V LibreOffice byla simulace rozdělená do 4 různých listů:
  
 
* Počáteční - konfigurace simulace
 
* Počáteční - konfigurace simulace
Line 123: Line 123:
 
* jeVálka
 
* jeVálka
 
* agresorIdx - vygenerované
 
* agresorIdx - vygenerované
* agresor - referencované jméno
+
* agresor - dereferencované jméno
 
* napadenýIdx - vygenerované
 
* napadenýIdx - vygenerované
* napadený - dereferencované
+
* napadený - dereferencované jméno
  
  
Line 137: Line 137:
 
=Závěr=
 
=Závěr=
  
Vzhledem k příliš striktní deadline nemohla být simulace zcela implementována pro všechny velikosti slovníků s ohledem na proměňující se bias poptávky. Deterministické rozřazování, kolik čeho vytisknout, by trvalo implementovat další měsíc.
+
Vzhledem k příliš striktní deadline nemohla být simulace zcela implementována pro všechny velikosti slovníků s ohledem na proměňující se bias poptávky. Deterministické rozřazování, kolik čeho vytisknout, by trvalo implementovat další měsíc. V souvislosti s celkovým počtem polí (cca 600 řádků a 300 sloupců) se rovněž vyskytly obavy o načítání símulace na strojích, které nedosahují výkonových kvalit autorova počítače.
  
  
Line 151: Line 151:
 
=Kód=
 
=Kód=
  
[[File:vydavatelstvi_slovniku.ods]]
+
[[File:Vydavatelstvi_slovniku.ods]]
 +
[https://drive.google.com/file/d/18gmu79o6x-3pepLn4-9_0it_mnMhTf87/view?usp=drive_link Soubor simulace na Google Disku]
  
Simulace postupuje na základě následovnických funkcí, které jsou následující:
+
Simulace postupuje na základě následovnických funkcí, které jsou uvedeny v tabulce níže. Pro účely tohoto článku byly poněkud kryptické identifikátory polí nahrazeny symbolickými jmény s indexujícími subskripty.
  
  

Latest revision as of 17:46, 12 June 2023

"Něco lingvistického."


Definice problému

Bude simulována firma, která se zabývá tvorbou a prodejem překladových slovníků, kde na 1 straně je čeština. Postupně buduje svoje portfolio produktů na základě toho, jak rychle zpracovává slovníková hesla pro vydání potřebné velikosti slovníku, a na základě poptávky ovlivněné geopolitickými událostmi vydává nová vydání. Jejím cílem je mít konsistentní zpracování všech předem vytyčených jazyků s pomocí počítačových technologií, a zacelit tak všechny díry na trhu českých překladových slovníků, jejichž zpracování nebylo v minulých režimech možné z politických či technických důvodů. Noví zaměstnanci (zvyšující rychlost zpracování hesel) jsou z důvodu stability týmového prostředí nabíráni jen v případě zvýšené poptávky (prozatím náhodně). Simulace je inspirována příhodným vydáním ukrajinského slovníčku od firmy Lingea z pekuliárního roku 2022, a ukrajinské konverzace z roku 2023.

Cíl simulace

Hlavním cílem je prověřit dlouhodobou (20+ let) rentabilitu a ziskovost v obnoveném volnotržním prostředí, obzvláště v pozdních fázích, kdy slovníky většiny jazyků budou zpracovány do velké velikosti (100000+ hesel), ačkoliv poptávka po nich bude lehce klesat.

Zdroje dat

Data budou získána či spíše odvozena z výročních zpráv Lingea s.r.o. v Obchodním rejstříku, nebot používají zkrácený rozsah a nemají povinnost ověření auditorem. Důležitým zdrojem je také produktové portfolio této firmy, které určí jednotlivé druhy slovníků. Doplněny jsou také formáty největších českých slovníků, kterou používají jako základ pro část s češtinou napřed.

Ohledně dějepisných událostí se simulace se inspiruje v celkové pravděpodobnosti válek, ale nebude natvrdo zakódováno, že USA má v roce 2003 napadnout Irák, Rusko má v roce 2008 napadnout Gruzii, nebo že se má v roce 2011 stát arabské jaro. Bude ale ctěno, že státy NATO nikdy nejsou napadány.

Rychlost zpracování slovníkových hesel je odvozena z průměrné rychlosti psaní. Zaměstnanci jsou považovaní za experty na svůj jazyk, tudíž nejsou ve zpracování hesel omezení potřebou o nich dlouze přemýšlet.


Metoda

Formulování a zpracování tématu je inspirováno soutěžními zadáními z FMWC. V základu simulované části reality je použito Monte Carlo, na rozhodovací úrovni jsou použity prvky Dračího doupěte. Prozatímní název pro tuto kombinaci je Šmakova hora. Narozdíl od Monte Carla není a priori cílem konvergence výsledků.

Počet kol je 50 po 1 roce, počínaje rokem 2001. V každém kole je 12 tahů odpovídajícím 1 měsíci.

Použitý program je LibreOffice Calc, neboť umožňuje defici vlastních funkcí imperativně přímo v LibreOffice Basic, namísto méně pohodlného funkcionálního psaní lambd ve správci jmen v M$ Excel 365, přičemž v nejnovější stabilní verzi 2021 lambdy nejsou podporovány.

Samotná simulace je postavena na sledování a aktualizaci stavových proměnných pomocí následovnické funkce s podmíněným rozhodnutím, zda se jedná o konec roku.


Model

V LibreOffice byla simulace rozdělená do 4 různých listů:

  • Počáteční - konfigurace simulace
  • Slovníky - data druhů slovníků
  • Jazyky - konfigurace proměnných na každý jazyk
  • Simulace - samotná simulace


Počáteční proměnné

  • Peníze = 1000000 Kč
  • sílaZamE = 1000 hesel/měsíc (normální)
  • sílaZamSigma = 500 hesel (variace přínosu pro kolektiv)
  • výchylnostZam = 100 hesel (momentální variace zpracovaných slov)
  • mzda = 20000 Kč (k roku 2000)
  • početJazyků = 20
  • početNonPaxAm = 13
  • pstVálka = 0,1 (každý měsíc)
  • poptFaktAgresor = 5
  • poptFaktNapaden = 10
  • velikostTrhu = 20000000 lidí
  • inflaceCíl = 1,02 (lognormální)
  • inflaceSigma = 0,2
  • globPoptFakt = 0,001
  • poptSigma = 1000 lidí
  • cenaDB = 0,1 Kč/heslo
  • nákladyA4 = 0,1 Kč/list


Slovníky

Simulovaná firma chce vydávat 12 (dodekahedron) druhů slovníků. Nejsou uvažováni průvodci a gramatiky.

  • konverzace - 6k, obsahuje krátký slovníček a relativně fixní seznam frází.
  • slovníček - 30k
  • kapesní - 35k, obsahuje stručnou konverzaci
  • šikovný - 40k, obsahuje konverzaci
  • praktický - 50k
  • úzký velký - 60k, pozorováno u čínštiny a japonštiny
  • tlustý velký - 120k, pozorováno u angličtiny a němčiny
  • vícesvazkový - 250k, podle PSJČ a SSJČ
  • mega - 1M,
  • mluvník - 2k, potřeba 100k
  • tematický - 20k, potřeba 100k
  • slang - 5k, potřeba 100k, jedná se o podmnožinu


Jazyky

Bylo vybráno 20 (ikosahedron) jazyků s nejvyšším počtem mluvčích podle Ethnologue. Portfolio Lingey zahrnuje místo některých jihoasijských jazyků jazyky evropských států, nicméně pro řadu jihoasijských jazků velký slovník s češtinou na 2. straně nevyšel, tudíž se jedná o tržní příležitost.

  • angličtina
  • čínština
  • hindština
  • španělština
  • francouzština
  • arabština - v dosavadních slovnících řazeno zpravidla podle kořenu
  • bengálština
  • ruština
  • portugalština
  • urdu
  • indonéština
  • němčina
  • japonština
  • marathi
  • telugu
  • turečtina
  • tamilština
  • vietnamština
  • filipínština (tagalog)
  • korejština


Proměnné na každý jazyk

  • Poptávka
  • Počet zaměstnanců
  • Síla kolektivu (hesel za měsíc)
  • Počty každého z 12 druhů slovníku


Proměnné zvlášť

  • Rok
  • Měsíc
  • Peníze
  • Mzda
  • jeVálka
  • agresorIdx - vygenerované
  • agresor - dereferencované jméno
  • napadenýIdx - vygenerované
  • napadený - dereferencované jméno


Výsledky

Na začátku je patrná potřeba zadlužení na prvotní várky konverzací, potom má ale firma více než dostatek peněz na případné reinvestice, a dokonce přibývají.

Nebýt nemilosrdného vyhození všech zaměstnanců kromě jednoho po dosažení milionu slov v daném jazce (někdy zbyde ten, který zvládne slova přidávat), projekt by přestal být komerčně rentabilní, neboť po uspokojení většiny poptávky, kterážto je v této simulaci omezená, se nevyplatí dále provozovat celou firmu. I u jazyků, kde se začíná s nejmenším počtem zaměstnanců, se tak stane do 15 let. To je méně než 1 generace, narozdíl od doby, kterou trvalo ručně dokončit vícesvazkové slovníky v minulém století.


Závěr

Vzhledem k příliš striktní deadline nemohla být simulace zcela implementována pro všechny velikosti slovníků s ohledem na proměňující se bias poptávky. Deterministické rozřazování, kolik čeho vytisknout, by trvalo implementovat další měsíc. V souvislosti s celkovým počtem polí (cca 600 řádků a 300 sloupců) se rovněž vyskytly obavy o načítání símulace na strojích, které nedosahují výkonových kvalit autorova počítače.


Odkazy


Kód

File:Vydavatelstvi slovniku.ods Soubor simulace na Google Disku

Simulace postupuje na základě následovnických funkcí, které jsou uvedeny v tabulce níže. Pro účely tohoto článku byly poněkud kryptické identifikátory polí nahrazeny symbolickými jmény s indexujícími subskripty.


Následovnické funkce
Proměnná Kód funkce Komentář
Rok rok[i-1]+IF(měsíc[i]=1;1;0) Rok se zvedá každých 12 měsíců
Měsíc MOD(měsíc[i-1];12)+1 Měsíce jsou číslované od 1
Peníze peníze[i-1]-SUM(Zaměstnanci[i])*mzda[i-1]-MIN(0;(konverzací[i]-konverzací[i-1]))*(konst[konverzace]+var[konverzace]*potřebaHesel[konverzace])+MIN(0;(konverzací[i-1]-konverzací[i]))*cena[konverzace] atd. pro všechny druhy
jeVálka IF(RANDBETWEEN(0;1/pstVálka)=0;1;0) Tradiční hod 1/pstVálka-strannou kostkou
agresorIdx IF(jeVálka=1;RANDBETWEEN(0;početJazyků);"-") Další hod početJazyků-strannou kostkou
agresor IF(agresorIdx="-";"-";IF(agresorIdx=0;"jiný";VLOOKUP(agresorIdx;Jazyky;3;FALSE()))) Dereference pro kontrolu
napadenýIdx IF(jeVálka=1;RANDBETWEEN(0;početNonPaxAm);"-") Státy NATO nikdy nejsou napadeny
napadený IF(napadenýIdx="-";"-";IF(napadenýIdx=0;"jiný";VLOOKUP(napadenýIdx;Jazyky.nonPaxAmIdx;2;FALSE()))) Dereference pro kontrolu
Slov Slov[k][i-1]+KolektivSíla[k][i-1]+ROUND(NORM.INV(RAND();0;Zaměstnanci[k][i]*výchylnostZam)) x20 pro každý jazyk k
Zaměstnanci IF(měsíc[i]=1;IF(slov[k][i-1]<Slovníky[potřebaHesel][mega];Zaměstnanci[k][i-1]+RANDBETWEEN(0;1);sílaZamE);Zaměstnanci[k][i-1]) x20 pro každý jazyk k
KolektivSíla =MAX(0;kolektivSíla[k][i-1]+(Zaměstnanci[k][i]-Zaměstnanci[k][i-1])*ROUND(NORM.INV(RAND();sílaZamE;sílaZamSigma);0)) x20 pro každý jazyk k
Poptávka =MAX(0;Poptávka[k][i-1]+ROUND(NORM.INV(RAND();(IF(agresorIdx[i]=k;poptFaktAgresor;1)*IF(napadenýIdx[i]=k;poptFaktNapaden;1))*(poptSigma+globPoptFakt*VLOOKUP(k;Jazyky;5;FALSE()));poptSigma);0)-Konverzací[k][i-1]) x20 pro každý jazyk k, atd. pro všechny druhy
Konverzací ... Slangů =IF(Slov[k][i-1]>Slovníky[potřebaHesel][konverzace];MAX(Poptávka[k][i-1];CM4);Konverzací[k][i-1])-MIN(Poptávka[k][i-1];Konverzací[k][i-1]) x20 pro každý jazyk k, atd. pro každý druh slovníku