Výuková opora

VZDĚLÁVACÍ PROJEKT
ANALÝZA DATOVÝCH SAD FINANČNÍCH TRHŮ
Cíl projektu
Vzdělávací projekt analýzy datových sad finančních trhů navazuje na předměty matematika a ekonomie a již získané znalosti v těchto předmětech. Cílem projektu je pochopení základů fungování finančních trhů a stochastických modelů. Na tyto znalosti navazuje analýza stochastických modelů v počítačových programech. Projekt patří do nezbytných základů pochopení finančních trhů.
Centralizované finanční trhy
Hlavní funkcí burzy je tedy organizovat trh cenných papírů. Burza cenných papírů je právnická osoba oprávněná organizovat na určeném místě a ve stanovenou dobu prostřednictvím oprávněných osob trh (poptávku a nabídku) cenných papírů. Hlavní funkcí burzy je tedy organizovat trh cenných papírů.

NASDAQ je největší ryze elektronický burzovní trh ve Spojených státech amerických s více než 3 900 kótovanými společnostmi z 39 zemí celého světa. Na tomto trhu lze obchodovat akcie, opce a futures kontrakty. Byla založena roku 1971 americkou Asociací národních obchodníků s cennými papíry.

Akcie
Akcie je cenný papír, který potvrzuje, že jeho majitel (držitel) je akcionář, tj. že vložil určitý majetkový podíl (kapitál) do akciové společnosti.
IPO – Initial public offering (Primární úpisy akcií)
IPO (anglicky Initial Public Offering, česky Primární úpisy akcií) je první veřejná nabídka akcií. Je to proces, při kterém společnost vstupuje na burzu a nabízí své akcie široké veřejnosti, obvykle z důvodu potřeby navýšení kapitálu.

Indexy
Akciový index je statistickou veličinou, která měří změny v portfoliu akcií reprezentujících část celkového akciového trhu (někdy dokonce i trh celý). Investor sleduje vývoj indexů proto, aby věděl, jakým směrem se trhy řítí nebo naopak pokulhávají. Manažeři fondů jsou často s různými indexy porovnáváni. Stovky miliard amerických dolarů je investováno do nejrůznějších indexů.

Futures kontrakty
Futures je finanční kontrakt, ve kterém se dvě strany zavazují směnit v předem stanoveném okamžiku určité množství finančního aktiva (např. cizí měny) nebo komodity (např. ropy) za předem stanovenou cenu.
E-mini S&P 500
Přeloženo z angličtiny-E-mini S&P, často zkráceno na „E-mini“ a označeno symbolem komoditního tickeru ES, je futures kontrakt indexu akciového trhu obchodovaný na platformě elektronického obchodování Globex na Chicago Mercantile Exchange.

New York Stock Exchange (zkráceně NYSE) je z hlediska tržní kapitalizace kótovaných společností největší a nejdůležitější burzou na světě. NYSE, také nazývaná „The Big Board“, sídlí na adrese Wall Street 11 na dolním Manhattanu v New Yorku.
Jedná se o tradiční “open outcry” burzu, kde jsou obchody realizovány na obchodním parketu. Nicméně dnes již většina obchodů probíhá elektronicky. Na rozdíl od Nasdaq však není NYSE plně automatizována, a je aktivně řízená obchodníky.
Díky poloze budovy, kde NYSE sídlí, se často burze přeneseně říká Wall Street. Na NYSE, která je součástí mezikontinentální měnové burzy (ICE), je zapsáno více než 2200 společností s tržní hodnotou více než 30 bilionů USD. Pravidelné obchodování na NYSE začíná v 9:30 a končí v 16:00 místního času. Burza je o amerických státních svátcích uzavřena.
Nejznámějším akciovým indexem na NYSE je Dow Jones Industrial Average (zkráceně Dow Jones Index), který se skládá z 30 největších amerických společností.
CME Group Inc. je zkratka pro Chicago Mercantile Exchange and Chicago Board of Trade. Jedná se o americkou derivátovou burzu, na které se obchodují futures, opce, swapy, forwardy na úrokové sazby, equity indexy, futures na měny, energie, zemědělské plodiny, kovy, počasí a nemovitosti.
Clearingový platební styk funguje mezi bankami – každá banka má v clearingovém (zúčtovacím) centru (u custodiana) svůj clearingový/majetkový účet, na který přicházejí platby od jiných bank (příjmy) a ze kterého jsou prováděny platby jiným bankám (výdaje). Z tohoto účtu se následně hradí platby ostatním bankám. Vyrovnávání pohledávek a závazků probíhá vzájemným započítáváním všech pohledávek a závazků, což je výhodné, neboť se dá vyřešit jednou jedinou platební operací na dorovnání rozdílu za stanovené období.
Pražská burza https://www.pse.cz/
Pražská burza (BCPP) je jedním ze dvou organizátorů trhu s cennými papíry v České republice. Po padesátileté přestávce způsobené druhou světovou válkou a komunistickým režimem byla znovu otevřena v roce 1993. Navázala tak na činnost pražské komoditní a akciové burzy založené roku 1871.
Index PX je oficiálním cenovým indexem Burzy cenných papírů Praha. Jedná se o cenový index s váženým poměrem nejlikvidnějších akcií. Index je počítán také jako „total return“ index PX-TR. Jedná se o index s váženým poměrem nejlikvidnějších akcií, v jehož výpočtu jsou zohledněny dividendové výnosy.

Decentralizované finanční trhy
Decentralizované finance jsou v současné době jednou z nejzajímavějších oblastí kryptoměn. DeFi představuje zkratku pro decentralizované finance. Jedná se o finanční systém v decentralizované podobě. Většinou je k tomu využíván blockchain.
Decentralizované finance tak odkazují na systém, který s pomocí inteligentních smluv umožňuje lidem nakupovat, prodávat, půjčovat si nebo půjčovat peníze v kryptoměnách. Mluvíme zde o smart kontraktech, v širším slovasmyslu můžeme za základ označit i Bitcoin.
Jako vše, i decentralizované finance mají své výhody a nevýhody. Mezi výhody decentralizovaných financí patří například bezpečný přístup ke kryptoměnám, neměnnost záznamů na blockchainu, transparentnost, možná účast každého nebo absence prostředníka.
Marginální obchod je provádění spekulačních operací pomocí peněžních prostředků nebo produktů, které jsou poskytnuty obchodníkům úvěrem. Za tento úvěr klient ručí dohodnutou částkou. Výnos bývá zpravidla větší, než je poskytnutý úvěr.
CBOE je zkratka pro Chicago Board Options Exchange, největší opční burzu na světě se sídlem v Chicagu, založenou v roce 1973. Nabízí opční kontrakty na akcie, indexy a úrokové míry. … Mezi další instrumenty kromě opcí, které je možné na CBOE obchodovat, patří futures, americké a evropské akcie, ETF, ETN a forex.
Burzovně obchodované fondy, jsou stejně tak jako akcie snadno dostupné investiční nástroje kapitálového trhu, které vytvářejí a spravují specializované finanční instituce. Na americké burze se obchodují od roku 1993. Jsou to společnosti založené buď jako investiční trust nebo investiční fond.
Nejlepší ETF fondy:
iShares Core MSCI World.
iShares MSCI Emerging Markets.
Vanguard S&P 500.
Vanguard FTSE All-World.
SPDR S&P 500.
SPDR S&P US Dividend Aristocrats.
SPDR S&P Euro Dividend Aristocrats.
iShares Core MSCI Europe.
Naše vlajková loď spotové FX a drahých kovů ECN, která využívá oceňovanou technologii FastMatch®, poskytuje zákazníkům přístup k velkým fondům diverzifikované likvidity s naprostou transparentností a bezkonkurenční rychlostí. Euronext FX ECN nabízí anonymní i zveřejněné obchodování, flexibilní konektivitu, jedinečné funkce a produktová řešení a nejlepší řízení likvidity ve své třídě.

ECN a poskytovatelé likvidity pro MetaTrader 5 https://www.metatrader5.com/en/stocks-ecns/liquidity_providers_ecns

Kraken je kryptoměnová burza a banka se sídlem ve Spojených státech, založená v roce 2011. Burza poskytuje obchodování mezi kryptoměnami a fiat měnami a poskytuje informace o cenách pro Bloomberg Terminal.
Binance je kryptoměnová burza založená v půlce roku 2017. Její zakladatel je Changpeng Zhao. Burza má od března 2018 sídlo na Maltě, funguje ve 14 jazykových mutacích a nabízí ke směně více než 149 kryptoměn. Umožňuje také jejich směnu s fiat měnou. Burza má také svou vlastní kryptoměnu Binance.

ECN sítě
Elektronická komunikační síť (ECN) je automatizovaný systém, který vyřizuje objednávky na nákup a prodej cenných papírů.
Elektronická komunikační síť (ECN) spojuje hlavní makléře s jednotlivými obchodníky, aby mohli obchodovat přímo mezi sebou, aniž by procházeli nějakým prostředníkem a umožnili tak investorům v různých geografických lokalitách rychle a snadno obchodovat navzájem.
Přeloženo z angličtiny-Equinix, Inc. je americká nadnárodní společnost se sídlem v Redwood City v Kalifornii, která se specializuje na připojení k internetu a datová centra. Společnost je lídrem v celosvětovém podílu na trhu kolokačních datových center s 229 datovými centry ve 27 zemích na pěti kontinentech.
Redwood Shores, Kalifornie – 8. března 2018 – Společnost Fortex Inc., jedna z předních obchodních platforem elektronické komunikační sítě (ECN), dnes oznámila spuštění svého hostingového zařízení v datovém centru LD5 Equinix, protože rychle rozšiřuje své působení v regionu.
Fortex tak navazuje na úspěch v datových centrech NY4 (New York) a HK3 (Hongkong), kde v současné době bezpečně hostuje obchodní infrastrukturu pro velké množství serverů MT4 a MT5 pro FX a CFD brokery, banky a další obchodní instituce.
Druhá největší lokalita IBX v Evropě, LD5, je postavena ve stejném areálu, v němž se nachází stávající datové centrum Equinix LD4 IBX, a je vybavena nejmodernější technologií datového centra, redundantním napájením, chlazením a optickým připojením, které splňuje regulační požadavky vysoce regulovaného finančního odvětví.

Tržní kapitalizace
Tržní kapitalizace vyjadřuje tržní hodnotu akciové společnosti nebo kryptoměn. Je to celková tržní hodnota všech jí vydaných akcií nebo, pokud jde o kryptoměny, celková hodnota všech mincí v oběhu. Vypočítá se jako součin počtu vydaných akcií a aktuální ceny akcií na trhu.
Vliv tržní kapitalice na kotování ceny

Likvidita je nedílnou součástí všech makléřských služeb na forexovém trhu. Poskytování likvidity je snadné díky nativním branám MetaTrader 5, které propojují platformu s poskytovateli likvidity a sítí ECN (Electronic Communication Network).
Brána je nativní připojení, které umožňuje řádnou výměnu dat mezi obchodní platformou a softwarem poskytovatele. Brána umožňuje připojení k vybranému poskytovateli za účelem přijímání tržních dat (kotací, hloubky trhu, zpráv) a provádění obchodních operací na straně poskytovatele.

Principem finančního pákového efektu (v angličtině leverage) je použití malého objemu vlastního kapitálu doplněného podstatně větším objemem cizího kapitálu na financování investice. Tato praxe může umocnit zisk (ale také ztrátu). Společnosti obvykle využívají tohoto efektu pro zvýšení výnosu na akcii. Vysoce rizikové dosahování růstu cen akcií v důsledku pákového efektu u amerických bank je považováno za příčinu neobvykle vysokých platů pro vrcholové vedení během bankovních krizí v letech 2007–2011 (za růst hodnoty akcií je vedení často odměňováno bez ohledu na metodu, kterou byl dosažen).
Při použití pákového efektu je u investice využíváno cizího kapitálu za účelem navýšení zisku. Např. nákupčí na Forexu může páky využívat tak, že si půjčí od makléře. V takovém případě je ale nutné počítat s úrokem.
Pákový efekt se v zásadě vyskytuje ve dvou formách:
Firmy navyšují svůj kapitál bankovním úvěrem nebo vydáním dluhopisů.
Investoři používají páku např. u opcí, futures nebo warrant.
Výše páky se různí. Většinou se odvíjí od toho, s čím investor obchoduje. Forex má například relativně velký pákový efekt (až 1:500), ale u akcií bývá řádově okolo 1:2.
Jednoduchý příklad, který vysvětluje princip páky:
Investor nakupující akcie je v páce 1:2. To znamená, že polovina peněz je jeho vlastních, druhou polovinu půjčuje broker. Pokud se cena akcie propadne o 10 %, investor přichází o 20 % svých vložených peněz.

Market maker
Cena specifického finančního instrumentu je zjevně výsledkem očekávání investorů, jejichž rozhodnutí jsou poháněna celou řadou faktorů. Nicméně pojďme se soustředit na technické aspekty, které nám pomohou lépe pochopit forexový trh.
Role takzvaných market makerů (tvůrců trhu)je významná. Tvůrci trhu jsou obvykle banky nebo brokeři, kteří neustále sledují nabídku a poptávku na trhu s cílem zajistit kontinuitu kotací umístěním své nabídky nákupní či prodejní ceny měny. Tyto ceny jsou využívány přímými účastníky trhu a zprostředkovateli – finančními institucemi, které poskytují služby svým klientům. Jako market maker broker musí v každém okamžiku podkladové aktivum obchodníkům buď prodat, nebo ho od nich koupit za danou aktuální cenu. To znamená, že market maker forex udržuje likvidní.
Stojí za zmínku, že nabízená cena není nikdy jednotná, neboť zvláštní povaha OTC (mimoburzovní trh) předpokládá, že stejný nástroj lze obchodovat v daný okamžik na různých místech na světě. Ceny jsou tedy podobné, nikoliv stejné, ale rozdíly nejsou příliš významné. Ze stejného důvodu není možné zjistit objem obchodů, ani počet otevřených pozic (technická analýza tedy nemůže počítat s ukazateli obratu). Existují jen odhadované údaje, které poskytují informační agentury na základě zpráv, které jim předkládají finanční instituce.

Příklad obchodních hodin v Austrálii

Instrumenty

Specifikace kontraktů



Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

OHLC data
Schodový graf (anglicky OHLC chart nebo jen bar chart) se používá v technické analýze k zobrazení vývoje ceny v čase. Každému času přísluší sloupec, jehož počátek a konec představují nejnižší a nejvyšší cenu, vodorovné čárky na sloupci značí otevírací (na levé straně) a uzavírací cenu (na pravé straně). Sloupec může být zbarven v závislosti na tom, zda cena klesá, nebo stoupá. Díky detailnějšímu zobrazení průběhu ceny se lépe zpozorují trendy a cenové formace.


Tiková data


Volatilita


Gap


Timeframy


Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

Indikátory

Základní indikátory:
Indikátor naprogramovaný z několika indikátorů:

Repainting a Non-repainting indikátory: https://www.ea-coder.com/forex-repainting-indicators/

Trend

Suporty a rezistence

Kreslení do grafu

Chart patterns

Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

Tradingview

DailyFX

Bloomberg panel

Odkaz na terminál: https://www.bloomberg.com/professional/solution/bloomberg-terminal/


Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

  https://algowizard.io

Vizuální editor strategií drag & drop podpořený mechanismem zpětného testování

Na základě myšlenkové mapy algoritmu, lze jednoduše a bez znalosti programování složit z funkčních bloků obchodní algoritmus.

Úplný zdrojový kód pro každou obchodní platformu
Není třeba programovat, strategie jsou exportovány v plném zdrojovém kódu pro danou obchodní platformu a jsou připraveny k obchodování na demo nebo reálném účtu.

Použití vygenerovaného zdrojového kódu v obchodní platformě

MetaTrader 5 je platforma pro obchodování s více aktivy, která umožňuje obchodování s Forexem, akciemi a futures. Nabízí vynikající nástroje pro komplexní analýzu cen, používání algoritmických obchodních aplikací.


Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

Algorytmické obchodování
Stažení programu MT5: https://www.metatrader5.com/
Jednoduchý obchodní algoritmus:
  • indikátor pro vstup do pozice
  • stanovení SL a TP
  • indikátor pro výstup z pozice
  • správa výšky pozic

Rozbor fungování jednoduchého obchodního algorytmu
Postup:
  1. Import zdrojových kódů indikátorů do MT5
  2. Import zdrojového kódu strategie do MT5
  3. Kompilace zdrojových kódů
  4. Rozbor zdrojového kódu ve vývojovém prostředí (IDE) v MT5
  5. Nastavení – vizuální tester strategie

Optimalizace nastavení algorytmu
Tabulka nastavení optimalizace
Graf výsledků optimalizace
Tabulka výsledků optimalizace

Walk forward matrix
Budoucí výkonnost zisku algoritmu lze ověřit takzvaným testováním mimo vzorek. Z těchto sad výsledků lze poznat, které nastavení a které algoritmy uspějí v živém obchodování.
Graf zisku pro optimalizované období
Graf zisku pro testovací období po optimalizovaném období


Korelace zisku a ztrát

Poměr zisku a expozice
Poměr zisku a expozice je uveden v tabulce výsledků optimalizace jako ukazatel návratnosti. Vypočítá se podle vzorce CELKOVÝ ZISK ZA OBDOBÍ / MAXIMÁLNÍ EXPOZICE ÚČTU ZA OBDOBÍ = KOLIKRÁT SE ZA OBDOBÍ VRÁTÍ POUŽITÉ PROSTŘEDKY.
Příklad:
Zisk za 3 roky = 3000 USD
Maximální čerpání z účtu = 300 USD
3000 / 300 = 10
Z tohoto vyplývá, že použité prostředky se vrátily za období 10x.

Profit faktor

Profit faktor je ukazatelem poměru celkově vydělaných prostředků k celkově prodělaným prostředkům za dané období. Počítá se podle vzorce CELKOVĚ VYDĚLANÉ PROSTŘEDY / CELKOVĚ PRODĚLANÉ PROSTŘEDKY = PROFIT FAKTOR.
Příklad:
Ziskové pozice za 3 roky = 6000 USD
Ztrátové pozice za 3 roky = 3000 USD
6000 / 3000 = 2
Z toho vyplývá, že 1/2 prostředků ze ziskových pozic jde na pokrytí ztrátových pozic.

Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

Program StrategyQuant
Program StrategyQuant lze stáhnout na adrese: https://strategyquant.com/download/


Návrh postupu generování nového algorytmu
Jak postupovat:
  • seznámení s prostředím SQ a studium návodů ovládání softwaru
  • výběr trhů pro které chci generovat algoritmus
  • obecné rámce ve kterých má být algoritmus generován (indikátory, timeframe, SL, TP, atd…)
  • výběr vygenerované strategie která vyhovuje z hlediska očekávaných parametrů (počet obchodů, PF, DD, celkový profit, atd…)
  • testy strategie na podobném trhu, Monte Carlo manipulace atd…
  • export kódu do MT5
  • optimalizace v MT5
  • testování na demo účtu
  • přidání algoritmu do portfolia na live účet

Nastavení generování nových algoritmů


Výběr algoritmu, který úspěšně projde TESTEM MIMO VZOREK


V MT5 je následně provedena genetická optimalizace. Strategie je stabilní – je vidět, že většina výsledků optimalizace je kladných.


Podklady k lekci

Pro zobrazení obsahu zadejte heslo:

Nadměrné přizpůsobení
Ve statistice je nadměrné přizpůsobení vytvoření analýzy, která příliš věrně nebo přesně odpovídá určitému souboru dat, a proto může selhat při přizpůsobení se dalším datům nebo při spolehlivé předpovědi budoucích pozorování. Nadměrně přizpůsobený model je statistický model, který obsahuje více parametrů, než lze odůvodnit daty. Podstatou nadměrného přizpůsobení je nevědomá extrakce části zbytkové variability (tj. šumu), jako by tato variabilita představovala základní strukturu modelu.
K nedostatečnému přizpůsobení dochází tehdy, když statistický model nedokáže adekvátně zachytit základní strukturu dat. Nedostatečně přizpůsobený model je takový model, ve kterém chybí některé parametry nebo členy, které by se objevily ve správně určeném modelu. K nedostatečnému přizpůsobení by došlo například při přizpůsobení lineárního modelu nelineárním datům. Takový model bude mít tendenci mít špatnou predikční výkonnost.
Možnost nadměrného přizpůsobení existuje, protože kritérium použité pro výběr modelu není stejné jako kritérium použité pro posouzení vhodnosti modelu. Například model může být vybrán na základě maximalizace jeho výkonu na určitém souboru trénovacích dat, a přitom jeho vhodnost může být určena jeho schopností dobře fungovat na nezobrazených datech; pak dochází k nadměrnému přizpůsobení, když si model začne „pamatovat“ trénovací data, místo aby se „učil“ zobecňovat na základě trendu.
Jako extrémní příklad lze uvést, že pokud je počet parametrů stejný nebo větší než počet pozorování, pak model může dokonale předpovídat trénovací data jednoduše tím, že si zapamatuje celá data. Takový model však při předpovědích obvykle těžce selže. Viz obrázek níže.
Zelená čára představuje model s nadměrným přizpůsobením a černá čára představuje regulovaný model. Zelená přímka sice nejlépe kopíruje tréninková data, ale je na nich příliš závislá a je pravděpodobné, že bude mít vyšší chybovost na nových nezobrazených datech ve srovnání s černou přímkou.
Potenciál nadměrného přizpůsobení závisí nejen na počtu parametrů a dat, ale také na souladu struktury modelu s tvarem dat a na velikosti chyby modelu ve srovnání s očekávanou úrovní šumu nebo chyby v datech. I v případě, že přizpůsobený model nemá nadměrný počet parametrů, lze očekávat, že přizpůsobený vztah bude na novém souboru dat působit hůře než na souboru dat použitém pro přizpůsobení (jev někdy označovaný jako smršťování), zejména se zmenší hodnota koeficientu determinace vzhledem k původním datům.
Pro snížení pravděpodobnosti nebo množství nadměrného přizpůsobení je k dispozici několik technik (např. porovnávání modelů, křížová validace, regularizace, včasné zastavení, prořezávání, bayesovské priory nebo vynechání). Základem některých technik je buď explicitní penalizace příliš složitých modelů, nebo testování schopnosti modelu zobecňovat vyhodnocením jeho výkonnosti na souboru dat nepoužitých pro trénování, o němž se předpokládá, že se blíží typickým nezjištěným datům, s nimiž se model setká.
Statistické odvozování
Ve statistice je závěr učiněn na základě statistického modelu, který byl vybrán určitým postupem. Burnham & Anderson ve svém hojně citovaném textu o výběru modelu tvrdí, že abychom se vyhnuli nadměrnému přizpůsobení, měli bychom se držet „principu parsimonie“. Autoři také uvádějí následující:
Nadměrně přizpůsobené modely jsou často bez zkreslení v odhadech parametrů, ale mají odhadované (a skutečné) výběrové rozptyly, které jsou zbytečně velké (přesnost odhadů je nízká ve srovnání s tím, čeho by bylo možné dosáhnout s úspornějším modelem). Mají tendenci být identifikovány falešné účinky a s nadměrně přizpůsobenými modely jsou zahrnuty falešné proměnné. Nejlepšího aproximačního modelu se dosáhne správným vyvážením chyb nedostatečného a nadměrného přizpůsobování.
Nadměrné přizpůsobení se stává vážnějším problémem, pokud je k dispozici málo teorie, kterou by se analýza řídila, částečně proto, že pak je obvykle na výběr velké množství modelů. V knize Model Selection a Model Averaging (2008) je to popsáno takto:
Pokud máte k dispozici soubor dat, můžete stisknutím tlačítka napasovat tisíce modelů, ale jak vybrat ten nejlepší? Při takovém množství kandidátních modelů hrozí reálné nebezpečí nadměrného přizpůsobení.
Regrese
V regresní analýze často dochází k nadměrnému přizpůsobení. Jako extrémní příklad lze uvést, že pokud je v lineární regresi p proměnných s p datovými body, může přizpůsobená přímka procházet přesně každým bodem. Pro logistickou regresi nebo Coxovy modely proporcionálního rizika existuje řada pravidel – vodítko 10 pozorování na nezávislou proměnnou je známé jako „pravidlo jedna ku deseti“. V procesu výběru regresního modelu lze střední kvadratickou chybu náhodné regresní funkce rozdělit na náhodný šum, aproximační zkreslení a rozptyl v odhadu regresní funkce. Kompromis mezi zkreslením a rozptylem se často používá k překonání nadměrného přizpůsobení modelů.
Při velkém souboru vysvětlujících proměnných, které ve skutečnosti nemají žádný vztah k predikované závislé proměnné, budou některé proměnné obecně falešně shledány statisticky významnými, a výzkumník je tak může v modelu ponechat, čímž dojde k nadměrnému přizpůsobení modelu. Tento jev je znám jako Freedmanův paradox.
Strojové učení
Obvykle se učící algoritmus trénuje pomocí určité sady „trénovacích dat“: vzorových situací, pro které je znám požadovaný výstup. Cílem je, aby algoritmus dobře předpovídal výstup i tehdy, když mu budou předána „ověřovací data“, s nimiž se při trénování nesetkal.
Nadměrné přizpůsobení je použití modelů nebo postupů, které porušují Occamovu břitvu, například zahrnutím více nastavitelných parametrů, než je nakonec optimální, nebo použitím složitějšího přístupu, než je nakonec optimální. Jako příklad, kdy je nastavitelných parametrů příliš mnoho, uveďme soubor dat, kde lze trénovací data pro y adekvátně předpovědět lineární funkcí dvou nezávislých proměnných. Taková funkce vyžaduje pouze tři parametry (intercept a dva sklony). Nahrazení této jednoduché funkce novou složitější kvadratickou funkcí nebo novou složitější lineární funkcí na více než dvou nezávislých proměnných s sebou nese riziko: Z Occamovy břitvy vyplývá, že jakákoli složitá funkce je a priori méně pravděpodobná než jakákoli jednoduchá funkce. Pokud je místo jednoduché funkce vybrána nová, složitější funkce a pokud nedošlo k dostatečně velkému nárůstu shody s trénovacími daty, který by kompenzoval nárůst složitosti, pak nová složitá funkce data „přebije“ a složitá přebitá funkce bude pravděpodobně fungovat hůře než jednodušší funkce na validačních datech mimo trénovací soubor dat, přestože složitá funkce fungovala stejně dobře nebo možná dokonce lépe na trénovacím souboru dat.
Při porovnávání různých typů modelů nelze složitost měřit pouze počítáním počtu parametrů v jednotlivých modelech; je třeba vzít v úvahu také výraznost jednotlivých parametrů. Například není triviální přímo porovnat složitost neuronové sítě (která může sledovat křivočaré vztahy) s m parametry s regresním modelem s n parametry.
Nadměrné přizpůsobení je pravděpodobné zejména v případech, kdy učení probíhalo příliš dlouho nebo kdy jsou trénovací příklady vzácné, což způsobuje, že se učící se subjekt přizpůsobuje velmi specifickým náhodným vlastnostem trénovacích dat, které nemají příčinný vztah k cílové funkci. Při tomto procesu overfittingu se výkonnost na trénovacích příkladech stále zvyšuje, zatímco výkonnost na nezkoumaných datech se zhoršuje.
Jako jednoduchý příklad uvažujme databázi maloobchodních nákupů, která obsahuje zakoupenou položku, kupujícího a datum a čas nákupu. Je snadné sestavit model, který bude dokonale vyhovovat trénovací množině tím, že použije datum a čas nákupu k předpovědi ostatních atributů, ale tento model nebude vůbec zobecňovat na nová data, protože tyto minulé časy se již nikdy nebudou opakovat.
Obecně se říká, že učící se algoritmus je oproti jednoduššímu algoritmu nadměrně přizpůsobený, pokud přesněji odpovídá známým datům (zpětný pohled), ale méně přesně předpovídá nová data (předvídání). Intuitivně lze chápat nadměrné přizpůsobení ze skutečnosti, že informace z veškeré minulé zkušenosti lze rozdělit do dvou skupin: informace, které jsou relevantní pro budoucnost, a irelevantní informace („šum“). Při zachování všech ostatních podmínek platí, že čím obtížněji se kritérium předpovídá (tj. čím vyšší je jeho nejistota), tím více šumu existuje v minulých informacích, které je třeba ignorovat. Problémem je určit, kterou část ignorovat. Algoritmus učení, který dokáže snížit pravděpodobnost, že se do něj vejde šum, se nazývá „robustní“.
Důsledky nadměrného přizpůsobení
Nejzřetelnějším důsledkem nadměrného přizpůsobení je špatný výkon na souboru validačních dat.
Funkce, která je nadměrně přizpůsobená, bude pravděpodobně požadovat více informací o každé položce ve validační datové sadě než optimální funkce; shromažďování těchto dodatečných nepotřebných údajů může být nákladné nebo náchylné k chybám, zejména pokud se každá jednotlivá informace musí shromažďovat lidským pozorováním a ručním zadáváním dat.
Složitější, nadhodnocená funkce bude pravděpodobně méně přenosná než funkce jednoduchá. V jednom extrému je lineární regrese s jednou proměnnou natolik přenosná, že by ji v případě potřeby bylo možné provést i ručně. Na druhém pólu jsou modely, které lze reprodukovat pouze přesným zkopírováním celého nastavení původního modeláře, což ztěžuje opakované použití nebo vědeckou reprodukci.
Řešení nadměrného přizpůsobení
Optimální funkci je obvykle třeba ověřit na větších nebo zcela nových souborech dat. Existují však metody, jako je minimální rozprostírající se strom nebo doba života korelace, které uplatňují závislost mezi korelačními koeficienty a časovou řadou (šířkou okna). Kdykoli je šířka okna dostatečně velká, korelační koeficienty jsou stabilní a na velikosti šířky okna již nezávisí. Korelační matici lze tedy vytvořit výpočtem koeficientu korelace mezi zkoumanými proměnnými. Tuto matici lze topologicky znázornit jako komplexní síť, kde jsou vizualizovány přímé a nepřímé vlivy mezi proměnnými.
Nedostatečné přizpůsobení
Nedostatečné přizpůsobení je opakem přílišného přizpůsobení, což znamená, že statistický model nebo algoritmus strojového učení je příliš zjednodušený na to, aby přesně reprezentoval data. Příznakem nedostatečného přizpůsobení je, že u aktuálního modelu nebo použitého algoritmu je zjištěna vysoká odchylka a nízký rozptyl (inverzní situace k nadměrnému přizpůsobení: nízká odchylka a vysoký rozptyl). To lze zjistit z kompromisu bias-variance, což je metoda analýzy modelu nebo algoritmu z hlediska chyby bias, chyby variance a neredukovatelné chyby. Při vysokém zkreslení a nízkém rozptylu je výsledkem toho, že model bude nepřesně reprezentovat datové body, a tudíž nebude dostatečně schopen předpovídat budoucí výsledky dat (viz chyba zobecnění). Na obrázku níže je znázorněno, že lineární přímka nemohla reprezentovat všechny dané datové body, protože přímka se nepodobala zakřivení bodů. Očekávali bychom, že uvidíme přímku ve tvaru paraboly, jak je znázorněno na obrázku níže. Jak již bylo zmíněno, pokud bychom pro analýzu použili obrázek s červenou přímkou, získali bychom falešné prediktivní výsledky na rozdíl od výsledků, pokud bychom analyzovali obrázek s modrou křivkou.
Červená čára představuje nedostatečně přizpůsobený model datových bodů znázorněných modře. Očekávali bychom, že přímka ve tvaru paraboly bude znázorňovat zakřivení datových bodů.
Modrá čára představuje přizpůsobený model datových bodů znázorněných zeleně.
Burnham & Anderson uvádějí následující: nedostatečně přizpůsobený model by ignoroval nějakou důležitou replikovatelnou (tj. koncepčně replikovatelnou ve většině jiných vzorků) strukturu v datech, a tak by nedokázal identifikovat efekty, které byly skutečně podpořeny daty. V takovém případě je zkreslení odhadů parametrů často značné a výběrový rozptyl je podhodnocen, přičemž oba faktory vedou ke špatnému pokrytí intervalu spolehlivosti.
Řešení problému nedostatečného přizpůsobení
Řešení problému nedostatečného přizpůsobení lze řešit několika způsoby, jednou z možných metod může být zvýšení parametrů modelu nebo přidání dalších trénovacích dat. Přidání dalších trénovacích dat by bylo možné získat získáním nových funkcí ze stávajících funkcí (tzv. Feature engineering). Další možnou metodou by bylo přejít od současného statistického modelu nebo algoritmu strojového učení k jinému, který by mohl lépe reprezentovat data.
Freedmanův paradox
Freedmanův paradox pojmenovaný po Davidu Freedmanovi, je problém při výběru modelu, kdy predikční proměnné, které nemají žádný vztah k závislé proměnné, mohou projít testy významnosti – jak jednotlivě pomocí t-testu, tak společně pomocí F-testu pro významnost regrese. Freedman ukázal (pomocí simulace a asymptotického výpočtu), že se jedná o běžný jev, pokud je počet proměnných podobný počtu datových bodů.
Konkrétně, jsou-li závislá proměnná a k regresorů nezávislé normální proměnné a existuje-li n pozorování, pak s tím, jak se k a n společně blíží nekonečnu v poměru k/n=ρ, R2 se blíží ρ, F-statistika pro celkovou regresi je 1,0 a počet nepravděpodobně významných regresorů je αk, kde α je zvolená kritická pravděpodobnost (pravděpodobnost chyby typu I pro regresor). Tento třetí výsledek je intuitivní, protože říká, že počet chyb typu I se rovná pravděpodobnosti chyby typu I u jednotlivého parametru vynásobené počtem parametrů, pro které se testuje významnost.
V poslední době byly vyvinuty nové informačně-teoretické odhady, které se snaží tento problém omezit, navíc s doprovodným problémem zkreslení výběru modelu, kdy jsou odhady prediktorů, které mají slabý vztah k proměnné odpovědi, zkreslené.
Occamova břitva
Occamova břitva, známá také jako princip úspornosti nebo zákon úspornosti, je princip řešení problémů, podle kterého „by se entity neměly množit nad rámec nutnosti“. Obecně se chápe v tom smyslu, že při konkurenčních teoriích nebo vysvětleních je třeba dát přednost tomu jednoduššímu, například modelu s menším počtem parametrů. Tato myšlenka bývá často připisována anglickému františkánskému mnichovi Vilémovi z Ockhamu (asi 1287-1347), scholastickému filozofovi a teologovi, ačkoli on sám tato slova nikdy nepoužil. Tato filosofická břitva obhajuje názor, že když jsou předloženy konkurenční hypotézy o téže předpovědi, mělo by se vybrat řešení s nejmenším počtem předpokladů, a že to není myšleno jako způsob volby mezi hypotézami, které dávají různé předpovědi.
Podobně ve vědě se Occamova břitva používá spíše jako abduktivní heuristika při vývoji teoretických modelů než jako rigorózní arbitr mezi kandidátními modely. Ve vědecké metodě není Occamova břitva považována za nezvratný princip logiky nebo vědecký výsledek; preference jednoduchosti ve vědecké metodě je založena na kritériu falzifikovatelnosti. Pro každé přijaté vysvětlení určitého jevu může existovat nesmírně velký, možná až nepochopitelný počet možných a složitějších alternativ. Protože neúspěšná vysvětlení lze vždy zatížit ad hoc hypotézami, aby se zabránilo jejich falzifikaci, dává se přednost jednodušším teoriím před složitějšími, protože bývají lépe testovatelné.
Kompromis mezi zkreslením a odchylkou
Ve statistice a strojovém učení je kompromis mezi odchylkou a rozptylem vlastností modelu, že rozptyl parametru odhadovaného napříč vzorky lze snížit zvýšením odchylky odhadovaných parametrů. Dilema bias-variance neboli problém zkreslení-odchylka je konflikt při snaze o současnou minimalizaci těchto dvou zdrojů chyb, které brání algoritmům učení pod dohledem v zobecnění mimo jejich trénovací množinu.
Chyba zkreslení je chyba vyplývající z chybných předpokladů v učebním algoritmu. Vysoké zkreslení může způsobit, že algoritmus přehlédne relevantní vztahy mezi rysy a cílovými výstupy – nedostatečného přizpůsobení.
Rozptyl je chyba z citlivosti na malé výkyvy v trénovací množině. Vysoká odchylka může být důsledkem toho, že algoritmus modeluje náhodný šum v trénovacích datech velkého přizpůsobení.
Dekompozice zkreslení-odchylka je způsob analýzy očekávané generalizační chyby učícího se algoritmu vzhledem ke konkrétnímu problému jako součtu tří členů, zkreslení, odchylky a veličiny zvané neredukovatelná chyba, která je výsledkem šumu v samotném problému.
Zkreslení a rozptyl jako funkce složitosti modelu

Podklady k lekci

Pro zobrazení obsahu zadejte heslo: