Nadměrné přizpůsobení
Ve statistice je nadměrné přizpůsobení vytvoření analýzy, která příliš věrně nebo přesně odpovídá určitému souboru dat, a proto může selhat při přizpůsobení se dalším datům nebo při spolehlivé předpovědi budoucích pozorování. Nadměrně přizpůsobený model je statistický model, který obsahuje více parametrů, než lze odůvodnit daty. Podstatou nadměrného přizpůsobení je nevědomá extrakce části zbytkové variability (tj. šumu), jako by tato variabilita představovala základní strukturu modelu.
K nedostatečnému přizpůsobení dochází tehdy, když statistický model nedokáže adekvátně zachytit základní strukturu dat. Nedostatečně přizpůsobený model je takový model, ve kterém chybí některé parametry nebo členy, které by se objevily ve správně určeném modelu. K nedostatečnému přizpůsobení by došlo například při přizpůsobení lineárního modelu nelineárním datům. Takový model bude mít tendenci mít špatnou predikční výkonnost.
Možnost nadměrného přizpůsobení existuje, protože kritérium použité pro výběr modelu není stejné jako kritérium použité pro posouzení vhodnosti modelu. Například model může být vybrán na základě maximalizace jeho výkonu na určitém souboru trénovacích dat, a přitom jeho vhodnost může být určena jeho schopností dobře fungovat na nezobrazených datech; pak dochází k nadměrnému přizpůsobení, když si model začne „pamatovat“ trénovací data, místo aby se „učil“ zobecňovat na základě trendu.
Jako extrémní příklad lze uvést, že pokud je počet parametrů stejný nebo větší než počet pozorování, pak model může dokonale předpovídat trénovací data jednoduše tím, že si zapamatuje celá data. Takový model však při předpovědích obvykle těžce selže. Viz obrázek níže.
Zelená čára představuje model s nadměrným přizpůsobením a černá čára představuje regulovaný model. Zelená přímka sice nejlépe kopíruje tréninková data, ale je na nich příliš závislá a je pravděpodobné, že bude mít vyšší chybovost na nových nezobrazených datech ve srovnání s černou přímkou.
Potenciál nadměrného přizpůsobení závisí nejen na počtu parametrů a dat, ale také na souladu struktury modelu s tvarem dat a na velikosti chyby modelu ve srovnání s očekávanou úrovní šumu nebo chyby v datech. I v případě, že přizpůsobený model nemá nadměrný počet parametrů, lze očekávat, že přizpůsobený vztah bude na novém souboru dat působit hůře než na souboru dat použitém pro přizpůsobení (jev někdy označovaný jako smršťování), zejména se zmenší hodnota koeficientu determinace vzhledem k původním datům.
Pro snížení pravděpodobnosti nebo množství nadměrného přizpůsobení je k dispozici několik technik (např. porovnávání modelů, křížová validace, regularizace, včasné zastavení, prořezávání, bayesovské priory nebo vynechání). Základem některých technik je buď explicitní penalizace příliš složitých modelů, nebo testování schopnosti modelu zobecňovat vyhodnocením jeho výkonnosti na souboru dat nepoužitých pro trénování, o němž se předpokládá, že se blíží typickým nezjištěným datům, s nimiž se model setká.
Statistické odvozování
Ve statistice je závěr učiněn na základě statistického modelu, který byl vybrán určitým postupem. Burnham & Anderson ve svém hojně citovaném textu o výběru modelu tvrdí, že abychom se vyhnuli nadměrnému přizpůsobení, měli bychom se držet „principu parsimonie“. Autoři také uvádějí následující:
Nadměrně přizpůsobené modely jsou často bez zkreslení v odhadech parametrů, ale mají odhadované (a skutečné) výběrové rozptyly, které jsou zbytečně velké (přesnost odhadů je nízká ve srovnání s tím, čeho by bylo možné dosáhnout s úspornějším modelem). Mají tendenci být identifikovány falešné účinky a s nadměrně přizpůsobenými modely jsou zahrnuty falešné proměnné. Nejlepšího aproximačního modelu se dosáhne správným vyvážením chyb nedostatečného a nadměrného přizpůsobování.
Nadměrné přizpůsobení se stává vážnějším problémem, pokud je k dispozici málo teorie, kterou by se analýza řídila, částečně proto, že pak je obvykle na výběr velké množství modelů. V knize Model Selection a Model Averaging (2008) je to popsáno takto:
Pokud máte k dispozici soubor dat, můžete stisknutím tlačítka napasovat tisíce modelů, ale jak vybrat ten nejlepší? Při takovém množství kandidátních modelů hrozí reálné nebezpečí nadměrného přizpůsobení.
Regrese
V regresní analýze často dochází k nadměrnému přizpůsobení. Jako extrémní příklad lze uvést, že pokud je v lineární regresi p proměnných s p datovými body, může přizpůsobená přímka procházet přesně každým bodem. Pro logistickou regresi nebo Coxovy modely proporcionálního rizika existuje řada pravidel – vodítko 10 pozorování na nezávislou proměnnou je známé jako „pravidlo jedna ku deseti“. V procesu výběru regresního modelu lze střední kvadratickou chybu náhodné regresní funkce rozdělit na náhodný šum, aproximační zkreslení a rozptyl v odhadu regresní funkce. Kompromis mezi zkreslením a rozptylem se často používá k překonání nadměrného přizpůsobení modelů.
Při velkém souboru vysvětlujících proměnných, které ve skutečnosti nemají žádný vztah k predikované závislé proměnné, budou některé proměnné obecně falešně shledány statisticky významnými, a výzkumník je tak může v modelu ponechat, čímž dojde k nadměrnému přizpůsobení modelu. Tento jev je znám jako Freedmanův paradox.
Strojové učení
Obvykle se učící algoritmus trénuje pomocí určité sady „trénovacích dat“: vzorových situací, pro které je znám požadovaný výstup. Cílem je, aby algoritmus dobře předpovídal výstup i tehdy, když mu budou předána „ověřovací data“, s nimiž se při trénování nesetkal.
Nadměrné přizpůsobení je použití modelů nebo postupů, které porušují Occamovu břitvu, například zahrnutím více nastavitelných parametrů, než je nakonec optimální, nebo použitím složitějšího přístupu, než je nakonec optimální. Jako příklad, kdy je nastavitelných parametrů příliš mnoho, uveďme soubor dat, kde lze trénovací data pro y adekvátně předpovědět lineární funkcí dvou nezávislých proměnných. Taková funkce vyžaduje pouze tři parametry (intercept a dva sklony). Nahrazení této jednoduché funkce novou složitější kvadratickou funkcí nebo novou složitější lineární funkcí na více než dvou nezávislých proměnných s sebou nese riziko: Z Occamovy břitvy vyplývá, že jakákoli složitá funkce je a priori méně pravděpodobná než jakákoli jednoduchá funkce. Pokud je místo jednoduché funkce vybrána nová, složitější funkce a pokud nedošlo k dostatečně velkému nárůstu shody s trénovacími daty, který by kompenzoval nárůst složitosti, pak nová složitá funkce data „přebije“ a složitá přebitá funkce bude pravděpodobně fungovat hůře než jednodušší funkce na validačních datech mimo trénovací soubor dat, přestože složitá funkce fungovala stejně dobře nebo možná dokonce lépe na trénovacím souboru dat.
Při porovnávání různých typů modelů nelze složitost měřit pouze počítáním počtu parametrů v jednotlivých modelech; je třeba vzít v úvahu také výraznost jednotlivých parametrů. Například není triviální přímo porovnat složitost neuronové sítě (která může sledovat křivočaré vztahy) s m parametry s regresním modelem s n parametry.
Nadměrné přizpůsobení je pravděpodobné zejména v případech, kdy učení probíhalo příliš dlouho nebo kdy jsou trénovací příklady vzácné, což způsobuje, že se učící se subjekt přizpůsobuje velmi specifickým náhodným vlastnostem trénovacích dat, které nemají příčinný vztah k cílové funkci. Při tomto procesu overfittingu se výkonnost na trénovacích příkladech stále zvyšuje, zatímco výkonnost na nezkoumaných datech se zhoršuje.
Jako jednoduchý příklad uvažujme databázi maloobchodních nákupů, která obsahuje zakoupenou položku, kupujícího a datum a čas nákupu. Je snadné sestavit model, který bude dokonale vyhovovat trénovací množině tím, že použije datum a čas nákupu k předpovědi ostatních atributů, ale tento model nebude vůbec zobecňovat na nová data, protože tyto minulé časy se již nikdy nebudou opakovat.
Obecně se říká, že učící se algoritmus je oproti jednoduššímu algoritmu nadměrně přizpůsobený, pokud přesněji odpovídá známým datům (zpětný pohled), ale méně přesně předpovídá nová data (předvídání). Intuitivně lze chápat nadměrné přizpůsobení ze skutečnosti, že informace z veškeré minulé zkušenosti lze rozdělit do dvou skupin: informace, které jsou relevantní pro budoucnost, a irelevantní informace („šum“). Při zachování všech ostatních podmínek platí, že čím obtížněji se kritérium předpovídá (tj. čím vyšší je jeho nejistota), tím více šumu existuje v minulých informacích, které je třeba ignorovat. Problémem je určit, kterou část ignorovat. Algoritmus učení, který dokáže snížit pravděpodobnost, že se do něj vejde šum, se nazývá „robustní“.
Důsledky nadměrného přizpůsobení
Nejzřetelnějším důsledkem nadměrného přizpůsobení je špatný výkon na souboru validačních dat.
Funkce, která je nadměrně přizpůsobená, bude pravděpodobně požadovat více informací o každé položce ve validační datové sadě než optimální funkce; shromažďování těchto dodatečných nepotřebných údajů může být nákladné nebo náchylné k chybám, zejména pokud se každá jednotlivá informace musí shromažďovat lidským pozorováním a ručním zadáváním dat.
Složitější, nadhodnocená funkce bude pravděpodobně méně přenosná než funkce jednoduchá. V jednom extrému je lineární regrese s jednou proměnnou natolik přenosná, že by ji v případě potřeby bylo možné provést i ručně. Na druhém pólu jsou modely, které lze reprodukovat pouze přesným zkopírováním celého nastavení původního modeláře, což ztěžuje opakované použití nebo vědeckou reprodukci.
Řešení nadměrného přizpůsobení
Optimální funkci je obvykle třeba ověřit na větších nebo zcela nových souborech dat. Existují však metody, jako je minimální rozprostírající se strom nebo doba života korelace, které uplatňují závislost mezi korelačními koeficienty a časovou řadou (šířkou okna). Kdykoli je šířka okna dostatečně velká, korelační koeficienty jsou stabilní a na velikosti šířky okna již nezávisí. Korelační matici lze tedy vytvořit výpočtem koeficientu korelace mezi zkoumanými proměnnými. Tuto matici lze topologicky znázornit jako komplexní síť, kde jsou vizualizovány přímé a nepřímé vlivy mezi proměnnými.
Nedostatečné přizpůsobení
Nedostatečné přizpůsobení je opakem přílišného přizpůsobení, což znamená, že statistický model nebo algoritmus strojového učení je příliš zjednodušený na to, aby přesně reprezentoval data. Příznakem nedostatečného přizpůsobení je, že u aktuálního modelu nebo použitého algoritmu je zjištěna vysoká odchylka a nízký rozptyl (inverzní situace k nadměrnému přizpůsobení: nízká odchylka a vysoký rozptyl). To lze zjistit z kompromisu bias-variance, což je metoda analýzy modelu nebo algoritmu z hlediska chyby bias, chyby variance a neredukovatelné chyby. Při vysokém zkreslení a nízkém rozptylu je výsledkem toho, že model bude nepřesně reprezentovat datové body, a tudíž nebude dostatečně schopen předpovídat budoucí výsledky dat (viz chyba zobecnění). Na obrázku níže je znázorněno, že lineární přímka nemohla reprezentovat všechny dané datové body, protože přímka se nepodobala zakřivení bodů. Očekávali bychom, že uvidíme přímku ve tvaru paraboly, jak je znázorněno na obrázku níže. Jak již bylo zmíněno, pokud bychom pro analýzu použili obrázek s červenou přímkou, získali bychom falešné prediktivní výsledky na rozdíl od výsledků, pokud bychom analyzovali obrázek s modrou křivkou.

Červená čára představuje nedostatečně přizpůsobený model datových bodů znázorněných modře. Očekávali bychom, že přímka ve tvaru paraboly bude znázorňovat zakřivení datových bodů.
Modrá čára představuje přizpůsobený model datových bodů znázorněných zeleně.
Burnham & Anderson uvádějí následující: nedostatečně přizpůsobený model by ignoroval nějakou důležitou replikovatelnou (tj. koncepčně replikovatelnou ve většině jiných vzorků) strukturu v datech, a tak by nedokázal identifikovat efekty, které byly skutečně podpořeny daty. V takovém případě je zkreslení odhadů parametrů často značné a výběrový rozptyl je podhodnocen, přičemž oba faktory vedou ke špatnému pokrytí intervalu spolehlivosti.
Řešení problému nedostatečného přizpůsobení
Řešení problému nedostatečného přizpůsobení lze řešit několika způsoby, jednou z možných metod může být zvýšení parametrů modelu nebo přidání dalších trénovacích dat. Přidání dalších trénovacích dat by bylo možné získat získáním nových funkcí ze stávajících funkcí (tzv. Feature engineering). Další možnou metodou by bylo přejít od současného statistického modelu nebo algoritmu strojového učení k jinému, který by mohl lépe reprezentovat data.
Freedmanův paradox
Freedmanův paradox pojmenovaný po Davidu Freedmanovi, je problém při výběru modelu, kdy predikční proměnné, které nemají žádný vztah k závislé proměnné, mohou projít testy významnosti – jak jednotlivě pomocí t-testu, tak společně pomocí F-testu pro významnost regrese. Freedman ukázal (pomocí simulace a asymptotického výpočtu), že se jedná o běžný jev, pokud je počet proměnných podobný počtu datových bodů.
Konkrétně, jsou-li závislá proměnná a k regresorů nezávislé normální proměnné a existuje-li n pozorování, pak s tím, jak se k a n společně blíží nekonečnu v poměru k/n=ρ, R2 se blíží ρ, F-statistika pro celkovou regresi je 1,0 a počet nepravděpodobně významných regresorů je αk, kde α je zvolená kritická pravděpodobnost (pravděpodobnost chyby typu I pro regresor). Tento třetí výsledek je intuitivní, protože říká, že počet chyb typu I se rovná pravděpodobnosti chyby typu I u jednotlivého parametru vynásobené počtem parametrů, pro které se testuje významnost.
V poslední době byly vyvinuty nové informačně-teoretické odhady, které se snaží tento problém omezit, navíc s doprovodným problémem zkreslení výběru modelu, kdy jsou odhady prediktorů, které mají slabý vztah k proměnné odpovědi, zkreslené.
Occamova břitva
Occamova břitva, známá také jako princip úspornosti nebo zákon úspornosti, je princip řešení problémů, podle kterého „by se entity neměly množit nad rámec nutnosti“. Obecně se chápe v tom smyslu, že při konkurenčních teoriích nebo vysvětleních je třeba dát přednost tomu jednoduššímu, například modelu s menším počtem parametrů. Tato myšlenka bývá často připisována anglickému františkánskému mnichovi Vilémovi z Ockhamu (asi 1287-1347), scholastickému filozofovi a teologovi, ačkoli on sám tato slova nikdy nepoužil. Tato filosofická břitva obhajuje názor, že když jsou předloženy konkurenční hypotézy o téže předpovědi, mělo by se vybrat řešení s nejmenším počtem předpokladů, a že to není myšleno jako způsob volby mezi hypotézami, které dávají různé předpovědi.
Podobně ve vědě se Occamova břitva používá spíše jako abduktivní heuristika při vývoji teoretických modelů než jako rigorózní arbitr mezi kandidátními modely. Ve vědecké metodě není Occamova břitva považována za nezvratný princip logiky nebo vědecký výsledek; preference jednoduchosti ve vědecké metodě je založena na kritériu falzifikovatelnosti. Pro každé přijaté vysvětlení určitého jevu může existovat nesmírně velký, možná až nepochopitelný počet možných a složitějších alternativ. Protože neúspěšná vysvětlení lze vždy zatížit ad hoc hypotézami, aby se zabránilo jejich falzifikaci, dává se přednost jednodušším teoriím před složitějšími, protože bývají lépe testovatelné.
Kompromis mezi zkreslením a odchylkou
Ve statistice a strojovém učení je kompromis mezi odchylkou a rozptylem vlastností modelu, že rozptyl parametru odhadovaného napříč vzorky lze snížit zvýšením odchylky odhadovaných parametrů. Dilema bias-variance neboli problém zkreslení-odchylka je konflikt při snaze o současnou minimalizaci těchto dvou zdrojů chyb, které brání algoritmům učení pod dohledem v zobecnění mimo jejich trénovací množinu.
Chyba zkreslení je chyba vyplývající z chybných předpokladů v učebním algoritmu. Vysoké zkreslení může způsobit, že algoritmus přehlédne relevantní vztahy mezi rysy a cílovými výstupy – nedostatečného přizpůsobení.
Rozptyl je chyba z citlivosti na malé výkyvy v trénovací množině. Vysoká odchylka může být důsledkem toho, že algoritmus modeluje náhodný šum v trénovacích datech velkého přizpůsobení.
Dekompozice zkreslení-odchylka je způsob analýzy očekávané generalizační chyby učícího se algoritmu vzhledem ke konkrétnímu problému jako součtu tří členů, zkreslení, odchylky a veličiny zvané neredukovatelná chyba, která je výsledkem šumu v samotném problému.
Zkreslení a rozptyl jako funkce složitosti modelu