Strukturní rozpisy na tomto webu nevznikají náhodným skládáním čísel, ale z
hypergrafové analýzy reálných tahů. Program nejprve hledá,
zda v historii existuje skutečná nenáhodná struktura, a teprve potom z ní odvozuje
Jádrová čísla, dvojice a trojice.
Obyčejný graf spojuje vždy jen dva uzly. Hypergraf umí jednou
hyperhranou spojit více čísel najednou. To je pro loterie přirozenější,
protože jeden tah není dvojice, ale celá k-tice čísel.
V programu jsou jako hlavní vědecké metody použity HySC,
Hypergraph-MT a Hy-MMSBM. Každá se dívá na strukturu trochu jinak,
ale všechny vracejí membership matici, tedy matici příslušností čísel ke skupinám.
Rychlá tvrdší metoda, která dává první přehled, zda se v datech rýsuje
hrubé členění. Hodí se jako výchozí orientace a kontrolní baseline.
Hlavní probabilistický model pro překryvné latentní komunity.
Umožňuje, aby jedno číslo patřilo částečně do více skupin současně.
Statistický model latentních bloků, který dovoluje smíšenou příslušnost.
Je vhodný tam, kde čísla nejsou čistě jednoskupinová, ale nesou více rolí zároveň.
Výstupem hlavních metod není rovnou sázenkový sloupec, ale membership matice.
Každý řádek odpovídá jednomu číslu a každý sloupec jedné latentní skupině G1, G2, G3, …
Hodnota v buňce říká, jak silně dané číslo do příslušné skupiny patří.
V aktuální vědecké verzi programu se Jádrová čísla počítají přímo ze
soft membership matice. Tvrdá partition už není povinný mezikrok.
Každé číslo dostává score, které kombinuje čtyři složky:
Stejnou logikou lze z membership matice počítat i dvojice a trojice.
Program pro ně skládá společné score z pozorované četnosti, očekávané četnosti a ze společné příslušnosti ke skupině.
Díky tomu nevznikají dvojice a trojice jen podle frekvence, ale jako
kombinace statistického a strukturálního signálu.
Hypergrafová analýza sama o sobě ještě netvoří sázenkové sloupce. Nejprve vrátí
strukturu: skupiny, membership, Jádrová čísla, dvojice a trojice.
Teprve v dalším kroku lze tyto prvky převést do praktických řádků nebo do
covering designu.
V programu je důležité i to, že nalezené struktury nejsou brány „na víru“.
Výstupy se porovnávají proti null modelu a samostatná vrstva
motifs sleduje lokální mikro-vzory v hypergrafu.
Hypergrafové jádro strukturních rozpisů
Co je hypergraf
Proč je to důležité
Tři hlavní metody v HypergraphX
Spektrální baseline
Měkké překryvné komunity
Smíšený blokový model
Membership matice: vlastní jádro celé analýzy
Ukázková membership matice
Číslo
G1
G2
G3
7 0,82 0,11 0,07 18 0,44 0,41 0,15 29 0,10 0,79 0,11 33 0,19 0,24 0,57 Jak to číst
Jak z membership matice vznikají Jádrová čísla
Jak vznikají dvojice a trojice
Význam složek
Praktický význam
Co je covering design v této souvislosti
Kontrolní vrstva: motifs a null model
Co jsou jádrová čísla, dvojice a trojice
V této větvi už nejde o klasické „tipování čísel“, ale o interpretaci latentní struktury nalezené v datech. Program nejprve odhadne měkkou membership matici a teprve nad ní dopočítá pořadí jednic, dvojic a trojic.
Co jsou jádrová čísla
Jádrová čísla jsou ta čísla, která mají v membership matici nejsilnější a zároveň nejcharakterističtější vazbu k některé latentní skupině. Nejde tedy o „nejčastější čísla“ v obyčejném smyslu, ale o čísla, která se v modelu jeví jako nejvíce strukturálně ukotvená.
Každý řádek membership matice odpovídá jednomu číslu a každý sloupec jedné latentní skupině. Pokud má například číslo v jednom sloupci výrazně vyšší hodnotu než v ostatních, je to signál, že do dané skupiny patří „tvrději“ než čísla rozplizlá mezi více skupin.
- membership – jak silně číslo patří do své nejlepší skupiny,
- contrast – jak moc je tato skupina lepší než ostatní,
- gap top1-top2 – rozdíl mezi nejlepší a druhou nejlepší skupinou,
- number-lift – zda se číslo ve validaci objevuje více, než by odpovídalo jednoduchému očekávání.
Čím vyšší je výsledné skóre, tím více je číslo současně typické pro konkrétní skupinu, méně rozmazané mezi více skupinami a případně i podpořené validačním vzorkem.
Prakticky řečeno: pokud je číslo nejen častější, ale zároveň „sedí“ velmi výrazně do jedné konkrétní skupiny, posouvá se v pořadí nahoru. Naopak čísla, která mají podobné membershipy ve více skupinách, působí spíše jako přechodová nebo překryvná a nebývají považována za jádro.
Jak vznikají dvojice a trojice
U dvojic a trojic se nepoužívá jednoduché „sečtení bodů“ jejich členů. Program jde přímo přes membership matici a pro každou kandidátní kombinaci zjišťuje, jak silně tato kombinace drží pohromadě v jednotlivých skupinách.
Myšlenka je přirozená: pokud dvě nebo tři čísla opravdu náleží ke stejné latentní struktuře, měly by mít vysoké membershipy ve stejném sloupci. Proto se pro každou skupinu počítá součin membershipů všech členů kombinace.
Dvojice je silná tam, kde obě čísla současně patří do stejné skupiny.
Trojice je silná tehdy, když všechny tři prvky sdílejí stejnou latentní stopu.
Z těchto příspěvků se určí nejlepší skupina kombinace, její kontrast vůči ostatním skupinám a případně i podpora ve validačním vzorku. Program tak rozlišuje kombinace, které jsou opravdu strukturální, od kombinací, které vypadají dobře jen náhodou.
Důležitá poznámka k překryvům
Program umí pracovat ve dvou režimech:
- S překryvy – stejné číslo se může objevit ve více silných dvojicích či trojicích.
- Bez překryvů – program hledá globálně nejlepší navzájem disjunktní množinu kombinací, aby se čísla neopakovala.
Režim bez překryvů není jen jednoduché „vezmi první shora“. Je to přesnější optimalizační krok, který vybírá nejlepší celou sadu kombinací jako celek.