📊 Redukce komplexity 🐍 PYTHON v PROHLÍŽEČI

⏳ Inicializace Python prostředí...
Načítání Pyodide a knihoven (NumPy, SciPy, scikit-learn). První spuštění může trvat ~15-30s.
Poznámka: UMAP bude dostupný jako zjednodušená implementace (Pyodide omezení)

✅ Python prostředí připraveno! Využívá scikit-learn, scipy, NumPy pro robustní analýzy přímo v prohlížeči.
UMAP: zjednodušená implementace (Pyodide nemá podporu pro numba)

Vložit data (TSV z Excelu) i

Formát TSV (Tab-separated values):
• První řádek: "Sample" + názvy vzorků (S1, S2, ...)
• Druhý řádek: "Group" + skupiny (A, B, Control, ...)
• Další řádky: název proměnné + hodnoty

Tip: V Excelu označte tabulku a zkopírujte (Ctrl+C), pak vložte sem.

Načíst soubor (.csv, .tsv, .txt) i

Podporované formáty:
• CSV (čárka nebo středník jako oddělovač)
• TSV (tabulátor jako oddělovač)
• TXT (tabulátor jako oddělovač)

Struktura musí být stejná jako u ručního vstupu vlevo.

Desetinný oddělovač i

Jak jsou zapsána desetinná čísla?
• Čárka (,) - český Excel, LibreOffice CZ
• Tečka (.) - anglický Excel, programování

Příklad: 1,23 vs. 1.23

Metoda analýzy i

Dostupné metody:
• PCA - lineární, interpretabilní, rychlá
• PCoA - zachovává vzdálenosti mezi vzorky
• MDS - minimalizuje zkreslení vzdáleností
• t-SNE - nelineární, výborná pro clustery
• UMAP-like - zjednodušená implementace
Rychlá, zachovává lokální i globální strukturu
Poznámka: Pyodide verze bez numba závislostí

Doporučení: PCA pro první průzkum, t-SNE/UMAP pro vizualizaci clusterů.

Transformace dat i

log2(x+1) transformace
Doporučeno pro:
• Omics data (genomika, proteomika, metabolomika)
• ICP-MS chemická data
• Data s velkým rozsahem hodnot (0.1 až 10000)
• Silně zešikmená rozdělení

Efekt: Stabilizuje rozptyl, redukuje vliv extrémů.

PCA škálování i

Způsob škálování proměnných:
• Bez škálování - raw data, žádná normalizace
  Proměnné s vyššími hodnotami dominují

• UV (Unit Variance) - standardizace na SD=1
  Každá proměnná má stejnou váhu
  Doporučeno pro různá měřítka (mg/L vs. %)

• Pareto - škálování na √SD
  Kompromis mezi UV a neškalovanými daty
  Zachovává částečně původní váhy

⚙️ Pokročilé volby

PCoA metrika vzdálenosti i

Jak měřit vzdálenosti mezi vzorky?
• Euclidean - klasická geometrická vzdálenost
• Correlation - vzdálenost = 1 - Pearsonovo r
Zvýrazňuje podobnost profilů/trendů
• Manhattan - součet absolutních rozdílů
Méně citlivá na odlehlé hodnoty

t-SNE Perplexity i

Počet efektivních sousedů (5-100)
• Nižší (5-15) - více detailů, více malých clusterů
• Střední (20-50) - vyvážený pohled
• Vyšší (50-100) - globálnější struktura

Pravidlo: Perplexity ≈ 30 funguje pro většinu dat.
Pro <100 vzorků použijte 5-15.

t-SNE Počet iterací i

Délka optimalizace (250-3000)
• 250-500 - rychlý náhled
• 1000 - standardní, doporučeno
• 2000-3000 - pro velká data nebo finální výstupy

Více iterací = stabilnější výsledek, ale delší výpočet.

UMAP n_neighbors i

Velikost lokálního okolí (2-100)
• Nižší (3-10) - zachovává jemné detaily
Více oddělených malých clusterů
• Střední (15-30) - vyváženo
• Vyšší (50-100) - globální struktura
Hladší, kontinuálnější projekce

V této zjednodušené implementaci:
Kontroluje k-NN graf a lokální konektivitu.

UMAP min_dist i

Minimální vzdálenost bodů (0.0-1.0)
• 0.0-0.1 - kompaktní, těsné clustery
Body mohou být velmi blízko
• 0.2-0.5 - volnější rozložení
• 0.6-1.0 - hodně rozptýlené

Tip: 0.1 je dobrý start pro většinu dat.

Počet komponent k výpočtu i

Kolik PC/komponent spočítat (2-20)
Platí pouze pro PCA a PCoA.

• Zobrazí se PC1 a PC2
• Ale spočítá se více pro diagnostiku a export
• Scree plot ukáže rozložení variance

Doporučení: 10 komponent pro exploraci.

Probíhá analýza...

Výsledky

📈 Diagnostika & Statistiky

📋 Souřadnice vzorků (Scores)