Predikce počtu nakažených onemocnění COVID-19 v České Republice

8. 10. 2021
Minut čtení: 3

Aktualizováno: 18. 11. 2021

Aktuální predikce COVID | 7denní incidence

Na obrázku níže můžete vidět naši denně aktualizovanou predikci sedmidenní incidence. Svislá přerušovaná čára značí poslední den, pro nějž jsou dostupná data od MZČR, vpravo od ní je předpověď budoucího vývoje.

Onemocnění COVID aktuálně

Modelování COVID

Ve Factoriu se kromě modelování robotických buněk, počítačového vidění a tvorby softwaru na zakázku věnujeme i datové analýze a strojovému učení. V reakci na pademickou situaci jsme se rozhodli otestovat přístupy strojového učení na oblasti, která je průmyslu poněkud vzdálená. Vytvořili jsme zjednodušený model sedmidenní incidence (celkový počet nových připadů na 100 000 obyvatel za posledních 7 dnů) onemocnění COVID-19 v České Republice. Zjednodušený neznamená jednoduchý.

Analýza dat

Nejdříve představíme data, se kterými pracujeme. Zásadním zdrojem dat pro náš model jsou otevřené datové sady COVID-19 zveřejněné na stránkách MZČR. Konkrétně nás zajímají data o incidenci za posledních 7 a 14 dnů. Tato data jsou denně aktualizována a jsou volně přístupná přes veřejné webové rozhraní (API).

Na webových stránkách MZČR je také datová sada označená jako COVID‑19: Datové sady pro prediktivní modelování, nicméně tato data jsou momentálně dostupná pouze pro manuální stažení po uživatelském přihlášení. Navíc přístup k nim podléhá schvalovacímu procesu, takže míra jejich otevřenosti je přinejmenším diskutabilní. Tyto datové sady tedy v našich modelech nezohledňujeme.

Vývoj incidence počtu nakažených COVID-19 od září 2020 do května 2021

Na obrázku 1 je vidět vývoj 14denní a 7denní incidence v období od září 2020 do května 2021.

Model incidence

Gaussovské procesy

Pro odhadování počtu nemocných jsme použili Gaussovské procesy (GP). Jedná se o model, který lze použít pro úlohu odhadu budoucího vývoje dat. Příznačné vlastnosti GP dále rozvedeme.

GP předpokládají, že vstupní data jsou nepřesná.

Jakákoli data z reálného světa jsou zatížena nepřesnostmi měření, počet zaznamenaných případů nákazy v tom není výjimkou.

GP odhaduje rozsah hodnot (horní - dolní mez počtu nakažených).

Jinými slovy umí předpovídat ve stylu “Na 95 % bude zítra incidence 120 až 170.” Úroveň spolehlivosti je volitelná a ovlivňuje konzervativnost odhadů modelu. Místo konzervativnějších 95 % spolehlivosti bychom mohli zvolit třeba 68 % spolehlivosti a model by odhadl pro zítřek užší rozsah nových případů, například incidence 132 až 158.

GP pracuje jen s daty, které má k dispozici, nevyžaduje hlubší znalost problematiky (expertní znalost).

Na první pohled se to může jevit jako slabost modelu, ale ve chvíli, kdy není možné provádět další měření v terénu a jsme odkázáni pouze na již dostupná data, je tento přístup modelování nejvhodnější. Takovému modelu se někdy říká “Černá skříňka” z anglického “Black box”. Vychází z tvrzení, že nezáleží na tom, jak model dojde k výsledku, záleží jen na tom, jak dobrý výsledek to je.

Analýza předpovědi modelu

Výše popsaným GP modelujeme sedmidenní incidenci. Na grafu níže můžete vidět, jak dobře náš model s daty sedí. Dále je vidět, jak model předpovídá budoucí vývoj incidence.

Na následujících obrázcích je vidět, jak náš model predikoval incidenci dne 25.02.2021 pro dalších 10 dnů (až do 07.03.2021 - obr.2) a jaká byla v ten den hlášena změřená incidence (obr.3). Svislá přerušovaná čára rozděluje graf na data použitá pro učení modelu (vlevo) a na předpovídaný vývoj (vpravo).

Model sedmidenní incidence ze dne 25.02.2021

Z obrázků je viditelné, že model správně predikoval, že incidence v blízké budoucnosti začne klesat. Dále je možné vidět, že střední hodnota predikce kopíruje křivku vývoje s chybou 3.91 incidence, t.j. s relativní chybou 0.5 %. Z tohoto výsledku je vidět, že Gaussovské procesy si vedou velmi dobře, když je předpovědní horizont relativně krátký (10 dnů).

Model sedmidenní incidence ze dne 7. 3. 2021

Pro srovnání předpovědních výsledků různých epidemických modelů můžete navštívit například evropský portál covid předpovědí. Dalším zajímavým zdrojem informací o modelování COVID-19 je metodický popis stochastických modelů použitý Ústavem zdravotnikých informací a statistiky ČR (ÚZIS).

Závěr

Gaussovské procesy nejsou moc rozšířené, i když jsou ve svých predikcích lepší než většina klasických modelovacích technik. V minulosti to bylo dáno jejich vysokou výpočetní nářočností, v posledním desetiletí jejich vývoj šel dopředu a hardware už pro Gaussovské procesy není překážkou. Lze jimi modelovat širokou škálu reálných procesů, od medicíny přes finance až po průmysl. Potřeba modelovat procesy roste s tím, jak se zvyšuje tempo digitalizace, která zasahuje do všech oborů lidské činnosti. Expertíza v Gaussovských procesech je mezi praktiky vzácná navzdory jejich univerzálnosti a robustnosti. S Factoriem může sloužit i ve vašem provozu.

Literatura

Rasmussen, C. E. (2003, February). Gaussian processes in machine learning. In Summer school on machine learning (pp. 63-71). Springer, Berlin, Heidelberg.

Liu, H., Ong, Y. S., Shen, X., & Cai, J. (2020). When Gaussian process meets big data: A review of scalable GPs. IEEE transactions on neural networks and learning systems, 31(11), 4405-4423.