Lékařská data mluví. Jen je potřeba jim porozumět. Díky AI dokážeme přetvořit tisíce nestrukturovaných lékařských zpráv na smysluplné poznatky — rychle, bezpečně a přesně. 🩺🤖
👉 Podívejte se, jak na to.
O projektu
Jednou z dlouhodobých výzev ve zdravotnictví je obrovské množství nestrukturovaného textu – například patologické nebo laboratorní zprávy – které je obtížné analyzovat a převést na použitelná, strukturovaná data. Abychom tento problém vyřešili, vyvinuli jsme interní řešení postavené na velkých jazykových modelech (Large Language Models – LLMs), podobných GPT-4, využívající platformu Azure Cognitive Services.
Cílem je umožnit zdravotníkům proměnit složité textové záznamy ve smysluplné poznatky rychle, bezpečně, ve velkém rozsahu a efektivně – a tím podpořit lepší rozhodování na základě dat napříč celým sektorem.
Výzva
Zdravotničtí pracovníci vytvářejí obrovské množství dat prostřednictvím klinické dokumentace, především jako volný text v elektronických zdravotních záznamech (Electronic Medical Records – EMR), patologických zprávách a laboratorních výsledcích. Tyto záznamy často obsahují cenné informace – od příznaků pacienta až po výsledky konkrétních testů – ale protože jsou nestrukturované, je jejich analýza ve velkém měřítku velmi obtížná.
Tradičně bylo získávání relevantních informací z tohoto typu dat možné jen ručním označováním (annotací), což je časově náročné, nákladné a náchylné k chybám.
Navíc složitost zvyšují rozdíly v jazykovém vyjádření i v kódovacích systémech mezi jednotlivými zdravotnickými zařízeními – zejména napříč státy – a také nutnost dodržet přísná pravidla pro ochranu osobních údajů, soulad s předpisy a bezpečnost.
Najít způsob, jak rychle, přesně a v souladu s předpisy převést nestrukturovaný klinický text na analyzovatelná data, je tedy klíčové pro efektivnější zdravotnictví založené na datech.
Naše řešení
Náš tým vyvinul metodu, která automaticky rozpozná, zda byl určitý test proveden, a pokud ano, jaký měl výsledek. Tento proces probíhá tak, že se jazykový model (LLM) cíleně ptá například: „Byl tento test proveden?“ nebo „Jaký byl výsledek?“
Aby bylo zajištěno, že tento postup bude bezpečný a odpovědný, zvolili jsme integraci GPT-4 prostřednictvím Azure Cognitive Services. Tento přístup nám umožňuje využít sílu LLMs způsobem, který je v souladu s našimi smluvními, regulatorními i etickými požadavky. Na rozdíl od veřejných nástrojů typu ChatGPT zde nedochází k žádnému ukládání dat nebo jejich využití pro trénink. Modely běží v izolovaném, zabezpečeném prostředí, takže všechna data zůstávají po celou dobu uvnitř našeho bezpečného systému.
Všechna data navíc před zpracováním procházejí pseudonymizací – tedy odstraněním údajů, jako jsou jména či ID pacientů. Z hlediska bezpečnosti se používání AI neliší od ukládání dat do databáze hostované v Azure. Tento přístup dokládá náš závazek být důvěryhodným a odpovědným partnerem v oblasti zdravotnických dat.
Výsledkem je škálovatelné řešení, které dokáže zpracovat tisíce zpráv paralelně – úkoly, které dříve zabraly týdny, jsou nyní hotové během hodin. A protože výstupy jsou rovnou strukturované a připravené k analýze, lékaři i výzkumníci se mohou soustředit na získávání poznatků místo ručního zpracování dat.
Výsledky
Naším prvním projektem byla spolupráce s UMCG (University Medical Center Groningen), kde jsme analyzovali přes 35 000 zpráv. Tento projekt trval dva roky a zahrnoval experimentování, tvorbu proof-of-conceptu (POC), vybudování infrastruktury a návrh orchestrátoru workflow schopného paralelně zpracovávat velké objemy dat. Díky AI lze nyní celou analýzu zvládnout za 1,5 hodiny – přesněji než ručně.
Pro ověření spolehlivosti provede AI první průchod daty na základě promyšleně vytvořeného promptu, identifikuje provedené testy a jejich výsledky. Tyto výstupy jsou pak validovány odborníky z dané oblasti, kteří upravují výsledky a vytvářejí validační sady pro zajištění přesnosti.
Součástí validace je obvykle ruční anotace vzorku cca 500 zpráv a jejich porovnání s výsledky AI. Zajímavé je, že AI často zachytí více informací než člověk – při rutinních úkolech lidé dělají chyby, zatímco AI je v konzistenci a přesnosti výrazně spolehlivější. Tím lékaři získávají kvalitnější informace rychleji a s větší jistotou.
Tento přístup navíc pomáhá překlenout propast mezi odbornými znalostmi a datovou implementací. Zdravotníci, výzkumníci i analytici mohou nyní pracovat přímo s nástrojem, bez nutnosti podpory technických týmů – což výrazně urychluje cestu od surových klinických dat ke konkrétním výsledkům.
Na úspěch v UMCG nyní navazujeme ve Španělsku, kde se zdravotnický systém potýká s vysokým objemem volně psané dokumentace. Škálováním řešení na jiné jazyky a standardy rozšiřujeme možnosti jeho využití v lokálním i mezinárodním kontextu.
Moc děkujeme našemu kolegovi Maarten van Meeuwen za sepsání tohoto skvělého článku.