Quanto è buona l'intelligenza artificiale
2 minuti di lettura
A prima vista:
Gli strumenti di intelligenza artificiale che creano in modo rapido e accurato report narrativi dettagliati della TAC o della radiografia di un paziente possono facilitare notevolmente il carico di lavoro dei radiologi impegnati.
Invece di limitarsi a identificare la presenza o l’assenza di anomalie su un’immagine, questi rapporti di intelligenza artificiale trasmettono informazioni diagnostiche complesse, descrizioni dettagliate, risultati sfumati e gradi appropriati di incertezza. In breve, rispecchiano il modo in cui i radiologi umani descrivono ciò che vedono durante una scansione.
Ottieni ulteriori notizie sull'HMS qui
Hanno cominciato ad apparire sulla scena diversi modelli di intelligenza artificiale in grado di generare resoconti narrativi dettagliati. Con loro sono arrivati sistemi di punteggio automatizzati che valutano periodicamente questi strumenti per contribuire a informarne lo sviluppo e aumentarne le prestazioni.
Quindi, quanto bene i sistemi attuali misurano le prestazioni radiologiche di un modello di intelligenza artificiale?
La risposta è buona ma non eccezionale, secondo un nuovo studio condotto da ricercatori della Harvard Medical School pubblicato il 3 agosto sulla rivista Patterns.
Garantire che i sistemi di punteggio siano affidabili è fondamentale affinché gli strumenti di intelligenza artificiale continuino a migliorare e affinché i medici possano fidarsi di loro, hanno affermato i ricercatori, ma le metriche testate nello studio non sono riuscite a identificare in modo affidabile gli errori clinici nei rapporti di intelligenza artificiale, alcuni dei quali significativi. La scoperta, hanno affermato i ricercatori, evidenzia un’urgente necessità di miglioramento e l’importanza di progettare sistemi di punteggio ad alta fedeltà che monitorino fedelmente e accuratamente le prestazioni dello strumento.
La salute del cuore. Nutrizione. Salute del cervello. E altro ancora.
Il team ha testato varie metriche di punteggio sui report narrativi generati dall’intelligenza artificiale. I ricercatori hanno anche chiesto a sei radiologi umani di leggere i rapporti generati dall’intelligenza artificiale.
L’analisi ha mostrato che, rispetto ai radiologi umani, i sistemi di punteggio automatizzati hanno avuto risultati peggiori nella loro capacità di valutare i report generati dall’intelligenza artificiale. Hanno interpretato male e, in alcuni casi, hanno trascurato gli errori clinici commessi dallo strumento di intelligenza artificiale.
“La valutazione accurata dei sistemi di intelligenza artificiale è il primo passo fondamentale verso la generazione di rapporti radiologici clinicamente utili e affidabili”, ha affermato l’autore senior dello studio Pranav Rajpurkar, assistente professore di informatica biomedica presso l’Istituto Blavatnik dell’HMS.
Nel tentativo di progettare metriche di punteggio migliori, il team ha progettato un nuovo metodo (RadGraph F1) per valutare le prestazioni degli strumenti di intelligenza artificiale che generano automaticamente report radiologici da immagini mediche.
Hanno inoltre progettato uno strumento di valutazione composito (RadCliQ) che combina più parametri in un unico punteggio che corrisponde meglio al modo in cui un radiologo umano valuterebbe le prestazioni di un modello di intelligenza artificiale.
Utilizzando questi nuovi strumenti di punteggio per valutare diversi modelli di intelligenza artificiale all’avanguardia, i ricercatori hanno scoperto un notevole divario tra il punteggio effettivo dei modelli e il punteggio massimo possibile.
“Misurare i progressi è fondamentale per portare l’intelligenza artificiale in medicina al livello successivo”, ha affermato il co-autore Feiyang “Kathy” Yu, ricercatore associato nel laboratorio di Rajpurkar. “La nostra analisi quantitativa ci avvicina all’intelligenza artificiale che aiuta i radiologi a fornire una migliore assistenza ai pazienti”.
A lungo termine, la visione dei ricercatori è quella di costruire modelli generalisti di IA medica che svolgano una serie di compiti complessi, inclusa la capacità di risolvere problemi mai incontrati prima. Tali sistemi, ha affermato Rajpurkar, potrebbero conversare fluentemente con radiologi e medici sulle immagini mediche per assistere nella diagnosi e nelle decisioni terapeutiche.
Il team mira inoltre a sviluppare assistenti IA in grado di spiegare e contestualizzare i risultati dell’imaging direttamente ai pazienti utilizzando un linguaggio semplice e quotidiano.
“Allineandosi meglio con i radiologi, i nostri nuovi parametri accelereranno lo sviluppo dell’intelligenza artificiale che si integra perfettamente nel flusso di lavoro clinico per migliorare la cura dei pazienti”, ha affermato Rajpurkar.
Paternità, finanziamenti, divulgazione
I coautori includono Mark Endo, Ryan Krishnan, Ian Pan, Andy Tsai, Eduardo Pontes Reis, Eduardo Kaiser, Ururahy Nunes Fonseca, Henrique Min, Ho Lee, Zahra Shakeri, Hossein Abad, Andrew Ng, Curtis P. Langlotz e Vasantha Kumar Venugopal.