L’Ai rileva la depressione con 25 secondi di audio vocale
- 25 Agosto 2025
- Mondo
Riscontrare la depressione con 25 secondi di audio vocale è possibile? Secondo quanto messo a punto da un gruppo di ricercatori americani, la risposta è “Sì” e a pensarci è l’intelligenza artificiale. Uno strumento basato sull’apprendimento automatico, chiamato Kintsugi Voice, promette di identificare segnali di depressione, da moderata a grave.
Questo approccio non invasivo potrebbe aumentare significativamente la frequenza dello screening, spiegano i ricercatori, e accelerare l’orientamento dei pazienti verso le cure appropriate, ma non è privo di rischio.
Lo studio
Lo studio, intitolato “Evaluation of an AI-Based Voice Biomarker Tool to Detect Signals Consistent With Moderate to Severe Depression”, è stato pubblicato dalla prestigiosa rivista Annals of Family Medicine e sarà incluso nel volume di giugno/agosto 2025. Il team di ricerca è composto da un team della Kintsugi Mindful Wellness, l’azienda che ha sviluppato lo strumento di Ai, con finanziamenti dalla National Science Foundation dagli studiosi dell’Università di California, Berkeley, e dell’Arkansas, del dipartimento di Scienze Mediche.
La ricerca si è svolta tra il 1° febbraio 2021 e il 31 luglio 2022 e ha coinvolto 14.898 adulti, residenti negli Stati Uniti e in Canada. Il reclutamento è avvenuto tramite piattaforme di social media (come Reddit, Craigslist, Facebook e Instagram). Per garantire un campione più equilibrato, sono stati fatti sforzi mirati per reclutare un maggior numero di uomini e anziani, dato che donne e giovani tendevano all’autosomministrazione del sondaggio con maggiore frequenza.
I partecipanti hanno completato il Patient Health Questionnaire-9 (Phq-9) auto-riferito, noto questionario standardizzato per lo screening della depressione. Un punteggio pari o superiore a 10 è stato utilizzato come indicatore di un episodio depressivo acuto. Ogni partecipante avrebbe dovuto registrare almeno 25 secondi di discorso libero in risposta alla domanda “Com’è andata la tua giornata?”, utilizzando il microfono del proprio dispositivo elettronico.
La tecnologia Kintsugi Voice è progettata per rilevare e analizzare i “biomarcatori vocali“. Si tratta di “firme vocali” associate a una diagnosi clinica. Le persone che vivono un episodio depressivo attivo mostrano schemi vocali distinti, quali balbuzie più frequenti, esitazioni nel parlato, pause più lunghe e una cadenza più lenta.
Le registrazioni audio sono state elaborate e standardizzate per garantire una qualità costante e minimizzare le variazioni introdotte dai diversi dispositivi dei partecipanti.
Il modello di Ai forniva tre possibili esiti dopo l’analisi della voce:
• “Segni di depressione rilevati“: per individui con caratteristiche vocali sufficienti e coerenti con un episodio depressivo attivo.
• “Segni di depressione non rilevati”: per individui con caratteristiche vocali che non presentassero “biomarcatori” particolari.
• “Ulteriore valutazione raccomandata”: in quei casi in cui il modello non aveva sufficiente fiducia per produrre un output definitivo, suggerendo il ricorso al giudizio clinico.
I risultati
I risultati della tecnologia hanno mostrato una promettente capacità di identificare le caratteristiche vocali coerenti con un punteggio al questionario pari o superiore a 10.
Ciò che è emerso è che il sistema aveva il 71,3% di capacità di identificare correttamente le persone con depressione da moderata a grave. Circa il 20% del campione ha ricevuto l’output “Ulteriore valutazione raccomandata”, indicando la necessità di un’ulteriore valutazione da parte di un medico.
Inoltre, state osservate differenze significative tra i sessi: la sensibilità per le donne era del 74%, mentre per gli uomini scendeva al 59,3%. Questa minore sensibilità negli uomini potrebbe essere dovuta alla loro sottorappresentazione nei dati di addestramento e a potenziali correlazioni errate da parte degli algoritmi, che potrebbero associare una voce più maschile a una minore probabilità di depressione, dato che la depressione è meno prevalente nel genere maschile.
Per quanto riguarda l’età, la popolazione sotto i 60 anni ha mostrato una sensibilità (71,9%) e una specificità (71,8%) di rilevazione dei sintomi depressivi leggermente superiori rispetto al gruppo di età pari o superiore a 60 anni (sensibilità 63,4%, specificità 86,8%).
Prospettive future
I risultati di questo studio supportano l’uso della tecnologia di apprendimento automatico come strumento di supporto alle decisioni cliniche per lo screening universale della depressione. Gli autori sottolineano con forza che questo strumento non è inteso come sostituto per un’intervista clinica formale o una valutazione psichiatrica qualificata, che rimangono lo standard di riferimento per la conferma di un episodio depressivo. Piuttosto, si propone come strumento adiuvante per aiutare i medici, in particolare i medici di famiglia, nel monitoraggio e nello screening dei loro pazienti.
Saranno necessarie ulteriori ricerche per misurare l’efficacia della tecnologia nel contesto clinico reale e per affinare il dispositivo in base a specifiche caratteristiche del paziente, come l’età e il sesso, al fine di aumentarne ulteriormente l’accuratezza e il valore per i clinici.
In sintesi, questo studio rappresenta uno dei primi tentativi di addestrare e validare la tecnologia di machine learning per valutare clip di discorso libero al fine di rilevare i segni di un episodio depressivo. È un passo significativo verso un approccio più sistematico ed efficiente allo screening della depressione, con l’obiettivo finale di migliorare l’accesso alle cure per milioni di persone.