Di Caterina Pesce e Patrick Urru.
Il 29 ottobre 2020 si è svolto da remoto, il workshop Speech, Voice Text and Meaning organizzato dal gruppo di ricerca Oral History and Technology dell’infrastruttura CLARIN. Si tratta del 5° appuntamento dopo Oxford, Arezzo, Utrecht e Monaco di Baviera, per promuovere l’incontro tra ricercatori di discipline diverse e far conoscere gli strumenti che la tecnologia informatica offre. (Un resoconto di tutti gli incontri è visibile qui).
L’obiettivo di questo nuovo appuntamento era promuovere ulteriormente il dialogo fra discipline, la cui comunicazione è spesso resa difficile dalle diverse prospettive di studio, scopi e terminologie. La possibilità di conoscere, sperimentare e condividere gli strumenti di lavoro sviluppati dagli esperti di Digital Humanities intende rimuovere le barriere comunicative tra i vari ambiti di ricerca e favorire il più possibile un dialogo multidisciplinare.
Il workshop si è aperto con alcune brevi relazioni che hanno cercato di illustrare l’apporto che le diverse discipline coinvolte possono dare allo studio di ciò che si nasconde dietro una registrazione. Silvia Calamai, Università di Siena, ha presentato quello che è il suo approccio sociolinguistico allo studio del parlato spontaneo, concentrandosi sull’uso sociale del linguaggio. L’approccio storico, invece, è quello che ha caratterizzato la ricerca di Norah Karrouche, Erasmus Universiteit Rotterdam. La studiosa ha presentato il suo lavoro di raccolta e analisi di interviste finalizzato allo studio della storia dell’attivismo delle donne berbere in Belgio. Jeannine Beeken, infine, studiosa dell’University of Essex ha presentato il suo approccio linguistico allo studio dell’oralità. Il primo caso di studio si è concentrato sull’analisi degli errori grammaticali tipici dei parlanti non anglofoni e del ricorso a parole “tipiche” della lingua del paese di provenienza. Le interviste utilizzate per l’analisi sono quelle del Listening project della BBC. Il secondo caso, invece, ha preso in considerazione una serie di interviste realizzate con donne uscite dall’alcolismo. Lo studio ha analizzato le caratteristiche del linguaggio delle intervistate che si trovavano ad esprimere il loro stato d’animo. La prima parte del workshop si è conclusa con la presentazione di Christoph Draxler. Abbiamo avuto la possibilità di testare i risultati ottenuti nello sviluppo di un software dedicato alla trascrizione automatica di file audio. È stato così nuovamente presentato OH-Portal, un software creato dal team guidato da Draxler, presso la Ludwig-Maximilians-Universität München. I risultati della trascrizione prodotta da questo software sono adesso sempre più accurati. A questo proposito, il professor Draxler ha presentato dei risultati molto interessanti. In un test realizzato con il programma di riconoscimento automatico del parlato di Google il numero di parole riconosciute all’inizio di febbraio 2020 era di 767, lo stesso test ripetuto nell’ottobre dello stesso anno ha dato un risultato di 930 parole riconosciute. Vi è ancora una certa difficoltà a riconoscere i nomi propri di persona e di luogo, ma le altre parti del testo risultano corrette. Durante il workshop è stato infatti trascritto l’intervento di una ricercatrice che avrebbe dovuto partecipare, ma che non potendo ha inviato il suo contributo registrato. OH-Portal è stato in grado di tradurre l’intero testo, pur sbagliando il nome della studiosa e quello dell’università in cui lavora. La capacità di trascrizione del software dipende dalle caratteristiche del file audio inviato; il formato richiesto è wav. Accenti e cadenze dialettali sono ancora difficilmente riconoscibili dallo strumento, così come una pluralità di soggetti parlanti quali intervistato ed intervistatore. È inoltre necessario che il file audio abbia una qualità alta, col minor numero possibile di suoni di sottofondo e che lo stile del parlante sia abbastanza “formale”. Per quanto riguarda gli strumenti di registrazione che permettano di ottenere file con queste caratteristiche, oggi la maggioranza degli smartphone, uniti ad un microfono garantisco una qualità molto buona. A riprova di quanto la qualità del file audio sia importante basti pensare che la percentuale di errore nel riconoscimento del parlato da parte dei software può scendere da più del 50% con registrazioni disturbate a poco più del 4% con file di buona qualità.
Un altro limite è quello della dimensione del file audio, perché il programma può supportare fino a 250 MB. Per un migliore utilizzo di OH-Portal sarebbe infatti auspicabile cominciare con frammenti di intervista che possano far sperimentare l’accuratezza del programma e rilasciare il più possibile feedback con commenti e suggerimenti che permettano un ulteriore miglioramento e potenziamento. A tal proposito, un’importante novità è rappresentata dal fatto che, diversamente dagli anni precedenti, la privacy dei dati inseriti è ora maggiormente tutelata. Buona parte dei server esterni coinvolti nel processo, fra cui i server di Google, garantiscono oggi la cancellazione dei dati inseriti. Quello di Google non è l’unico, nel procedimento volto ad ottenere la propria trascrizione è possibile scegliere tra diverse opzioni.
Successivamente alla sperimentazione di OH-Portal hanno preso parola due ricercatrici che hanno raccontato le loro esperienze di studio e analisi di materiale audio e audio-visivo con l’ausilio di nuovi strumenti informatici. La dottoressa Almila Akdag Salah dell’università di Utrecht (NL) ha illustrato il progetto BREATH, inspirato all’opera, Records of breath, di Evrim Kavcar, un’installazione costruita sul respiro dell’artista durante il racconto di un’esperienza traumatica. Questo progetto si propone di analizzare il respiro di testimoni che raccontano eventi traumatici legati a una varietà di eventi e relativi a diversi argomenti quali l’oppressione, la violenza, le calamità naturali, ripercorrendo spazi geografici e coordinate culturali diverse. Il gruppo di ricerca ha così proceduto alla creazione di un algoritmo in grado di individuare i respiri e i silenzi degli intervistati, nella convinzione che questi siano correlati alle emozioni e che i tratti somatici del dolore, così come le variazioni nella respirazione, siano tendenzialmente uguali per tutti. Per poter cogliere le caratteristiche specifiche che il respiro assume durante il racconto di un trauma viene fatta una comparazione tra la parte più “neutrale” dell’intervista, quella in cui l’intervistato parla delle proprie generalità, come età e luogo di nascita, e quella più dolorosa. Statisticamente risulta così una correlazione tra alcune peculiarità della respirazione e il racconto traumatico; correlazione che chiaramente non è automatica e necessariamente uguale per tutti. Scopo finale di questo progetto è quello di incrementare gli studi e le considerazioni relative agli aspetti non verbali del discorso.
Un altro importante lavoro è stato quello presentato dalla dottoressa Vered Silber Varod della The Open University of Israel. Partendo dal presupposto che il materiale audio-visivo, in particolare i documentari, contengono numerosi meta-dati tradizionalmente raccolti manualmente dagli studiosi, il gruppo di ricerca della dottoressa Varod lavora alla raccolta di questi dati tramite strumenti di Speaker diarization che sono in grado di indicizzare dati che sfuggono alla raccolta manuale. L’obiettivo è arricchire i database di materiale audio e audio-visivo di una significativa quantità di informazioni nascoste nei segnali acustici che solo gli strumenti digitali sono in grado di cogliere. Per far questo sarebbe necessario sottoporre a questa strumentazione il maggior numero di archivi orali possibile. Nonostante l’importanza e la novità del progetto, come emerso durante la discussione finale del workshop, resta da chiarire in che modo questi meta-dati possano arricchire l’analisi narrativa che viene fatta dalle discipline umanistiche.