Per sviluppare la “transcription chain” nella pratica della storia orale
Workshop CLARIN, Arezzo, 10-12 maggio 2017
di Bianca Pastori
L’obiettivo principale che si è posto questo incontro è stato quello di identificare i diversi passaggi della “transcription chain” (la catena di operazioni che dal materiale audio o video conduce al testo scritto e ai metadati archivistici) e di capire quali possono essere gli strumenti a disposizione per facilitare il lavoro dei ricercatori in questi passaggi.
Si tratta quindi di:
_ far conoscere e testare gli strumenti già a disposizione;
_ capire se ci sono esigenze specifiche (per la storia orale, l’antropologia, la linguistica e le discipline affini e le scienze umane in generale; per chi ha a che fare sia dal punto di vista dell’erogazione di servizi che dell’utenza con banche dati, archivi ecc.)
_pensare a degli strumenti più calzanti per le specifiche esigenze o modificare quelli esistenti.
Ad un livello più generale i risultati di questo confronto potranno servire all’infrastruttura CLARIN per migliorare l’offerta dei servizi che intende supportare e per renderli più accattivanti/facili da usare per chi – nell’ambito delle scienze umane e sociali – non ha delle specifiche competenze informatiche.
Prima e durante il workshop ci è stato richiesto di dare la nostra opinione su una serie di strumenti che si riferiscono alle diverse fasi della transcription chain.
1) Produzione di dati audio/video o loro trasposizione dall’analogico al digitale.
2) ASR (Automatic Speech Recognition) Technology. Per l’inglese esiste online questo strumento www.webasr.org che permette di caricare file audio e di ricevere un file di testo. Naturalmente la trascrizione non è fedele al 100% in particolare per quanto riguarda i nomi di luogo, di persona, i termini specifici ecc. e il sistema fa anche fatica a distinguere la voce dell’intervistato da quella dell’intervistatore. Però può essere un punto di partenza per sgrossare il materiale e rivederlo poi “manualmente”.
Per l’italiano non esiste ancora uno strumento analogo ma ci sono buoni presupposti per poterlo mettere a punto: ad Arezzo abbiamo testato alcuni file audio con un sistema messo a punto da Piero Cosi (Institute of Cognitive Sciences and Technologies di Padova) e il risultato è stato incoraggiante.
Premessa: il riconoscimento automatico del linguaggio si basa su un ulteriore strumento – “allineamento forzato” allineamento di dati audio e testuali – molto utile ai linguisti perché, attraverso software specifici, permette di segmentare e identificare i fonemi.
Per chi è interessato alla trascrizione automatica di un’intervista l’allineamento forzato non sembrerebbe essere uno strumento utile come lo è invece per i linguisti, ma può configurarsi una sorta di scambio: dati audio di buona qualità allenano i sistemi di allineamento forzato (ricaduta positiva per i linguisti) e in definitiva anche la tecnologia di trascrizione automatica (ricaduta positiva per gli oralisti).
Gli archivi sonori già esistenti non sempre hanno a disposizione del buon materiale ma credo che le campagne o le singole interviste prodotte di recente siano spesso migliori in questo senso. Ad esempio i file che ho proposto io provenivano da una delle interviste che ho condotto per la ricerca di dottorato (registrati con una videocamera e trasformati in file .wav, tecnologie credo ormai a disposizione della maggior parte di noi) e gli errori commessi dal sistema nel collegare l’audio alla trascrizione fornita sono stati pochissimi.
In definitiva per implementare questa tecnologia servirebbero
– molti file audio (frammenti di pochi minuti);
– provenienti da registrazioni di buona qualità;
-corredate di trascrizioni fedeli e ortograficamente corrette;
-dove le disfluenze (false partenze; eeehh; tafolo per tavolo) sono identificate e trascritte;
-inizialmente con parlanti senza inflessioni dialettali troppo evidenti (anche se mi sembra di aver capito che in un secondo momento si potrà pensare di affinare il riconoscimento delle parlate dialettali);
-senza sovrapposizioni di parlanti.
Nella mia esperienza si tratta di condizioni che si verificano non sempre, ma spesso, specialmente quando si registra in video e si immagina una restituzione del materiale di ricerca per un pubblico più ampio di quello accademico.
Questo è un punto su cui ragionare, l’invito ad una collaborazione nella prospettiva di poter in futuro avere a disposizione uno strumento che faciliti parecchio il lavoro di trascrizione.
3) Correzione della trascrizione prodotta dalle tecnologie di riconoscimento automatico o trascrizione “manuale” tout court. Anche in questo caso esistono degli strumenti comodi che si possono testare.
In particolare http://otranscribe.com/ uno strumento open source a cui si può accedere sia online che offline. Ha una serie di vantaggi: è intuitivo e facile da usare e permette (avendo nella stessa finestra il testo e l’avanzamento dell’audio) di non staccare continuamente le mani dalla tastiera. Inoltre quando si mette in pausa l’audio questo poi riprende pochi secondi prima dal punto in cui si è fermato. Infine, sempre con un comando da tastiera, si può inserire il timecode automaticamente. Non so entrare nel dettaglio, ma nella pagina di Help viene spiegato che tutti i file non sono caricati su un cloud ma restano sul computer da cui si accede (questo pone dei limiti alla condivisione – es. Tizio non può caricare un file dal suo pc e Caio accedere dal suo e trascrivere) ma tutela il fatto che nessun altro (né singolo né “il sistema”) possa servirsi dei dati, anche sensibili, che carichiamo. La pecca è che questo strumento non generale dei file .doc o simili, ma dei formati utili per l’allineamento forzato o per altri tipi di risorse o dei .txt. Personalmente finito di trascrivere ho copiato e incollato su un file di Word ma questo problema è stato segnalato ai tecnici e tenuto in considerazione.
In alternativa https://www.phonetik.uni-muenchen.de/apps/octra/octra/ (bisogna registrarsi e funziona solo con file wav) sviluppato in Germania e ancora con delle sezioni incomplete. Ha delle possibilità in più rispetto a otranscribe (dei simboli per segnalare pause, sospensioni, rumori) ma deve essere stato pensato per le necessità dei linguisti più che altro perché si presuppone che il file intero debba essere diviso in frammenti a priori (cosa che per un’indicizzazione per argomenti è impossibile, bisogna ascoltare il contenuto) sulla base delle pause nelle forme d’onda (il sistema permette di visualizzare il file audio in questo modo o in maniera lineare). Ora l’interfaccia è in inglese o tedesco ma nel futuro c’è l’intenzione di tradurla anche in italiano.
Ci sono poi degli strumenti che non ho testato:
http://www.nikse.dk/SubtitleEdit/ per inserire sottotitoli e – se non ho capito male – anche per tradurli.
https://make.crowdflower.com/jobs/972853/editor
per il lavoro collettivo da parte di utenti diversi.
4) Metadata: http://applejack.science.ru.nl/oh-metadataregistry lo strumento da testare. Sono state sottolineate una serie di mancanze o di miglioramenti possibili nell’interfaccia e nel modo in cui il sistema è costruito.
La conclusione a cui si è giunti è che CLARIN potrebbe mettere a disposizione un unico portale (differenziato per area linguistica) in cui tutte queste tecnologie siano disponibili insieme con l’idea di individuare degli standard per la condivisione dei dati e rendere la loro consultabilità più semplice. Mi pare di capire però che il volume di dati che sarebbero in grado di gestire in questa fase non sarebbe enorme (cioè non si immaginano che un’istituzione come ad es. un grosso archivio cominci di punto in bianco a inserire tutto il suo posseduto).
L’idea che ci possano essere degli standard condivisi che facilitino ad es. le ricerche su patrimoni sonori/audiovisivi conservati in istituzioni estere o italiane su temi simili è affascinante, ma con Silvia Calamai abbiamo segnalato l’importanza di garantire che tutta questa catena sia informata degli aspetti etici e della sensibilità dei dati che si trattano.
Personalmente credo che senza delle assicurazioni in questo senso sia molto difficile pensare che un singolo ricercatore o un’istituzione siano disposti a condividere il loro archivi sonori/audiovisivi.
Già alcuni degli strumenti testati pongono dei problemi in questo senso: dove vanno a finire i file che carico o che vengono generati al termine del processo? Chi sta dietro alle istituzioni (anche di ricerca) che finanziano lo sviluppo di queste tecnologie?
Un’altra possibile tecnologia di cui si è discusso è quella del revoicing, cioè un sistema che integri riconoscimento vocale allenato a individuare una voce (es. quella del ricercatore) che ascolta e ripete l’intervista originale mentre la ascolta. Il vantaggio è che in un ambiente adatto (silenzioso) e con una voce riconosciuta il tasso di errore si ridurrebbe di molto, generando delle trascrizioni automatiche più corrette. Però mi chiedo se questo processo non sia parecchio macchinoso in definitiva, bisognerebbe capire concretamente quanto tempo e fatiche si guadagnano.
Una riflessione generale che emersa al termine delle giornate del workshop è che esiste un gap di conoscenze tra chi fa ricerca e le tecnologie potenzialmente a disposizione (che non si conoscono oppure non si sanno utilizzare). In questo senso gli strumenti a disposizione sono molti più di quelli elencati in queste pagine (es. http://oralhistorianstoolbox.cohds.ca/index.html per una panoramica). Forse una cosa interessante per AISO e per altre associazioni, istituzioni che hanno a che fare con l’oralità è cercare di colmare questa lacuna che va incontro d’altro canto alle esigenze di chi progetta questi sistemi a livello informatico (es. non creare doppioni, pensare strumenti che calzino sulle esigenze specifiche degli utenti).