Speech and Multimodal Communication Laboratory
     

 LSTPCM
L
aboratorio per lo Studio e le Tecnologie del Parlato e della Comunicazione Multimodale

responsabile

Piero COSI


PRESENTAZIONE

 

Il Laboratorio per le ricerche sperimentali sul parlato, funzionante presso la Sezione padovana dell’ISTC, è stato creato, a partire dagli anni ’80, all’interno del Centro di Studio per le Ricerche di Fonetica del CNR, costituito nel 1971 presso l’Istituto di Glottologia e Fonetica dell’Università degli Studi di Padova e trasformato nel 1998 in IFD (Istituto di Fonetica e Dialettologia) e successivamente in ISTC-SPFD (Istituto di Scienze e Tecnologie della Cognizione – Sezione di Padova “Fonetica e Dialettologia”).

Le ricerche acustiche, articolatorie e percettive condotte presso tale Laboratorio hanno costituito per decenni un punto di riferimento metodologico per tutti gli studiosi del settore in Italia, collocando il Centro in una posizione assolutamente paritaria sulla scena internazionale rispetto a Istituzioni simili.

In tempi più recenti le ricerche analitiche, di grande rilevanza per la descrizione dell’italiano parlato e per le applicazioni nel campo della riabilitazione logopedica, sono state integrate da indirizzi tecnologici informatici estremamente innovativi, quali la sintesi e il riconoscimento unimodali acustico-uditivi e bimodali acustico-visivi del parlato (Facce Parlanti), ricerche che sono state scelte dal CNR come argomenti focus nel 2000 e 2001 e a cui sono stati attribuiti numerosi progetti nazionali (TICCA, MIUR-FIRB 2003) ed europei (MAGICSTER, PF-Star).

 

Gli Agenti Virtuali con Faccia Parlante costituiscono infatti la più recente proposta per una interazione uomo-macchina più robusta e più naturale  rispetto agli attuali sistemi unimodali uditivo-vocali di sintesi e di riconoscimento automatico del parlato. Sono sistemi più naturali perché si propongono di riprodurre l'interazione comunicativa umana faccia-a-faccia nella quale l'informazione viene scambiata lungo i canali uditivo e visivo per mezzo di messaggi verbali, intonazione, gesti, sguardi, espressioni del viso e movimenti del corpo.

Sono considerati anche  più robusti perché la trasmissione di informazione su più canali garantisce una migliore intelligibilità e comprensione del messaggio, soprattutto nei casi in cui il segnale acustico risulta distorto, danneggiato o ridotto a causa di situazioni ambientali sfavorevoli, di patologie del ricevente o di inadeguatezza del parlato sintetico.

Grazie a queste caratteristiche si prevede l’utilizzazione degli Agenti Virtuali nell’accesso a banche dati, anche in rete, nei servizi di informazione (lettura di notiziari, guide museali, annunci commerciali), nelle applicazioni alla didattica per soggetti normali o patologici, nei servizi di vendita, oltre che nell'industria dello spettacolo (videogames, cinema e televisione).

Negli esperimenti di implementazione di un tale Agente Virtuale con Faccia Parlante in  italiano è stata utilizzata  un'ampia serie di dati ricavati dalle ricerche linguistiche e informatiche svolte  presso l'IFD, in particolare dagli studi sulla comunicazione multimodale e sulla tecnologia del parlato.

Sono state infatti necessarie le conoscenze sulle caratteristiche articolatorie, acustiche e percettive delle unità fonologiche segmentali e soprasegmentali dell’italiano; sugli indici acustici che veicolano le emozioni; sulle caratteristiche spazio-temporali dei movimenti labiali e mandibolari nella produzione delle unità fonologiche dell'italiano e le loro modificazioni nella realizzazione del parlato emotivo; sulla quantità e qualità di informazione trasmessa dai movimenti  articolatori visibili, ottenuti da test di lettura labiale; sull'organizzazione della gestualità coverbale, con l'individuazione  delle regole di coproduzione tra unità linguistiche del messaggio verbale (parole, caratteristiche prosodiche e intonative) e le diverse tipologie di gesti (simbolici, deittici, pantomimici, pittografici, ideografici); sulle tecniche di codificazione e decodificazione del segnale acustico; sulle tecniche di analisi del segnale acustico; sui programmi per la sintesi automatica da testo scritto; sui programmi per l'animazione facciale e per la sincronizzazione dei segnali verbale e visivo relativo sia ai movimenti facciali della “visual prosody” sia ai gesti coverbali.

Oltre alla rilevanza applicativa degli Agenti Virtuali Animati va sottolineata l'importanza di queste interfacce bimodali audio-visive come potenziale e potente strumento di ricerca: il metodo della “analysis by synthesis”  permette allo studioso di verificare la significatività e la correttezza delle sue analisi, dei modelli e delle teorie proposte tanto per la produzione che per la percezione del parlato. Infatti le Facce Parlanti, dato che permettono di controllare separatamente le caratteristiche morfologiche e temporali di stimoli visivi e uditivi e quindi di creare stimoli bimodali in cui le informazioni uditive e visive possono essere coerenti o in conflitto (vedasi l'“effetto McGurk”), possono essere utilizzate per individuare indici distintivi, per studiare i processi di categorizzazione e discriminazione nella percezione unimodale visiva e bimodale uditivo-visiva, per definire le regole di integrazione di informazioni visive e uditive nel riconoscimento fonologico e lessicale.

 

 

 

 

  

 

 


 

 

Questi settori di ricerca sono considerati importanti e strategici nel panorama delle Scienze Fonetiche, nel settore dell’elaborazione automatica del parlato, nel campo delle ricerche più avanzate e specialistiche sulla multimodalità (si vedano le ricerche svolte presso: MIT, Max Plank Institute, OGI CSLU Oregon, CSLR CU Boulder Colorado, KTH, ICP-Institute de la Communication Parlée, LIMSI-Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur……) e le pubblicazioni di ricercatori della Sezione di Padova dell’ISTC rappresentano validamente l’Italia in tutte queste sedi, come dimostra la loro partecipazione ai Congressi Internazionali di Scienze Fonetiche, dell’ICSLP (International Conference on Spoken Language Processing), dell’EUROSPEECH, dell’ICASSP (IEEE International Conference on Acoustics, Speech, and Signal Processing), dell’AVSP (Audio Visual Speech Processing), ecc.

 

Presso il Laboratorio vengono svolte ricerche sperimentali su:

  • le caratteristiche articolatorie, cinematiche e dinamiche, dei foni dell’italiano prodotti da soggetti normali e patologici;

  • le caratteristiche acustiche dei foni dell’italiano prodotti da soggetti normali e patologici;

  • le caratteristiche percettive uditive dei foni dell’italiano di soggetti normali e patologici, studiate tramite test di intelligibilità, test di identificazione e di discriminazione;

  • l’analisi fonetico-acustico-articolatoria delle vocalizzazioni infantili (babbling e prime parole) per uno studio delle caratteristiche dello sviluppo motorio a fini linguistici; 

  • le unità soprasegmentali dell’italiano, prosodia e intonazione;

  • i correlati articolatori, acustici e percettivi delle emozioni e  degli atteggiamenti;

  • la micro-bimodalità uditivo-visiva (p.es. definizione di visemi, lettura labiale, accesso al lessico, sinergia acustico-visiva);

  • la macro-bimodalità uditivo visiva (p.es. gestualità co-verbale, visual prosody, trasmissione bi-modale uditivo-visiva delle emozioni);

  • la sintesi ed il riconoscimento uni-modali acustico-uditivi del parlato;

  • la sintesi ed il riconoscimento bi-modali acustico-uditivi e visivi del parlato (p. es. implementazione di Facce Parlanti, Agenti Virtuali);

  • la sintesi bi-modale acustico-uditiva e visiva del parlato emotivo ed espressivo (Facce Parlanti, Agenti Virtuali);

Il Laboratorio dispone di:

 

A) Strumentazioni per la registrazione dei diversi tipi di segnale coinvolti nell’atto di comunicazione  orale faccia-a-faccia:

1)    segnale acustico:

       cabina silente, registratori digitali ad alta fedeltà (DAT), microfoni e cuffie professionali, impianti analogici HiFi e digitali (PC con schede professionali di acquisizione digitale) per l’acquisizione, l’eleborazione e la riproduzione del segnale ecc.;

2)   segnali articolatori:

       movimenti della lingua: dispositivi elettropalatografici

       (RION, KAY  ELEMETRICS)

       movimenti delle labbra e mandibola: sistemi

       optoelettronici (ELITE);

3)   segnali aerodinamici:

       aerometri, pletismografi, pneumotacografi, ecc.;

4)   segnali glottografici:

       elettroglottografi, laringografi;

5)   segnali video per la comunicazione multimodale nel parlato faccia-a-faccia:

      telecamere analogiche e digitali, videoregistratori, sistemi di acquisizione digitale su PC;

6)    per le ricerche percettive:

        dispositivi per filtraggi e mascheramenti del segnale acustico.

 

 B) Programmi per l’analisi acustica del parlato

MULTISPEECH

SCICON

SYGNALIZE

CSL-Kay Elemetric Co.

MATLAB

PRAAT

SFS

Snack (KTH)

Wavesurfer (KTH)

 

C) Programmi per la segmentazione ed etichettatura plurilivello del segnale acustico

Multitool

Transcriber

Anvil

TASX

ISTC-SPFD Automatic Aligner

 

D) Programmi per l’analisi dei movimenti labiali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

 

E) Programmi per l’analisi dei movimenti facciali

Matlab

Mavis

ISTC-SPFD Interface

Track

Optimize

IFDCin

FacePlayer

Exml2FAP

EmotionDisk

 

F) Programmi per la segmentazione ed etichettatura plurilivello dei segnali che veicolano informazione nella comunicazione multimodale faccia-a-faccia

      (segnale acustico del parlato e segnali visivi prodotti dai movimenti delle mani  - gestualità coverbale - e della  faccia - movimenti di testa, sopracciglia, occhi, bocca)

Partitura  (Magno Caldognetto e Poggi) in ANVIL (M.Kipp)

Anvil

TASX

 

 G) Programmi di sintesi automatica del parlato da testo

FESTIVAL (CSTR The Centre for Speech Technology Research, University of Edinburgh Edinburgh)

FESTIVAL per l’italiano (ISTC-SPFD, P. Cosi, ITC-IRST, F. Tesser)

  

H)   Programmi di sintesi bimodale da testo

           (Agenti Virtuali e Facce Parlanti)

LUCIA      (P. Cosi)     

GRETA    (C. Pelachaud & P. Cosi)     

BALDINI   (D. Massaro & P. Cosi)     

  

I)  Programmi per l’esecuzione di test percettivi unimodali uditivi, unimodali visivi, bimodali uditivo-visivi

 

L) CORPORA VOCALI:

 

MIC 1 (read speech, Microphonic)

o       Speech (Aree di Esistenza, Ferrero 1968) (ISTC-SMCL)

o       7 vocali isolate, segnale microfonico, 25 soggetti maschili,  25 soggetti        femminili, 1 ripetizione , 16 bit PCM, 10 kHz

 

MIC 2 (read speech, Microphonic)

o       Speech (Italian I-set) (ISTC-SMCL) 

o       [ /'bi/, /'tSi/, /'di/, /'dZi/, /'i/, /'pi/, /'ti/, /'vi/, /'Li/, /'si/ ], segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), 16 bit PCM, 16 kHz

 

MIC 3 (read speech, Microphonic)

o       Speech (Italian E-set) (ISTC-SMCL)

o       [ /'Effe/, /'Elle/, /'Emme/, /'Enne/, /'Erre/, /'Esse/ ],  segnale microfonico, 7 soggetti maschili, 5 ripetizioni, segmentazione (ASCII), etichettatura (ASCII), 16 bit PCM, 16 kHz

 

MIC-ART 1 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o     Speech (Italian VCV-set) (ISTC-SMCL)

o   /'VCV/, C=/21 Italian consonants/, V=/a/, 5 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), segmentazione (ASCII), etichettatura (ASCII)

 

MIC-ART 2 [read audio/visual speech, Microphonic Articulatory (ELITE)]

o       Speech (Italian /p&f-set) (ISTC-SMCL)

o       /'VCV/, C=/21 Italian consonants/, V=/a/, 5 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), segmentazione (ASCII), etichettatura (ASCII)

 

MIC-ART 3 [read audio/visual speech, Microphoni Articulatory (ELITE)]

o       Speech (Italian Plosive-set) (ISTC-SMCL)

o       /'VCV/, C=/p,t,k,b,d,g/, V=/a,i,u/, 10 soggetti maschili, 5 ripetizioni, segnale microfonico, 16 bit PCM, 16 kHz, 28 parametri ELITE, 16 bit PCM, 100 Hz (10 ms), 40+40 coefficienti uditivi, codificati (unsigned-short), 16 bit PCM, 500 Hz (2 ms), segmentazione (ASCII), etichettatura (ASCII)

 

MIC-ART Emotion 1  [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o       Emotional Speech (isolated words) (ISTC-SMCL)

 

MIC-ART Emotion 2  [read audio/visual speech, Microphonic-Articulatory (ELITE)]

o       Emotional Speech (isolated words and simple sentences) (ISTC-SMCL)

 

MBROLA ita3  (read speech, Microphonic)

o       TTS male diphone DB (Mbrola) (ISTC-SMCL)

 

MBROLA ita4  (read speech, Microphonic)

o       TTS female diphone DB (Mbrola) (ISTC-SMCL)

 

SARIS (spontaneous/read speech, Michrophonic)

o       Spontaneous and read monologues

 

VISF (spontaneous speech, Microphonic)

o       Spontaneous and read monologues

§  vocalizzazioni infantili sullo sviluppo fonetico, registrazioni babbling (anche videoregistrazioni), soggetti normali di età evolutiva (dai 6 mesi a 21 mesi), classificazione percettiva, e trascrizione fonetica stretta, analisi fonetica e acustica, statistiche elaborate con SYSTAT

 

AVIP (spontaneous speech, Microphonic)

o       Archivio delle Varietà di Italiano Parlato

o       (progetto MURST, Cofin 97)

 

API (spontaneous speech, Michrophonic)

o       Archivio del Parlato Italiano

o       (progetto MURST, Cofin 99)

 

SPK (continuous speech, Michrophonic)

o       Isolated digits (ITC-IRST, ELRA)

 

APASCI (continuous/read speech, Michrophonic)

o       Acoustic-Phonetic and Spontaneous Speech Corpus (ITC-IRST, ELRA)

 

SIVA the Muser (continuous/read speech, Michrophonic)

o       Digits, Acoustic-Phonetic and Spontaneous Speech Corpus (FUB)

 

CSLU 30K numbers (continuous/read speech, Michrophonic)

o       Isolated/continuous digits

o       (OGI CSLU Portland Oregon)

 

TIMIT (continuous/read speech, Michrophonic)

o       Acoustic-Phonetic and Spontaneous Speech Corpus (NIST SpeechDisc)

 

I vari cataloghi elettronici messi a disposizione potranno essere consultati direttamente per ricerche specializzate oppure per l'accesso diretto, vista la notevole dimensione digitale dei dati trattati per le ricerche nel campo fonico/articolatorio, l'archivio elettronico verrà organizzato come una serie di pagine esplicative dei vari corpora o delle varie informazioni a disposizione, che potranno essere successivamente richiesti all'SMCL sotto forma di CDrom o, nel caso di dimensioni ridotte, essere forniti direttamente in rete tramite collegamento telematico (FTP/ HTTP).

 

Il Laboratorio può offrire conoscenze teoriche e metodologiche sul parlato e la comunicazione multimodale utilizzabili

  • in campo linguistico

  • nelle applicazioni del TAL (Trattamento Automatico del Linguaggio)

  • nella didattica e nell’ “e-learning”

  • in Ingegneria Informatica e delle Telecomunicazioni

  • in campo psicologico

  • in campo cognitivo

  • in IA (Intelligenza Artificiale)

  • in Computer Graphics

  • in campo medico (audiologico, foniatrico, logopedico, audioprotesico, audiometrico, neurologico, ecc)

L’interesse da parte di specialisti di diversa preparazione per le tematiche trattate presso il Laboratorio è dimostrato dalle Tesi di Laurea e di Dottorato svolte attualmente presso la Sezione di Padova dell’ISTC e che afferiscono ai seguenti corsi di Laurea:

  • Lettere antiche e moderne

  • Scienze della Comunicazione

  • Psicologia

  • Logopedia

  • Ingegneria Elettronica, Informatica e delle Telecomunicazioni

  • Lauree in Tecniche Audiometriche e Audioprotesiche

Inoltre presso il Laboratorio operano stagisti (laureati in Psicologia e Scienze della Comunicazione), tirocinanti (in Psicologia) e collaboratori ai vari progetti nazionali ed europei attualmente in corso (Ingegneri Elettronici ed Informatici)

 

 

 

Speech Multimodal Communication Laboratory

Istituto di Scienze e Tecnologie della Cognizione - CNR
Sezione di Fonetica e Dialettologia
Via Anghinoni n.10-35121 Padova

web:  http://www.pd.istc.cnr.it

Piero Cosi

n. tel. 049 8274413/8274418 n. fax 049 8274416
cosi@pd.istc.cnr.it

 

   
  sito in fase di preparazione  
   

 

link to the home page

 

 

 sito ospitato
da


Istituto di Scienze e Tecnologie della Cognizione
Sezione di Padova "Fonetica e Dialettologia"

Consiglio Nazionale delle Ricerche
Via G. Anghinoni, 35121 Padova
Tel.: 049 8274418   Fax: 049 827441

e-ma
il: cosi@pd.istc.cnr.it
web:
http://www.pd.istc.cnr.it