IFD - Cosi CSLU-SpeechToolkit for Italian

CSLU SPEECH TOOLKIT
versione ITALIANA

you are visitor n

in cooperation with

SISTEMI AUTOMATICI PER L'INTERAZIONE UOMO-MACCHINA

Introduzione Lo sviluppo di nuove tecnologie, nel campo del trattamento automatico del linguaggio (TAL), è d'enorme interesse per un'efficace utilizzazione di nuove strumentazioni multi-mediali rivolte alla semplificazione dell'interfaccia uomo-macchina. Le ricadute scientifico/applicative di queste tecnologie riguardano una serie innumerevole di applicazioni tra le quali, per citare forse quella più significativa, l'accesso all'informazione contenuta in banche dati. Lo scopo di questa ricerca è quello di raccogliere ed utilizzare efficacemente gli studi sin qui sviluppati dall' IFD nel campo del TAL (analisi del segnale vocale, sintesi vocale da testo scritto, riconoscimento del parlato, progettazione di volti parlanti, sviluppo di nuovi sistemi di dialogo in funzione di possibili applicazioni per l'apprendimento del linguaggio o l'insegnamento delle lingue), per la realizzazione di un sistema integrato per la "comunicazione uomo-macchina". Descrizione della Ricerca In questi ultimi anni le tecnologie relative alla realizzazione di sistemi per il riconoscimento automatico del linguaggio naturale e per un effettivo dialogo interattivo dell'uomo con le "macchine", hanno subito una fortissima accelerazione. Questi sistemi, si basano sul riconoscimento delle parole pronunciate, sull'interpretazione della loro sequenza, per ottenerne un opportuno significato, sull'attuazione di un'adeguata risposta e su un conseguente controllo interattivo della sua efficacia.

E' con questo obiettivo che in collaborazione con il "Center for Spoken Language Understanding" (CSLU) dell "Oregon Graduate Institute" (OGI) di Portland e con il "Center for Spoken Language Research" (CSLR) della "Colorado University" (CU) di Boulder stiamo sviluppando per l'Italiano il sistema denominato "CSLU Speech Toolkit " [1] [2], già sviluppato per la lingua inglese.

La ricerca è focalizzata principalmente sulla realizzazione di un sistema integrato per il riconoscimento automatico del segnale verbale in italiano, per la sintesi vocale automatica dell'italiano da testo scritto e per l'animazione di agenti parlanti.In particolare, per quanto riguarda il riconoscimento vocale, le ricerche sono state focalizzate sul riconoscimento di sequenze connesse di cifre numeriche relativamente ad un segnale microfonico e telefonico e sul riconoscimento "general purpose" della lingua italiana. In particolare è stata messa a punto un'architettura ibrida che raggruppa insieme le conoscenze dei sistemi basati sulle catene di Markov nascoste e sulle Reti Neurali Artificiali (Hybrid HMM/NN). Per la realizzazione del programma di ricerca sono state utilizzate, inoltre, alcune basi di dati vocali realizzate dall' "Istituto per la Ricerca Scientifica e Tecnologica" (IRST) di Trento e dal "Centro Studi e Laboratori Telecomunicazioni" (CSELT) del Gruppo TELECOM di Torino, con cui abbiamo un efficace rapporto di collaborazione.

Per quanto riguarda la sintesi automatica da testo scritto, sono state utilizzate le conoscenze sviluppate dall'IFD nel corso degli anni su questa tematica, per realizzare la prima versione italiana di "Festival" [3], un'architettura software particolarmente adatta ad essere utilizzata per la sintesi vocale multi-lingue, progettata e realizzata dal "Centre for Speech Technology Research" (CSTR) dell'Università di Edinburgo.

Relativamente alle ultime tecniche di animazione [4], sono iniziate le attività per la definizione di un nuovo "agente parlante" ("talking agent") in grado di fornire all'utente un adeguato "feed-back" audio-visivo in grado di garantire la naturalezza e la semplicità di utilizzo del sistema.

Infine, per verificare l'affidabilità del sistema, sarà progettata un'applicazione relativa all'apprendimento del linguaggio infantile e a tal fine saranno studiate le più moderne tecniche di sviluppo di nuovi sistemi di dialogo.

Riferimenti Bibliografici

[1] Fanty, M., Pochmara, J., and Cole, R.A. 1992. An Interactive Environment for Speech Recognition Research. In Proceedings of ICSLP-92, Banff, Alberta, October 1992, 1543-1546.

[2] Sutton, S., Cole, R.A., de Villiers, J., Schalkwyk, J., Vermeulen, P., Macon, M., Yan, Y., Kaiser, E., Rundle, B., Shobaki, K., Hosom, J.P., Kain, A., Wouters, J., Massaro, D., and Cohen, M., "Universal Speech Tools: The CSLU Toolkit," ICSLP-98, vol. 7, pp. 3221-3224, Sydney, Australia, November 1998.

[3] Paul A. Taylor, Alan Black and Richard Caley (1998). "The Architecture of the Festival Speech Synthesis System", in The Third ESCA Workshop in Speech Synthesis, pp. 147-151.

[4] Massaro, D. W., Perceiving Talking Faces: From Speech Perception to a Behavioral Principle. MIT Press: Cambridge, MA, 1998.

in cooperation with

surf to:

http://cslu.cse.ogi.edu/asr

http://cslu.cse.ogi.edu/asr/#Projects

http://cslu.cse.ogi.edu/asr/#Sponsors

|BACK | HOME |