Questa pagina Web è stata creata ed estesa utilizzando la versione inglese della pagina Linguistic Annotation di Steven Bird, Mark Liberman, LDC

Sono elencati e descritti alcuni tool e alcuni formati utili per la creazione e l'organizzazione dell'
annotazione linguistica. Con il termine
"annotazione linguistica" ci si riferisce
ad ogni notazione descrittiva o analitica che possa essere applicata a dati linguistici
raccolti sotto forma di dati testuali o di dati espressi come funzioni temporali
(registrazioni audio, video e/o di dati articolatori o fisiologici). Le notazioni possono
includere le trascrizioni di ogni tipo (dalle caratteristiche
fonetiche alle strutture della frase, del discorso o del dialogo), "part-of-speech" e altre specifiche annotazioni,
analisi sintattiche, annotazioni incrociate con multi-riferimenti, e così via. Il focus
è sia sui tools che sono stati utilizzati per la costruzione di basi di dati annotate
linguisticamente, sia sui formati comunemente adottati da tali tool e da tali database.
Informazioni sul numero speciale della rivista Speech Communication sulle tematiche
riguardanti l'annotazione di corpus di segnale verbale e sui tool di annotazione possono
essere trovati qui.


indica una novità rispetto a questa pagina!!!
Key |
F: |
formato di annotazione sistematicamente-documentato |
T: |
tool disponibile per la creazione, la visualizzazione o la ricerca |
D: |
"downloadable" tool |
P: |
articoli di riferimento disponibili |
R: |
altre fonti, tipo libri, associazioni,..... |
C: |
metodi e standard di trascrizione |
[ U/W/M ] |
tool per Unix, Windows o Machintosh  |
$: |
"$$$$" tool commerciale |
|
indica una novità rispetto a questa pagina!!!

Linguistic Resources |
DT
[UW] |
Alembic Workbench
(David Day)
Alembic Workbench è un sistema di annotazione basato sul linguaggio SGML. Oltre ai generi
usuali di annotazioni testuali, Workbench permette vari generi di annotazioni
specializzate includendo le annotazioni di co-riferimento (cfr. le regole di
marcatura o markup Message Understanding Conference), vari generi di indicatori
prestabiliti dall'utente e (a breve) l'annotazione generale di template (aka
relations, frames, events). Il sistema Alembic di NLP multilingue fornisce l'accesso
ai taggers per un' ampia varietà di livelli di estrazione e le applicazioni sono
state sviluppate attualmente per parecchi linguaggi. Il software ha un componente
specializzato di visualizzazione. Funziona sulle stazioni di lavoro Sun ed è liberamente
distribuito. |
FT
[U] |
Annotator
Annotator è un'estensione di waves+ (Entropic).
Permette (manualmente o automaticamente) all'utente di annotare determinati "eventi
in un flusso arbitrariamente lungo di dati campionati". Il ricercatore può annotare
il segnale verbale prodotto in modalità di monologo o di dialogo in inglese, giapponese,
spagnolo o cirillico (usando il sistema di editazione testi Mule) ed è capace di
riprodurre qualsiasi porzione dell'annotazione, poichè le trascrizioni sono
sincronicamente collegate al segnale verbale. |
FTD
[WM] |
Archivage (Boyd
Michailovsky, John B. Lowe, Michel Jacobson)
Il progetto Archivage, basato su LACITO (Parigi), mira a fornire gli strumenti e i formati
per i dati di tipo linguistico antropologico. Una caratteristica interessante è l'uso del
linguaggio di marcatura (markup) XML,
con un DTD che supporta le trascrizioni, le traduzioni interlineari frasali e
parola-per-parola, e i riferimenti audio. Sono forniti alcuni fogli di stile XSL che illustrano la potenzialità del
markup XML nel supportare l'accesso in Web a materiale di questo tipo, dando
l'accesso a testo e suono. |
TDP |
ASEL speech software (Tim Bunnel)
Presso lo Speech Research Laboratory
(duPont Hospital for Children, University of
Delaware) sono stati sviluppati interessanti tool per l'elaborazione di dati vocali,
inclusi alcuni strumenti per la trascrizione e l'annotazione di segnale verbale. |
P |
CA - Conversational
Analysis
Questa pagina di transcrizioni
eseguite da Emanuel Schegloff esemplifica lo
stile di trascrizione tradizionale in uso fra i ricercatori che lavorano sulla conversational
analysis. |
FC |
CES (Nancy
Ide, Greg Priest-Dorman)
Il Corpus Encoding Standard (CES) è una parte di EAGLES Guidelines, guida di riferimento del
progetto Eagles, sviluppata per le ricerche tecnologiche e le applicazioni sul linguaggio.
CES è un livello di codifica minimo, basato su SGML e conforme alle specifiche TEI,che i corpus devono realizzare per essere considerati standardizzati
in termini di rappresentazione descrittiva (marcatura delle informazioni strutturali e
tipografiche) così come di architettura generale (in modo da essere adattabili ad un uso
efficace per una base di dati testuali). CES fornisce anche le specifiche di ccodifica per
l'annotazione linguistica, insieme ad un'architettura di dati per i corpus linguistici. |
FTDPRC
[WM] |
CHILDES (Brian MacWhinney, Steven Gillis)
Il progetto CHILDES fornisce un grande database per dati relativi
all'acquisizione di L1 e L2 per oltre 30 linguaggi in un formato coerente, chiamato CHAT.
In CHILDES sono inclusi anche programmi per Windows e Macintosh che consentono
l'analisi della base di dati così come un qualche allineamento deli testo al segnale
verbale corrispondente. |
R |
COCOSDA (Nick Campbell)
Il comitato internazionale per "Co-ordination and Standardisation of Speech
Databases and Assesment Techniques for Speech Input/Output, COCOSDA, è stato
istituito per promuovere l'interazione e la cooperazione internazionali su temi di ricerca
fondamentali per l'elaborazione del linguaggio parlato (Spoken Language Processing). |
TDC
[W] |
CSAE
(John W. DuBois)
Il Corpus of Spoken American English (CSAE) dell'UCSB ha sviluppato parecchi tool,
fra cui VoiceWalker, un tool per la trascrizione audio e video, e SoundWriter,
che consente di allineare le parti delle trascrizioni con i corrispondenti file di
segnalemediante i codici temprali SMPTE. Inoltre, è stato sviluppato un insieme specifico
di convenzioni
di trascrizione. |
TDPRC
[W] |
CSLU (Kal Shobaki, Mike
Noel, Jacques De Villiers)
Il CSLU Speech Toolkit, sviluppato presso il Center for Spoken Language Understanding
(CSLU), consiste in un insieme completo di tool per la raccolta e la trascrizione del
segnale verbale. Contiene un programma interattivo per la visualizzazione del segnale
verbale (Speech View) che permette all'utente di allineare le trascrizioni con i
corrispondenti file sonori. Il Toolkit contiene anche un corso completo di lettura di
spettrogrammi e di fonetica acustica, un motore di riconoscimento della parola, un
sintetizzatore della voce basato sull'architettura Festival, un
componente per l'animazione di volti parlanti Baldi e uno strumento di integrazione per
creare ed organizzare specifiche applicazioni basate su semplici dialoghi. CSLU ha inoltre
sviluppato un insieme di convenzioni di trascrizione (un grande file postscript)
utilizzate per trascrivere i vari corpus vocali, disponibili su richiesta, per la ricerca
linguistica sul segnale verbale. |
FTP
[UW] |
DAISY
Consortium (Ingar Beckman Hirschfeldt)
Il consorzio DAISY (margherita) è un consorzio internazionale di biblioteche ed
istituzioni che si interessano specificatamente delle persone disabili e sviluppano
standard, tool e tecniche per la prossima generazione di "digital talking books"
(DTB). Lo vesione preliminare standard è la 2.0. Ulteriori informazioni
sono disponibili in una presentazione al CSUN98. |
FTRC
[UW] |
DAMSL / SWBD-DAMSL (James Allen, Dan Jurafsky)
DAMSL - Dialog Act Markup in Several Layers - definisce un insieme delle azioni
comunicative primitive che possono essere usate per analizzare i dialoghi. La struttura di
DAMSL è il risultato del lavoro sviluppato dal Multiparty Discourse Group nelle
riunioni DRI. SWBD-DAMSL è stato progettato come un'estensione al
[DAMSL]tag-set, allo scopo di annotare (una parte) il corpus Switchboard. Una
pagina di collegamenti a vari articoli descrittivi è disponibile online (info).
Alcuni dialoghi nel progetto TRAINS
sono stati annotati utilizzando gli indicatori di annotazione di DAMSL (info). |
TP
[UW] |
Delta (Susan Hertz)
Eloquent Technologies ha sviluppato un text-to-speech toolkit che sintetizza il
segnale verbale per mezzo d'una rappresentazione multi-livello del testo chiamata Delta. |
R |
DRI
(Susann Luperfoy)
L'iniziativa Discourse Resource Initiative è uno sforzo di vari gruppi
internazionali, rivolto alla condivisione dei corpus etichettati con specifiche
standardizzate di interesse comune. DRI riunisce le informazioni sui documenti, sui corpus
e sul software connessi con le ricerche sul dialogo, compreso una lista di collegamenti a
vari annotation
tools. DRI include un Multiparty Discourse Group.
Il progetto COCONUT ha adottato
lo schema DRI al fine occuparsi degli ambienti cooperativi di progettazione (online papers). |
FR |
EAGLES Spoken Language Working Group (Dafydd Gibbon)
Il gruppo di lavoro "Spoken Language Working Group" di EAGLES (European Commission's
Expert Advisory Group on Language Engineering Standards, il gruppo consultivo d'esperti
della Commissione Europea sugli standard di ingegneria di linguaggio) ha prodotto un
manuale degli standard e delle risorse per i sistemi di linguaggio parlato, con le
informazioni e le raccomandazioni sulle metodologie adottate nel campo dello sviluppo di
tali sistemi in ambienti multilingue. |
FTDP
[UW] |
Emu (Steve Cassidy,
Jonathan Harrington)
Il sistema Emu offre l'accesso consistente a varie basi di dati di dialogo, con strumenti
efficaci per l'estrazione di statistiche e fornisce anche il supporto per la creazione di
nuove basi di dati. Uno script
Emu è stato creato per importare determinati archivi di Partitur. Questo
supporta le affermazioni di Steve Cassidy sul fatto che (in termini di annotazioni
vere e proprie, trascurando cioè le informazioni di contorno quali tipo di registrazione,
speaker,... ecc.) mediante l'ambiente di lavoro Emu si può facilmente esprimere il
contenuto informativo presente nelle annotazioni di Partitur. |
TD
[UW] |
Festival (Paul Taylor)
L'architettura del sistema Festival sviluppato al CSTR
di Edimburgo, che originalmente è stato progettato per la sintesi automatica della
voce da testo sctitto, è stata generalizzata ed applicata all'analisi di basi di dati.
Festival utilizza i grafici Hetrogeneous
Relation Graphs per rappresentare le informazioni linguistiche. |
TD |
FSA
Vi è stato un notevole sviluppo dei concetti e dei toolkit per la progettazione di automi
a n-stati finiti, che potrebbero fornire un modello utile per l'espressione, la creazione
e la ricerca delle annotazioni linguistiche multidimensionali. Possiamo citare i toolkit e
la documentazione disponibile (LADL,
Xerox e AT&T), benchè per quanto
sappiamo, questi non siano stati usati per una manipolazione generale delle annotazioni
del segnale verbale e possono non essere completamente adattabili a questo fine. |
FTDP
[U] |
GATE (Hamish Cunningham, Kevin Humphreys)
GATE (cancello) consiste in un'implementazione dell'architettura Tipster, più alcuni strumenti grafici per la visualizzazione di dati,
l'annotazione, la valutazione ed il controllo delle procedure. È distribuito liberamente
per ricerca e con Information Extraction software. |
T
[U] |
Gsearch (Frank Keller)
Gsearch è uno strumento l'interrogazione di corpus etichettati. Le domande sono formulate
in due fasi. In primo luogo, l'utente specifica una grammatica context-free che è usata
per analizzare un dato corpus e per convertire i suoi particolari tag in un insieme
standardizzato. In secondo luogo, un'espressione di ricerca utilizza le parole, i nodi
terminali e i nodi non-terminali forniti dal corpus e dalla grammatica. L'uscita
strutturata può essere visualizzata con il programma Viewtree di Ratnaparkhi o il
sistema Thistle di Calser. Gsearch
attualmente funziona con BNC, Brown, SUSANNE, WSJ, Frankfurter
Rundschau e NEGRA. |
FTDPRC
[W] |
HIAT (Konrad Ehlich, Jochen
Rehbein)
HIAT è un sistema di trascrizione basato su una notazione di score, sviluppato
negli anni 70 da Ehlich e da Rehbein ed è ampiamente usato in Europa. L'acronimo
corrisponde a Halbinterpretative Arbeitstranskriptionen (trascrizione di lavoro
semi-interpretativa). Dafydd Gibbon ha coniato il termine inglese Heuristic
Interpretative Auditory Transcription (trascrizione uditiva interpretativa euristica)
che conserva l'acronimo. La filosofia di HIAT include la nozione di trascrizione
letteraria (literarische Umschrift), che "coinvolge quegli allontanamenti
sistematici dalla rappresentazione ortografica standard d'un particolare elemento, ma in
un modo che sia espressivo per coloro che siano esperto del sistema ortografico nel suo
insieme". Sono forniti alcuni metodi per l'annotazione della prosodia, della
comunicazione non-verbale e così via. Il software è disponibile per Mac e
PC. Una descrizione per l'inglese può essere trovata in Edwards e Lampert, Talking
Data. |
TP
[U] |
Hyperlex (Steven Bird)
Il sistema di Steven Bird Hyperlex, sviluppato a sostegno d'uno specifico progetto in
questo campo di ricerche, fornisce l'accesso attraverso il linguaggio HTML ad un lessico,
alle registrazioni di segnale verbale ed ai cataloghi paradigmatici per parecchi
linguaggi. Steven progetta produrre una versione portatile che può essere adattata
facilmente a nuovi linguaggi ed a nuovi progetti. |
F
[UWM] |
INTEX (Max Silberztein)
INTEX è un ambiente di sviluppo linguistico che include dizionari e grammatiche di
carattere generale a gran-copertura ed analizza testi di parecchi milioni di
parole in tempo reale. INTEX include gli strumenti per creare ed organizzare risorse
lessicali estese, così come le grammatiche morfologiche e sintattiche. INTEX può
costruire concordanze lemmatizzate e indici per testi molto grandi relativamente a tutti i
tipi di pattern a Stati Finiti. INTEX è utilizzato come sistema di reperimento delle
informazioni, per analizzare i testi letterari, per misurare le variazioni del linguaggio,
per insegnare secondi linguaggi (L2), come un estrattore terminologico, e così via.
Risorse linguistiche di grande copertura sono già disponibili per inglese, francese,
tedesco, greco, italiano, polacco, portoghese. |
TDP
[U] |
ISIP (Joe Picone)
Joe Picone ed altri all' Institute for Signal and Information Processing (ISIP) -
Mississippi State, ha prodotto un efficace tool di segmentazione freeware,
inizialmente ottimizzato per la suddivisione, la trascrizione e l'annotazione delle
conversazioni telefoniche. |
FTDPRC |
LDC
(David
Graff, Chris Cieri, Mark Liberman)
Il Linguistic Data Consortium ha sviluppato una gamma di formati (pricipalmente basati sul
linguaggio SGML) per le trascrizioni e di altri tipi di annotazioni (si veda il formato NIST's UTF, che fornisce una struttura combinata per parecchi di questi
formati esistenti). Documentazione in linea è disponibile per i diversi corpus creati in
momenti differenti da gruppi differenti, ad esempio: Switchboard di Texas
Instruments (TI) nel 1991, Trains di Rochester
nel 1992-3, ecc, come pure una specifica generale della trascrizione SGML attualmente utilizzata per
la trascrizione (ortografica) delle conversazioni telefoniche e delle registrazioni di
notizie di radiodiffusione. LDC ha anche implementato un modello generale di dati per la
ricerca di corpus annotati di segnale verbale, di dialogo e di testi, in linea, via LDC-Online. |
T
[UW] |
LT XML ()
sggrep - an
XML-aware grep tool. |
FT |
MATE
(Laila Dybkjaer)
Il progetto multi-partner MATE (compagno) fondato dalla Comunita Europea
(Telematics Project LE4-8370) mira a sviluppare uno standard basato sulle specifiche SGML
per l'annotazione di corpus di segnale verbale e più in generale di dialogo e anche i
tool per "rendere i processi di acquisizione ed estrazione della conoscenza più
efficienti". Il Deliverable D1.1
riassume ed esamina un' ampia varietà di schemi di annotazione ed include un utilissima
pagina di pagina di collegamenti.
MATE implementa la nozione di standoff
markup di Thompson e McKelvie . |
TDC
[W] |
MICASE (Rita Simpson)
Il Michigan Corpus of Academic Spoken English (MICASE) è un progetto dell' English Language Institute dell' università del
Michigan per la raccolta e la trascrizione di vari tipi di parlato "accademico".
Il lavoro di trascrizione è supportato da un programma (freeware) specifico sviluppato
per Windows 95 chiamato SoundScriber. |
FPR |
MPEG (Leonardo
Chiariglione)
MPEG-7
("Multimedia Content Description Interface") è lo standard proposto per
l'insieme dei descrittori da utilizzare relativamente alla ricerca, al
filtraggio,all'organizzazione ed all'elaborazione delle informazioni ti tipo multimediale
(in fase di approvazione, Luglio 2001). Draper discute l'esigenza di strutture multiple
per l'annotazione video nel suo articolo MPEG-7 e IR. |
FT
[UWM] |
Linguistic Applications at MPI
(Peter Wittenburg)
Il MPI Language and Cognition Group
ha prodotto una varietà di tool per l'organizzazione e la ricerca su corpus di
segnale audio e video annotati. EUDICO (European Distributed
Corpora Project) è una stazione di lavoro universale per lo sviluppo di corpus
linguistici, scritto in Java e funzionante con una varietà di formati di database
relazionali, inclusi CHAT, Shoebox, Tipster. CAVA
(Computer Assisted Video Analysis) è un suite di programmi destinati agli scienziati
negli studi umanistici, compreso un Transcription
Editor per trascrizioni digitali di video analogici su PC e un programma Mac, chiamato
MediaTagger, per la
creazione e la ricerca di annotazione multi-livello di video digitale in formato
QuickTime. E' disponibile inoltre, un nuovo strumento multi-piattaforma per la gestione
delle trascrizioni di comunicazioni di tipo CHAT e del corrispondente segnale verbale
sincronizzato, Spoken
Childes Tool. Molti di questi tool sono liberamente disponibili per scopi di ricerca
ad Istituzioni Accademiche. |
F |
Multitext Project (
Gord Cormack, Forbes Burkowski, Charlie Clarke )
Il progetto MultiText è interessato alle tecniche che si sono sviluppate per l' indexing
ed il retrival di corpus testuali voluminosi. Le ricerche possono riferirsi alla
struttura del documento, anche se questo è annotato in modi differenti nei differenti
corpus. |
FTPC
[U] |
NEGRA Corpus ( Thorsten Brants )
Il corpus NEGRA contiene approssimativamente 10000 frasi di testo scritto estratte da
giornali tedeschi. Il coprus è del tipo treebank, ma con un nuovo sistema di annotazione, specifico
per i "discontinuous constituents". Un esempio che illustra
il formato grafico, il formato di annotazione e il "Penn Treebank"
equivalente è disponibile al seguente link.
Esiste un tool di annotazione denominato Annotate che
permette un'interazione uomo-macchina per la costruzione di alberi sintattici. |
T
[W] |
The Observer
( Lucas Noldus )
`The Observer' è un tool commerciale per classificare ed annotare gli eventi. Nella
versione video, si possono creare delle annotazioni sincronizzate alle registrazioni video
utilizzando il modulo Event
Recorder. L'andamento temporale delle osservazioni può essere visualizzato
utilizzando il diagramma time-event
plot e su questi dati possono essere effettuate varie analisi statistiche. Il software
è stato sviluppato da Noldus IT e funziona
sulle piattaforme MS Windows. |
FT |
Partitur (Florian
Schiel, Christoph Draxler)
Il Bavarian Archive of
Speech Signals ha creato il formato Partitur basato sulla loro esperienza di
ricerca con una notevole varietà di basi di dati vocali. Lo scopo è stato quello di
creare "un sistema aperto (estendibile) e un formato robusto per rappresentare i
risultati prodotti da molti laboratori di ricerca differenti in un unica fonte di
informazioni comune". |
C |
Pirahã (Dan Everett)
Alcuni esempi interessanti di trascizione interlineare effettuata dai linguisti
tradizionali e una discussione sul relativo uso lessicografico, possono essere trovati sul
sito Web di Daniel e Keren Everett Pirahã. |
TD
[UWM] |
Praat (Paul Boersma)
Il sistema Praat offre una notevole varietà di strumenti efficacissimi per l'interazione
con i dati vocali, inclusi alcuni strumenti per la trascrizione e l'annotazione in
multi-livelli. |
FP |
SABLE (Andrew
Hunt, Richard Sproat, Paul Taylor)
SABLE è uno standard per l'annotazione delle caratteristiche linguistiche del segnale
verbale prodotto da sistemi dii sintesi automatica che naturalmente condivide moltissime
delle proprietà dei sistemi per l'annotazione linguistica del segnale verbale prodotto
naturalmente. |
C |
SAMPA (John Wells)
SAMPA (Speech Assessment Methods Phonetic Alphabet) è una trascrizione machine-readable
ASCII dell' International Phonetic
Alphabet. Sviluppato originariamente dai fonetisti per codificare sei lingue europe,
attualmente sta estendendosi e comprende molti altri linguaggi. SAMPROSA è un'estensione per
la trascrizione delle informazioni prosodiche e XSAMPA è un'estensione che
include ogni simbolo corrispondente sulla tabella di trascrizione IPA, permettendo la
trascrizione di tutti i linguaggi del mondo. |
TDP$ |
SCICON
software (Scicon Research & Development
Co.)
Il Dipartimento di ricerca e sviluppo di SCICON ha sviluppato con la collaborazione di
vari scienziati e ricercatori un efficace software di analisi e trattamento ed
etichettatura del segnale verbale. In particolare: PCquirer e Macquirer, utilizzati come
strumenti spettrografici, per l'etichettatura ed anche per l'insegnamento dell'intonazione
presso vari laboratori; PCquirer X16 e
Macquirer X16 sistemi portatili di aquisizione di dati multicanali per laptop; PitchWorks programma per l'annotazione
multi-livello in stile TOBI, dell'intonazione, funzionante anche su laptop (Window e Mac),
capace di leggere direttamente file di segnale verbale in formato XWAVES, ESPS, LDC, NIST,
NSP, AIFF... Tutti questi programmi sono venduti commercialmente tramite Scicon Research & Development Co. |
TDP |
SFS - Speech Filing System (Mark Huckvale)
SFS fornisce un ambiente di lavoro utile allo sviluppo delle ricerche sulla natura del
segnale verbale. SFS include strumenti software, formati di dati e di file, librerie di
programmi, tool grafici, standard, e uno speciale linguaggio di interfaccia.
Realizza le principali operazioni standard quali aquisizione, riproduzione,
visualizzazione ed etichettatura, analisi spettrografica, analisi delle formanti ed
analisi della frequenza fondamentale. Funziona in UNIX, DOS, WIN32 ed attualmente sta
funzionando su SUN, Hewlett-Packard, Masscomp, Alfa, Linux ed 486+PC. Il copyright per SFS
(Vs3.3) è di University College London, ma il
software è attualmente gratuito per le Istituzioni o i laboratori di ricerca senza scopo
di lucro. SFS è fornito senza garanzie e supporto. |
TDP
[UW] |
SGREP (Jani Jaakkola,
Pekka Kilpeläinen)
SGREP (structured grep) è uno strumento per la ricerca e l'indicizzazione di testi di
tipo SGML, XML, e HTML e per il filtraggio di flussi testuali mediante criteri di verifica
strutturali. Il modello di dati di SGREP è basato su regioni, che sono
sottostringhe non vuote di testo. Le regioni sono tipicamente delle occorrenze di
stringhe costanti, SGML-tags, o elementi espressivi del testo, riconoscibili mediante
alcune stringhe di delimitazione o mediante l'analizzatore sintattico incorporato per
testi SGML, XML e HTML. Le regioni possono essere arbitrariamente lunghe, arbitrariamente
sovrapponentesi e arbitrariamente incorporate. Il seguente articolo è sicuramente utile per
chiunque desideri utilizzare SGREP. |
TDP
[M] |
SignStream (Carol Neidle, Dawn MacLaughlin)
Gli obiettivi del progetto SignStream riguardano lo sviluppo di uno strumento per la
trascrizione e l'analisi di dati video relativi al linguaggio (specialmente dati relativi
al linguaggio dei segni). SignStream permette all'utente di digitare i dati in qualsiasi
numero di campi, definibili dall'utente, in cui ogni riferimento è associato ad un frame
iniziale e finale del segnale video. Anche se una base di dati di SignStream è
memorizzata in un formato non-leggibile e binario, il programma include la possibilità di
esportazione dei dati in formato testuale. Tuttavia, non può essere importato alcun dato
esterno. Il programma è attualmente distribuito a pagamento a ricercatori, educatori e
studenti. |
TDPF
[W] |
SIL (Larry Hayashi,
Gary Simons, Terry Gibbs)
il Summer Institute of Linguistics (SIL) ha ormai un'enorme esperienza nel fornire i tool
e i formati di dati da utilizzare in una descrizione linguistica primaria. LinguaLinks è "un sistema di supporto
elettronico per aumentare la produttività dei ricercatori interessati al
linguaggio", basato sull'ambiente di calcolo orientato agli oggetti CELLAR (Computing Environment for Linguistic,
Literary and Anthropological Research). Altri strumenti del software di SIL sono Speech Analyser e Speech Manager,
programmi per Windows per l'etichettatura di file di segnale verbale e per la ricerca in
database di segnale verbale etichettato; Shoebox, per l'annotazione di testo
interlineare ed il suo predecessore IT.
SIL fornisce anche un'annotazione con un formato basato sul linguaggio SGML di nome PTEXT
("parsed text") descritto in questo articolo. |
TDP
[W]
|
SLAM (Piero Cosi)
SLAM (Segmentation and Labelling Automatic Module) è stato sviluppato all'IFeD Istituto di Fonetica e Dialettologia
del Consiglio Nazionale delle Ricerche (Padova ITALY).
SLAM è stato progettato espicitamente per la segmentazione semi-automatica e per
l'etichettatura del segnale verbale, ma fornisce anche varie possibilità di analisi (pitch,
spectrogram, neurogram). SLAM per Windows vers 1.0 è charityware (freeware
su richiesta) e può essere prelevato al seguente indirizzo. |
P |
SMDL (Stephen R. Mounce)
L'annotazione di musica strumentale e vocale ha alcune somiglianze interessanti con
l'annotazione del segnale verbale. Vedere la pagina Web di Music Encoding Standards
per alcuni interessanti indicazioni generali. E' proposto ed è disponibile uno standard
denominato Standard Music
Description Language (SMDL). |
TDP
[UW] |
Snack (Kåre Sjölander)
Snack (spuntino) è un toolkit generale per la gestione di dati acustici con una
particolare enfasi per il segnale verbale ed il dialogo. Snack è caratterizzato da una
visualizzazione in tempo reale di segnali temporali e di spettrogrammi e dal supporto per
molti formati di file. Snack è inoltre estendibile ed è stato realizzato interamente in
C++ e Tcl/Tk. Un editor di segnale verbale e un etichettatore fonetico sono inclusi nel
software, ed è disponibile, inoltre un plug-in per i browsers di Web. |
CP |
SUSANNE (Geoffrey Sampson)
Lo schema di annotazione SUSANNE fornisce una codifica dettagliata della grammatica logica
e di superficie dell'inglese. Il corpus/treebank di SUSANNE, liberamente disponibile,
contiene un sottoinsieme del corpus Brown che è stato marcato secondo questo schema. Il
progetto CHRISTINE
è stato pensato come un'espansione dello schema analistico e del corpus di SUSANNE al
fine di considerare l'inglese parlato, ed in particolare l'inglese parlato spontaneo ed
informale. |
R |
TalkBank (Brian
MacWhinney, Mark Liberman, Peter Buneman, Steven Bird)
TalkBank è un nuovo progetto di ricerca il cui obiettivo è quello di promuovere studi e
ricerche nel campo della comunicazione umana ed animale fornendo gli standard e gli
strumenti per la creazione, la ricerca, la produzione e la pubblicazione di materiali
linguistici primari su Internet. Il progetto si sviluppa in seguito alle esperienze fatte
con i corpus di CHILDES e LDC e mira a sostenere
le metodologie e le notazioni di una vasta gamma di discipline fra cui: l'espressione
verbale tipica dell'insegnamento, l'analisi della conversazione, l'analisi del discorso e
del dialogo, l'aquisizione del linguaggio, l'analisi dei gesti, i linguaggi dei
segni, l'etologia, l'antropologia, la linguistica sul campo e analisi del segnale verbale. |
F |
TEI (Lou
Burnard)
L'iniziativa Text Encoding Initiative (TEI) ha pubblicato un dettagliato insieme di
raccomandazioni per la codifica e la trascrizione di tutti i tipi di materiali scritti e
parlati, utilizzando una struttura estesa dell'ambiente SGML, nel 1994. Questo formato è
stato usato in molti progetti di ricerca ed in molte iniziative accademiche di
digitalizzazione di dati (esempi)
ed ha influenzato molti progetti di creazione di corpus (per esempio BNC, Parole, Multex,
Silfide), così come ha influenzato la stesura delle specifiche e degli standard del
progetto EAGLES. E' stato attivato un nuovo Consorzio per la
manutenzione e losviluppo di TEI, per aggiornare il relativo DTD per essere compatibile
XML e per espandere la sua copertura. Le raccomandazioni per la codifica delle
trascrizioni del segnale verbale ossono essere trovate qui. |
F |
Tipster
(Ralph
Grishman, Robert Gaizauskas, Hamish Cunningham, Remi Zajac)
Tipster riguarda l'annotazione di testo piuttosto che di segnale verbale, ma ha parecchie
proprietà interessanti. |
TDP
[UW] |
Transcriber (Claude Barras, Edouard Geoffrois)
Transcriber è un software freeware per la trascrizione e l'annotazione
dell'audio digitale, mirato inizialmente alla trascrizione di dati relativi a notizie di
radiodiffusione. Allo stesso modo di CSLU Speech
Toolkit e Snack l'interfaccia utente è
scritta in Tcl/Tk. Usa gli stessi formati della trascrizione come i dati relativi alle
notizie di radiodiffusione di LDC ed è stato anche
adattato per I/O XML. È stato sviluppato da Claude Barras e da Edouard Geoffrois, DGA
Parigi, in collaborazione con LDC. |
TD
[UW] |
TransTool ( Jens Allwood, Elisabeth
Ahlsén, Joakim Nivre)
Il corpus svedese Swedish Spoken Language Corpus di linguaggio parlato, sviluppato presso
il Department of Linguistics, Università di
Göteborg, è associato a parecchi tool
interessanti: Transtool, aiuto alla trascrizione; Synchtool, per la sincronizzazione delle
trascrizioni con gli archivi audio e video; TRASA, uno strumento per analisi automatica
del corpus; e TRACTOR, uno strumento
di supporto per lacodifica. |
C |
Treebank (Mitch Marcus)
Il progetto Penn Treebank ha prodotto annotazioni semantiche e sintattiche di testo
naturale per i corpus: Wall Street Journal, Brown, ATIS e Switchboard. Le annotazioni
prodotto dal progetto Treebank sono state pubblicate da LDC. |
FT |
TSNLP (Klaus
Netter, Doug Arnold, Stephan Oepen, Judith Klein)
`Test Suites for Natural Language Processing', (sistema sperimentale per l'elaborazione
del linguaggio naturale), è un consorzio europeo che fornisce sistemi sperimentali
per l'elaborazione del linguaggio naturale per il tedesco, il francese e l'inglese. Per
una descrizione dello schema di annotazione di TSNLP, si può far riferimento al WP2.2. In
particolare la Sezione 5 si riferisce ad alcuni esempi. Lo schema di annotazione include
le informazioni essenziali (quale un punteggio di forma corretta o buona) ed esprime anche
un'annotazione di sottostringa memorizzata sotto forma di tabella (per le informazioni
analitiche che comprendono i costituenti sintattici e alcune descrizioni d'errore).
L'interfaccia sperimentale è consultabile via Internet. Lo schema della base
di dati è descritto nel manuale
dell'utente, volume 2, sezione 4. |
RC |
UNICODE
(info@unicode.org)
Il consorzio Unicode riunisce in le principali società e moltissimi ricercatori
specializzati nella standardizzazione internazionale della codifica di font. Il risultato
di questa cooperazione è lo standard di Unicode, che fornisce il fondamento per
l'internazionalizzazione e la localizzazione del software. Unicode ha una serie di
congressi e un FAQ. Ci sono character charts, compresa una tabella per le estensioni
dell'IPA. Fino a qaundo i browsers in Web non supporteranno Unicode, viene fornita una
soluzione mediante una serie di fonti dinamici che permettono a qualsivoglia tipo di font
di essere liberamente trasportate in rete (TrueDoc, Bitstream, Hexmac). |
F |
UTF (Jon Fiscus, John Garofolo)
ll gruppo Spoken Natural Language Processing Group
del National Institute for Standards and Technologies (NIST) ha prodotto le secifiche per
un formato basato su SGML denominato Universal
Transcription Format" (UTF) per le valutazioni del 1998 dei corpus Hub-4 Broadcast News e Hub-5 conversational speech. UTF è
basato sui formati SGML utilizzati da LDC per i precedenti corpus
relativi alle notizie di radiodiffusione ed altre pubblicazioni. |
FC |
Vermobil (Wolfgang Wahlster, Reinhard Karger)
Verbmobil è un grande progetto tedesco di traduzione di discorso-$$$-discorso per i
settori della trattativa di appuntamento, della pianificazione di corsa e della
prenotazione dell'hotel. Il progetto di annotazione Verbmobil
include l'ortografia, l'annotazione segmentale (con BAS Partitur),
la prosodia (ToBI per il tedesco), l'etichettatura morfologica e posizionale,
l'annotazione semantica e l'annotazione di dialoghi. Dafydd Gibbon ha sviluppato un modello
per la condivisione delle basi di dati lessicali in Verbmobil, chiamato HyprLex. |
FTDP
[UW] |
WaveSurfer (Jonas
Beskov, Kåre Sjölander)
WaveSurfer è uno strumento di: recording, playing, editing, viewing, printing, e
labelling di dati audio. WaveSurfer è adatto in moltissimi tipi di applicazion, sia
nel campo della ricerca in Speech Communication che nell'insegnamento o nella didattica.
Funziona in ambiente Windows 95/98/NT, Linux, Sun Solaris, HP-UX, and SGI IRIX e utilizza
i più comuni formati dei file audio: WAV, AU, AIFF, e MP3. WaveSurfer è stato sviluppato
presso il Centre for Speech Technology
(CTT) presso il KTH di Stoccolma,
Svezia, ed è disponibile secondo la modalità "open source", su licenza GPL.
Per ogni chiarimento o informazione rivolgersi agli autori. |
|
Sei il visitatore n. 
This page was last updated on 20 May 1999. |