SINTESA

Caratteri e strutture fonetiche, fonologiche e prosodiche della lingua sarda. Il sintetizzatore vocale SINTESA.

A cura di Riccardo Mura e Maurizio Virdis

Condaghes Edizioni, Cagliari, 2015  –  ISBN 978-88-7356-271-9

SINTESA-1

 

Presentazione

di Francersco Cheratzu

Il progetto

I sistemi di sintesi vocale (meglio noti nel settore con l’espressione inglese Text-to-Speech systems, da cui l’acronimo tts) sono delle applicazioni informatiche che riproducono il linguaggio umano a partire da un testo scritto.
Dai primi sintetizzatori elettronici degli anni Sessanta, i sistemi tts
sono notevolmente migliorati e hanno ormai raggiunto un buon livello di verosimiglianza e comprensibilità, anche grazie alla sperimentazione di diverse metodologie di analisi, acquisizione, concatenamento e riproduzione della voce umana.
Attualmente, con l’esponenziale progresso e diffusione dei sistemi
informatici, le applicazioni di sintesi vocale hanno acquisito un’importanza strategica e cominciano a essere utilizzate da un numero sempre maggiore di persone. Basti pensare alle comunicazioni di servizio nel sistema dei trasporti, ai risponditori automatici dei centri di assistenza e ai servizi informativi degli operatori telefonici, ai navigatori gps, ai videogiochi interattivi, ai sintetizzatori musicali, ai siti web e a tutte le applicazioni che consentono di ascoltare un testo (un bollettino, un articolo di giornale, un libro…). Questi sistemi sono poi di grande utilità per le persone ipovedenti, per chi ha difficoltà alla lettura (analfabeti, dislessici, bambini in età prescolare) e per chi è affetto da varie disfunzionalità dell’apparato fonatorio. Inoltre, i sintetizzatori vocali costituiscono la base d’implementazione dei sistemi di riconoscimento vocale, con i quali possono essere integrati per creare sistemi complessi di comunicazione uomo-macchina o tra persone con disfunzionalità comunicative (uomo-macchina-uomo). Combinando un sistema di riconoscimento vocale con un traduttore automatico e un sintetizzatore vocale si realizza un interprete automatico utile per effettuare conferenze, in presenza o a distanza, tra persone di lingue diverse. 

Ormai non solo le grandi lingue di comunicazione, ma anche tante lingue minoritarie, già da tempo, possono avvalersi di queste applicazioni. La lingua sarda e la comunità sardofona non possono permettersi di non partecipare alla grande sfida scientifica e tecnologica del progresso nell’interazione uomo-macchina. Da questi presupposti e da questa urgenza nasce l’idea di un progetto di ricerca fonetica e informatica per la
realizzazione di un prototipo di sintetizzatore vocale della lingua sarda.
Intitolato “Caratteri e strutture fonetiche, fonologiche e prosodiche
della lingua sarda” e finanziato con i fondi della Legge Regionale n. 7 del 7 agosto 2007 per la Promozione della ricerca scientifica e dell’innovazione tecnologica in Sardegna, il progetto è stato sviluppato, per quanto riguarda le fasi di ricerca e di implementazione, dal mese di ottobre 2013 al mese di aprile 2015 da un’unità operativa appositamente strutturata presso il Dipartimento di Filologia, Letteratura e Linguistica dell’Università degli Studi di Cagliari. Maurizio Virdis, in qualità di professore ordinario di Filologia romanza e Linguistica sarda, è stato il coordinatore scientifico del progetto; Riccardo Mura, in qualità di titolare della borsa di ricerca per l’«Individuazione e analisi delle caratteristiche fonetiche, fonologiche e prosodiche della lingua sarda», si è occupato della ricerca fonetica; Massimo Cireddu, titolare della borsa di ricerca per la «Progettazione di regole di sintesi vocale e gestione dell’ambiente di sviluppo», ha svolto la ricerca informatica e ha eseguito l’implementazione del prototipo; la casa editrice Condaghes di Cagliari ha fornito il materiale linguistico e prestato un’opera
di supporto progettuale, tecnico e organizzativo avvalendosi anche
delle consulenze scientifiche del linguista-fonologo Roberto Bolognesi e di Daniela Boeddu, dottoranda in Linguistica presso l’Euskal Erriko Unibertsitatea (Universidad del Paìs Vasco) che si è occupata della revisione della ricerca fonetica e del collaudo del prototipo.
Il presente libro ha lo scopo di diffondere i risultati del progetto, e
in particolare della ricerca linguistica – più precisamente fonetica – che ha permesso la realizzazione di Sintesa, il prototipo del primo sintetizzatore vocale della lingua sarda.
Si tratta quindi di un saggio di fonetica sarda, ma comunque finalizzato alla produzione di un prodotto tecnologico. Le analisi e le descrizioni scientifiche sono volutamente sintetiche, anche per dare spazio ai necessari approfondimenti informatici.
Il carattere ibrido di questa pubblicazione è d’altronde coerente con quello della ricerca: una ricerca di base e allo stesso tempo sperimentale, in quanto mirata allo sviluppo di nuove conoscenze di base sulla fonologia, la fonetica e la prosodia del sardo, utilizzando metodi innovativi e dati di prima mano raccolti sul campo. La ricerca è composta da un’analisi sistematica della fonetica di una varietà della lingua sarda e dalla costituzione di un archivio linguistico digitale, composito ed eterogeneo, aperto a sviluppi e integrazioni future.

Sa chirca
Su progetu de chirca de base “Caratteri e strutture fonetiche, fonologiche
e prosodiche della lingua sarda” de s’Universidade de Casteddu est unu traballu innovativu meda pro sa limba sarda e ponet impare, fortzes pro sa prima borta in Sardigna, diversas disciplinas linguìsticas e informàticas.
Su fatòrgiu s’est isvilupadu in duos annos – dae su 2013 a su 2015 – e at impignadu, a tìtulu diferente, una deghina de persones. Su risultadu
prus figurosu est chi, pro sa prima borta, unu computer podet faeddare
in sardu partende dae s’iscritura, fintzas si est unu protòtipu. Pro dda
nàrrere in un’àtera manera, como su sardu tenet unu sintetizadore vocale TTS (Text To Speech, est a nàrrere ‘dae su testu a s’allega’) isperimentale chi amus numenadu sintesa (sintetizadore de sa limba sarda). Si podet bìdere, e intèndere, in su giassu http://www.sintesa.eu.
Custu no est unu risultadu de pagu contu, ca non sunt meda sas limbas
in su mundu chi tenent ainas de custa genia. Segundu Ethnologue (www.
ethnologue.com), sas limbas classificadas in su mundu sunt prus de sete
mìgia. Sas limbas suportadas cun sintetizadores in sos smartphones sunt
pagu prus o mancu una barantina. Ddo’at però una sèrie de sintetizadores isperimentales e contende cussos mentovados in Wikipedia (in sa pàgina https://en.wikipedia.org/wiki/Comparison_of_speech_synthesizersarribamus a chimbantaghimbe limbas (non semus contende sas variantes de sas limbas prus ispartzinadas in su mundu che a s’inglesu, s’ispagnolu, su portoghesu o su frantzesu). Si abarramus largos e ponimus setanta, podimus afirmare tando chi su sardu faghet parte de s’unu pro chentu de sas limbas de su mundu chi tenent unu sintetizadore vocale.
Amus naradu chi custu est su risultadu prus figurosu, ma ddo’at unu risultadu prus mannu meda chi abarrat “cuadu”: est totu su traballude chirca chi at permìtidu de fabbricare su programma e chi est ispricadu in sos capìtulos chi sighint. Su computer est una màchina complicada meda, ma est semper unu “eletrodomèsticu” chi depet tènnere istrutziones pro funtzionare. Sas istrutziones cherent codificadasin programmas rispetende règulas pretzisas. E custas règulas cherent istudiadas e iscritas in manera unìvoca. Fintzas a immoe, nemos aiat aguantadu un’istùdiu de sa fonètica sarda in unu modu gasi sistemàticu: pro iscrìere sas règulas chi permitint a una màchina de “chistionare” in una limba, sos fenòmenos fonèticos, fonològicos e prosòdicos de cussa limba cherent abrancados in manera cumpleta si nono s’efetu finale no est atzetàbile. Naradu cun àteras paràulas, sa descritzione “bastante cumpleta” de sa limba depet èssere a intro de su computer pro ddi permìtere de furriare sos testos in sonos intellegìbiles e atzetàbiles dae una persone chi connoschet su sardu. Est craru chi su traballu no est perfetu, e no est mancu agabbadu, ca sas limbas sunt sistemas complicados, ma sas fundamentas pro andare a in antis sunt istadas postas. Su progetu est fintzas unu sinnale importante de rinnovamentu de sa linguìstica sarda chi istentat galu a atzetare metodologias innovativas.
Est craru chi unu progetu che a custu non naschet dae nudda. Su
sardu est una limba istudiada, tenet una literadura e, mescamente, est
galu faeddada. Si non ddoe fiat una base de partèntzia su caminu pro
arribare a unu TTS sardu fiat istadu totu in pigada. In prus, ddoe depent
èssere sas persones capatzes de progetare, fàghere e gestire traballos
che a custu. Un’òpera de giudu si podet fàghere si ddoe sunt sas cunditziones preliminares e custas in Sardigna, no in tamen una polìtica linguìstica forsis pagu abbista, ddas tenimus.
Una de sas cunditziones preliminares prus de importu est chi ddoe
siat un’istandard de riferimentu pro sa limba. Si non ddo’at una norma
chi ponet règulas firmas nessi pro s’iscritura, sas fainas informàticas si
còmplicant a livellos casi impossìbile de manigiare. E si custa norma
non fiat esìstida, assora tocaiat a nde fissare una cale si siat pro pòdere
traballare e pro preparare su materiale linguìsticu a manera chi sos
programmas ddu podiant elaborare. Fainas forsis prus mannas de su
progetu matessi. Duncas pro fàghere unu sintetizadore serbit una norma
e serbit bastante testos cunforme a sas règulas de sa norma.
Pro su sardu esistint duas normas ufitziales: sa LSC (Limba Sarda
Comuna), adotada dae sa Regione Autònoma de Sardigna pro impreos
amministrativos in su 2006, e sas Arrègulas (Arrègulas po ortografia,
fonètica, morfologia e fueddàriu de sa Norma Campidanesa), aprovada
dae sa Provìntzia de Casteddu in su 2010. Sa cantidade de produtzione
literària de custas duas normas sunt però diferentes meda, cun unu
raportu de nessi unu a chimbe, in favore de sa LSC. A custu si agiunghet
su fatu chi sa LSC tenet un’aina chi faghet de a beru sa diferèntzia: unu
curretore ortogràficu (su CROS, disponìbile in su situ de sa RAS, http://
http://www.sardegnacultura.it) chi si podet impreare cun elaboradores de testos che a OpenOffice e LibreOffice. A custu puntu su sèberu de impreare sa LSC fiat in pràtica obligadu. 
Su progetu de chirca s’est isvilupadu in diferentes fases temporales e de atividades collegadas a pare. Sas atividades non semper fiant una in fatu de s’àtera, ma a bortas caminaiant in parallelu. Sas fases sunt istadas: 1) formatzione de su grupu de traballu; 2) collida e elaboratzione de su materiale linguìsticu (mescamente testos iscritos in sa norma seberada); 3) collida de sa literadura iscientìfica e de sos istùdios pertinentes; 4) cuncòrdiu de su mètodu de traballu; 5) assentu de s’ambiente informàticu; 6) registratzione de sas duas boghes; 7) elaboratzione de sas registratziones; 8) prenimentu de s’archìviu informàticu; 9) istùdiu de sos fenòmenos linguìsticos; 10) codificatzione de sas règulas; 11) realizatzione de su protòtipu de su sintetizador  (boghe maschile); 12) prima sèrie de provas de su protòtipu; 13) curretzione de sos problemas (fintzas cun registratziones noas); 14) insertadura de sa boghe feminile; 15) segunda sessione de provas e collàudu de su sistema; 16) produtzione de totu sa documentatzione; 17) publicatzione de sos risultados e de su protòtipu SINTESA. Parte manna de sas fases (dae sa de 4 fintzas a sa de 16) sunt illustradas in detàlliu in sos capìtulos dae 1 finas a 6 de custa publicatzione. 
Carchi cosa de prus ddo’at de nàrrere a pitzu de sa fase 2 chi, fintzassi est preliminare a sas fases de chirca efetivas, est istratègica pro sa renèssida de su progetu. In antis de incumintzare cun sas registratziones cheriant individuados sos faeddos e sas frases de registrare. Serbiat una lista de nessi chimbe mìgia paràulas rapresentativas de sa limba sarda, est a nàrrere cussas prus impreadas. Duncas serbiat una lista de frecuèntzia de sas paràulas elaborada dae unu corpus linguìsticu rapresentativu e bastante mannu (si sas paràulas non sunt iscritas segundu un’istandard – pro cussu s’importàntzia de sa norma – a su computer ddi benit male a carculare sa frecuèntzia). Unu corpus significativu depiat èssere de prus de unu millione de paràulas otènnidas ponende impare òperas literàrias de prosa de sas prus diferentes (sas poesias sunt esclusas pro motivos òvios). Unu romanzu “mèdiu” est fatu, pagu prus o mancu, de chimbanta mìgia paràulas, duncas serbint prus de binti romanzos “mèdios”, iscritos segundu una norma, pro fàghere unu corpus rapresentativu de una limba (pro fàghere cumprèndere bene sa mannària, su romanzu de Miguel de Cervantes, Don Chisciote de sa Màntzia [I tomu], no arribat a dughentamìgia faeddos). Fintzas sos testos cherent bilantziados. Pro nde nàrrere una non si podent pònnere petzi testos amministrativos ca est craru chi non sunt rapresentativos de sa limba “normale”. Esistint unu muntone de testos in sardu ma, a dolu mannu, sa majoria sunt iscritos segundu sa pensada de s’autore o de su tradutore. Un’àtera chistione de pònnere in cunsideru sunt sos deretos de impreu de custas òperas. S’ùnica domo editora chi tenet bastante òperas iscritas in LSC est sa Condaghes cun su sessanta pro chentu e prus de  os tìtulos chi sunt essidos dae su 2006. Totu sas òperas iscritas in LSC de sa Condaghes sunt istadas postas a cumone, carculada sa lista de frecuèntzia, leadas sas primas ses mìgia
paràulas distintas e, a custu puntu, rapresentativas de sa limba. Partende dae custa base sunt istadas “seberadas”, semper dae su corpus, prus de noighentas frases cumpletas chi teniant a intro custa paràulas. 
Totus sos faeddos e sas frases depiant èssere lèghidas dae sos informadores e registradas. Unu traballu longu, pistighingiosu e delicadu meda pro sa renèssida de su progetu. Totu custas registratziones sunt archiviadas in su database e a dispositzione pro chie ddas cheret ascurtare o impreare (bìdere su giassu de su progetu o su DVD in acàpiu a custu libru). 
Totu sa parte informàtica est istada isvilupada in modalidade open source (còdighe lìberu) e sos risultados de su progetu essint cun sa lissèntzia “GNU Lesser General Public License”. Custu cheret nàrrere chi sos risultados sunt a dispositzione de chie ddos cheret impreare, megiorare o sighire a isvilupare.
Sos impreos possìbiles de su TTS sunt de profetu pro sa limba nostra: in s’iscola, pro agiuare sa letura e sa comunicatzione in generale. Sas potentzialidades de custas genias de chircas sunt de a beru mannas e rapresentant sas fronteras prus atrativas de s’informàtica e de sa linguìstica ca pertocant s’interatzione òmine-màchina. Difatis su TTS est petzi su primu tretu pro arribare a su ASR (Automatic Speech Recognition), su reconnoschimentu automàticu de s’allega, chi como est incumintzende a intrare in totue (telefoneddos, automòbiles,
eletrodomèsticos, etc.). Comente dimustrat custu progetu, non nos mancant sas professionalidades, s’ingèniu, sa volontade o sa limba pro dare unu contributu originale in custu campu.
Su grupu de traballu, fintzas si faghiat riferimentu a Casteddu, fiat ispartzinadu in totu sa Sardigna e foras puru: Riccardo Mura in Logusantu, Massimo Cireddu in Teulada, Daniela Boeddu in Ilartzi ma
a bortas in Vitòria, Roberto Bolognesi in Amsterdam, sos informadores
in Iscanu, totus unidos dae Internet. Sas versiones annoadas de su protòtipu fiant postas in unu server privadu e totus podiant operare dae a tesu e sighire sos isvilupos. In ùrtimu – last but not least –, sa limba chi s’est impreada de prus pro comunicare est istada sa sarda (fintzas dae parte de Riccardo Mura, de limba materna gadduresa, tocat a ddi reconnòschere su mèritu). Custu puru est unu sinnale de ispera pro su tempus benidore.
Francesco Cheratzu

Continua  a Leggere 

INTRODUZIONE. FONETICA E FONEMATICA DELLA LINGUA SARDA.

di Maurizio Virdis
Il lavoro di ricerca e analisi fonetica relativo e finalizzato alla realizzazione del progetto Caratteri e strutture fonetiche, fonologiche e prosodiche della lingua sarda – finanziato dal Dipartimento di Filologia Letteratura e Linguistica dell’Università degli Studi di Cagliari con i fondi della Regione Autonoma della Sardegna, Legge Regionale n° 7 del 7 agosto 2007 sulla Promozione della ricerca scientifica e dell’innovazione tecnologica in Sardegna – e mirante alla realizzazione del sintetizzatore vocale
della lingua sarda (Sintetizzatore Sardo, o Sintesa, come lo si è voluto denominare) ha portato in luce dati e fenomeni di rilevante importanza nel campo della fonetica della lingua sarda, pur essendosi tale analisi dovuta, forzatamente, limitare ai dati del parlato di due soli informatori (M 55 anni e F 16 anni di Scano di Montiferro/Iscanu, OR), che hanno prestato la loro voce per le operazioni di sintesi vocale del sintetizzatore.
Si è ora infatti in grado di dire, grazie al preciso e accurato lavoro
analitico di Riccardo Mura, i cui risultati vengono presentati qui
di seguito, qualcosa di più certo nei confronti della durata vocalica
e sillabica in Sardo, e delle sue svariate e diversificate realizzazioni
nelle differenti situazioni contestuali; e inoltre delle diverse realizzazioni delle consonanti – occlusive in primo luogo, ma non solo – e della loro durata: punto nevralgico e finora non pienamente indagato della fonetica del Sardo. Ma pure si sono raccolti dati sul comportamento delle vocali medie nei diversi contesti fonosintattici, sia dal punto di vista articolatorio (metafonesi e fenomeni affini come dato unificante) che da quello della lunghezza. Tutto ciò in modo tale da avere un quadro più preciso dell’aspetto fonetico e fonemico della lingua sarda. Particolarmente innovativo è anche il lavoro sperimentale di analisi e rappresentazione dei principali schemi ritmici e intonativi della lingua. Si è indagato inoltre sulla fonosintassi e sui fenomeni di variabilità aessa connessi, nonché sui rapporti, talvolta anche assai complessi, che intercorrono fra il piano propriamente fonetico e quello fonemico del Sardo e la loro rappresentazione in una ortografia standardizzata, che è quella della lsc (Limba Sarda Comuna), che qui si è scelto, e che al momento opera ancora entro un quadro provvisorio e sperimentale, e da meglio definire. Innanzitutto è da sottolineare la ricerca e i risultati analitici riguardo le consonanti occlusive. Viene ribadita l’assenza di una opposizione / scempia/ ~ /geminata/: le occlusive non-sonore del Sardo risultano essere realizzate, da un punto di vista fonetico, come delle semi-geminate con una lunghezza minore rispetto alle geminate dell’Italiano e anche rispetto alle geminate grafiche del Sardo (quelle cioè che hanno valore oppositivo e sono rappresentate in grafia: ss, dd, ll, nn, mm). Questa opposizione si verifica semmai nella serie sonora, dove le occlusive si oppongono alle approssimanti dello stesso punto di articolazione. Da un punto di vista diacronico, l’opposizione originaria latina /P, T, K/ ~ /PP, TT, KK/, ossia l’opposizione /-continua, -sonora, -lunga/ ~ /-continua, -sonora, +lunga/, si realizza come /-continua, -sonora/ (che in contesto posvocalico si realizza come semi-geminata (semi-lunga)) ~ /+continua, +sonora/, vale a dire che si generano le seguenti opposizioni fonematiche: /p/ ~ /β/, /t/ ~ /δ/, /k/~ /ɣ/. Da un punto di vista sistematico fonemico, a livello sincronico, abbiamo una doppia serie consonantica occlusiva (/-continua/): la serie /-sonora/ e la serie /+sonora/: /p, t, k/ e /b, d, ɡ/. Se la serie /-continua, +sonora/ ha una corrispondente serie /+continua/, la serie /-continua, -sonora/ non ha una serie corrispondente. In altre parole, se la serie delle occlusive sonore /b, d, ɡ/ si oppone alla serie delle approssimanti /+continua, +sonora/ /β, δ, ɣ/, la serie occlusiva sorda /p, t, k/ non ha una contropartita in una serie approssimante /+continua, -sonora/. Un sistema che apparirebbe dissimmetrico. Sarebbe forse a questo punto il caso di fare una specificazione: in realtà potremmo considerare quelle che abbiamo fin qui chiamato approssimanti sonore /β, δ, ɣ/ come realizzazionefonetica delle sonore scempie /b, d, ɡ/, mentre quelle che abbiamo fin qui chiamato occlusive sonore sarebbero delle occlusive (semi-)geminate /bb, dd, ɡɡ/ [ᵇᵇ, ᵈᵈ, ᶢᶢ]. In tal caso dovremmo dire allora che mentre per le sonore abbiamo una opposizione /scempia/ ~ /geminata/, per le non-sonore invece non abbiamo una tale opposizione, dandosi soltanto la serie /p, t, k/ foneticamente realizzata come serie [-sonora, semi-geminata]: [ᵖᵖ, ᵗᵗ, ᵏᵏ], senza che vi sia una corrispettiva serie non-sonora scempia [p, t, k]. Ma dell’opposizione /scempia/ ~ / geminata/ nella serie delle occlusive non-sonore, in Sardo, dovremo fra breve riparlare. Se in queste pagine introduttive ci atteniamo alla ma soluzione interpretativa qui proposta del sistema fonematico sardo, cioè a una opposizione /β, δ, ɣ/ ~ /b, d, ɡ/ ([+sonora, +continua] ~ [+sonora, -continua]), piuttosto che alla seconda, cioè /b, d, ɡ/ ~ /bb, dd, ɡɡ/ (/+sonora, -lunga/ ~ /+sonora, semi-lunga/), ciò facciamo sia per ragioni di rispetto della tradizione degli studi di fonetica (storica) sarda, sia perché l’opposizione /scempia/ ~ /geminata/ è problematica in Sardo: più che di vere e proprie geminate si tratta di semi-geminate, come abbiamo visto e vedremo ancora. Va aggiunto peraltro che il rendimento dell’opposizione /β, δ, ɣ/ ~ /b, d, ɡ/ è in Sardo alquanto basso (prossimo allo zero), mentre più alto rendimento ha l’opposizione /p, t, k/ ~ /β, δ, ɣ/ che è l’esito, nella più gran parte delle parlate sarde, di una originaria opposizione latina (e/o protoromanza) /pp, tt, kk/ ~ /p, t, k/, per fenomeno di lenizione, che porta le originarie occlusive nonsonore latine /p, t, k/ appunto ad approssimanti sonore /β, δ, ɣ/ (p. es.:
ACETUM > [aˈɣeːδu], NEPOTEM > [nɛˈβɔːδɛ]). Continua  a Leggere 

 

Condaghes Edizioni, Cagliari, 2015  –  ISBN 978-88-7356-271-9

Annunci