Press "Enter" to skip to content

Esame LIC

2672_141998430483_1281294_nNome completo
Linguistica Computazionale

Descrizione
Il progetto consisteva nella realizzazione di un corpus di almeno 4000 parole (con contenuto libero) di cui almeno 500 lemmatizzate, senza errori ed usufruendo della creazione di piccoli programmi in linguaggio perl. Il testo scelto sono stati i primi due capitoli de: “I Malavoglia” di Giovanni Verga, reperiti sul web. Nello specifico abbiamo 4 files: quello principale è quello xml che contiene l’intero corpus risultante dal lavoro sul testo, ad esso è abbinata una relativa dtd ottenuta tramite uno specifico editor sul web, infine i due file perl creati personalmente ed utilizzati per la gestione rispettivamente della pulizia del file di testo (il programma si occupa di eliminare tutte le lemmatizzazioni che non hanno un + in coda e quello che non serve alla creazione del corpus) e per l’editor del markup (ll programma aggiunge il codice xml al file secondo la dtd fornita).

Il progetto

Il codice
Essendo script in perl molto semplici, è possibile esplicitarli direttamente col testo all’interno di questa pagina, senza rendere eccessivamente prolisso il contenuto.

pulizia_file.pl

#Il programma si occupa di eliminare tutte le lemmatizzazioni
#che non hanno un più in coda e quello che non serve
#alla creazione del corpus.

while (<>){
   s/SENTENCE NO\. [0-9]+//g;
   s/\|([0-9]+|\|)//g;
   s/\[.+\]//g;
   s/(\w+)\#(\w+)(\@(\w+))*(\s)//g;
print
}

xml_editor.pl

print("<testo>\n");
while (<>){   
   s/^(\w+[']?(\w+)?)/\<token forma\=\"\1\"/g;
   s/^([.|:|,|;|!|'|?|(|)])/\<token forma\=\"\1\"/g;
   s/^\"/\<token forma\=\"\'\'\"/g;
   s/^\-/<token forma\=\"\-\"/g;
   s/\b(\w+\#.+)\+/lemmaPos\=\"\1\"/g;
   s/\b(\w+\'\#.+)\+/lemmaPos\=\"\1\"/g;
   s/\"$/\"\/\>/g;
print
}
print("</testo>");
Commenti Facebook