Il presente lavoro intende ad unire al livello interdisciplinare la metodologia statistica e linguistica a scopo di disambiguare la semantica delle co-occorrenze delle forme ambigue estratti da un Corpus lirico dei testi provenzali medievali. Per effettuare tale analisi sono stati applicati i metodi di semiometria che rappresentano un approccio indispensabile per poter mettere al confronto i dati statistici ottenuti dopo l’estrazione, con i risultati dello studio strettamente linguistico.
La semiometria offre la possibilità di misurare i dati applicando le conoscenze di statistica e matematica ed usa approcci simili all’analisi psicometrica e biometrica. Nello stesso tempo è molto impiegata nelle ricerche su marketing e in Text Mining.

Excerpt

Indice dei contenuti

1. Introduzione

2. Estrazione di dati linguistici di tre autori-trovieri dal corpus lemmatizzato

3. Metodi d’estrazione delle co-occorrenze e classifica dei dati

4 Il lemma faire come punto di riferimento più Sostantivo, Verbo, Aggettivo a destra e a sinistra

5. Tipi di co-occorenze – classifica per l’analisi di statistica descrittiva

5.1 Co-occorrenze (tre forme) - immediata vicinanza con il lemma faire

5.2 Co-occorrenze (due forme) - immediata vicinanza con il lemma faire

5.3 Co-occorrenze a distanza a 2 e 3 a (+)destra e a (-)sinistra

6. Tipi di co-occorrenze – classifica per l’analisi di statistica inferenziale

6.1 Co-occorrenze (tre forme) - a distanza massima 3 posizioni a (+)destra e a (-)sinistra

6.2 Co-occorrenze delle forme uniche

6.3 Co-occorrenze delle stesse forme

6.4 Co-occorrenze di due forme del lemma faire nello stesso verso

7. L’analisi statistica

7.1 L’analisi fattoriale - coefficiente di correlazione di Pearson

7.2. L’analisi delle componenti principali

7.2.1 La matrice di correlazione dei lemmi amor, cor, vers, bon

7.4 La rappresentazione del lemma faire come punto 0 sul grafico a dispersione

7.5 La rappresentazione di (+)destra e (-)sinistra come positivo e negativo

8. L’analisi semantica

8.1 La disambiguazione semantica delle forme cor, cors

8.2 L’algoritmo per la disambiguazione semantica di cor, cors

9. La Self-Organizing Map (SOM) di Kohonen applicata alle collocazioni amor, cor, vers, bon

10. Obiettivi da raggiungere

11. Conclusione

Obiettivi e aree tematiche

Il lavoro mira a unire, a livello interdisciplinare, la metodologia statistica e quella linguistica per disambiguare la semantica delle co-occorrenze estratte dal corpus della lirica provenzale medievale, utilizzando tecniche di semiometria, analisi statistica e algoritmi di apprendimento automatico.

Analisi semiometrica e statistica di testi lirici medievali.
Estrazione e classificazione sintattica di co-occorrenze del lemma "faire".
Disambiguazione semantica di forme ambigue mediante algoritmi.
Applicazione di Self-Organizing Maps (SOM) di Kohonen per la mappatura semantica.
Confronto quantitativo e qualitativo tra autori (Bernart de Ventadorn, Giraut de Borneil, Raimbaut d'Aurenga).

Auszug aus dem Buch

1. Introduzione

La semiometria offre la possibilità di misurare i dati applicando le conoscenze di statistica e matematica ed usa approcci simili all’analisi psicometrica e biometrica. Nello stesso tempo è molto impiegata nelle ricerche su marketing e in Text Mining.

Secondo Lebart (2003, pp. 5) la semiometria è una tecnica di descrizione delle connessioni semantiche di un determinato tipo fra le parole, ciò che potrebbe essere definito come uno dei tentativi di descrivere la semiometria.

Nel presente lavoro i resultati dell’analisi semiometrica effettuata vengono in seguito utilizzati per la disambiguazione semantica di alcune forme che si rivelano come migliori candidati dal punto di vista di ambiguità. Per tali forme ambigue viene proposto un algoritmo di disambiguazione semantica che si limita in ogni caso sui contenuti dei dati estratti. Alla fine dell’analisi viene fatto un test limitato dimostrativo di Self-Organizing Map (SOM) di Kohonen (1989) applicata ai dati estratti di co-occorrenze che sono stati sottoposti ad analisi statistica più approfondita.

Sintesi dei capitoli

1. Introduzione: Presenta l'obiettivo interdisciplinare di unire statistica e linguistica per la disambiguazione semantica di testi provenzali.

2. Estrazione di dati linguistici di tre autori-trovieri dal corpus lemmatizzato: Definisce il corpus utilizzato e la selezione dei trovatori (Bernart de Ventadorn, Giraut de Borneil, Raimbaut d'Aurenga).

3. Metodi d’estrazione delle co-occorrenze e classifica dei dati: Descrive il metodo semiautomatico di estrazione e l'impiego di analisi statistiche descrittive e inferenziali.

4 Il lemma faire come punto di riferimento più Sostantivo, Verbo, Aggettivo a destra e a sinistra: Stabilisce il lemma "faire" come nucleo centrale per l'analisi delle collocazioni.

5. Tipi di co-occorenze – classifica per l’analisi di statistica descrittiva: Organizza i dati sintatticamente e introduce la codifica numerica per le posizioni destra/sinistra.

6. Tipi di co-occorrenze – classifica per l’analisi di statistica inferenziale: Analizza le collocazioni tramite trigrammi, forme uniche e casi di doppio lemma.

7. L’analisi statistica: Spiega le tecniche di correlazione di Pearson e la matrice delle componenti principali applicate ai lemmi chiave.

8. L’analisi semantica: Propone algoritmi specifici per disambiguare forme polisemiche basandosi sulle vicinanze semantiche.

9. La Self-Organizing Map (SOM) di Kohonen applicata alle collocazioni amor, cor, vers, bon: Illustra l'applicazione di mappe auto-organizzanti per la visualizzazione delle relazioni semantiche.

10. Obiettivi da raggiungere: Riepiloga le finalità del perfezionamento del Data Mining applicato al corpus.

11. Conclusione: Valuta i risultati ottenuti e suggerisce futuri sviluppi nell'uso di reti neurali e ontologie come WordNet.

Parole chiave

semiometria, linguistica computazionale, co-occorrenze, lemmatizzazione, disambiguazione semantica, lirica trobadorica, statistica inferenziale, analisi fattoriale, Self-Organizing Map, Data Mining, collocazioni, Bernart de Ventadorn, algoritmo, analisi multivariata, provenzale.

Domande frequenti

Di cosa si occupa principalmente questo studio?

Il lavoro si occupa dell'applicazione della metodologia statistica e linguistica per la disambiguazione semantica di co-occorrenze estratte da testi della lirica provenzale medievale.

Quali sono i campi di ricerca centrali?

I campi centrali includono la linguistica computazionale, la statistica descrittiva e inferenziale, e l'analisi dei dati (Text Mining) applicata alla poesia medievale.

Qual è l'obiettivo primario della ricerca?

L'obiettivo principale è raffinare l'estrazione di dati e creare un algoritmo supervisionato in C++ capace di disambiguare i significati di forme ambigue, come "cor" e "cors", basandosi sulle catene semantiche trovate.

Quali metodi scientifici vengono impiegati?

Vengono impiegati metodi di semiometria, analisi fattoriale, il coefficiente di correlazione di Pearson, matrici di correlazione e l'algoritmo di Kohonen (SOM) per la mappatura semantica.

Cosa viene trattato nel corpo principale della tesi?

Il corpo principale analizza sistematicamente le co-occorrenze del lemma "faire", la classificazione dei dati sintattici, la correlazione tra termini come "amor", "cor", "vers" e "bon", e la disambiguazione semantica mediante algoritmi dedicati.

Quali sono le parole chiave che descrivono il lavoro?

Le parole chiave principali sono: semiometria, disambiguazione semantica, lirica trobadorica, Self-Organizing Map, linguistica computazionale e analisi statistica.

Come viene utilizzato il lemma "faire" nello studio?

Il lemma "faire" funge da punto di riferimento (nucleo) per estrarre e analizzare le collocazioni sintattiche, sia a destra che a sinistra, all'interno dei versi selezionati.

Qual è il ruolo del software e dei linguaggi di programmazione?

Il linguaggio C++ viene utilizzato per creare algoritmi di disambiguazione supervisionata, mentre il linguaggio R viene impiegato per implementare le mappe SOM (Self-Organizing Maps) per l'analisi dei campioni.

Excerpt out of 44 pages - scroll top

Details

Title: L’Analisi semiometrica della lirica trobadorica
Subtitle: L'Analisi statistica applicata ai testi lirici
College: University of Stranieri di Siena
Course: Korpuslinguistik
Author: Marina Balybina (Author)
Publication Year: 2015
Pages: 44
Catalog Number: V310082
ISBN (eBook): 9783668084421
ISBN (Book): 9783668084438
Language: Italian
Tags: l’analisi analisi
Product Safety: GRIN Publishing GmbH

Quote paper: Marina Balybina (Author), 2015, L’Analisi semiometrica della lirica trobadorica, Munich, GRIN Verlag, https://www.grin.com/document/310082

L’Analisi semiometrica della lirica trobadorica

L'Analisi statistica applicata ai testi lirici