Information Retrieval - 2016-17 - Programma

Sintesi degli argomenti del corso

  • Sistemi booleani
  • Vocabolari e dizionari
  • Indicizzazione
  • Misure e pesi per i termini
  • Vector Space Model
  • Valutazione di sistemi di information retrieval
  • Topic modeling, sistemi probabilistici e classificazione di testi
  • Clustering
  • Decomposizioni di matrici e latent semantic analysis

Materiale

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/ )

Programma dettagliato

Course program: first notions

LessonBook Chapters
Course program. Introduction to information retrieval by means of boolean retrieval. 1
Tokenization and normalization. Term vocabulary. Dictionaries. Tolerant retrieval. 2, 3
  • Tech: nltk and mongodb.
  • Practice: implementation of a real boolean system.

Course program: the vector space model

LessonBook Chapters
Scores and weights. Co-occurrences, mutual information, and specific language. 6, 7
The vector space model. 6
Evaluation in information retrieval. 8
Relevance feedback and query expansion. 9
  • Tech: introduction to elasticsearch.
  • Practice: construction of a vector system.

Course program: probabilistic approaches

LessonBook Chapters
Probabilistic information retrieval. Language models. 11, 12
Text classification and vector space classification. 13, 14
Vector machines and machine learning. 15
Relevance feedback and query expansion. 9
  • Practice: classification of real documents.

Course program: linking, matching, and clustering

LessonBook Chapters
Data linking and matching.
Flat clustering and hiearchical clustering. 16, 17
Other clustering approaches
Relevance feedback and query expansion. 9
  • Tech: clustering with python.
  • Practice: clustering of real documents.

Course program: topic modeling

LessonBook Chapters
Matrix decomposition and latent semantic indexing. 18
Topic modeling and Latent Dirichlet Allocation (LDA) (part I).
Topic modeling and Latent Dirichlet Allocation (LDA) (part II).
  • Tech: gensim.
  • Practice: topic discovery.
Ultime notizie
RSS feed
Gli avvisi sui siti Web si intendono aggiornati e gli studenti sono vivamente pregati di NON INVIARE email con richieste di conferma di date/orari.
Precedente edizione del corso
Le informazioni relative al corso dell'A.A. 2015-16 sono disponibili in archivio

Queste pagine integrano le informazioni presenti sulla pagina ufficiale del corso sul sito del Dipartimento di informatica.
Per problemi e segnalazioni contattare il responsabile del servizio.