Annotazione di contenuti concettuali in un corpus italiano: I-CAB

In questo articolo presentiamo I-CAB (Italian Conte nt Annotation Bank), un corpus di articoli in lingu a italiana annotato semanticamente. L’attività di annotazione, realizza ta in modo completamente manuale, prevede tre livel li: le espressioni temporali, le entità (cioè persone, organizzazioni, luoghi ed ent ità geo-politiche) e le relazioni tra entità (per e sempio la relazione di affiliazione che collega una persona a un’organizzazione). I primi d ue livelli di annotazione sono completi, mentre il terzo livello è in fase di realizzazione. Avendo come scopo quello di fare di I-CAB un corpus di riferimento per diversi task di Estrazione automatica di Informazione, abbiamo seguito una politica di riuti lizzo di linguaggi di annotazione già disponibili. In particolare, abbiamo adottato gli schemi di annotazione sviluppati per il task ACE Entity Detection and Recognition e per il task Time Expression Recognition and Normalization. Poiché le linee-guida di questi task sono state s viluppate originariamente per l’inglese, è stato ne cessario adattarle alle caratteristiche morfo-sintattiche dell’italiano; si è deciso inoltre di estenderle in modo tale da inc ludere un insieme più ampio di entità, come ad esempio le congiunzioni.