Crawling project metadata (internship)

From Software Heritage Wiki
Revision as of 14:25, 9 February 2016 by StefanoZacchiroli (talk | contribs) (Created page with "== Construire le web sémantique des projets logiciels libres == '''Contexte''': projet de recherche de grande envergure ayant comme but la récupération, l'organisation, et...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Construire le web sémantique des projets logiciels libres

Contexte: projet de recherche de grande envergure ayant comme but la récupération, l'organisation, et l'archivage à très long terme (siècles) de la totalité du logiciel libre publiquement accessible via Internet.

Description: Ils existent des millions de projets de logiciels libres, hébergés sur des centaines de plateformes différentes, et souvent dupliqués. Pour naviguer dans ce graphe de projets logiciels, il est important de disposer de métadonnées pertinentes, et plusieurs efforts existent, autour de technologies du Web Sémantique comme DOAP ou schema.org. Le but de ce stage est de collecter les métadonnées existantes, les uniformiser, et les intégrer dans une des plus grandes collections de logiciels libres au monde.

Connaissances souhaitées pour accéder au stage:

  • information retrieval
  • modélisation et représentation des connaissances
  • manipulation de données semi-structurées (HTML, XML, etc.)

Établissement d'accueil: Inria Paris

Encadrants:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>