Difference between revisions of "Crawling project metadata (internship)"

From Software Heritage Wiki
Jump to navigation Jump to search
Line 19: Line 19:
 
* modélisation et représentation des connaissances
 
* modélisation et représentation des connaissances
 
* manipulation de données semi-structurées (HTML, XML, etc.)
 
* manipulation de données semi-structurées (HTML, XML, etc.)
 +
* des notions de classification automatique et machine learning pourraient être utiles, mais ne sont pas indispensables
 +
  
 
'''Établissement d'accueil''': Inria Paris
 
'''Établissement d'accueil''': Inria Paris
 +
 +
'''Environnement''': vous serez en immersion totale avec l'équipe qui construit l'archive de Software Heritage, et vous aurez la possibilité d'observer de près la construction d'un projet d'envergure mondiale.
  
 
'''Encadrants''':
 
'''Encadrants''':

Revision as of 10:14, 24 November 2016

Construire le web sémantique des projets logiciels libres

Contexte: Software Heritage, projet de recherche de grande envergure ayant comme but la récupération, l'archivage à très long terme, et le partage de la totalité du Logiciel Libre publiquement accessible en format code source.

Description: Ils existent des millions de projets de logiciels libres, hébergés sur des centaines de plateformes différentes, et souvent dupliqués. Pour naviguer dans ce graphe de projets logiciels, il est important de disposer de métadonnées pertinentes, et plusieurs efforts existent, autour de technologies du Web Sémantique comme DOAP ou schema.org. Le but de ce stage est de collecter les métadonnées existantes, les uniformiser, et les intégrer dans une des plus grandes collections de logiciels libres au monde.

Connaissances souhaitées pour accéder au stage:

  • information retrieval
  • modélisation et représentation des connaissances
  • manipulation de données semi-structurées (HTML, XML, etc.)
  • des notions de classification automatique et machine learning pourraient être utiles, mais ne sont pas indispensables


Établissement d'accueil: Inria Paris

Environnement: vous serez en immersion totale avec l'équipe qui construit l'archive de Software Heritage, et vous aurez la possibilité d'observer de près la construction d'un projet d'envergure mondiale.

Encadrants:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>