The Vault (internship)

From Software Heritage Wiki
Jump to navigation Jump to search

Mechanisme de recuperation du contenu de Software Heritage

(english description follows)

Contexte: Software Heritage, projet de recherche de grande envergure ayant comme but la récupération, l'archivage à très long terme, et le partage de la totalité du Logiciel Libre publiquement accessible en format code source.

Description: L'archive de Software Heritage permet actuellement de vérifier si un contenu est présent ou pas (p.ex., via son checksum), mais pas des récupérer (p.ex., via téléchargement) les contenus disponibles. Le but de ce stage et d'implementer le Software Heritage Vault, pour permettre de préparer (p.ex. sous forme de git bundle) et ensuite télécharger les contenus présents dans l'archive.

Connaissances souhaitées pour accéder au stage:

  • HTTP et API REST
  • environnement Linux
  • programmation
  • bases de données
  • la familiarité avec Python et PostgreSQL pourra être un plus significatif

Établissement d'accueil: Inria Paris

Environnement: vous serez en immersion totale avec l'équipe qui construit l'archive de Software Heritage, et vous aurez la possibilité d'observer de près la construction d'un projet d'envergure mondiale.

Encadrants:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>


The Software Heritage Vault

Context: Software Heritage is an ambitious research project whose goal is to collect, preserve in the very long term, and share the whole publicly accessible Free/Open Source Software (FOSS) in source code form.

Description: The Software Heritage archive currently allows to check whether a given content (e.g., a file) is present in it (e.g., via one or several of its SHA* checksums), but not to retrieve available content (e.g., via download). The goal of this internship is to fully implement the Software Heritage Vault, which is a mechanism that allows to prepare (e.g., in git bundle format) and subsequently download source code content available in the archive.

Desirable skills to obtain this internship:

  • HTTP protocol and REST API paradigm
  • GNU/Linux environment
  • Python development
  • RDBMS
  • working knowledge of PostgreSQL would be a plus

Workplace: Inria Paris

Environnement: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the ultimate source code archive.

Internship mentors:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>