Expand archive coverage to other popular code hosting platforms (internship)

From Software Heritage Wiki
Jump to navigation Jump to search

Sauvegarder Bitbucket, GitLab, etc. dans Software Heritage

(english description follows)

Contexte: Software Heritage, projet de recherche de grande envergure ayant comme but la récupération, l'archivage à très long terme, et le partage de la totalité du Logiciel Libre publiquement accessible en format code source.

Description: L'archive logiciel de Software Heritage contient actuellement une copie complète et à jour de GitHub, mais pas encore des code source hébergé par d'autres plateformes des développement collaboratif, comme notamment BitBucket ou GitLab. Le but de ce stage est d'automatiser le processus de recuperation et d'injection des dépôts (Git au autres logiciel de gestion de versions) hébergés sur une ou plusieurs parmi les plateformes de développement collaboratif les plus populaires pas encore supportées par Software Heritage.

Connaissances souhaitées pour accéder au stage:

  • connaissance (en tant qu'utilisateur) de BitBucket et/ou GitLab
  • HTTP, API REST, JSON
  • la familiarite avec Python pourra être un plus

Établissement d'accueil: Inria Paris

Environnement: vous serez en immersion totale avec l'équipe qui construit l'archive de Software Heritage, et vous aurez la possibilité d'observer de près la construction d'un projet d'envergure mondiale.

Encadrants:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>


Expand archive coverage to other popular code hosting platforms

Context: Software Heritage is an ambitious research project whose goal is to collect, preserve in the very long term, and share the whole publicly accessible Free/Open Source Software (FOSS) in source code form.

Description: The Software Heritage archive currently contains a full, up-to-date mirror of GitHub, but not yet source code hosted on other popular collaborative development platformes, such as BitBucket or GitLab. The goal of this internship is to fully automate the process of collection and ingestion of source code repositories (Git or other VCS) hosted on one or more among the popular code hosting platforms that aren't yet supported by Software Heritage.

Desirable skills to obtain this internship:

Workplace: Inria Paris

Environnement: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the ultimate source code archive.

Internship mentors:

  • Roberto Di Cosmo <roberto@dicosmo.org>
  • Stefano Zacchiroli <zack@upsilon.cc>