Large-scale license text recognition (internship)/fr
(see: english version of this internship description)
Context: Software Heritage is an ambitious initiative whose goal is to collect, preserve forever, and make publicly available the entire body of software, in the preferred form for making modifications to it.
Description: Plusieurs solutions open source existent pour reconnaître la licence logicielle déclarée dans un fichier source, p.ex.: Fossology, ScanCode, Ninka.
La pluspart des ces solutions sont basées sur des heuristiques qui ont été maintenues au fil des années sur la base des licences (open source ou pas) existantes.
Seulement récemment les techniques d'apprentissage automatiques ont été appliquées au problème de reconnaissance des licences, avec des prototypes comme FOSSologyML.
Le but de ce stage est d'appliquer des techniques d'apprentissage automatique à un sous-problème spécifique de la reconnaissance des licences: classifier un texte complet de licence (et pas seulement une déclaration courte de licence, comme on peut le trouver dans les entêtes des fichiers source), comme on peut le trouver dans des fichiers comme LICENSE
, COPYING
, etc., à la racine des dépôts logiciels, et de le faire à l'échelle de Software Heritage.
Un jeu de données de ces fichiers sera extrait depuis l'archive, et on expérimentera avec plusieurs techniques d'apprentissage automatique pour identifier la méthode la plus efficace et performante.
Desirable skills to obtain this internship:
- savoir développer en Python
- une expérience avec l'apprentissage automatique
- connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., Keras, TensorFlow, scikit-learn)
Est considéré comme un plus:
- une expérience avec la traitement automatique des langues (TAL)
Workplace: on site at Inria Paris (contact mentors for remote opportunities)
Environment: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the great library of source code.
Internship mentors:
- Stefano Zacchiroli <zack@upsilon.cc> (Zack on Matrix)