Difference between revisions of "Large-scale license text recognition (internship)/fr"

From Software Heritage Wiki
Jump to: navigation, search
m
Line 13: Line 13:
 
* connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., [https://keras.io/ Keras], [https://www.tensorflow.org/ TensorFlow], [https://scikit-learn.org/stable/ scikit-learn])
 
* connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., [https://keras.io/ Keras], [https://www.tensorflow.org/ TensorFlow], [https://scikit-learn.org/stable/ scikit-learn])
  
Et considéré comme un plus:
+
Est considéré comme un plus:
 
* une expérience avec la [https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues traitement automatique des langues (TAL)]
 
* une expérience avec la [https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues traitement automatique des langues (TAL)]
  

Revision as of 08:58, 18 January 2021

(see: english version of this internship description)


Context: Software Heritage is an ambitious research project whose goal is to collect, preserve in the very long term, and share the whole publicly accessible Free/Open Source Software (FOSS) in source code form.

Description: Plusieurs solutions open source existent pour reconnaître la licence logicielle déclarée dans un fichier source, p.ex.: Fossology, ScanCode, Ninka. La pluspart des ces solutions sont basées sur des heuristiques qui ont été maintenues au fil des années sur la base des licences (open source ou pas) existantes. Seulement récemment les techniques d'apprentissage automatiques ont été appliquées au problème de reconnaissance des licences, avec des prototypes comme FOSSologyML. Le but de ce stage est d'appliquer des techniques d'apprentissage automatique à un sous-problème spécifique de la reconnaissance des licences: classifier un texte complet de licence (et pas seulement une déclaration courte de licence, comme on peut le trouver dans les entêtes des fichiers source), comme on peut le trouver dans des fichiers comme LICENSE, COPYING, etc., à la racine des dépôts logiciels, et de le faire à l'échelle de Software Heritage. Un jeu de données de ces fichiers sera extrait depuis l'archive, et on expérimentera avec plusieurs techniques d'apprentissage automatique pour identifier la méthode la plus efficace et performante.

Desirable skills to obtain this internship:

  • savoir développer en Python
  • une expérience avec l'apprentissage automatique
  • connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., Keras, TensorFlow, scikit-learn)

Est considéré comme un plus:

Workplace: on site at Inria Paris (contact mentors for remote opportunities)

Environment: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the great library of source code.

Internship mentors:

  • Stefano Zacchiroli <zack@upsilon.cc>

See also