Difference between revisions of "Large-scale license text recognition (internship)/fr"

From Software Heritage Wiki
Jump to navigation Jump to search
m
 
(One intermediate revision by the same user not shown)
Line 13: Line 13:
 
* connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., [https://keras.io/ Keras], [https://www.tensorflow.org/ TensorFlow], [https://scikit-learn.org/stable/ scikit-learn])
 
* connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., [https://keras.io/ Keras], [https://www.tensorflow.org/ TensorFlow], [https://scikit-learn.org/stable/ scikit-learn])
  
Et considéré comme un plus:
+
Est considéré comme un plus:
 
* une expérience avec la [https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues traitement automatique des langues (TAL)]
 
* une expérience avec la [https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues traitement automatique des langues (TAL)]
  
 
|mentors=
 
|mentors=
* Stefano Zacchiroli <zack@upsilon.cc>
+
* Stefano Zacchiroli <zack@upsilon.cc> (Zack on [[Matrix]])
 
}}
 
}}

Latest revision as of 15:11, 4 February 2024

(see: english version of this internship description)


Context: Software Heritage is an ambitious initiative whose goal is to collect, preserve forever, and make publicly available the entire body of software, in the preferred form for making modifications to it.

Description: Plusieurs solutions open source existent pour reconnaître la licence logicielle déclarée dans un fichier source, p.ex.: Fossology, ScanCode, Ninka. La pluspart des ces solutions sont basées sur des heuristiques qui ont été maintenues au fil des années sur la base des licences (open source ou pas) existantes. Seulement récemment les techniques d'apprentissage automatiques ont été appliquées au problème de reconnaissance des licences, avec des prototypes comme FOSSologyML. Le but de ce stage est d'appliquer des techniques d'apprentissage automatique à un sous-problème spécifique de la reconnaissance des licences: classifier un texte complet de licence (et pas seulement une déclaration courte de licence, comme on peut le trouver dans les entêtes des fichiers source), comme on peut le trouver dans des fichiers comme LICENSE, COPYING, etc., à la racine des dépôts logiciels, et de le faire à l'échelle de Software Heritage. Un jeu de données de ces fichiers sera extrait depuis l'archive, et on expérimentera avec plusieurs techniques d'apprentissage automatique pour identifier la méthode la plus efficace et performante.

Desirable skills to obtain this internship:

  • savoir développer en Python
  • une expérience avec l'apprentissage automatique
  • connaissance de un ou plusieurs framework d'apprentissage automatique (p.ex., Keras, TensorFlow, scikit-learn)

Est considéré comme un plus:

Workplace: on site at Inria Paris (contact mentors for remote opportunities)

Environment: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the great library of source code.

Internship mentors:

  • Stefano Zacchiroli <zack@upsilon.cc> (Zack on Matrix)

See also