Difference between revisions of "Large-scale license text recognition (internship)/fr"

From Software Heritage Wiki
Jump to: navigation, search
(Created page with "{{Internship |description=A number of free/open source software (FOSS) tools are available to automatically detect software licenses declared in source code files, e.g., [http...")
 
(add french translation)
Line 1: Line 1:
 +
(see: [[Large-scale_license_text_recognition_(internship)|english version]] of this internship description)
 +
----
 
{{Internship
 
{{Internship
|description=A number of free/open source software (FOSS) tools are available to automatically detect software licenses declared in source code files, e.g., [https://www.fossology.org/ Fossology], [https://github.com/nexB/scancode-toolkit ScanCode], [http://ninka.turingmachine.org/ Ninka].
+
|description=Plusieurs solutions open source existent pour reconnaître la licence logicielle déclarée dans un fichier source, p.ex.: [https://www.fossology.org/ Fossology], [https://github.com/nexB/scancode-toolkit ScanCode], [http://ninka.turingmachine.org/ Ninka].
Most of them rely on carefully maintained heuristics that have been tuned over many years to detect [https://spdx.org/licenses/ licenses] (FOSS or otherwise) that can be found in the wild.
+
La pluspart des ces solutions sont basées sur des heuristiques qui ont été maintenues au fil des années sur la base des [https://spdx.org/licenses/ licences] (open source ou pas) existantes.
Only relatively recently machine-learning techniques have been applied to the license-detection problem, in prototypes like [https://github.com/fossology/FOSSologyML FOSSologyML].
+
Seulement récemment les techniques d'apprentissage automatiques ont été appliquées au problème de reconnaissance des licences, avec des prototypes comme [https://github.com/fossology/FOSSologyML FOSSologyML].
The goal of this internship is to apply machine-learning techniques to a limited sub-problem of license-detection, i.e., recognizing full license texts as they are commonly found in top-level files such as <code>LICENSE</code>, <code>COPYING</code>, etc., at the scale of Software Heritage.
+
Le but de ce stage est d'appliquer des techniques d'apprentissage automatique à un sous-problème spécifique de la reconnaissance des licences: classifier un texte complet de licence (et pas seulement une déclaration courte de licence, comme on peut le trouver dans les entêtes des fichiers source), comme on peut le trouver dans des fichiers comme <code>LICENSE</code>, <code>COPYING</code>, etc., à la racine des dépôts logiciels, et de le faire à l'échelle de Software Heritage.
''All'' such files will be extracted from the archive, and suitable machine learning models will be designed and tested on the obtained corpus.
+
Un jeu de données de ces fichiers sera extrait depuis l'archive, et on expérimentera avec plusieurs techniques d'apprentissage automatique pour identifier la méthode la plus efficace et performante.
  
 
|skills=
 
|skills=
* Python development
+
* savoir développer en Python
* machine learning training and experience
+
* une expérience avec l'apprentissage automatique
* working knowledge of one or more machine learning frameworks (e.g., [https://keras.io/ Keras], [https://www.tensorflow.org/ TensorFlow], [https://scikit-learn.org/stable/ scikit-learn])
 
  
Will be considered a plus:
+
Et considéré comme un plus:
* natural language processing (NLP) training and experience
+
* une expérience avec la [https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues traitement automatique des langues (TAL)]
  
 
|mentors=
 
|mentors=
 
* Stefano Zacchiroli <zack@upsilon.cc>
 
* Stefano Zacchiroli <zack@upsilon.cc>
 
}}
 
}}

Revision as of 08:54, 18 January 2021

(see: english version of this internship description)


Context: Software Heritage is an ambitious research project whose goal is to collect, preserve in the very long term, and share the whole publicly accessible Free/Open Source Software (FOSS) in source code form.

Description: Plusieurs solutions open source existent pour reconnaître la licence logicielle déclarée dans un fichier source, p.ex.: Fossology, ScanCode, Ninka. La pluspart des ces solutions sont basées sur des heuristiques qui ont été maintenues au fil des années sur la base des licences (open source ou pas) existantes. Seulement récemment les techniques d'apprentissage automatiques ont été appliquées au problème de reconnaissance des licences, avec des prototypes comme FOSSologyML. Le but de ce stage est d'appliquer des techniques d'apprentissage automatique à un sous-problème spécifique de la reconnaissance des licences: classifier un texte complet de licence (et pas seulement une déclaration courte de licence, comme on peut le trouver dans les entêtes des fichiers source), comme on peut le trouver dans des fichiers comme LICENSE, COPYING, etc., à la racine des dépôts logiciels, et de le faire à l'échelle de Software Heritage. Un jeu de données de ces fichiers sera extrait depuis l'archive, et on expérimentera avec plusieurs techniques d'apprentissage automatique pour identifier la méthode la plus efficace et performante.

Desirable skills to obtain this internship:

  • savoir développer en Python
  • une expérience avec l'apprentissage automatique

Et considéré comme un plus:

Workplace: on site at Inria Paris (contact mentors for remote opportunities)

Environment: you will work shoulder to shoulder with all members of the Software Heritage team, and you will have a chance to witness from within the construction of the great library of source code.

Internship mentors:

  • Stefano Zacchiroli <zack@upsilon.cc>

See also