Offre de thèse: Méthodes numériques pour le criblage d’échantillons archéologiques et paléontologiques

Les progrès récents de la biologie moléculaire ont ouvert la voie à l’accès à l’information génétique contenue dans les échantillons d’organismes anciens et renouvellent approches d’identification des espèces utilisées en archéologie ou en paléontologie. La paléogénomique est à la pointe de ces techniques et a connu un développement spectaculaire. Cependant, ce domaine reste limité par la fragilité de la molécule d’ADN. En revanche, le protéome constitué des protéines anciennes résiduelles contenues dans le matériau tend à présenter une plus grande stabilité dans le temps, ce qui permet d’identifier des espèces à partir d’échantillons remontant à des centaines de milliers d’années [1]. En outre, il s’agit d’une technique rapide, économique et peu invasive. La paléoprotéomique est ainsi un complément intéressant de la paléogénomique, et progresse actuellement à un rythme rapide. Une des premières réalisations a été le criblage à grande échelle des fossiles de la grotte de Denisova à la recherche d’ossements humains à partir du collagène présent [2]. La méthode a depuis été appliquée à un large éventail d’animaux, de périodes et d’écosystèmes [3,4,5]. Il existe aujourd’hui une tendance de fond d’étendre la paléoprotéomique à l’exploration d’autres matériaux, tels que l’émail, la coquille d’oeuf, l’ivoire, les cheveux ou les poils, en utilisant d’autres protéines que le collagène comme marqueurs, élargissant ainsi les possibilités d’application de la technique. Dans ce contexte, la disponibilité de méthodes fiables et efficaces pour l’analyse automatique des données devient cruciale. Il s’agit de données de spectres de masses, issus soit d’instruments MS ou MS/MS. Les outils bioinformatiques existants sont très parcellaires, et les travaux préliminaires présentés dans [6,7] montrent toute la complexité du problème. Il existe donc un réel besoin de fournir à la communauté scientifique un cadre complet spécifiquement conçu pour relever les défis de l’identification des espèces dans les données protéomiques anciennes. C’est l’objet de ce projet de thèse. Plus précisément, le but est d’introduire un cadre formel générique pour manipuler les spectres de masses et les analyser dans des conditions diversifiées.

Cela comprend les trois grandes questions suivantes:
● Proposer des algorithmes dédiés au pré-traitement des spectres MALDI
● Introduire la notion de ‘spectre modèle théorique’, puis proposer des algorithmes pour la génération de spectres théoriques à partir de données de séquences, complètes ou incomplètes, ou à partir de données de masses.
● Proposer des algorithmes d’identification d’espèces à travers la comparaison de spectres expérimentaux et des spectres théoriques.

Directeur-e-s:
● Fabrice BRAY (MSAP, ingénieur de recherche CNRS, HDR)
● Hélène TOUZET (CRIStAL équipe BONSAI, DR CNRS, HDR)

Encadrante:
● Julie Jacques (CRIStAL équipe ORKAD, MCF