PhyML, un logiciel pour remonter la piste du coronavirus
La phylogénie, en tant que discipline scientifique, représente l’étude des relations de parentés évolutives entre espèces et, plus généralement, entre organismes vivants. En définissant un cadre méthodologique pour effectuer et analyser ces relations, la phylogénie permet d’avoir une vision, globale de la biodiversité, permettant de mieux comprendre comment celle-ci varie en fonction des changements environnementaux.
Ainsi, la reconstruction de l’arbre phylogénétique des premiers génomes du virus SARS-CoV-2 a pu être obtenue grâce au logiciel PhyML.
Ce logiciel voit le jour au début des années 2000, grâce aux travaux de thèse de Stéphane Guindon (encadrés par Olivier Gascuel), chargé de recherche au laboratoire d’informatique, de robotique et de microélectronique de Montpellier, rattaché au CNRS et à l’université.
PhyML est un logiciel qui compare les séquences d’ADN, pour en tirer ces fameux arbres phylogénétiques, et expliquer l’évolution qui a permis leur apparition. Lorsque l’on applique cet outil aux virus, il permet de retracer leurs généalogies et savoir, par exemple, si les souches en circulation dans un pays sont issues d’une seule transmission ou de multiples introductions du virus.
PhyML n’est pas le premier logiciel de reconstruction d’arbres phylogénétiques, par contre, il a été le premier à pouvoir traiter des jeux de données constitués de plusieurs milliers de séquences et reconstruire des phylogénies fiables.
L’analyse de ces séquences, grâce aux algorithmes ingénieux implémentés au sein de ce logiciel, évalue la probabilité d’observer les séquences d’un échantillon.
« Les différences que l’on observe, sur des portions d’un même gène ou d’un chromosome, proviennent de l’accumulation de mutations de l’ADN au cours de l’évolution. On reconstruit alors l’arbre évolutif, ou arbre phylogénétique, en se basant sur l’idée que plus des séquences sont similaires, moins leur ancêtre commun est ancien. » détaille Stéphane Guindon.
PhyML aujourd’hui c’est 100 000 lignes de code et une communauté considérable qui l’alimente de jour en jour.
Quel avenir pour PhyML maintenant ?
Une des objectif pour les années à venir, est d’intégrer PhyML dans un « tableau de bord » de suivi des épidémies. Le but étant de visualiser les arbres phylogénétiques de manière dynamique, pour les combiner avec différentes informations géographiques, ainsi que d’autres données disponibles à propos d’une épidémie.