Option Bioinformatique #7 : révisions

Aujourd'hui nous travaillons sur l'examen de l'année dernière pour utiliser tout ce qu'on nous avons appris précédemment.

L'examen de 2008 est composé de 5 exercices.

Le premier exercice demande d'écrire une fonction qui compte le nombre d'occurences d'une lettre dans une chaîne de caractères. En pratique cela sert à compter le nombre de bases ou d'acides aminés dans une séquence génomique ou protéique.

Le second exercice demande de créer une fonction pour lire la séquence d'un fichier au format FASTA, GenBank ou EMBL. Cela peut être fait facilement en utilisant BioPython qui utilise des fonctions dédiées à cette utilisation.

Le troisième exercice vise à utiliser ces fonctions pour extraire une séquence d'un fichier puis compter le nombre d'apparitions de chaque acide aminé dans la séquence et calculer le pourcentage d'apparitions de chaque acide aminé.

Le quatrième exercice propose d'écrire une fonction qui retourne dans une liste les positions d'un motif dans une séquence.

Le dernier exercice utilise cette fonction pour retourner la position des codons CUU, CUC, CUA et CUG qui codent pour la Leucine dans une séquence.

Logiciels utilisés :

  • IDLE, un environnement de travail Python multi-plateformes
  • BioPython, un module de Python pour travailler sur la Biologie