Comment les ordinateurs aident les biologistes à briser les secrets de la vie

Une fois que le génome humain de trois milliards de lettres a été séquencé, nous nous sommes précipités dans un nouveau "omique"Ère de la recherche biologique. Les scientifiques font maintenant la course pour séquencer les génomes (tous les gènes) ou protéomes (toutes les protéines) de divers organismes - et dans le processus sont en train de compiler des quantités massives de données.

Par exemple, un scientifique peut utiliser des outils «omiques», tels que le séquençage de l'ADN, pour déterminer quels gènes humains sont affectés par une infection grippale virale. Mais parce que le génome humain a au moins des gènes 25,000 au total, le nombre de gènes modifiés, même dans un scénario aussi simple pourrait potentiellement être dans les milliers.

Bien que le séquençage et l'identification des gènes et des protéines leur donne un nom et une place, cela ne nous dit pas ce qu'ils font. Nous devons comprendre comment ces gènes, protéines et tous les trucs entre interagir dans différents processus biologiques.

Aujourd'hui, même les expériences de base produisent de grandes données, et l'un des plus grands défis est de démêler les résultats pertinents du bruit de fond. Les ordinateurs nous aident à surmonter cette montagne de données; mais ils peuvent même aller plus loin que cela, nous aidant à formuler des hypothèses scientifiques et à expliquer de nouveaux processus biologiques. La science des données, par essence, permet une recherche biologique de pointe.

Ordinateurs à la rescousse

Les ordinateurs sont particulièrement qualifiés pour gérer des ensembles de données massifs, car ils peuvent en même temps garder une trace de toutes les conditions importantes nécessaires à l'analyse.


graphique d'abonnement intérieur


Bien qu'ils pourrait refléter des erreurs humaines ils sont programmés avec, les ordinateurs peuvent traiter de grandes quantités de données de manière efficace et ils ne sont pas biaisés vers le familier, comme les chercheurs humains pourraient être.

Les ordinateurs peuvent également être enseignés pour rechercher des modèles spécifiques dans des ensembles de données expérimentales - un concept appelé apprentissage automatique, d'abord proposé dans les 1950, plus particulièrement par le mathématicien Alan Turing. Un algorithme qui a appris les modèles à partir d'ensembles de données peut ensuite être invité à faire des prédictions basées sur de nouvelles données qu'il n'a jamais rencontrées auparavant.

L'apprentissage automatique a révolutionné la recherche biologique puisque nous pouvons maintenant utiliser de grands ensembles de données et demander aux ordinateurs d'aider à comprendre la biologie sous-jacente.

La formation des ordinateurs à penser en simulant les processus cérébraux

Nous avons utilisé un type intéressant d'apprentissage automatique, appelé réseau neuronal artificiel (RNA), dans notre propre laboratoire. Les cerveaux sont des réseaux de neurones fortement interconnectés, qui communiquent en envoyant des impulsions électriques à travers le câblage neuronal. De même, un ANN simule dans l'ordinateur un réseau de neurones qui s'allument et s'éteignent en réponse aux signaux d'autres neurones.

En appliquant des algorithmes qui imitent les processus de vrais neurones, nous pouvons faire en sorte que le réseau apprenne à résoudre de nombreux types de problèmes. Google utilise un ANN puissant pour son maintenant célèbre Projet Deep Dream où les ordinateurs peuvent classer et même créer des images.

Notre groupe étudie le système immunitaire, dans le but de trouver de nouvelles thérapies pour le cancer. Nous avons utilisé des modèles de calcul ANN pour étudier les codes protéiques de surface courts que nos cellules immunitaires utilisent pour déterminer si quelque chose est étranger à notre corps et doit donc être attaqué. Si nous comprenons mieux comment nos cellules immunitaires (telles que les lymphocytes T) différencient les cellules normales / auto et anormales / étrangères, nous pouvons concevoir de meilleurs vaccins et thérapies.

Nous avons analysé les catalogues publiquement disponibles de milliers de codes de protéines identifiés par les chercheurs au fil des ans. Nous avons divisé ce grand ensemble de données en deux: les codes normaux d'auto-protéine dérivés de cellules humaines en bonne santé, et les codes protéiques anormaux dérivés de virus, de tumeurs et de bactéries. Puis nous nous sommes tournés vers un réseau neuronal artificiel développé dans notre laboratoire.

Une fois que nous avons introduit les codes de protéines dans l'ANN, l'algorithme a pu identifier différences fondamentales entre les codes protéiques normaux et anormaux. Il serait difficile pour les gens de garder une trace de ce genre de phénomènes biologiques - il y a littéralement des milliers de ces codes de protéines à analyser dans le grand ensemble de données. Il faut une machine pour résoudre ces problèmes complexes et définir une nouvelle biologie.

Prédictions par apprentissage automatique

L'application la plus importante de l'apprentissage automatique en biologie est son utilité pour faire des prédictions basées sur des données volumineuses. Les prédictions informatiques peuvent donner un sens aux données volumineuses, tester des hypothèses et économiser du temps et des ressources.

Par exemple, dans notre domaine de la biologie des lymphocytes T, savoir quels codes protéiques viraux cibler est critique dans le développement de vaccins et de traitements. Mais il y a tellement de codes protéiques individuels d'un virus donné qu'il est très coûteux et difficile de tester chacun d'eux.

Au lieu de cela, nous avons formé le réseau de neurones artificiels pour aider la machine à apprendre toutes les caractéristiques biochimiques importantes des deux types de codes de protéines - normal et anormal. Ensuite, nous avons demandé au modèle de «prédire» quels nouveaux codes de protéines virales ressemblaient à la catégorie «anormale» et pouvaient être observés par les lymphocytes T et, par conséquent, le système immunitaire. Nous avons testé le modèle ANN sur différentes protéines virales qui n'ont jamais été étudiées auparavant.

Effectivement, comme un étudiant diligent désireux de plaire à l'enseignant, le réseau de neurones était capable d'identifier avec précision la majorité de ces codes de protéines activatrices de lymphocytes T dans ce virus. Nous avons également testé expérimentalement les codes de protéines marqués pour valider l'exactitude des prédictions de l'ANN. En utilisant ce modèle de réseau neuronal, un scientifique peut ainsi prédire rapidement tous les codes de protéines courts importants d'un virus dangereux et les tester pour développer un traitement ou un vaccin, au lieu de deviner et de les tester individuellement.

Implémentation intelligente de l'apprentissage automatique

Grâce à un affinement constant, la science des données volumineuses et l'apprentissage automatique deviennent de plus en plus indispensables à toute forme de recherche scientifique. Les possibilités d'utiliser des ordinateurs pour former et prédire en biologie sont presque infinies. De déterminer quelle combinaison de biomarqueurs est la meilleure pour détecter une maladie à comprendre pourquoi seulement certains patients bénéficient d'un traitement contre le cancer particulier, l'exploitation de grands ensembles de données à l'aide d'ordinateurs est devenue un outil précieux pour la recherche.

Bien sûr, il y a des limites. Le plus gros problème avec la science des données volumineuses réside dans les données elles-mêmes. Si les données obtenues par des études -omiques sont défectueuses au départ, ou basées sur une science de mauvaise qualité, les machines seront formées sur de mauvaises données - conduisant à mauvaises prédictions. L'étudiant est seulement aussi bon que l'enseignant.

Parce que les ordinateurs ne sont pas sensibles (encore), ils peuvent, dans leur quête de modèles, les inventer même s’ils n’existent pas, donnant lieu à de nouvelles données erronées et à une science non reproductible.

Et certains chercheurs ont soulevé des préoccupations au sujet des ordinateurs devenant boîtes noires de données pour les scientifiques qui ne comprennent pas clairement les manipulations et les machinations qu'ils effectuent en leur nom.

En dépit de ces problèmes, les avantages du big data et des machines continueront à faire d'eux des partenaires précieux dans la recherche scientifique. Avec des mises en garde à l'esprit, nous sommes uniquement en mesure de comprendre la biologie à travers les yeux d'une machine.

A propos de l'auteurThe Conversation

Sri Krishna, candidat au doctorat, Conception biologique, École de génie biologique et des systèmes de santé, Arizona State University et Diego Chowell, doctorant en mathématiques appliquées, Arizona State University

Cet article a été publié initialement le The Conversation. Lis le article original.


Livre connexe:

at Marché InnerSelf et Amazon