Integration and analysis of large scale data in chemical biology

Deghou, Samy Lyes

German Title: Integration und Auswertung riesieger Daten im Bereich chemischer Biologie

Preview

PDF, English
Download (17MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00019266
URN: urn:nbn:de:bsz:16-heidok-192661

Abstract

much lower molecular weight than macromolecules like proteins or DNA. Small molecules are grouped into different families according to their physico-chemical or functional properties, and they can be either natural (like lipids) or synthetic (like drugs). Only a staggeringly low fraction of the small molecule universe has been characterize, and very little is known about it. For instance, we know that lipids can play the role of scaffolding and energy storage compounds, and that they differently compose biological membranes. However, we don’t know if it influences some biological functions, including protein recruitment to membranes and cellular transport. Chemical biology aims at utilizing chemicals in order to explore biological systems. Advances in synthesizing big chemical libraries as well as in high-throughput screenings have led to technologies capable of studying protein-lipid interactions at large scale and in physiological conditions. Therefore, answering such questions has become possible, but it presents many new computational challenges. For instance, establishing methods capable of automatically classifying interactions as binding or non-binding requiring a minimal interaction with human experts. Making use of unsupervised clustering methods to identify clusters of lipids and proteins exhibiting similar patterns and linking them to similar biological functions. To tackle these challenges, I have developed a computational pipeline performing a technical and functional analysis on the readouts produced by the high-throughput technology LiMA. Applied to a screen focusing on 94 proteins and 122 lipid combinations yielding more than 10,000 interactions, I have demonstrated that cooperativity was a key mechanism for membrane recruitment and that it could be applied to most PH domains. Furthermore, I have identified a conserved motif conferring PH domains the ability to be recruited to organellar membranes and which is linked to cellular transport functions. Two amino acids of this motif are found mutated in some human cancer, and we predicted and confirmed that these mutations could induce discrete changes in binding affinities in vitro and protein mis-localization in vivo. These results represent milestones in the field of protein-lipid interactions. While we are progressing toward a global understanding of protein-lipid interactions, data on the bioactivities of small molecules is accumulating at a tremendous speed. In vitro data on interactions with targets are complemented by other molecular and phenotypic readouts, such as gene expression profiles or toxicity readouts. The diversity of screening technologies accompanied by big efforts to collect the resulting data in public databases have created unprecedented opportunities for chemo-informatics work to integrate these data and make new inferences. For instance, is the protein target profile of a drug correlated with a given phenotype? Can we predict the side effects of a drug based on its toxicology readouts? In this context, I have developed CART: a computational platform with which we address major chemo-informatics challenges to answer such questions. CART integrates many resources covering molecular and phenotypical readouts, and annotates sets of chemical names with these integrated resources. CART includes state-of-the-art full-text search engine technologies in order to match chemical names at a very high speed and accuracy. Importantly, CART is a scalable resource that can cope with the increasing number of new chemical annotation resources, and therefore, constitutes a major contribution to chemical biology.

Translation of abstract (German)

Das Universum von niedermolekularen Substanzen, sogenannter kleiner Moleküle, ist riesig. Kleine Moleküle charakterisieren organische chemische Substanzen, die ein sehr viel geringeres Molekulargewicht besitzen als Proteine oder DNA. Kleine Moleküle sind anhand ihrer physikalisch-chemischen oder funktionellen Eigenschaften in verschiedene Familien gruppiert und können entweder natürlichen (z.B. Lipide) oder synthetischen (z.B. Medikamente) Ursprungs sein. Nur ein äußerst geringer Teil des Universums kleiner Moleküle wurde bis jetzt charakterisiert und das Wissen darüber ist noch sehr begrenzt. Man weiß zum Beispiel, dass Lipide die Rolle von Gerüst- und Energiespeicherstoffen übernehmen können und dass sie biologische Membranen in unterschiedlicher Art zusammensetzen. Es ist jedoch nicht bekannt, ob dies in irgendeiner Weise biologische Funktionen beeinflusst, wie etwa die Rekrutierung von Proteinen zur Membran oder den zellulären Transport. Chemische Biologie zielt darauf ab Chemikalien zu benutzen, um biologische Systeme zu erforschen. Fortschritte in der Synthese großer chemischer Bibliotheken, sowie in Hochdurchsatz-Screenings haben zu Technologien geführt, die in der Lage sind Protein-Lipid Interaktionen im großen Maßstab und unter physiologischen Bedingungen zu untersuchen. Dadurch ist es ermöglicht worden derartige Fragen zu beantworten, dies bedeutet allerdings gleichzeitig neue computergestützte Herausforderungen, wie z.B. die Einführung von Methoden, die automatisch Interaktionen als bindend oder nicht-bindend klassifizieren können und dabei nur einen geringen Austausch mit Experten benötigen. Oder auch die Anwendung unüberwachter Clustertechniken zur Identifizierung von Lipid- und Proteinclustern, die ähnliche Eigenschaften aufweisen und die Verknüpfung dieser mit ähnlichen biologischen Funktionen. Um diese Herausforderungen in Angriff zu nehmen, habe ich eine computergestützte Pipeline entwickelt, die technische und funktionelle Analysen von experimentellen Ausleseergebnissen durchführt, die mit Hilfe der Hochdursatz-Technologie LIMA gewonnen wurden. Angewandt auf einen Screen, der 94 Protein- und 122 Lipidkombinationen aufweist und mehr als 10.000 Interaktionen umfasst, haben wir Kooperativität als Schlüsselmechanismus für Membranrekrutierung nachgewiesen sowie, dass dies auf die meisten PH-Domänen zutrifft. Weitergehend habe ich ein konserviertes Motiv bestimmt, dass PH-Domänen die Fähigkeit verleiht zu Organellenmembranen rekrutiert zu werden und mit zellulären Transportfunktionen verbunden ist. Zwei Aminosäuren dieses Motivs wurden in Patienten einiger Krebsarten mutiert vorgefunden. Wir haben vorausgesagt und bestätigt, dass diese Mutationen in vitro bestimmte Veränderungen der Bindungsaffinität und in vivo falsche Lokalisierungen von Proteinen verursachen können. Diese Ergebnisse stellen einen Meilenstein im Feld der Protein- Lipid Interaktionen dar. Während wir uns immer mehr einem globalen Verständnis von Protein-Lipid Interaktionen nähern, nehmen Daten über bioaktive kleine Moleküle in einer enormen Geschwindigkeit zu. In vitro-Daten über Interaktionen mit Zielmolekülen werden mit anderen molekularen und phänotypischen Ausleseergebnissen ergänzt, wie z.B. Genexpressionsprofilen oder Toxizitätsausleseergebnissen. Die Vielfalt von Screening-Technologien zusammen mit einem großen Bestreben vorhandene Daten in öffentlichen Datenbanken zusammenzuführen, haben bislang unbekannte Möglichkeiten für chemo-informatische Arbeiten geschaffen diese Daten zu integrieren und neue Erkenntnisse aus ihnen zu gewinnen. Korreliert beispielsweise das Proteinzielprofil eines Medikaments mit dem Auftreten eines bestimmten Phänotyps? Ist es möglich die Nebenwirkungen eines Medikaments anhand seiner toxikologischen Ausleseergebnisse vorherzusagen? In diesem Zusammenhang habe ich CART entwickelt: eine computergestützte Plattform, mit der großen chemo-informatischen Herausforderungen begegnet werden kann, um derartige Fragen zu beantworten. CART integriert viele Datenbanken die molekulare und phänotypische Ausleseergebnisse umfassen und annotiert chemische Namenslisten mit diesen integrierten Datenbanken. CART besitzt eine sich auf dem neusten Stand der Technik befindende Volltext-Suchmaschinentechnologie, um chemische Namen mit einer sehr schnellen Geschwindigkeit und großen Genauigkeit zuzuordnen. CART ist eine skalierbare Ressource, die für die zunehmende Anzahl neuer chemischer Annotationsquellen ausgerichtet ist und somit einen wichtigen Beitrag in der chemischen Biologie leistet.

Document type:	Dissertation
Supervisor:	Bork, Dr. Peer
Place of Publication:	Heidelberg
Date of thesis defense:	22 May 2015
Date Deposited:	18 Feb 2016 08:02
Date:	2016
Faculties / Institutes:	The Faculty of Bio Sciences > Dean's Office of the Faculty of Bio Sciences
DDC-classification:	000 Generalities, Science