Previsione della struttura proteica de novo - De novo protein structure prediction

Nella biologia computazionale , la predizione de novo della struttura proteica si riferisce a un processo algoritmico mediante il quale viene prevista la struttura terziaria della proteina dalla sua sequenza primaria di amminoacidi . Il problema stesso ha occupato scienziati di spicco per decenni pur rimanendo irrisolto. Secondo Science , il problema rimane uno dei 125 principali problemi in sospeso nella scienza moderna. Al momento, alcuni dei metodi di maggior successo hanno una ragionevole probabilità di prevedere le pieghe di piccole proteine ​​a dominio singolo entro 1,5 angstrom sull'intera struttura.

I metodi de novo tendono a richiedere vaste risorse di calcolo e quindi sono stati eseguiti solo per proteine ​​relativamente piccole. La modellazione della struttura della proteina de novo si distingue dalla modellazione basata su modello (TBM) per il fatto che non viene utilizzato alcun omologo risolto per la proteina di interesse, rendendo gli sforzi per prevedere la struttura della proteina dalla sequenza di amminoacidi estremamente difficili. La previsione della struttura proteica de novo per proteine ​​più grandi richiederà algoritmi migliori e risorse computazionali più grandi come quelle offerte da potenti supercomputer (come Blue Gene o MDGRAPE-3) o progetti di calcolo distribuito (come Folding @ home , Rosetta @ home , the Human Proteome Folding Project , o Nutritious Rice for the World ). Sebbene le barriere computazionali siano vaste, i potenziali benefici della genomica strutturale (mediante metodi predetti o sperimentali) in campi come la medicina e la progettazione di farmaci rendono la previsione della struttura de novo un campo di ricerca attivo.

sfondo

Attualmente, il divario tra sequenze proteiche note e strutture proteiche confermate è immenso. All'inizio del 2008, solo l'1% circa delle sequenze elencate nel database UniProtKB corrispondeva a strutture nel Protein Data Bank (PDB), lasciando un divario tra sequenza e struttura di circa cinque milioni. Le tecniche sperimentali per determinare la struttura terziaria hanno dovuto affrontare seri colli di bottiglia nella loro capacità di determinare strutture per particolari proteine. Ad esempio, mentre la cristallografia a raggi X ha avuto successo nel cristallizzare circa 80.000 proteine ​​citosoliche, ha avuto molto meno successo nel cristallizzare le proteine ​​di membrana - circa 280. Alla luce dei limiti sperimentali, ideare programmi per computer efficienti per colmare il divario tra sequenza nota e si ritiene che la struttura sia l'unica opzione fattibile.

I metodi di predizione della struttura proteica de novo tentano di prevedere le strutture terziarie da sequenze basate su principi generali che governano l' energetica del ripiegamento delle proteine e / o le tendenze statistiche delle caratteristiche conformazionali acquisite dalle strutture native, senza l'uso di modelli espliciti . La ricerca sulla previsione della struttura de novo si è concentrata principalmente su tre aree: rappresentazioni alternative a bassa risoluzione delle proteine, funzioni energetiche accurate e metodi di campionamento efficienti.

Un paradigma generale per la predizione de novo prevede il campionamento dello spazio di conformazione , guidato da funzioni di punteggio e altri bias dipendenti dalla sequenza in modo tale da generare un ampio insieme di strutture candidate ("esca"). Le conformazioni di tipo nativo vengono quindi selezionate da queste esche utilizzando il punteggio funzioni così come il clustering conformer. Il perfezionamento ad alta risoluzione viene talvolta utilizzato come passaggio finale per mettere a punto strutture simili a nativi. Esistono due classi principali di funzioni di punteggio. Le funzioni basate sulla fisica si basano su modelli matematici che descrivono aspetti fisica dell'interazione molecolare Le funzioni basate sulla conoscenza sono formate con modelli statistici che catturano aspetti delle proprietà delle conformazioni proteiche native.

La sequenza degli amminoacidi determina la struttura terziaria delle proteine

Diverse linee di evidenza sono state presentate a favore dell'idea che la sequenza della proteina primaria contenga tutte le informazioni necessarie per la struttura proteica tridimensionale complessiva, rendendo possibile l'idea di una predizione della proteina de novo. In primo luogo, le proteine ​​con funzioni diverse di solito hanno sequenze di amminoacidi differenti. In secondo luogo, diverse malattie umane diverse, come la distrofia muscolare di Duchenne, possono essere collegate alla perdita della funzione proteica derivante da un cambiamento di un solo amminoacido nella sequenza primaria. Terzo, proteine ​​con funzioni simili in molte specie diverse spesso hanno sequenze di amminoacidi simili. L'ubiquitina, ad esempio, è una proteina coinvolta nella regolazione della degradazione di altre proteine; la sua sequenza amminoacidica è quasi identica nelle specie separate come Drosophila melanogaster e Homo sapiens . Quarto, mediante esperimenti mentali, si può dedurre che il ripiegamento proteico non deve essere un processo completamente casuale e che le informazioni necessarie per il ripiegamento devono essere codificate all'interno della struttura primaria. Ad esempio, se assumiamo che ciascuno di 100 residui amminoacidici all'interno di un piccolo polipeptide potrebbe assumere in media 10 diverse conformazioni, dando 10 ^ 100 diverse conformazioni per il polipeptide. Se una possibile conferma fosse testata ogni 10 ^ -13 secondi, sarebbero necessari circa 10 ^ 77 anni per campionare tutte le possibili conformazioni. Tuttavia, le proteine ​​sono adeguatamente piegate all'interno del corpo su scale temporali brevi tutto il tempo, il che significa che il processo non può essere casuale e, quindi, può essere potenzialmente modellato.

Una delle più forti linee di prova per la supposizione che tutte le informazioni rilevanti necessarie per codificare la struttura terziaria delle proteine ​​si trovino nella sequenza primaria è stata dimostrata negli anni '50 da Christian Anfinsen . In un esperimento classico, ha dimostrato che la ribonucleasi A potrebbe essere completamente denaturata essendo immersa in una soluzione di urea (per interrompere i legami idrofobici stabilizzanti) in presenza di un agente riducente (per scindere i legami disolfuro stabilizzanti). Dopo la rimozione della proteina da questo ambiente, la proteina ribonucleasi denaturata e priva di funzione ha riavvolto spontaneamente e ha riacquistato la funzione, dimostrando che la struttura terziaria della proteina è codificata nella sequenza amminoacidica primaria. Se la proteina si fosse riformata in modo casuale, si sarebbero potute formare oltre cento diverse combinazioni di quattro legami disolfuro. Tuttavia, nella maggior parte dei casi le proteine ​​richiederanno la presenza di chaperon molecolari all'interno della cellula per un corretto ripiegamento. La forma complessiva di una proteina può essere codificata nella sua struttura amminoacidica, ma il suo ripiegamento può dipendere da chaperon per assistere nel ripiegamento.

Requisiti di modellazione De Novo di successo

I predittori di conformazione de novo di solito funzionano producendo conformazioni candidate (esche) e quindi scegliendo tra loro in base alla loro stabilità termodinamica e allo stato energetico. I predittori di maggior successo avranno i seguenti tre fattori in comune:

1) Una precisa funzione energetica che corrisponde allo stato più termodinamicamente stabile alla struttura nativa di una proteina

2) Un metodo di ricerca efficiente in grado di identificare rapidamente stati di bassa energia attraverso la ricerca conformazionale

3) La possibilità di selezionare modelli simili a quelli nativi da una raccolta di strutture esca

I programmi de novo cercheranno lo spazio tridimensionale e, nel processo, produrranno conformazioni proteiche candidate. Quando una proteina si avvicina al suo stato nativo correttamente piegato, l'entropia e l'energia libera diminuiranno. Utilizzando queste informazioni, i predittori de novo possono discriminare tra esche. In particolare, i programmi de novo selezioneranno possibili conferme con energie libere inferiori - che hanno maggiori probabilità di essere corrette rispetto a quelle strutture con energie libere più elevate. Come affermato da David A. Baker riguardo a come funziona il suo predittore Rosetta de novo, "durante il ripiegamento, ogni segmento locale della catena sfarfalla tra un diverso sottoinsieme di conformazioni locali ... il ripiegamento alla struttura nativa si verifica quando le conformazioni adottate dal locale segmenti e i loro orientamenti relativi consentono ... caratteristiche a bassa energia delle strutture proteiche native. Nell'algoritmo di Rosetta ... il programma cerca quindi la combinazione di queste conformazioni locali che ha l'energia complessiva più bassa. "

Tuttavia, alcuni metodi de novo funzionano prima enumerando l'intero spazio conformazionale utilizzando una rappresentazione semplificata di una struttura proteica, quindi selezionando quelli che hanno più probabilità di essere nativi. Un esempio di questo approccio è quello basato sulla rappresentazione delle pieghe proteiche utilizzando reticoli tetraedrici e sulla costruzione di tutti i modelli di atomi sopra tutte le possibili conformazioni ottenute utilizzando la rappresentazione tetraedrica. Questo approccio è stato utilizzato con successo al CASP3 per prevedere un ripiegamento proteico la cui topologia non era stata osservata prima dal team di Michael Levitt.

Sviluppando il programma QUARK, Xu e Zhang hanno dimostrato che la struttura ab initio di alcune proteine ​​può essere costruita con successo attraverso un campo di forza basato sulla conoscenza.

Le conformazioni proteiche correttamente piegate (strutture native) hanno energie libere inferiori rispetto alle strutture parzialmente piegate o primarie. I computer cercano queste conformazioni perché indicano una piegatura corretta.

Strategie di previsione delle proteine

Se una proteina di struttura terziaria nota condivide almeno il 30% della sua sequenza con un potenziale omologo di struttura indeterminata, possono essere utilizzati metodi comparativi che sovrappongono la struttura presunta sconosciuta con il noto per prevedere la probabile struttura dell'ignoto. Tuttavia, al di sotto di questa soglia vengono utilizzate altre tre classi di strategie per determinare la possibile struttura da un modello iniziale: predizione della proteina ab initio, riconoscimento della piega e threading.

  1. Metodi ab initio: nei metodi ab initio, uno sforzo iniziale per chiarire le strutture secondarie (alfa elica, beta foglio, beta turno, ecc.) Dalla struttura primaria viene effettuato utilizzando parametri fisico-chimici e algoritmi di rete neurale. Da quel punto, gli algoritmi prevedono il ripiegamento terziario. Uno svantaggio di questa strategia è che non è ancora in grado di incorporare le posizioni e l'orientamento delle catene laterali degli amminoacidi.
  2. Previsione del piegamento: nelle strategie di riconoscimento della piega, viene prima effettuata una previsione della struttura secondaria e quindi confrontata con una libreria di pieghe proteiche note, come CATH o SCOP, o con quella che è nota come "tavola periodica" di possibili forme di struttura secondaria. Un punteggio di confidenza viene quindi assegnato alle probabili corrispondenze.
  3. Filettatura: nelle strategie di filettatura, la tecnica di riconoscimento della piega viene ulteriormente ampliata. In questo processo, le funzioni energetiche empiricamente basate per l'interazione delle coppie di residui vengono utilizzate per posizionare la proteina sconosciuta su una spina dorsale putativa come una soluzione migliore, adattando le lacune ove appropriato. Vengono poi accentuate le migliori interazioni per discriminare tra potenziali esche e predire la conformazione più probabile.

L'obiettivo delle strategie di piegatura e di threading è accertare se una piega in una proteina sconosciuta è simile a un dominio in una nota depositata in un database, come la banca dati delle proteine ​​(PDB). Ciò è in contrasto con i metodi de novo (ab initio) in cui la struttura viene determinata utilizzando un approccio basato sulla fisica al posto del confronto delle pieghe nella proteina con le strutture in un database.

Limitazioni dei metodi di previsione de novo

Una delle principali limitazioni dei metodi di predizione delle proteine ​​de novo è la straordinaria quantità di tempo richiesto dal computer per risolvere con successo la conformazione nativa di una proteina. I metodi distribuiti, come Rosetta @ home, hanno tentato di migliorare questo reclutando persone che poi offrono volontariamente il tempo inattivo del computer di casa per elaborare i dati. Tuttavia, anche questi metodi devono affrontare delle sfide. Ad esempio, un metodo distribuito è stato utilizzato da un team di ricercatori dell'Università di Washington e dell'Howard Hughes Medical Institute per prevedere la struttura terziaria della proteina T0283 dalla sua sequenza di amminoacidi. In un test cieco che confronta l'accuratezza di questa tecnica distribuita con la struttura confermata sperimentalmente depositata all'interno del Protein Databank (PDB), il predittore ha prodotto un eccellente accordo con la struttura depositata. Tuttavia, il tempo e il numero di computer necessari per questa impresa erano enormi: rispettivamente quasi due anni e circa 70.000 computer domestici.

Un metodo proposto per superare tali limitazioni prevede l'uso di modelli di Markov (vedi catena di Markov Monte Carlo ). Una possibilità è che tali modelli possano essere costruiti per supportare il calcolo dell'energia libera e la previsione della struttura delle proteine, magari perfezionando le simulazioni computazionali. Un altro modo per aggirare i limiti della potenza di calcolo è utilizzare la modellazione a grana grossa . I modelli di proteine ​​a grana grossa consentono la predizione della struttura de novo di piccole proteine, o grandi frammenti di proteine, in un breve tempo di calcolo.

Un esempio di calcolo distribuito (Rosetta) nella previsione della struttura 3D di una proteina dalla sua sequenza di amminoacidi. La struttura prevista (magenta) di una proteina è sovrapposta alla struttura cristallina (blu) determinata sperimentalmente di quella proteina. L'accordo tra i due è molto buono.

CASP

“I progressi per tutte le varianti dei metodi di previsione della struttura proteica computazionale vengono valutati negli esperimenti semestrali di valutazione critica della previsione della struttura proteica ( CASP ) a livello comunitario . Negli esperimenti CASP, i gruppi di ricerca sono invitati ad applicare i loro metodi di predizione a sequenze di amminoacidi di cui non si conosce la struttura nativa ma da determinare e da pubblicare a breve. Anche se il numero di sequenze di amminoacidi fornite dagli esperimenti CASP è piccolo, queste competizioni forniscono una buona misura per confrontare metodi e progressi sul campo in modo discutibilmente imparziale ".

Appunti

  • Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Ab initio predizione della struttura proteica utilizzando un approccio gerarchico combinato. (1999). Proteine ​​Suppl 3: 194-198.
  • Bradley, P .; Malmstrom, L .; Qian, B .; Schonbrun, J .; Chivian, D .; Kim, DE; Meiler, J .; Misura, KM; Baker, D. (2005). "Modellazione libera con Rosetta in CASP6". Proteine . 61 (Suppl 7): 128–34. doi : 10.1002 / prot.20729 . PMID  16187354 . S2CID  36366681 .
  • Bonneau ; Baker, D (2001). "Predizione della struttura proteica Ab Initio: progressi e prospettive". Annu. Rev. Biophys. Biomol. Struct . 30 : 173–89. doi : 10.1146 / annurev.biophys.30.1.173 . PMID  11340057 .
  • J. Skolnick, Y. Zhang e A. Kolinski. Modellazione Ab Initio. Genomica strutturale e biologia strutturale ad alto rendimento. M. Sundsrom, M. Norin e A. Edwards, a cura di. 2006: 137-162.
  • J Lee, S Wu, Y Zhang. Previsione della struttura della proteina ab initio. Dalla struttura proteica alla funzione con la bioinformatica, Capitolo 1, a cura di DJ Rigden, (Springer-London, 2009), P. 1-26.

Guarda anche

Riferimenti

link esterno