Motivaţia SCOP

56

    Aproape toate proteinele prezintă similarităţi structurale cu alte proteine şi, de cele mai multe ori, au o origine evoluţionară comună. Cunoaşterea acestor relaţii conduce la importante contribuţii la biologia moleculară şi altor domenii ale ştiinţei înrudite. Ocupă o poziţie centrală în modul nostru de înţelegere a structurii şi evoluţiei proteinelor. Ea va juca un important rol în interpretarea secvenţelor produse de proiectul genomului uman şi, de aceea, în înţelegerea evoluţiei. Creşterea exponenţială recentă a numărului de proteine a căror structură a fost determinată prin cristalografie de raze X şi spectroscopie RMN înseamnă că în prezent există o rapidă creştere a volumului informaţiei disponibilă. La începutul anului 1995 Banca de proteine Brookhaven (Brookhaven Protein Databank - PDB), conţinea 3091 de intrări şi numărul creştea cu aproximativ 100 pe lună. Pentru a uşura înţelegerea şi accesul la această informaţie a fost construită baza de date bazată pe clasificarea proteinelor după structură (SCOP). Această bază de date furnizează o descrierea detaliată şi cuprinzătoare a relaţiilor structurale şi evoluţionare ale proteinelor a căror structură 3D a fost determinată. Ea include toate proteinele în versiunea curentă a PDB şi aproape toate proteinele pentru care structurile au fost publicate dar ale căror coordonate nu sunt disponibile din PDB.

    Clasificarea structurilor proteinelor se bazează pe relaţiile evoluţionare şi pe principiile care guvernează structurile 3D. Lucrări mai vechi asupra structurii proteinelor au arătat că există regularităţi izbitoare în modurile în care structurile secundare sunt asamblate ([LEV976],[CHO977]) şi în topologia lanţurilor polipeptidice ([RIC976], [STE976]). Aceste regularităţi apar din proprietăţile fizice şi chimice intrinseci ([CHO984], [FIN987]) şi furnizează fundamentul pentru clasificarea straturilor (folds) proteice ([LEV976], [RIC981]). Aceste lucrări au fost continuate în articole mai recente (vezi, spre exemplu, [HOL993], [ORE993], [OVE993], [YEE993]). O bibliografie a articolelor asupra clasificării şi determinării straturilor proteice este dată în scop (http://scop.mrc-lmb.cam.ac.uk/scop/).

Fig. 1. În SCOP, unitatea de clasificare este de regulă domeniul proteic. Proteinele mici, şi majoritatea acelora de dimensiune medie, au un singur domeniu şi sunt, de aceea, tratate ca un întreg. Domeniile proteinelor mari sunt de regula clasificate separat. Înregistrările proteice din decembrie 1994 la PBD Brookhaven conţin 3179 domenii. Multe dintre acestea devin forme ale aceleiaşi proteine ale căror diferenţe nu sunt semnificative în termenii clasificării utilizată aici; de exemplu ele au diferiţi liganzi de legătură sau mutaţii artificial create. Pentru a face distincţia dintre acestea şi structurile aceleiaşi proteine în diferite organisme, proteinele încadrate într-o familie sunt subclasificate în subspecii. Clasificarea celor 3179 de domenii arată ele provin din 498 de familii care pot fi grupate în 366 de superfamilii şi 279 de diferite straturi. În afara acestora, SCOP conţinea la această dată înregistrări pentru 195 de proteine care nu aveau încă coordonatele atomice disponibile din PDB dar pentru care descrierea structurilor lor fusese publicată.

Metoda utilizată la construcţia clasificării proteinelor în SCOP este în esenţă inspecţia vizuală şi compararea structurilor cu ajutorul diferitelor programe este utilizată pentru a se putea face această sarcină uşor de condus şi pentru a ajuta la generalizarea rezultatelor.

    În ciuda limitărilor actuale în ceea ce priveşte automatizarea procedurilor, credem că acest mod de abordare produce cele mai exacte şi utile rezultate.

    Unitatea de clasificare este de regulă domeniul proteic (protein domain). Proteinele mici, şi cele mai multe a acelora de dimensiune medie au un singur domeniu, şi de aceea sunt tratate ca un întreg. Domeniile proteinelor mari sunt de regulă clasificate individual.

    Clasificarea se face pe niveluri ierarhice care încapsulează legăturile evoluţionare şi structurale.

FAMILIA (FAMILY). Proteinele sunt grupate pe familii pe baza unuia sau a două criterii care asigură că ele au o origine evoluţionară comună: mai întâi, toate proteinele care au reziduuri identice de 30% sau mai mult, iar al doilea, proteinele cu secvenţe identice mai mici dar a căror funcţii şi structură sunt foarte asemănătoare, de exemplu, globine cu secvenţe identice în proporţie de 15%.

SUPERFAMILIA (SUPERFAMILY). Familiile, ale căror proteine au secvenţe identice de lungime mică dar a căror structuri şi, în multe cazuri, trăsăturile funcţionale, sugerează că o origine evoluţionară comună este probabilă, sunt plasate împreună în superfamilii, de exemplu actina, domeniul ATPase al proteinei heat-shock şi hexochinază. ([FLA991]).

STRATURI COMUNE (COMMONFOLD). Superfamiliile şi familiile sunt definite ca având un strat comun dacă proteinele lor au aceeaşi structură secundară majoră în acelaşi aranjament şi cu aceleaşi conexiuni topologice. În SCOP este dată pentru fiecare strat o scurtă descriere a trăsăturilor structurale principale. Proteine diferite cu acelaşi strat au de regulă elemente periferice de structură secundară şi regiuni de răsucire care diferă în mărime şi conformaţie şi, în cele mai multe cazuri divergente, aceste regiuni diferite pot forma jumătate sau chiar mai mult din fiecare structură. Pentru proteinele plasate împreună în aceeaşi categorie de strat, similarităţile apar probabil din trăsăturile fizice şi chimice ale proteinei ce favorizează anumite aranjamente de împachetare şi lanţuri topologice. Pot totuşi exista cazuri în care o origine evoluţionară comună este estompată de mărimea regiunii de divergenţă în secvenţă, structură şi funcţie. În aceste cazuri, este posibil ca descoperirea noilor structuri, cu straturi între acelea ale structurilor cunoscute mai înainte, vor face clară înrudirea evoluţionară comună.

CLASA (CLASS). Pentru facilitarea utilizării, diferitele straturi au fost grupate în clase. Cele mai multe dintre straturi sunt atribuite uneia din cele cinci clase structurale pe baza structurilor secundare din care sunt compuse: (1) toate alpha (pentru proteine a căror structură este esenţial formată dintr-o α-elice), (2) toate beta (Pentru acelea a căror structură este esenţial formată din β-foi (β-sheets), (3) alpha şi beta (Pentru proteine cu o α-elice şi β-benzi <β-strands> care sunt separate prin spaţii mari), (4) alpha plus beta (pentru acelea în care α-elicele şi β-benzile <fâşiile) sunt separate de spaţii foarte mari şi (5) multi-domenii (pentru acelea cu domenii din diferite straturi şi pentru care nu sunt cunoscuţi omologi în prezent). De remarcat că nu sunt utilizate caractere greceşti în SCOP din cauză că ele nu sunt accesibile tuturor navigatoarelor de WEB (web viewers sau web browsers).

Tabel 1

Baze de date şi servicii către care SCOP avea trimiteri (links) la nivelul anului 1995

Link Source URL Referinţă
Coordinates PDB http://www.pdb.bnl.gov/ (Abola et al., 1987)
Static images SP3D http://expasy.hcuge.ch/
gopher://pdb.pdb.bnl.gov/
(Appel et al., 1994)
On-the-fly images NIH molecular modelling group http://www.nih.gov/www94/molrus/ (FitzGerald, 1994)
Sequences and MEDLINE entries NCBI Entrez http://www.ncbi.nlm.nih.gov/ (Benson et al., 1993 )
Baza de date SCOP mai conţine şi alte trimiteri către baze de date şi servicii din lume. câteva vizualizatoare interactive (interactive viewers) pot fi legate cu SCOP prin utilizarea coordonatelor PDB. Localizarea lor şi natura link-urilor vor depinde de modul în care baza de date evoluează şi se relochează.

    Proteinele şi mai neobişnuite, peptide şi intrările PDB pentru proteinele specificate, modelele teoretice, acizii nucleici şi carbohidraţii, nu au fost atribuiţi altor clase. Numărul de înregistrări, familii, superfamilii şi straturi comune în versiunea disponibilă la sfârşitul anului 1994 sunt prezentate în Figura 1. Poziţia exactă a graniţelor dintre familii, superfamilii şi straturi este, într-o anumită măsură, subiectivă. Totuşi, deoarece toate proteinele care pot conceptual aparţine unei familii sau superfamilie sunt grupate împreună în categoria mai cuprinzătoare de strat, anumiţi utilizatori vor dori să se focalizeze asupra acestei părţi a bazei de date.

    În afara informaţiei referitoare la înrudirile structurale şi evoluţionare, fiecare intrare (pentru care coordonatele sunt disponibile) prezintă linkuri către imagini ale structurii, vizualizatoare interactive, coordonatele atomice, secvenţele moleculare, omologii precum şi abstractele MEDLINE (vezi Tabelul 1).

    Două facilităţi de cautare sunt disponibile în SCOP. Căutarea omologică permite utilizatorilor să introducă o secvenţă moleculară şi să obţină o listă a oricăror structuri cu care această secvenţă prezintă un nivel ridicat de similaritate. Căutarea după cuvinte cheie reîntoarce, pentru un cuvânt introdus de utilizator, fraze atât de text din baza de date SCOP cât şi din hederele fişierelor de structură PDB Brookhaven.

    Pentru a asigura accesul larg şi uşor, baza de date este disponibilă ca un set de pagini hipertext disponibile pe WWW (world wide web). Aceasta permite accesul utilizatorului de pe orice fel de staţie de lucru şi/sau sistem de operare la SCOP. URL-ul bazei SCOP este:

http://scop.mrc-lmb.cam.ac.uk/scop/

© Cornel Mironel Niculae, 2003-2004

13-Nov-2009