InterPro
base de datos de proteínas / From Wikipedia, the free encyclopedia
InterPro é unha base de datos de familias de proteínas, dominios e sitios funcionais de proteínas nos cales se encontran características identificables de proteínas coñecidas, que poden ser aplicadas a novas secuencias de proteínas[1] para así caracterizalas funcionalmente.[2][3]
Os contidos de InterPro constan de sinaturas diagnóstico e as proteínas coas cales estas se corresponden significativamente. As sinaturas constan de modelos (tipos simples, como expresións regulares ou tipos máis complexos, como modelos de Markov ocultos), que describen familias de proteínas, dominios e sitios. Os modelos constrúense a partir de secuencias de aminoácidos de familias coñecidas ou dominios e úsanse seguidamente para buscar secuencias descoñecidas (como as que se descobren a partir de novas secuenciacións de xenomas) para así clasificalas. Cada unha das bases de datos que están incluídas en InterPro contribúen a un nicho de información diferente, desde clasificacións baseadas na estrutura de alto nivel (SUPERFAMILY e CATH-Gene3D) ata clasificacións de subfamilias bastante específicas (PRINTS e PANTHER).
A intención de InterPro é proporcionar un centro multiservizos para a clasificación de proteínas, na que todas as sinaturas producidas polas diferentes bases de datos membros están situadas en entradas na base de datos InterPro. As sinaturas que representan dominios eqivalentes, sitios ou familias póñense na mesma entrada e as entradas poden tamén estar relacionadas unhas con outras. Tamén se proporciona cando é posible información adicional como a descrición, nomes consistentes e termos de Gene Ontology (GO) que están asociados con cada entrada.