상위 질문
타임라인
채팅
관점

유니프롯

위키백과, 무료 백과사전

Remove ads

유니프롯(UniProt)은 자유롭게 접근할 수 있는 단백질 서열 및 기능 정보 데이터베이스로, 많은 항목이 게놈 서열 분석 프로젝트에서 파생된다. 여기에는 연구 문헌에서 파생된 단백질의 생물학적 기능에 대한 많은 양의 정보가 포함되어 있다. 이는 여러 유럽 생물정보학 조직과 미국 워싱턴 DC의 재단으로 구성된 유니프롯 컨소시엄에 의해 유지 관리된다.

간략 정보 컨텐츠, 설명 ...
Remove ads

유니프롯 컨소시엄

유니프롯 컨소시엄은 유럽 생물정보학 연구소(EBI), 스위스 생물정보학 연구소(SIB) 및 단백질 정보 자원(PIR)으로 구성된다. 영국 힌스톤(Hinxton)의 웰컴 트러스트 게놈 캠퍼스(Wellcome Trust Genome Campus)에 위치한 EBI는 생물정보학 데이터베이스 및 서비스의 대규모 리소스를 호스팅한다. 스위스 제네바에 위치한 SIB는 단백질체학 도구 및 데이터베이스의 중앙 리소스인 ExPASy(Expert Protein Analysis System) 서버를 유지 관리한다.

유니프롯 컨소시엄

유니프롯 컨소시엄은 유럽 생물정보학 연구소(EBI), 스위스 생물정보학 연구소(SIB), 그리고 단백질 정보 자원(PIR)으로 구성된다. 영국 힝스턴의 웰컴 트러스트 지놈 캠퍼스에 위치한 EBI는 생물정보학 데이터베이스 및 서비스의 대규모 자원을 제공한다. 스위스 제네바에 위치한 SIB는 단백질체학 도구 및 데이터베이스의 중심 자원인 ExPASy (Expert Protein Analysis System) 서버를 유지 관리한다. 미국 워싱턴 DC의 조지타운 대학교 의료 센터에 위치한 국립 생의학 연구 재단(NBRF)이 운영하는 PIR은 1965년에 처음 출판된 마가렛 데이호프의 "단백질 서열 및 구조 아틀라스(Atlas of Protein Sequence and Structure)"로 가장 오래된 단백질 서열 데이터베이스의 계승자이다.[2] 2002년, EBI, SIB, PIR은 유니프롯 컨소시엄으로 힘을 합쳤다.[3]

Remove ads

유니프롯 데이터베이스의 뿌리

각 컨소시엄 회원은 단백질 데이터베이스 유지 관리 및 주석 작업에 깊이 관여한다. 최근까지 EBI와 SIB는 함께 Swiss-Prot 및 TrEMBL 데이터베이스를 생성했으며, PIR은 단백질 서열 데이터베이스(PIR-PSD)를 생성했다.[4][5][6] 이러한 데이터베이스들은 서로 다른 펩타이드 서열 커버리지 및 주석 우선순위로 공존했다.

Swiss-Prot은 1986년 아모스 바이로흐가 박사 과정 중에 만들었으며, 스위스 생물정보학 연구소에서 개발되었고, 이후 롤프 아프바일러유럽 생물정보학 연구소에서 개발했다.[7][8][9] Swiss-Prot은 높은 수준의 주석(예: 단백질 기능 설명, 단백질 도메인 구조, 번역 후 변형, 변이체 등), 최소한의 데이터 중복 수준, 그리고 다른 데이터베이스와의 높은 통합 수준을 갖춘 신뢰할 수 있는 단백질 서열을 제공하는 것을 목표로 했다. 서열 데이터가 Swiss-Prot이 따라잡을 수 있는 속도를 초과하여 생성되고 있음을 인식하여, Swiss-Prot에 없는 단백질에 대한 자동 주석을 제공하기 위해 TrEMBL (Translated EMBL Nucleotide Sequence Data Library)이 생성되었다. 한편 PIR은 PIR-PSD 및 관련 데이터베이스를 유지 관리했는데, 여기에는 단백질 서열 및 큐레이션된 패밀리 데이터베이스인 iProClass가 포함되었다.

컨소시엄 회원들은 서로 겹치는 자원과 전문 지식을 모아 2003년 12월 유니프롯을 출범시켰다.[10]

유니프롯 데이터베이스의 구성

요약
관점

유니프롯은 유니프롯KB(Swiss-Prot 및 TrEMBL 하위 부분 포함), UniParc, UniRef 및 Proteome의 네 가지 핵심 데이터베이스를 제공한다.

UniProtKB

유니프롯 지식 기반(UniProtKB)은 부분적으로 전문가가 큐레이션한 단백질 데이터베이스로, UniProtKB/Swiss-Prot(검토되고 수동으로 주석이 달린 항목 포함)과 UniProtKB/TrEMBL(검토되지 않고 자동으로 주석이 달린 항목 포함)의 두 부분으로 구성된다.[11] 2023년 2월 22일 (2023-02-22) 기준 기준으로, UniProtKB/Swiss-Prot의 "2023_01" 릴리스는 569,213개의 서열 항목(291,046개 참조에서 발췌한 205,728,242개의 아미노산 포함)을 포함하고, UniProtKB/TrEMBL의 "2023_01" 릴리스는 245,871,724개의 서열 항목(85,739,380,194개의 아미노산 포함)을 포함한다.[12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot은 수동으로 주석이 달린 비중복 단백질 서열 데이터베이스이다. 이 데이터베이스는 과학 문헌에서 추출된 정보와 생물 큐레이터가 평가한 전산 분석을 결합한다. UniProtKB/Swiss-Prot의 목표는 특정 단백질에 대한 알려진 모든 관련 정보를 제공하는 것이다. 주석은 현재의 과학적 발견에 맞춰 정기적으로 검토된다. 항목의 수동 주석에는 단백질 서열 및 과학 문헌에 대한 상세한 분석이 포함된다.[13]

동일한 유전자와 동일한 의 서열은 동일한 데이터베이스 항목으로 병합된다. 서열 간의 차이점은 식별되며 그 원인이 문서화된다(예: 선택적 스플라이싱, 유전적 다양성, 잘못된 개시 부위, 잘못된 엑손 경계, 프레임시프트 돌연변이, 미확인 충돌). UniProtKB/Swiss-Prot 항목의 주석에는 다양한 서열 분석 도구가 사용된다. 컴퓨터 예측은 수동으로 평가되며, 관련 결과는 항목에 포함되도록 선택된다. 이러한 예측에는 번역 후 변형, 막관통 도메인위상, 신호 펩타이드, 도메인 식별 및 단백질 패밀리 분류가 포함된다.[13][14]

관련 간행물은 PubMed와 같은 데이터베이스를 검색하여 식별된다. 각 논문의 전문이 읽히고 정보가 추출되어 항목에 추가된다. 과학 문헌에서 파생된 주석에는 다음이 포함되지만 이에 국한되지 않는다.[10][13][14]

주석이 달린 항목은 UniProtKB/Swiss-Prot에 포함되기 전에 품질 보증을 거친다. 새로운 데이터가 제공되면 항목이 업데이트된다.

UniProtKB/TrEMBL

UniProtKB/TrEMBL은 자동 주석으로 풍부해진 고품질의 계산 분석 레코드를 포함한다. 이는 유전체 프로젝트로 인한 데이터 흐름 증가에 대응하여 도입되었다. UniProtKB/Swiss-Prot의 시간과 노동력이 많이 드는 수동 주석 과정은 사용 가능한 모든 단백질 서열을 포함하도록 확장될 수 없었기 때문이다.[10] EMBL-Bank/GenBank/DDBJ 핵산 서열 데이터베이스의 주석이 달린 코딩 서열 번역은 자동으로 처리되어 UniProtKB/TrEMBL에 입력된다. UniProtKB/TrEMBL은 또한 PDBEnsembl, RefSeq, CCDS를 포함한 유전자 예측에서 나온 서열을 포함한다.[15] 2021년 7월 22일부터 AlphaFold2로 예측된 구조도 포함된다.[16]

UniParc

유니프롯 아카이브(UniParc)는 주요 공개 단백질 서열 데이터베이스의 모든 단백질 서열을 포함하는 포괄적이고 비중복적인 데이터베이스이다.[17] 단백질은 여러 다른 원본 데이터베이스에 존재할 수 있으며, 동일한 데이터베이스에도 여러 복사본으로 존재할 수 있다. 중복을 피하기 위해 UniParc은 각 고유 서열을 한 번만 저장한다. 동일한 서열은 동일한 종이든 다른 종이든 관계없이 병합된다. 각 서열에는 안정적이고 고유한 식별자(UPI)가 부여되어 다른 원본 데이터베이스에서 동일한 단백질을 식별할 수 있다. UniParc은 주석 없이 단백질 서열만 포함한다. UniParc 항목의 데이터베이스 교차 참조를 통해 원본 데이터베이스에서 단백질에 대한 추가 정보를 검색할 수 있다. 원본 데이터베이스의 서열이 변경되면 UniParc은 이러한 변경 사항을 추적하고 모든 변경 사항의 이력을 보관한다.

원본 데이터베이스

현재 UniParc은 다음 공개 데이터베이스의 단백질 서열을 포함한다.

  • INSDC EMBL-Bank/DDBJ/GenBank 핵산 서열 데이터베이스
  • Ensembl
  • 유럽 특허청 (EPO)
  • FlyBase: 초파리과 곤충의 유전 및 분자 데이터의 주요 저장소 (FlyBase)
  • H-Invitational 데이터베이스 (H-Inv)
  • 국제 단백질 지수 (IPI)
  • 일본 특허청 (JPO)
  • 단백질 정보 자원 (PIR-PSD)
  • 단백질 정보 은행 (PDB)
  • 단백질 연구 재단 (PRF)[18]
  • RefSeq
  • 사카로미세스 게놈 데이터베이스 (SGD)
  • 애기장대 정보 자원 (TAIR)
  • TROME[19]
  • 미국 특허청 (USPTO)
  • UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot 단백질 동형체, UniProtKB/TrEMBL
  • 척추동물 및 게놈 주석 데이터베이스 (VEGA)
  • WormBase

UniRef

유니프롯 참조 클러스터(UniRef)는 UniProtKB 및 선택된 UniParc 레코드에서 가져온 클러스터링된 단백질 서열 세트의 세 가지 데이터베이스로 구성된다.[20] UniRef100 데이터베이스는 동일한 서열과 서열 단편(어떤 생물체에서든)을 단일 UniRef 항목으로 결합한다. 대표 단백질의 서열, 병합된 모든 항목의 접근 번호 및 해당 UniProtKB 및 UniParc 레코드 링크가 표시된다. UniRef100 서열은 CD-HIT 알고리즘을 사용하여 UniRef90 및 UniRef50을 구축한다.[20][21] 각 클러스터는 가장 긴 서열과 최소 90% 또는 50%의 서열 동일성을 갖는 서열로 구성된다. 서열을 클러스터링하면 데이터베이스 크기가 크게 줄어들어 더 빠른 서열 검색이 가능하다.

UniRef는 UniProt FTP 사이트에서 사용할 수 있다. 보관됨 2024-04-15 - 웨이백 머신

Remove ads

재정 지원

유니프롯은 국립인간유전체연구소, 국립보건원 (미국)(NIH), 유럽 연합 집행위원회, 스위스 연방 교육과학청을 통한 스위스 연방 정부, NCI-caBIG, 그리고 미국 국방부의 보조금으로 재정 지원을 받는다.[11]

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads