특이적 질병 유전자 발굴·맞춤 진단법 개발에 기여
마크로젠은 분당서울대학교병원과 함께 동북아시아 최대 규모의 참조 유전체 데이터베이스(Northeast Asian Reference Database, NARD)를 공개했다고 18일 밝혔다.
이번 연구 결과는 지난달 22일 오픈 액세스 저널인 '유전체 의학(Genome Medicine, 영향력 지수 10.886)' 온라인판에 게재됐다.
이번 연구 결과는 우리나라가 두각을 나타내고 있는 바이오 빅데이터 기반 의료산업에서 중요한 역할을 할 수 있을 것으로 기대된다.
동북아시아인 참조 유전체 데이터베이스에는 한국인 850명과 몽골인 384명, 일본인 396명, 중국인 91명, 홍콩인 58명 등 총 1779명의 전장 유전체 분석(Whole-genome Sequencing, WGS) 정보와 유전변이 정보가 포함돼 있다.
이는 한국, 몽골, 일본, 중국 등 동북아시아 4개국을 대표할 수 있는 참조 유전체 데이터베이스 중 최대 규모이며, 현재까지 국내외에서 공개된 참조 유전체 데이터베이스 중 동북아시아인 유전체 분석에서 정확도를 크게 높일 수 있는 것으로 나타났다.
참조 유전체(Reference Database)는 수천 명에서 수만 명에 이르는 사람들의 전장 유전체 염기서열 정보로 구성된 데이터베이스로, 전장 유전체 연관성 분석(Genome-wide Association Study, GWAS) 연구에서 사용된다.
특히 결실값 예측 기법(임퓨테이션, imputation)에서 결과의 정확도를 높이는 중요한 역할을 하는 것으로 알려져 있다. 결실값 예측기법이란 참조 유전체를 활용해 유전변이 정보를 통계적으로 유추해낼 수 있는 기법이다. 이를 활용하면 적은 비용으로 한 개인의 유전체 정보 대부분을 확인할 수 있다는 장점이 있다.
이때 참조 유전체에 포함된 개인의 샘플 수가 많고 참조 유전체와 연구대상자의 인종이 일치할수록 결실값 예측기법의 정확도는 향상되며, 유의미한 연구 결과 또한 도출해낼 수 있다.
그러나 동북아시아인을 위한 참조 유전체 데이터베이스는 턱없이 부족한 실정이다. 현재까지 세계에서 가장 큰 참조 유전체 데이터베이스로 알려진 하플로타입 레퍼런스 컨소시엄(Haplotype Reference Consortium, HRC)에서 구축한 데이터베이스는 대부분 유럽인종으로 구성돼 있으며, 동북아시아인의 비중은 약 1%에 불과해 이들을 대상으로 한 전장 유전체 연관성 분석 연구에서 높은 정확도를 얻기가 매우 힘든 상황이다.
공동 연구팀은 이번에 구축한 동북아시아 최대 규모의 참조 유전체 데이터베이스가 결실값 예측기법의 정확도를 향상할 뿐만 아니라, 다중유전자위험점수(Polygenic Risk Score, PRS) 기반의 질병 예측에 중요한 역할을 할 것으로 예상하고 있다.
다중유전자위험점수는 2018년 MIT가 뽑은 10대 혁신기술 중 하나로, 결실값 예측기법을 통해 도출한 특정 질환에 영향을 미치는 수백 개 유전자의 위치 및 해당 질환의 위험성을 수치화해 발병 위험을 예측하는 방법이다.
연구진은 대규모 참조 유전체 데이터베이스를 활용한 결실값 예측기법의 정확도가 높으면 다중유전자위험점수에서도 정확도 높은 결과를 산출할 수 있다고 설명했다.
©(주) EBN 무단전재 및 재배포 금지
서울미디어홀딩스
패밀리미디어 실시간 뉴스