[AI 활용 신약개발(2)] 보다 안전한 신약개발 위해 네트워크 이론 적용
상태바
[AI 활용 신약개발(2)] 보다 안전한 신약개발 위해 네트워크 이론 적용
  • 데이터넷
  • 승인 2021.04.06 09:00
  • 댓글 0
이 기사를 공유합니다

‘복잡성 속 규칙성’ 특성 활용…또 다른 약물 효능·부작용 등 예측

[데이터넷] 최근 인공지능을 비롯한 기술의 발달로 여러 분야의 발전이 가속화하고 있다. 특히 신약개발 분야에서는 이러한 변화가 두드러지게 나타나는데, 컴퓨터를 활용해 신약을 개발하고자 하는 시도가 활발하게 이뤄지고 있다. 이러한 방법은 전통적인 방법에 비해 신속하게 신약 후보군을 발굴함으로써 신약개발의 시간을 단축시키고 성공가능성을 향상시킬 수 있다. 본 연재에서는 신약개발에서 사용되고 있는 인공지능을 활용한 약물 디자인, 자연어처리를 통한 데이터 마이닝, 네트워크 이론을 기반으로 한 독성예측과 같은 기술들을 현업에 종사하는 이들의 의견을 빌려 살펴보고자 한다. <편집자>

이성민 박사(팜캐드 R&D센터)
이성민 박사(팜캐드 R&D센터)

제임스 왓슨과 프랜시스 크릭에 의해 DNA의 이중나선구조가 밝혀진 이후 인간 게놈 프로젝트(Human Genome Project)를 통해 인간 게놈에 있는 약 32억 개의 유전자 정보가 해독돼 인간 생명에 대한 유전자 지도가 펼쳐졌다. 유전자는 단백질 합성 등 생체기능을 주관하는 유전정보 단위로서 아데닌(A), 시토신(C), 구아닌(G), 티민(T)의 4개의 염기로 구성돼 있고, 이들 염기서열에 의해 유전자가 결정된다.

유전자, 하나 아닌 ‘시스템’
인간에게는 약 3~4만 개의 유전자가 있는 것으로 추정된다. 이러한 유전자 정보를 분석해 질병 치료에 활용하고자 하는 시도는 계속해서 진행돼 왔다. 특히 최근 고성능(High-Throughput) 시퀀싱 기술의 눈부신 발전으로 개개인의 유전적 차이를 단시간에 찾아내 유병인자를 미리 발견하는 방향으로까지 발전하고 있다.

이와 같이 복잡한 생명의 조직과 현상을 한 장의 유전자 지도로 살펴볼 수 있다는 것은 인류 과학발전의 놀라운 업적이다. 그러나 이러한 시도들이 계속될수록 유전자 분석만으로는 생명체의 행동을 이해하는데 부족하다는 것을 알게 됐다. 질병을 치료하고자 그 질병의 원인으로 지목된 유전자를 목표로 고안된 치료법(약물, 방사선 등)들이 해당 질병에 효과를 나타내기는 하지만, 의도치 않은 부작용(독성, 변이, 저항성 등)이 나타나며 또 다른 문제를 일으킨다는 것이 임상을 통해 보고되고 있다.

이는 각각의 질병들이 하나의 유전자와 관련된 문제로 볼 것이 아니라 다른 유전자들 내지는 세포 내 다른 구성 요소와의 상호작용으로 이뤄진 생체 네트워크를 고려해야 함을 보여주는 것이다.

다층 구조 네트워크로 구성된 우리 몸
우리 몸에는 여러 단계의 네트워크가 존재한다. 앞서 이야기한 유전자와 유전자 사이의 상호작용으로 이루어진 네트워크나 유전자의 전사단계에 관여하는 유전자-전사인자 네트워크, 단백질-단백질 상호작용 네트워크, 신호전달 네트워크, 신진대사 네트워크 등을 들 수 있다.

우리가 하루하루 생활하기 위해서는 음식물을 섭취하고 그 음식물을 분해해 에너지를 얻어야 한다. 소위 신진대사로 불리는 이러한 활동은 신진대사 네트워크를 통해 이뤄지는데 여러 단계의 세포 간 생화학 반응들로 구성된다.

예를 들어 A분자와 B분자가 반응해 C와 D분자를 만들어내는 단순한 생화학반응을 생각해보자. 신진대사 네트워크에서는 이 네 개의 분자들을 네트워크의 기본 구성요소인 노드(node)로 삼아 서로 링크(link)로 연결한다. 이러한 생화학반응이 일어나기 위해 다양한 효소들이 관여하는데, 이러한 효소들은 대부분 다양한 단백질들의 복합체로 이뤄져 있다. 이러한 단백질들을 노드로 하고 복합체를 구성하고 있는 단백질들을 링크로 연결한 단백질-단백질 상호작용 네트워크도 이 반응에 관여하게 되는 것이다.

뿐만 아니라 이러한 단백질들이 만들어지기 위해서는 해당 유전자에 전사인자가 작용해 mRNA가 만들어지고, 이것이 단백질로 합성된다. 이때 유전자와 전사인자를 노드로 하고 그들 사이의 상호작용을 링크로 하는 유전자-전사인자 네트워크도 이 반응에 관여하게 되는 것이다.

이처럼 단순해 보이는 생화학반응도 여러 단계의 네트워크가 서로 복잡하게 연결돼 있다(그림 1 참조). 이토록 복잡한 생체 내 연결을 고려하지 않고 어떤 질병을 치료하기 위해 하나의 유전자를 목표로 하는 치료법을 만든다면 어떤 일이 벌어지겠는가?

다층 구조 생체 네트워크
[그림 1] 다층 구조 생체 네트워크

부작용 고려한 약물 설계
두통이 있어서 진통제를 먹었는데 가슴이 두근거리거나 속이 울렁거리는 경험을 한 사람도 여럿 있을 것이다. 스트레스, 근육의 긴장 내지는 혈관수축으로 나타나는 긴장성 두통의 경우 증상완화를 위해 중추신경계에 작용하는 진통제를 복용하게 된다.

약국에서 구매한 진통제의 설명서를 읽어보면 부작용으로 불면, 떨림, 위궤양, 현기증 등을 유발할 수 있다는 경고 문구를 본 적이 있을 것이다. 이러한 부작용들은 그래도 경미해 적당히 넘어갈 수 있을지도 모르겠다.

다른 예를 살펴보자. 일반적으로 항암치료는 매우 힘들다고 알려져 있다. 여러 가지 이유가 있겠지만 항암제를 사용해 암을 치료하는 항암화학요법은 항암제가 암세포를 파괴하고 다시 재발하지 못하게 하는데 그 목적이 있다.

그런데 우리가 잘 아는 대로 항암제는 위의 진통제 사례에서 말한 부작용들과는 비교가 안 될 정도로 심각한 부작용을 수반한다. 탈모, 구내염, 구토, 설사와 같은 것은 매우 경미한 것이고 골수기능 저하, 백혈구 감소와 감염, 피부손상, 신장, 간, 폐, 생식 기능 손상과 같은 위중한 것들도 나타난다.

이러한 부작용이 있는데 왜 약물을 사용하는 것일까? 바로 그 약물의 효능이 부작용보다 더 이득이 있기 때문이다. 다시 말해 마시면 배가 아프고 설사할 것을 알지만, 너무 목이 말라 살기 위해 오염된 물을 마시는 것과 같다고 보면 된다.

그러면 왜 부작용이 없는 진통제 또는 항암제를 만들지 못하는 것일까? 솔직히 말하면 부작용이 일어나는 기작을 모르기 때문이라고 할 수 있다. 아니, 그 기작이 너무 복잡해 이해하기 어렵다고 하는 것이 더 나은 표현일 수 있겠다. 앞서 설명했듯이 우리 몸에는 다양한 계층의 그리고 서로 복잡하게 연결된 생체 네트워크가 존재하기 때문이다.

뿐만 아니라 하나의 표적 단백질을 억제하는 약물을 만들었다고 해도 그 약물이 해당 표적 단백질만 유일하게 억제한다고 보장하기 어렵다. 당연히 여러 곳에 붙어 다양한 문제를 일으킨다고 보는 것이 더 타당할 것이다.

물론 약물이 시중에 판매되기 위해서는 비임상, 임상 등의 과정을 통해 해당 약물이 동물이나 인간의 몸에서 심각한 부작용이 없다는 결과가 나와야 한다. 이 과정을 통과한 약물들이 안전하다고 보고 시판돼 사람들이 복용하는 것이다.

그러나 앞서 말했듯이 임상과정을 통과했다고 해서 해당 약물이 표적 단백질만 유일하게 억제한다는 증거가 될 수는 없다. 여러 표적 단백질을 억제하지만 그로 인한 부작용이 적거나 그 결과가 나타나는데 임상과정보다 더 오래 걸릴 수도 있다. 그 예로 속 쓰림 위장약의 대명사였던 ‘잔탁(Zantac)’을 들 수 있다. 이 약물은 그동안 위장약으로 널리 사용됐지만 장기간 복용 시 발암 가능성으로 인해 결국 승인 40년 만에 시장에서 퇴출됐다.

네트워크 이론 기반 생체 네트워크 분석
그러면 우리 몸에 존재하는 다양하고 서로 복잡하게 연결된 여러 계층의 생체 네트워크를 고려해 약물을 개발할 수는 없을까? 네트워크 이론이 바로 약물개발에 크게 기여할 수 있다. 네트워크 이론은 수학의 그래프 이론에서 출발했는데, 그 시초는 레온하르트 오일러의 쾨니히스베르크 다리문제로 거슬러 올라간다.

한붓그리기로 유명한 이 문제는 프로이센의 쾨니히스베르크에 있는 여러 개의 섬들과 도시를 연결하는 7개의 다리를 한 번씩만 건너면서 처음 시작한 위치로 돌아오는 것이 가능한가 하는 문제이다.

[그림 2] 오일러의 1741년 논문에 게재된 쾨니히스베르크의 일곱 다리 지도
[그림 2] 오일러의 1741년 논문에 게재된 쾨니히스베르크의 일곱 다리 지도

알려진 바와 같이 오일러는 논문에서 이것이 불가능하다는 것을 수학적으로 증명했다(현재는 다리가 더 건설돼 한붓그리기가 가능해졌다). 이러한 오일러의 다면체 정리는 이후 위상수학의 발전으로 이어지고 수학, 물리 분야에서 활용되면서 오늘날의 네트워크 이론으로 발전했다.

네트워크란 점으로 표현되는 노드와 그 노드들 사이를 연결하는 링크로 이뤄진 그래프라고 단순화해 생각할 수 있다. 이러한 네트워크의 특성을 분석하고 활용하는 것이 네트워크 이론의 핵심이다. 1990년대 후반 발표된 논문들에서 네트워크 이론을 생물학 네트워크에 적용했는데 그중에서 몇 가지를 살펴보자.

당시 아르곤 국립연구소(Argonne National Laboratory)에는 43개의 유기체에 대한 신진대사 반응이 표기된 웹사이트가 있었다. 이 신진대사 반응 데이터를 통해 만들어진 신진대사 네트워크는 놀라운 특징을 보였는데, 그것은 인터넷이나 웹에서 나타나는 척도 없는 네트워크(Scale-free network)의 성질을 띤다는 것이었다.

척도 없는 네트워크는 몇 개의 노드가 대부분의 노드들과 연결되고 그 대부분의 노드들은 소수의 노드들과 연결돼 있다. 노드들이 서로 무작위로 연결돼 있지 않고 어떤 위계를 가진다. 신진대사 네트워크에는 몇 개의 분자들이 대부분의 반응에 참여하고, 대부분의 분자들이 소수의 반응에 참여한다.

또한 신진대사 네트워크의 평균거리를 측정한 결과 매우 짧은 3단계 분리가 발견됐다. 이는 대부분의 분자들이 3단계의 생화학 반응을 거치면 모두 연결될 수 있는 매우 좁은 세상(Small World)라는 것이다. 따라서 한 분자의 변화는 거의 즉각적으로 다른 분자에 영향을 미치게 된다.

더욱 놀라운 것은 43개 유기체의 신진대사 네트워크는 그 구성분자 개수와 무관하게 평균거리가 항상 일정하다는 것이 발견됐다. 아주 작은 박테리아부터 꽃과 같이 진화된 생명체까지 평균거리가 일정하다는 것이다. 이는 앞서 설명한 대부분의 분자들과 연결되는 소수의 분자들이 허브(hub)의 역할을 하기 때문으로 ATP, ADP와 물이 중심적인 역할을 하는 허브임이 밝혀졌다.

대부분의 생체반응에서 ATP는 에너지를 공급하는 역할을 하는데 ATP가 인산염을 내놓으면서 ADP로 변하게 된다. 따라서 ATP와 ADP는 서로 연결돼 있고 대부분의 생체반응에 참여하는 분자들과 연결되게 된다.

[그림 3] 이스트의 단백질 상호작용 네트워크
[그림 3] 이스트의 단백질 상호작용 네트워크

함께 소개하고 싶은 다른 연구는 이스트(Yeast)의 단백질-단백질 상호작용 네트워크(PIN: Protein-protein interaction network)에 대한 것이다. 이스트의 PIN에 대한 연구에서도 척도 없는 네트워크의 성질이 발견됐는데, 이때 허브 역할을 하는 단백질들의 약 40% 이상이 생명체의 생존과 직결된 필수 단백질로 밝혀졌다.

반면 모든 단백질을 대상으로 살펴보면 필수 단백질은 전체의 약 20%정도밖에 되지 않는다. 이는 필수 단백질이 주로 PIN의 허브라는 것을 뜻한다(그림 3 참조). 이처럼 네트워크 이론을 통해 생체 네트워크를 분석함으로써 생명현상의 중요한 단서들이 밝혀지고 있다.

복잡함 속 규칙성 발견
앞서 설명한 생명현상의 복잡함을 생각하면 부작용이 없는 약물 개발은 요원한 것처럼 느껴질지도 모르겠다. 영화 ‘쥬라기 공원’에서 이안 말콤 박사(제프 골드블럼 분)가 ‘혼돈이론(Chaos theory)을 아시나요?’라고 묻는 장면을 기억하는 독자가 있을지 모르겠다.

혼돈이론은 겉으로는 무질서하게 보이는 현상이 내적으로는 놀라운 규칙성이 존재함을 밝혀낸 이론이다. 혼돈이론은 현재 공학, 경제학, 의학 등 다양한 분야에서 폭넓게 이용되고 있다. 예를 들면 간질환자의 뇌파를 측정해 간질발작 예측을 하거나 치료하는 방법 등이 개발됐다.

또 식물들의 잎을 자세히 들여다보면 잎 날이 매우 복잡한 모양으로 보인다. 그러나 조금 더 자세히 살펴보면 그런 복잡한 모양이 어떤 패턴을 이뤄 반복되는 것을 알 수 있다. 이미 자연은 혼돈이론을 생명현상에 잘 활용하고 있다.

고사리 잎 날은 매우 복잡하지면 특정 패턴을 이루고 있다.
고사리 잎 날은 매우 복잡하지면 특정 패턴을 이루고 있다.

다시 약물개발로 돌아가 보자. 생체 네트워크가 많은 층으로 이뤄져 있고, 서로 아주 복잡하게 얽혀 있다. 그러면 앞서 설명한 것 같은 ‘복잡함에도 불구하고 존재하는 규칙성’을 그 안에서 잡아낼 수 있다면 어떨까? 그러한 특성을 활용해 약물개발을 한다면 좀 더 부작용이 적고 안전한 약물을 개발할 길이 열리지 않을까? 이러한 관점에서 현재 필자가 재직하고 있는 인공지능을 활용한 신약개발 스타트업 팜캐드에서는 네트워크 이론을 활용해 신약개발 과정에서 부작용과 독성을 예측하고 회피하기 위한 기술을 개발하고 있다.

생체 네트워크 통해 안전한 신약개발 노력 지속
미국 국립보건원(NIH)을 비롯한 수많은 대학과 연구자들은 이러한 생체 네트워크의 중요성을 깨닫고, 이를 구축하고 공유하고자 하는 노력을 이어왔다. 그 결과 많은 데이터베이스들이 공개됐고 지금도 계속 업데이트되고 있다.

물론 양질의 네트워크 데이터를 선별하고 정제해 각자의 필요에 맞는 네트워크를 구성하는 것은 또 다른 차원의 문제이긴 하지만, 그동안 축적된 방대한 양의 데이터를 활용해 생체 네트워크를 구성할 수 있게 됐다. 팜캐드는 이러한 데이터들을 활용해 정교한 다층 생체 네트워크를 구성하고 신약개발의 초기단계인 약물후보군 발굴부터 다양하게 활용하고 있다.

예를 들어 앞서 설명한 것처럼 하나의 타깃에 작용하도록 디자인된 약물이라 하더라도 그 타깃 외의 다른 것들에도 작용할 수 있다. 이를 염두에 두고 구성한 다층 생체 네트워크를 활용해 하나의 약물이 작용할 수 있는 여러 종류의 타깃들을 찾아낼 수 있다. 본래 목적 외의 타깃들에 대해 네트워크상의 특성 등을 자세히 분석함으로써 약물의 또 다른 효능을 찾아내거나 발생할 수 있는 부작용 내지는 독성들을 예측할 수 있다.

다른 예로 많은 제약사들은 약물개발 중에 디자인한 약물이 효능은 확인했지만 타깃에 제대로 작용하지 않는다는 것을 알게 돼 개발이 중단된 채로 라이브러리에 잠들어 있는 화합물들을 상당히 보유하고 있다. 이러한 약물에 대해서 생체 네트워크를 분석하면 가능성 있는 타깃들을 예측할 수 있다.

약물개발 과정에서 약물의 타깃을 정하는 단계부터 이러한 생체 네트워크를 고려하는 것은 매우 중요하다. 해당 약물이 타깃을 억제했을 때 보여줄 약효뿐만 아니라 그 타깃을 억제했을 때의 생체 네트워크 내의 파급효과, 그리고 그로 인해 생길 수 있는 부작용 등을 미리 고려한다면 신약개발의 성공률을 높일 수 있을 것이다.

식물들이 앞서 설명한 복잡함 속의 규칙성을 적절하게 활용해 각자 독특한 잎 날 모양을 만드는 것처럼 생체 내 네트워크의 ‘복잡성 속의 규칙성’ 내지는 특징을 적절히 활용해 약물개발에 나선다면 위험을 회피하고 성공할 가능성이 높이지리라 생각한다.

모든 신약개발 프로젝트들이 성공해 인류의 건강증진에 크게 기여하기를 기원한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.