[AI 활용 신약개발(3)] 텍스트 마이닝 활용으로 신약 개발 효율화
상태바
[AI 활용 신약개발(3)] 텍스트 마이닝 활용으로 신약 개발 효율화
  • 데이터넷
  • 승인 2021.06.03 14:23
  • 댓글 0
이 기사를 공유합니다

연구문헌 텍스트 분석 통해 질병·단백질·약물 정보 추출…팜캐드, 신약 개발 과정에 적극 이용

[데이터넷] 최근 인공지능(AI)을 비롯한 기술의 발달로 여러 분야의 발전이 가속화하고 있다. 특히 신약개발 분야에서는 이러한 변화가 두드러지게 나타나는데, 컴퓨터를 활용해 신약을 개발하고자 하는 시도가 활발하게 이뤄지고 있다. 이러한 방법은 전통적인 방법에 비해 신속하게 신약 후보군을 발굴함으로써 신약개발의 시간을 단축시키고 성공가능성을 향상시킬 수 있다. 이번 글에서는 신약개발 과정에서 사용되고 있는 텍스트 마이닝에 대해 알아본다. <편집자>

한성국 팜캐드 R&D센터 박사
한성국 팜캐드 R&D센터 박사

텍스트로부터 의미 있는 정보를 찾는 일련의 과정을 ‘텍스트 마이닝(Text Mining)’이라고 한다. 컴퓨터를 활용해 마크 트웨인의 편지 글에 대한 텍스트 분석이 시초였다. 이제 텍스트 마이닝은 보안, 소셜 미디어, 마케팅 등 여러 분야에서 폭넓게 사용되고 있다.

특히 새로운 분야 동향 분석에도 활용되고 있는데, 신약개발의 경우 연구 문헌의 텍스트 분석을 통해 질병, 단백질, 약물 정보를 추출하고 이를 활용하는 것이 중요한 역할을 한다.

텍스트에 수학 알고리즘 적용
마크 트웨인의 편지 글이 한동안 저작 논란이 있었다. 정확히는 미국 남북전쟁 시기에 필명으로 발표된 글의 저자가 누구인지 알 수 없었다.

유명 작가가 필명으로 글을 발표하는 경우가 과거에 더러 있었다. 이때 마크 트웨인의 소설들과 필명 편지 글의 어휘 분포에 통계 검정을 적용했다. 이를 통해 소설과 편지 글의 저자가 동일인임을 확인할 수 있었다.

지금에 와서 보면 간단한 분석이지만 텍스트 데이터에 수학적 알고리즘을 적용해 두 텍스트 데이터의 동일성 유무 판단이 가능해진 것이다. 사용된 자연어 처리 기술은 n-그램(n-gram) 기법으로 n개의 문자열 크기만큼 창을 만들어 문자열을 왼쪽에서 오른쪽으로 한 단위씩 움직이며 추출되는 문자열의 출현 빈도수를 기록한다.

이때 n의 값이 1이면 유니그램(unigram), 2이면 바이그램(bigram), 3이면 트라이그램(trigram) 등으로 부른다. n값은 더 커질 수 있다. 통상 텍스트의 특징적인 정보(feature)로 유니그램, 바이그램, 트라이그램 등이 될 수 있다.

마크 트웨인의 편지 글은 유니그램 정보만 활용됐다. 이 n-그램 기법은 예측 모델 알고리즘인 ‘Naiive Bayes’, ‘SVM’ 등과 결합해 문서 분류 모델(Document Classification Model)에 잘 활용되고 있다. 문서의 특징으로는 n-그램 이외에 언어학적 정보들인 품사(POS), 접미사 (Suffix) 등이 더해지면 분류 모델의 성능도 높아진다. 이때 문서를 어떻게 수치화하느냐가 문서 분류 모델 개발의 주요한 관건으로 알려져 있다. 자연어 처리에서 발전된 표현 학습을 간략히 살펴보자.

[그림 1] 자연어 처리의 표현 학습 발전 타임라인
[그림 1] 자연어 처리의 표현 학습 발전 타임라인

텍스트에서 단어, 문장, 문단을 분석해 유의미한 정보를 추출하는 과정은 대체로 [그림 2]의 과정을 따른다.

[그림 2] 텍스트에서 유의미한 정보 추출 과정
[그림 2] 텍스트에서 유의미한 정보 추출 과정

연구문헌서 질병·단백질·약물 정보 추출
생명과학 및 의학 분야의 경우 텍스트 추출과 전처리 과정은 비교적 쉽다. 연구문헌 접근 시 펌메드 공공 검색 엔진과 구글 스콜라가 활용된다. 연구문헌의 경우 문법적 오류가 적어 전처리 과정이 생략될 수 있다.

정규화는 단백질 및 약물 이름의 동의어, 유의어 처리 과정이다. 사용되는 텍스트 분석 모델의 경우 간단한 n-그램 기반 통계 모형부터 머신러닝 및 딥러닝 모델까지 다양하다. 최근엔 방대한 규모의 텍스트를 학습한 버트(BERT)가 각광받고 있다. 여기에 생명과학 및 의학 분야의 텍스트를 적용한 것이 바이오버트(BioBERT)다.

신약개발 중 텍스트 마이닝의 도움이 필요한 과제는 크게 질병 돌연변이(disease-mutation), 약물 표적 식별(drug-target identification), 약물 유전체학(pharmacogenomic), 약물 부작용(drug side effect) 등으로 다양하다. 이번에는 약물 표적 식별을 중심으로 살펴보자.

[그림 3] 신약개발 텍스트 마이닝 개략도
[그림 3] 신약개발 텍스트 마이닝 개략도

텍스트 마이닝의 과정은 대상 텍스트 소스가 결정되면 전형적인 과정을 거친다. 대상 소스를 선정하고 문서를 추출해 문서에 나타난 개체명(질병, 유전자, 단백질, 약물)을 인식하고, 그 개체명 관계 식별 후에 네트워크 또는 지식 그래프를 구성한다.

추출된 문서는 자연어 처리의 전형적인 과정인 정규화를 거친다. 이때 기반이 되는 사전 데이터(dictionary)는 공개 데이터베이스를 활용한다. 텍스트에 나타난 질병, 유전자, 단백질, 약물 등의 탐지는 딥러닝 기반의 시퀀스 레이블링(sequence-labeling)이 사용된다. 최근엔 성능 좋은 다수의 머신러닝(ML)/딥러닝(DL) 기반 모델들이 계속 연구되고 있다.

관계 식별은 텍스트에서 탐지된 개체명 사이의 관계를 분류하는 과정이다. 이때 사용되는 특징들은 해당 개체명이 출현한 문서로부터 선택되며 동시 발생(co-occurrence) 및 룰 기반 방법, 딥러닝 방법이 활용된다.

분류 모델을 거쳐서 모아진 개체명들을 이용하면 최종 단계의 지식 그래프를 구성할 수 있다. 질병-단백질-약물의 그래프 구성은 신약 개발의 약물 재창출 및 독성 스크리닝 시에 중요한 정보로 이용된다.

실제 이형 당뇨병의 경우에 약물 표적을 찾는 과정을 연구문헌인 ‘약물 발견을 위한 텍스트 마이닝(Text Mining for Drug Discovery)’을 살펴보자.

(1단계) 문서 추출 및 전처리: 동의어, 유의어 처리 및 정규화
(2단계) 후보 약물 표적 추출 및 통계 검정: 개체명 인식기(named entity recognition) 적용
(3단계)) 텍스트 특징 선택 및 클러스터링(Textual feature selection and clustering)
(4단계) 의미론적 개념(semantic concept): n-그램 및 텍스트 유사도 계산
(5단계) 의미론적 개념에 기반한 문서 순위(Document ranking based on semantic concept)
(6단계) 문서 순위 기준 약물 표적 순위 지정(Ranking drug-targets based on document ranking)

추출된 텍스트 특징 활용
문서 추출 및 전처리 단계에서는 검색 엔진 펍메드(PubMed)에서 키워드 검색으로 관련 문서들을 얻는다. 이때 각 문서는 동의어 및 약어 표준화 과정을 거친다.

다음 단계인 약물 표적 추출은 각 문서에 나타난 약물 표적을 자연어 처리 모델 개체명 인식기를 활용해 추출한다. 이때 개체명 인식기의 성능이 핵심적인 역할을 한다. 단백질이 추출됐더라도 관련 있는 단백질을 뽑기 위해 통계 검정 절차를 거쳐 대상 단백질을 제한한다.

다음 단계는 문서의 텍스트 특징을 추출하는 특징 선택(feature selection)과 비슷한 텍스트 특징을 클러스터링하는 과정이다. 한 개의 단어부터 몇 개의 단어로 이뤄진 어구들이 텍스트 특징이 된다.

텍스트 특징들 사이의 유사도 매트릭스에 클러스터링 기법을 적용하면 비슷한 특징들이 모이고, 이를 그룹화(grouping)해 의미론적 개념을 결정한다. 의미론적 개념과 단백질의 동시 언급(Co-mentioning) 통계수치로부터 의미론적 개념에 무게(weight)를 부여한다. 그리고 문서들을 의미론적 개념의 무게 총합순으로 늘어놓는다.

마지막으로 단백질을 점수화해 랭킹을 구한다. 단백질 랭킹은 단백질을 언급한 문서의 가중치 합으로 점수를 계산한다. 대상 연구문헌 시기에 따른 타깃 단백질 랭킹을 시기별로 확인하는 것도 가능하다.

지금까지 신약개발 과정의 초기단계에서 약물 표적 탐색을 통해 텍스트 마이닝의 절차를 살펴봤다. 단순 자연어 처리 절차만이 아니라 다양한 절차들이 필요함을 확인할 수 있다. 보다 복잡한 문제인 질병-단백질-약물(disease-protein-drug) 지식 그래프의 경우는 보다 세밀한 프로토콜의 적용이 필요하다.

팜캐드도 텍스트 마이닝을 통해 얻은 데이터를 신약개발 과정에 활용하고 있다. 약물 레이블링 텍스트 분석으로 약물의 부작용 데이터를 추출해 독성 예측 모델에 구축에 활용했다. 새로운 약물 파이프라인 도입 시 대규모 연구문헌 분석에도 텍스트 마이닝 기법이 활용되고 있다.

앞으로도 팜캐드는 일련의 데이터 마이닝 과정을 플랫폼으로 묶는 추세로 신약개발 플랫폼들이 진화하고 있음을 감지하고 신약개발 데이터 플랫폼을 구축하고자 한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.