> 뉴스 > 뉴스 > 컴퓨팅
  • 트위터
  • 페이스북
  • 구플러스
  • 네이버밴드
  • 카카오스토리
     
기업용 검색엔진 제품별 평가
“사라진 금궤를 찾아라” … 여러 가지 형태 문서 검색 지원
2003년 12월 17일 00:00:00 데이터넷 webmaster@datanet.co.kr

콘텐츠는 금만큼이나 소중한 가치를 지닌다. 기업은 이것을 만들고 저장하고 라이선싱하며 판매한다. 가능한 곳이면 어디서나 이들은 데이터를 재활용하며 심지어 이것을 리프레싱하기도 한다. 그러나 데이터에서 중요한 부분이 잘못 배치된다면 어떻게 될까. 이 정보를 검색하거나 다시 만들거나 혹은 다시 습득하는 데는 시간과 돈이 필요하다. 콘텐츠를 인덱싱 및 관리하고 사라진 데이터를 되찾는 데 따르는 비용을 피하기 위해 기업용 검색 엔진을 찾는 회사들이 점점 더 늘어나고 있다.

IT예산에서 검색 엔진을 사는 데 쓸 돈을 뽑아내기는 힘들 수 있다. 검색 엔진은 콘텐츠를 만드는 게 아니기 때문에 우선 순위가 낮은 것으로 인식될 수도 있기 때문이다. 그러나 많은 사이트에서 기존의 콘텐츠가 재활용이 가능하며 심지어 수익으로 거듭나기도 한다. 검색 엔진을 콘텐츠에 대한 계속되는 유지보수 비용으로 본다면, 필요한 자본을 확보하기가 어렵지만은 않을 것이다.

기업용 검색 엔진을 사용함으로써 얻을 수 있는 가장 큰 이점은 아마도 하나의 제품을 이용해 여러 형태로 저장된 많은 문서들을 찾을 수 있다는 것이다. 브라우저를 통해 데이터가 텍스트로 디스플레이될 수 있는 한 이것은 기업용 검색 툴을 이용해 인덱싱되고 검색될 수 있다.

이러한 검색 엔진은 또한 다른 시스템을 다시 적극적으로 활용할 수 있게 해준다. 파일시스템을 구동하는 프로세서들은 파일이나 파일에 있는 콘텐츠를 찾느라 불필요한 사이클을 소모할 필요가 없어진다. 데이터베이스는 많은 질의들로 인해 곤란을 겪을 필요가 없으며, 레거시 시스템은 검색 사이클에 과도한 시간을 보낼 필요가 없기 때문에 생활에 새로운 활력을 얻게 된다. 그리고 무엇보다도 직원들에게 SQL 교육을 시킬 필요가 없다는 이점이 있다.

두가지 컴포넌트
검색 엔진 소프트웨어에는 두 가지 컴포넌트가 있는데, 인덱서(indexer)와 실질적인 검색 엔진(search engine)이 바로 그것이다. 인덱서는 콘텐츠를 검색하고 단어를 추출하며 신속한 검색을 위해 이들을 인덱싱한다. 그리고 엔진은 질의를 번역하고 인덱스에 있는 질문과 연관된 단어나 개념, 혹은 구문을 로케이팅한 다음 출력을 HTML이나 XML 형태로 만들어 질문을 초기화했던 사용자나 장비에게 이를 보내준다.

우리는 방화벽 뒤나 보안 VPN 뒤에서 작동하는 기업 등급의 검색 엔진을 찾고 있었다. 업체들은 검색 엔진 소프트웨어나 이것을 지원하는 장비를 제공해야 했다. 여기에 포털 소프트웨어나 콘텐츠 관리 소프트웨어가 번들돼 있는 것은 원하지 않았다. 참가 제품들은 웹 서버와 파일 저장소에 있는 스트럭처드 데이터베이스와 언스트럭처드 데이터를 모두 검색할 수 있어야 했다. 그리고 워드 프로세싱과 프리젠테이션 및 그래픽 편집기 등 다양한 형태의 문서를 지원할 수 있어야 했다.

우리는 인덱서가 보안 웹 페이지(HTTPS)와 표준 HTTP 서버 및 파일 시스템에서 콘텐츠를 검색하고 중복 페이지를 제거하도록 했다. 또한 HTML, XML, 마이크로소프트 오피스 및 PDF 문서에서 단어를 추출하고 콘텐츠를 인덱싱하도록 했다. 마지막으로 이들은 ODBC나 JDBC(Java Database Connectivity) 커넥터나 게이트웨이를 지원해야 했다.

검색 엔진으로서 이들은 스펠체커(spellchecker)를 포함하고 키워드 검색뿐만 아니라 구문 검색 및 스테밍(stemming: 어미변환)에 대한 지원을 포함하고 있을 것을 요청했다. 우리는 또한 인덱서나 검색 엔진을 테스트하기 위해 사전 구축된 검색 양식이나 사용자 인터페이스를 요구했다.

네비케이션 검색 충족 테스트
11개 업체를 초청했으며, 이들 중 씨시로 사이언티픽(CSIRO: Commonwealth Scientific an Industrial Rese arch Organization), 캐니사(Kanisa), 몬도소프트(Mondo soft) 및 디티서치(dtSearch) 등 네 곳에서 본지 시러큐스 대학 리얼월드 랩으로 소프트웨어 제품을 보내왔다.

제외된 업체들은 거절하거나 혹은 조건을 만족시키지 못했다. 코페닉 테크놀로지스(Copernic Technologies)는 자사 제품이 ODBC나 JDBC를 지원하지 않는다는 이유로 자격을 상실했다. 오토노미(Autonomy)와 이지애스크(EasyAsk)는 참가를 거절했지만 어떠한 이유도 대지 않았다. 콘베라(Convera), 디젤포인트(Dieselpoint), 그리고 패스트 서치 앤 트랜스퍼(Fast Search & Transfer)는 각각 새 버전을 준비중이라며 거절했다. 베리티(Verity)와 구글(Google)은 모두 회사 방침상 참가할 수 없다고 말했다.

참가 제품들 네 개에 대해서는 네트워크컴퓨팅지의 웹사이트(www.nwc.com)를 이용해 네비게이션 검색을 충족시킬 수 있는 능력을 테스트했는데, 이 웹사이트에는 3만5천 개에 달하는 페이지가 포함돼 있다. 또한 www.nwc.com에 있는 로그 파일에서 직접적으로 취해지는 정보 검색을 이용해 인덱싱 및 검색 능력을 평가해 보았다. 네 제품 중 세 개가 평균 이상의 성적을 보여주었으며 디티서치만이 평균치 이하였다.

우리는 검색 엔진이 인덱서(스파이더나 크롤러라고도 부름)를 이용해 콘텐츠를 검색할 수 있는 능력을 평가했다. 관리자가 얼마나 많은 제어력을 주장할 수 있는지를 포함한 검색 절차에 중점을 두었으며 내비게이션 검색에서 전체 성능뿐만 아니라 얼마의 제어가 적용될 수 있는지를 평가했다. 또한 각 제품의 관리 콘솔과 이것이 설치, 구성 및 맞춤화 작업을 검색 엔진 영역에서 수행하는 방식을 살펴보았다. 그리고 로그 파일과 보고 기능을 검토했으며 가격을 비교해 보았다.

에디터스 초이스 상은 패놉틱 엔터프라이즈 서치 엔진(Panoptic Enterprise Search Engine)에게 돌아갔다. 안전하고 사용이 편리한 관리 인터페이스와 네비게이션 능력, 그리고 인덱싱 솜씨는 이 상을 받기에 충분했다.

키워드
검색 건수 검색 니드
Wireless technology 14,410 정보
Virtual private network 10,837 정보
VoIP 8,975 정보
Hot Moms 3,643 네비게이션
Vi editor 3,119 정보
Fluke Network Inspector 1,443 네비게이션
Vulnerability Assessment 1,415 정보
I Think therefore I am 1,424 네비게이션


검색 엔진 테스트 방법
웹을 통해 얻을 수 있는 네트워크 자원과 서비스가 늘어나면서 점점 더 많은 콘텐츠들이 만들어지고 웹 브라우저로 액세스가 가능한 파일 시스템과 데이터베이스에 저장되고 있다. 이는 즉 기업이 문제와 관련 있는 콘텐츠를 찾거나 이것을 재활용해 수익을 창출해내는 일이 그만큼 더 어려워진다는 것을 의미하며, 여기에 대한 해결책은 바로 기업용 검색 엔진이다.

기업용 검색 엔진은 방화벽이나 보안 VPN 안에서 직원, 고객 및 파트너들을 위해 콘텐츠를 찾아 준다. 이들은 링크 분석이나 대중성 확보를 위해 애쓰는 인터넷 검색 엔진이 아니라 메타데이터를 활용하고 다양한 문서에서 콘텐츠를 분석 및 인덱싱하기 위해 고안된 엔진이다. 게다가 이런 엔진은 보안 웹사이트, 파일 시스템 및 데이터베이스를 가로지를 수 있게 만들어졌다.

본지에서는 이 달에 씨시로, 디티서치, 캐니사 및 마이크로소프트의 기업용 검색 엔진을 테스트하고, 각 제품이 웹 콘텐츠를 인덱싱 및 검색하고 검색 프로세스에 대한 보고를 할 수 있는 능력을 분석해보았다. 그리고 그 결과 씨시로의 패놉틱 엔터프라이즈 서치 엔진이 뛰어난 성능과 사용 편이, 탁월한 관리 기능, 그리고 저렴한 가격을 무기로 에디터즈 초이스를 받았다.

보고서 카드 / 검색 엔진 제품별 최종 평가표

테스트

씨시로 패놉틱 엔터프라이즈 서치 엔진 4.2.0

캐니사 사이트 서치 5.0

몬도소프트 몬도서치 5.1

디티서치 웹 6.20

검색(30%)

4.3

3.5

2.75

2.5

인덱싱(25%)

4.3

3.85

3.75

1.75

관리(20%)

3.5

4.5

4.3

2.5

가격(15%)

3.5

1.5

2.5

5

사양(10%)

4

4.5

4.3

3

총평균(100%)

3.99

3.59

3.43

2.74

평가

B

B-

C+

C

A≥4.3, B≥3.5, C≥2.5, D≥1.5, F<1.5
A~C등급은 범위 내에 +,- 포함 총 평균과 비중 점수는 0~5 범위 기준

데이터넷의 다른기사 보기  
ⓒ 데이터넷(http://www.datanet.co.kr) 무단전재 및 재배포금지 | 저작권문의  

     

인기기사

 
가장 많이 본 기사
인사·동정·부음
전체기사의견(0)  
 
   * 200자까지 쓰실 수 있습니다. (현재 0 byte/최대 400byte)
   * 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
전체기사의견(0)
사명: (주)화산미디어 | 주소: 서울시 강남구 강남대로 124길 26 유성빌딩 2층 | 전화: 070-8282-6180 | 팩스: 02-3446-6170
등록번호: 서울아03408 | 등록년월일: 2014년 11월 4일 | 발행년월일: 2003년 12월 17일 | 사업자등록번호: 211-88-24920
발행인/편집인: 정용달 | 통신판매업신고: 서울강남-01549호 | 개인정보관리 및 청소년보호 책임자: 박하석 | 호스팅 사업자: (주)아이네임즈
Copyright 2010 데이터넷. All rights reserved. mail to webmaster@datanet.co.kr