검색엔진(2) / 솔루션 분석
상태바
검색엔진(2) / 솔루션 분석
  • Network Computing
  • 승인 2000.12.13 00:00
  • 댓글 0
이 기사를 공유합니다

♣ 잉크토미 / 서치 소프트웨어

잉크토미는 울트라시크 서버(Ultraseek Server, 현재 잉크토미 서치 소프트웨어로 알려져 있음)에 대한 새로운 이름으로 열심히 검색했지만, 이 뛰어난 검색 엔진에서 달라진 것은 아무 것도 없었다. 잉크토미 서치는 뛰어난 검색 품질, 파워 및 맞춤화 기능으로 이번 분석 기사에서 타 제품을 능가, 에디터스 초이스 상을 수상했다.

모든 관리 제어들(검색 인터페이스 맞춤화는 제외)은 테스트한 것들 중 최고에 속하는 유용한 브라우저 인터페이스 안에 표시되었다. 인포시크 고(Infoseek Go) 검색 엔진의 것과 같은 코드에서 개발된 잉크토미 서치는 확장성 있고 안정적으로 설계되어, 수백만 페이지를 인덱싱하고 서버들을 스패닝했다. 설치기의 포장과 설명이 양호해서 엔진을 설치 및 배치하기는 간단했다.

■ 뛰어난 검색 품질 제공

잉크토미 서치의 웹 페이지 인덱싱은 효율적이면서도 유연해서, 관리자가 원하는 사양들을 맞춤화할 수 있게 해주었다. 검색 인덱싱 로봇은 모든 관련 링크를 올리고 HTML 파일뿐만 아니라 모든 주요 생산 파일 포맷을 읽었다. 로봇 크롤러(robot crawler)는 몇 가지 방법을 이용해 자신이 인덱싱하고 있는 웹사이트의 부하를 줄여주었다. 억압 세팅(throttle setting)은 특정 사이트나 섹션의 스파이더 속도를 둔화시켰다. 나아가 크롤러는 바뀌지 않은 페이지에 대한 헤더 정보만을 요청했다.

잉크토미 서치는 또한 재인덱싱에 대한 독특한 방안을 갖고 있는데, 즉 단순히 각 페이지를 점검해서 바뀌었는지 여부를 확인하는 대신에 잉크토미 서치는 각 페이지가 바뀐 속도를 추적한다. 로봇 크롤러는 예를 들어 한 달에 한번 바뀐 페이지를 점검하는 것보다 더 자주 일주일에 한번 바뀐 페이지를 점검할 것이다.

테스트한 제품들 중, 잉크토미 서치는 최고의 인덱스 범위 보고를 제공했다. 이 제품은 인덱싱 활동 로그와 각 사이트에서 인덱싱된 각 URL의 목록을 보여주었다. 하지만, 인터페이스는 모인 것 안에서 특정 사이트나 항목의 점검 빈도를 스케줄링 할 수 있게 해주지 못할 것이다. 알타비스타 서치는 이 점에서 더 유연하다.

도큐먼트 소스로는 로컬적으로 설치된 서버 상의 유즈넷(Usenet) 뉴스그룹, 마이크로소프트 익스체인지 서버 및 웹 서버 파일이 포함되었다. 알타비스타 서치 및 엑스칼리버 리트리벌웨어와 달리, 잉크토미 서치는 데이터베이스 서버로의 직접 액세스를 갖고 있지 않다. 그보다 기록들은 인덱스 액세스용의 웹을 통해 게시되어야 하며, 이를 위해서는 막대한 자원이 필요하다.

잉크토미 서치는 풍부하고 가장 유연한 인덱싱용 스토리지 옵션 세트를 제공하고 있다. HTML 키워드와 설명 필드에서부터 표준 메타데이터는 자동으로 플래깅(flag) 된다. 관리자들은 다른 필드를 플링할 수 있으며, 퍼블리케이션 정보와 같은 별도의 메타데이터용의 새로운 더블린 코어 표준을 위한 디폴트 세팅이 있다. 이것은 검색 가능한 필드용으로 DTD(Document Type Definition) 택을 지정하기 위한 영역을 갖춘 XML 파일을 인식한다. 하지만, 페이지들을 너무도 완벽하게 인덱싱함으로써, 잉크토미 서치는 가끔씩 자바스크립트 텍스트나 기타 부적절한 단어를 저장, 이들이 텍스트에 없을 때조차 발견되기도 한다. 콘텐츠 작성자는 검색엔진의 특수 모조택을 이용해 인덱싱 돼서는 안 되는 텍스트를 표시함으로써 이러한 문제를 피할 수 있다. 중복 페이지를 삭제하는 기능은 유연하며, 옵션들은 두 페이지 중 어떤 페이지를 유지해야할지 결정하는 데 도움이 될 것이다. 이것은 테스트한 서버들 중 최상의 제어였다.

기본적인 간단한 검색 인터페이스 외에도, 잉크토미 서치는 팝업 메뉴나 집합 내의 영역 검색을 위한 점검창과 같은 유용한 검색 인터페이스 요소들과, 데이터 범위 검색 등을 포함해 가능한 모든 기능들이 드러나 있는 완벽한 고급검색 인터페이스를 제공한다. 단순 양식과 고급 양식에는 모두 맞춤화가 가능한 검색 팁이 갖춰져 있다. 이것은 불 질의 연산자(‘and’, ‘or’ 및 ‘not’)와 인터넷 질의 연산자(‘+’, ‘-’ 및 ‘ ’)를 처리할 수 있으며, 테스트한 다른 연산자들과 달리 같은 질의 안에서 두 가지 연산자를 모두 처리할 수 있었다.

■ 유지보수 간편

잉크토미 검색 엔진은 검색 단어에 보다 적합한 것을 찾기 위해 언어의 유래를 자동으로 찾아주며, 예를 들어 복수형들은 단수형과 맞는 것으로 나타난다. 이러한 기능은 인사이트(inXight) 언어분석 엔진(많은 유럽의 언어들도 인식)에 연결돼 있어, flambeaux를 검색하면 단수 버전인 flambeau가 나타날 것이다. 점검창은 서버에게 2바이트 문자(일본어, 중국어, 한국어)를 인식할 것을 알리며, 일본어 지원을 별도로 갖춘 특별 버전이 나와 있다.

결과 목록에서, 잉크토미 서치 소프트웨어는 하나의 문장으로 검색 단어들이 있는 페이지들과 제목에 그 단어가 있는 페이지들을 우선적으로 소팅하는 경향이 있다. 하지만 검색 관리자는 그 필드를 제목, 설명 및 키워드 등으로 지정함으로써 이를 조정할 수 있으며, 특정 URL 문자들이 있는 페이지들은 보다 더 중요하게 다루어질 것이다. 시소러스(thesaurus) 기능은 검색 관리자가 관련 단어나 대체할 철자를 입력할 수 있게 해주며, 그러면 이것은 결과 페이지에서 점검창 옵션으로 나타날 것이다. 신중하게 다루기만 한다면 이 기능은 매우 유용할 것이다.

잉크토미 서치의 HTML 파일 및 프래그먼트는 일관성 있는 레이아웃으로 검색 양식 및 결과 페이지가 보여지도록, 그리고 심지어 CSS(Cascading Style Sheets)를 지원하도록 프로그램적으로 조화된다. 이러한 페이지에는 모든 요소를 위해 필요한 모든 HTML 및 텍스트와 추가적인 맞춤화를 위한 파이던 특수 코드가 포함돼 있다. 심지어 히트 하이라이팅의 디스플레이도 변경이 가능하다.

이 기능은 검색 및 결과 페이지를 위해 완벽한 맞춤 설계를 가능하게 하지만, 보다 단순한 필요를 느끼는 검색 관리자는 시스템의 복잡성에 좌절감을 맛볼 것이다. 에이투엠지 및 서치버튼은 보다 훨씬 더 단순한 인터페이스에서 동일한 대부분의 기능들을 제공한다.

유지보수는 매우 간편하며, 서버는 하드웨어 문제가 발생할 시에 재시작을 시도하는 한편, 어떠한 문제든 보고를 위해 전자우편을 보낼 것이다. 검색 로깅은 매우 훌륭해서, 검색 및 일치되는 페이지 수에 관한 세부사항들을 보여주고, 날짜 및 시간 도장이 찍혀 있다. 검색자의 IP 어드레스를 확인할 수 있는 방법은 없으며, 이로 인해 동시 검색 세션들을 해결하는 일이 약간 까다로워진다. 따라서, 검색자가 무엇을 찾고 있는지를 알기 위해 진행 중인 하나의 검색을 따라가기가 어렵다. 하지만, 설치 이후에 가장 일반적인 검색들을 목록화 해주는 실시간 온라인 질의 빈도수 보고는 검색 필요에 대한 개요를 잘 드러내준다.

잉크토미 서치의 기능 세트는 고객의 필요에 대한 확실한 이해를 기반으로 하고 있다. 간단한 설치 절차에서부터 포괄적인 관리 인터페이스를 거쳐, 인덱싱용 옵션, 그리고 검색 결과 소팅 및 검색 로그 정보에 이르기까지, 이 회사는 기업 사이트, 인트라넷, 뉴스 사이트, 전자상거래 사이트 및 포털 용의 검색 엔진을 설정하는 과정에서 완벽한 친화성을 보여주고 있다.

가격은 1~1,000 페이지용이 995달러로 시작되며, 1천~1만 페이지의 경우 4천995달러다. 페이지당 가격은 설치 기반이 거칠수록 낮아진다. 포털은 질의당 요금안도 있다.
▪ www.inktomi.com/products/portal/search/products.html


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.