[검색] 인터넷 검색의 달인이 되려면 ②: 검색 연산자를 유용하게 활용하자

문헌정보학 정보검색론을 수강하지 않으신 분들도 불리언 검색에 대해서는 이미 많이 아실 거예요. 유사어 검색이 아닌 한 인터넷에서 재현율(recall ratio)을 높이기 위해 OR 검색을 사용하는 경우는 드물기 때문에 정확도(precision ratio)를 높이는 AND 검색과 NOT 검색만 효율적으로 사용할 수 있어도 검색 능력을 크게 향상시킬 수 있습니다.

문헌정보학 정보검색론을 수강하지 않으신 분들도 불리언 검색에 대해서는 이미 많이 아실 거예요. 유사어 검색이 아닌 한 인터넷에서 재현율(recall ratio)을 높이기 위해 OR 검색을 사용하는 경우는 드물기 때문에 정확도(precision ratio)를 높이는 AND 검색과 NOT 검색만 효율적으로 사용할 수 있어도 검색 능력을 크게 향상시킬 수 있습니다.

문헌정보학 정보검색론을 수강하지 않으신 분들도 불리언 검색에 대해서는 이미 많이 아실 거예요. 유사어 검색이 아닌 한 인터넷에서 재현율(recall ratio)을 높이기 위해 OR 검색을 사용하는 경우는 드물기 때문에 정확도(precision ratio)를 높이는 AND 검색과 NOT 검색만 효율적으로 사용할 수 있어도 검색 능력을 크게 향상시킬 수 있습니다.

문헌정보학 정보검색론을 수강하지 않으신 분들도 불리언 검색에 대해서는 이미 많이 아실 거예요. 유사어 검색이 아닌 한 인터넷에서 재현율(recall ratio)을 높이기 위해 OR 검색을 사용하는 경우는 드물기 때문에 정확도(precision ratio)를 높이는 AND 검색과 NOT 검색만 효율적으로 사용할 수 있어도 검색 능력을 크게 향상시킬 수 있습니다.

A 및 BA 또는 B에 관한 사항

우선 네이버에서 봅니다.기본적으로 네이버에서는 복수의 키워드가 입력되자 이를 AND연산자로 다룹니다.예를 들면”학교 도서관 업무 편람”을 검색하면 네이버는 “학교 도서관”과 “업무 편람”이라는 2개의 단어가 모두 포함된 웹 페이지를 검색 결과로서 제시하고 줍니다.그래서 적합한 키워드가 많으면 많을수록 재현율은 낮아지고, 정확률은 높아지는 일이 있습니다.(네이버는 검색에 반드시 포함시켜야 할 단어가 있는 경우는 “+”기호를 사용하는 것을 추천합니다.”학교 도서관”과 “업무 편람”이라는 2개의 단어를 꼭 포함 검색하려면”학교 도서관+업무 편람”으로 입력하여 보다 정확한 검색 결과를 얻을 수 있다는 것입니다.)1개 주의해야 할 점은 입력된 키워드가 복합 명사의 경우 네이버는 기본적으로 각 단어를 분리하여 AND연산자에서 검색한다는 것입니다.이는 검색에서 장점으로 기능하도록 있으면, 디메리트로서 기능할 수도 있습니다.예컨대”한국 도서관 협회”로 검색하면 이 복합 명사가 포함된 웹 페이지뿐 아니라”한국”,”도서관”,”협회”라는 3가지 단어가 모두 포함된 정보까지 제시하고 줍니다.즉, 재현율은 높아지지만 정밀도가 낮아지는 결과가 나올 수 있습니다.관련 없는 정보까지 나타나는 이런 현상을 “잡음”라고 표현합니다.아래의 그림은 “한국”,”도서관”,”협회”이라는 단어를 담고 있지만, 실제로는 검색어와 전혀 관계 없는 “한국 무역 협회”의 활동 내용에 관한 기사를 처음 검색 결과로서 제시하고 있음을 나타내고 있습니다.정확한 문자열 검색을 위한 완전 일치 연산자 잡음을 줄이기 위해서는 구문 검색(phrase search) 기능을 충분히 활용하는 것이 바람직합니다. 검색 대상 문자열과 정확하게 일치하는 구문을 포함하는 정보만을 검색하려면 다음과 같이 완전 일치 연산자인 큰 따옴표(“)로 정리한 키워드를 입력합니다. ‘한국도서관협회’ 다만 ‘한국도서관협회’에서 검색한 결과와 아래 그림과 같이 구문 검색을 위해 완전 일치 연산자로 정리하여 ‘한국도서관협회’에서 검색한 결과는 전혀 다르다는 것을 알 수 있습니다.이를 응용하여 ‘한국도서관협회’와 정확히 일치하고 ‘전국도서관대회’라는 단어가 포함된 정보를 검색하려면 다음과 같이 입력합니다. 한국도서관협회+전국도서관대회부적합 용어를 필터링 하기 위한 제외 지시자 잡음을 줄이이제1개의 방법은 NOT검색입니다.이는 약간의 요령(?)이 필요합니다.예를 들어 은행(bank)에 관한 정보를 찾고 싶은데요, 동음 이의어인 은행(ginkgo)에 관한 정보까지 함께 검색된다고 혼란할 것입니다.이때 제외 지시자(ignore specification)인 “-“를 사용하여 식물로 나무만이 갖는 고유의 속성을 부적합 용어로 채택하고 검색 대상에서 배제하면 불필요한 결과물을 상당량 제거할 수 있습니다.은행-나무-사실을 제외하려는 것은 동명의 검색에서도 유용하게 사용할 수 있습니다.2021년 2월 말 기준으로 네이버에서 “이·승융”으로 검색하면 다음과 같이 두 부자가 검색 결과로서 제시됩니다.가수 이승윤에 관한 기사만 찾고 싶어서 ‘가수 이승윤’에 검색했는데 무슨 일인지 아래 그림처럼 개그맨 이승윤에 관한 기사가 제일 먼저 나옵니다.다음과 같이 제외 지시자를 사용하여 동명이인과 관련된 부적절한 용어를 검색 대상에서 제외합니다. 검색 결과는 크게 달라질 것입니다. 가수 이승윤-개그맨-전지적 참견 시점-자연인다음과 같이 제외 지시자를 사용하여 동명이인과 관련된 부적절한 용어를 검색 대상에서 제외합니다. 검색 결과는 크게 달라질 것입니다. 가수 이승윤-개그맨-전지적 참견 시점-자연인또 다른 예를 들면, 블로그에서 특정 제품의 이른바”내 돈 중산”리뷰(사용 후기)를 검색하고 싶은데 바이럴 마케팅의 광고성 포스팅이 너무 많아서 마음이 안 나가는 경우가 있겠죠.업체의 스폰서십을 받고 리뷰를 쓸 때에 협찬을 받은 사실을 반드시 기재하는 점을 감안하여”협찬”란 나쁜 적합 용어가 포함된 웹 페이지는 빼고 검색하면 좋습니다.예를 들어, 협찬을 받지 않고 작성된 “A”제품의 리뷰만 보고 싶은 경우는 다음과 같이 검색합니다.A-협찬, 다만 검색 결과 중에는 “협찬”이라는 단어를 사용하지 않았을 뿐, 협찬을 받은 리뷰도 있어”협찬”대신”후원”이나 “무상 제공”이라고 기재한 리뷰도 있고 기계적으로 특정 단어를 제외함으로써 예를 들면”이 글은 협찬을 받지 않고 내가 직접 구입한 제품의 리뷰입니다”라는 한 문장에 포함된 하나의 단어 때문에 제외해야 할 검토까지 제외되는 결과를 낳는 것도 있습니다.이처럼 여러 변수가 발생할 수 있으므로 NOT검색은 노하우를 축적한 후, 요령 있게 써야 합니다.(그러나 대부분의 리뷰의 경우 의도적으로 검색 누락을 피하기 위해서 협찬, 무상 제공 받은 사실을 텍스트가 아닌 그림으로 표현하기 때문에 검색 기법으로도 자신의 돈을 낸 리뷰를 골라내는데 힘듭니다.)수동(?)유사어 검색 한국어 인터넷 정보를 검색할 때는 구글보다 네이버의 것이 현명한(?)경우도 있습니다.네이버는 이미 자체의 통제 어휘 집(controlled vocabulary)을 구축하고 있어 유저가 “내비게이션”으로 검색해도”내비게이션”이 포함된 정보까지 검색 결과로서 제시하고 줍니다.”엑셀”으로 검색해도”EXCEL”까지 검색합니다.그래도 틈이 있어서 전문 분야의 특수한 용어까지 정교하게 다룰 수 없습니다.그러므로 만약 Document Delivery Service를 다룬 정보를 검색하고 싶은 경우는 “원문 복사 서비스”,”문헌 사본 서비스”,”원문 제공 서비스”등의 유사어를 반복 입력하고 검색할 필요가 있습니다.또 다른 예를 들면, 블로그에서 특정 제품의 이른바”내 돈 중산”리뷰(사용 후기)를 검색하고 싶은데 바이럴 마케팅의 광고성 포스팅이 너무 많아서 마음이 안 나가는 경우가 있겠죠.업체의 스폰서십을 받고 리뷰를 쓸 때에 협찬을 받은 사실을 반드시 기재하는 점을 감안하여”협찬”란 나쁜 적합 용어가 포함된 웹 페이지는 빼고 검색하면 좋습니다.예를 들어, 협찬을 받지 않고 작성된 “A”제품의 리뷰만 보고 싶은 경우는 다음과 같이 검색합니다.A-협찬, 다만 검색 결과 중에는 “협찬”이라는 단어를 사용하지 않았을 뿐, 협찬을 받은 리뷰도 있어”협찬”대신”후원”이나 “무상 제공”이라고 기재한 리뷰도 있고 기계적으로 특정 단어를 제외함으로써 예를 들면”이 글은 협찬을 받지 않고 내가 직접 구입한 제품의 리뷰입니다”라는 한 문장에 포함된 하나의 단어 때문에 제외해야 할 검토까지 제외되는 결과를 낳는 것도 있습니다.이처럼 여러 변수가 발생할 수 있으므로 NOT검색은 노하우를 축적한 후, 요령 있게 써야 합니다.(그러나 대부분의 리뷰의 경우 의도적으로 검색 누락을 피하기 위해서 협찬, 무상 제공 받은 사실을 텍스트가 아닌 그림으로 표현하기 때문에 검색 기법으로도 자신의 돈을 낸 리뷰를 골라내는데 힘듭니다.)수동(?)유사어 검색 한국어 인터넷 정보를 검색할 때는 구글보다 네이버의 것이 현명한(?)경우도 있습니다.네이버는 이미 자체의 통제 어휘 집(controlled vocabulary)을 구축하고 있어 유저가 “내비게이션”으로 검색해도”내비게이션”이 포함된 정보까지 검색 결과로서 제시하고 줍니다.”엑셀”으로 검색해도”EXCEL”까지 검색합니다.그래도 틈이 있어서 전문 분야의 특수한 용어까지 정교하게 다룰 수 없습니다.그러므로 만약 Document Delivery Service를 다룬 정보를 검색하고 싶은 경우는 “원문 복사 서비스”,”문헌 사본 서비스”,”원문 제공 서비스”등의 유사어를 반복 입력하고 검색할 필요가 있습니다.여러 번 검색하는 대신 원문 복사 서비스 | 문헌 복사 서비스 | 원문 제공 서비스에서 OR 연산자를 사용하여 한 번만 검색해도 비슷한 결과를 얻을 수 있습니다. OR 연산자 네이버에서 OR 검색은 ‘|’ 연산자를 사용합니다. ‘ | ‘기호는 일반 키보드를 기준으로 백스페이스(←) 왼쪽의’\” 기호를 Shift 키를 누른 상태로 입력하면 됩니다. 네비게이션 | 네비게이션 “네비게이션” 또는 “네비게이션”으로 검색한 결과와 “네비게이션 | 네비게이션”으로 검색한 결과는 약간 다릅니다.중간 절단 검색 도중에 있는 문자열을 생략하고 양쪽에 남은 문자열과 일치하는 부분을 가진 단어를 포함하는 정보를 검색할 수도 있습니다. 이를 위해 ‘*’ 연산자를 사용합니다. 예를 들어, ‘이화*학교’에서 검색하면 ‘이화보육학교’, ‘이화초등학교’, ‘이화여자고등학교’, ‘이화여자대학교’ 등의 문자열이 포함된 결과를 모두 제시해 줍니다. 요약 구글에서 사용하는 검색 연산자도 네이버와 거의 같습니다. 네이버와 구글의 주요 연산자를 요약하면 다음과 같습니다.구분 설명 네이버 구글 AND 검색 A, B, C가 모두 포함된 문헌 검색 AB CAB COR 검색 A 또는 B 중 어느 하나라도 포함된 문헌을 모두 검색 A | B AOR B NOT 검색(제외지시자) A를 포함한 문헌 중 B를 포함하지 않은 문헌을 검색 A-B-B 구문 검색(일치 연산자) ‘ABCD’와 정확히 일치하는 구문을 포함한 문헌을 검색 “ABCD” “ABCD” 중간 절단 검사 “ACB”, “ADB”, ” 등 문헌이 모두 포함된 AEB”로 끝나는 단어가 포함되어 있음구글에서는 검색 연산자를 일부러 암기할 필요가 없습니다. 검색결과 화면의 검색창 하단에서 ‘설정’을 클릭하여 ‘고급검색’을 선택하시면아래 그림과 같이 상세 검색 창이 표시됩니다. 또는 고급 검색으로 바로 액세스할 수 있습니다.상세 검색창에 검색어만 적절하게 입력하면 검색 연산자를 사용한 것과 동일한 검색이 가능합니다. Reference.네이버 상세검색 활용방법. https://help.naver.com/support/contents/contents.help?serviceNo=606&categoryNo=25788 구글 검색 연산자. https://support.google.com/websearch/answer/2466433’ 간단히 설명한 구글의 페이지 랭크 알고리즘. https://sungmooncho.com/2012/08/26/pagerank/

error: Content is protected !!