검색
-
정적색인(Static Indexing)과 동적색인(Dynamic Indexing)이란?Search & AI/Search 2024. 5. 10. 23:44
색인(index)이란? 검색에서 색인(index)은 검색 엔진이 웹 페이지, 문서 또는 기타 데이터 소스의 내용을 빠르고 효율적으로 검색할 수 있도록 돕는 데이터 구조를 말합니다. 색인의 주된 목적은 데이터 검색 속도를 향상시키는 것입니다. 여기서 색인이라는 용어는 종종 실제 데이터와는 별개로 생성되고 관리되는 메타데이터의 컬렉션을 의미합니다. 색인에 대해 더 자세히 설명하겠습니다.색인의 생성 과정수집: 검색 엔진은 웹 크롤러를 사용하여 인터넷을 탐색하고 웹 페이지, 문서 등의 데이터를 수집합니다.처리: 수집된 데이터는 처리 과정을 거쳐, 필요하지 않은 내용(스타일, 스크립트 코드 등)을 제거하고, 텍스트와 중요 데이터만을 추출합니다.토크나이징: 추출된 텍스트는 개별 단어나 구(phrase)로 분리되어 ..
-
정보 검색(Information Retrieval, IR)이란?Search & AI/Search 2024. 4. 19. 14:21
정보 검색(Information Retrieval, IR)은 사용자가 필요로 하는 정보를 문서나 데이터베이스, 웹 등에서 찾아내는 기술과 연구 분야를 말합니다. 이 분야는 사용자의 쿼리(query) 또는 질문에 가장 관련성 높은 정보를 신속하고 정확하게 제공하는 것을 목표로 합니다. 여기에는 웹 검색 엔진, 디지털 도서관, 온라인 데이터베이스 등이 포함됩니다. 정보 검색은 단순한 키워드 매칭에서부터 복잡한 의미 분석과 자연어 처리 기술을 활용한 검색에 이르기까지 다양한 기술을 사용합니다. 정보 검색의 주요 개념 문서 집합(Collection): 정보 검색 시스템은 검색 대상이 되는 문서 집합을 관리합니다. 이는 웹 페이지, 학술 논문, 책, 뉴스 기사 등 다양한 형태의 텍스트 문서일 수 있습니다. 쿼리(..
-
BM25 알고리즘이란?Search & AI/Search 2024. 4. 11. 13:05
BM25 알고리즘은 정보 검색 분야에서 문서의 관련성을 평가하기 위해 사용되는 랭킹 함수입니다. 이 알고리즘은 사용자의 검색 쿼리에 가장 잘 매치되는 문서를 찾아 순위를 매기는 데 사용됩니다. BM25는 TF-IDF(Term Frequency-Inverse Document Frequency) 모델을 개선한 것으로, 문서 내 특정 단어의 빈도수와 문서집합 전체에서 그 단어가 얼마나 일반적인지를 고려하여 문서의 관련성을 계산합니다. 어디에 쓰이는가? BM25 알고리즘은 주로 검색 엔진, 문서 분류, 자연어 처리 등의 분야에서 널리 사용됩니다. 이 알고리즘은 사용자가 입력한 검색어와 관련된 문서를 식별하고, 가장 관련성이 높은 문서부터 낮은 순으로 정렬하여 결과를 제공하는 데 중요한 역할을 합니다. 경쟁 알고..