공부 서랍장/논문

[논문리뷰] Semantic Search Evaluation

만땅이 2025. 1. 23. 11:24

ABSTRACT

  • "주제별 비율"이라는 메트릭을 도입
  •  GPT 3.5로 호출을 전송하는 파이프라인을 설계
  • 의미 평가 파이프라인은 관련성 개선을 위해 공통적인 실패 패턴과 목표를 식별하는 데 도움
  • keyword: Semantic Relevance, Search System Evaluation, Content Search, Information Retrieval, Generative AI

1 INTRODUCTION

시맨틱 매칭 기능은 검색에 사용된 정확한 키워드가 없더라도 검색 쿼리와 개념적으로 관련된 결과를 제공하여 회원들이 지식을 더 쉽게 찾을 수 있도록 도와줍니다. 

  •  Indirect measurement: 회원 피드백이 들어오면 시스템이 예상대로 작동하는지 여부를 판단, 추가 오버헤드 발생
  • Not operationalized;  시간이 지날 수록 의미관련도가 달라짐.

이 격차 해결을 위해 Generative AI를 활용하여 품질 평가하는 의미론적 평가 파이프라인을 제시

"주제별 비율" ( 주제와 관련된 콘텐츠 검색 결과의 비율 ) 이라는 지표를 제안

  • 콘텐츠 검색 모델의 성능 평가도구, 일반적인 실패 패턴을 식별하는 데에도 도움,  검색 결과의 관련성을 향상

새로운 의미 평가 파이프라인을 제시

  • 사용자 문제를 운영 가능한 기술적 패턴으로 변환하는 데 도움을 주며, 검색 엔진 오프라인 평가에 중요한 역할

2 RELATEDWORK

 

3 ON-TOPIC RATE

3.1 Task Formulation

  • OTR(On-topic rate): 검색 결과와 사용자의 쿼리 간의 관련성을 측정하는 지표
  • 𝑞: query,   𝐷 = (𝑑1, 𝑑2, ..., 𝑑𝑛): documents, K: selecting the top 𝐾 returned documents for each query.

3.2 Computation

𝑂𝑛𝑇𝑜𝑝𝑖𝑐𝑅𝑎𝑡𝑒 (𝑞, 𝑑𝑖 ) = 1 if the pair is relevant, otherwise 0

4 SEMANTIC EVALUATION SETUP

4.1 Create Query Set: 정적 쿼리세트

4.1.1 Golden Set: 쿼리를 평가하고 벤치마킹하기 위한 안정적이고 균일한 표준으로 사용

  • Top queries: 회원들이 가장 인기 있고 대표적인 키워드로 볼 수 있는 공통 쿼리를 통합
    • covid-19, resume, microsoft excel, we’re hiring, work from home
  • Topical queries: 특정 주제나 주제와 관련된 검색 질문 포함. 의도가 길고 복잡하여 평가 도전 과제를 제기
    • how to create a personal brand, how to stand out in a competitive job market, how do I negatiate my salary

4.1.2 Open Set.:  동적 쿼리 세트

  • 트렌드 쿼리 및 최신 쿼리, 다양성을 더하기 위한 몇 가지 무작위 쿼리
    • fed raises rates,leadership first, barbie, women ai study

4.2 Get search results for query set

  • top𝐾 = 10으로 데이터 수집

4.3 Formulate the prompt

  •  GPT 3.5가 LLM으로부터 피드백을 수집하도록 아래 내용을 포함해서 프롬프트를 구성
    • (1) 주제별 비율의 정의
    • (2) 의사 결정을 위한 세부 지침
    • (3) 질문
    • (4) 게시물, 주석 및 재공유된 게시물/기사를 포함한 게시물의 모든 텍스트 정보

4.3.1 Metric Definition.

  • 결정의 정확성을 높이기 위해 프롬프트를 계속 반복 (B가 성능이 월등하게 높음)
    • Prompt A: Given the post below, is the post strongly relevant to the query?
    • Prompt B: Given the post below, is the post primarily about query or strongly relevant to the query?  

4.3.2 Guidance

  • (1) 주제별 의사 결정은 쿼리와 게시물 간의 키워드 일치만을 고려해서는 안됨  쿼리 의도와 게시물 세부 사항 간의 의미론적 일치를 반영 필요
  • (2) 게시물 정보는 주로 사용자 쿼리와 관련

4.4 Compute OTR Metrics

  • Binary decision: 검색된 게시물이 주로 쿼리의 주제에 해당하는지 여부에 직접적으로 해당
  • Relevance score: Binary decision관련 점수. 쿼리와 게시물 간의 의미론적 관련성 측정 목표. 일관성을 유지필수
  • Decision reason: Binary decision 과 관련성 점수의 이유를 설명

  • 관련성 점수가 임계치(0.5)이상인 쿼리, 문서쌍만 사용
  • 𝑂𝑇𝑅@𝐾와 nDCG(normalized Discounted cumulative gain) 계산

 

5 EXPERIMENT

5.1 Human Evaluation on Generated Output

  • 10명의 사람을 평가시키기 위해 고용
    • 1) TestSet 1: 어노테이션을 사람이 작업한것 (쿼리&문서의 관련성 평가, 관련성없을 경우 이유 제공)
    • 2) TestSet 2: 이 파이프라인을 이용한 것으로 구분
  • 두 데이터는 상당히 일치함 (81.72% 유사)

5.2 Performance on Validation Set

  • 프롬프트의 품질 보장 필요함
  • 검증 세트에는 총 60개의 쿼리가 포함 각각 10개의 관련 게시물과 짝을 이루어 600개의 쿼리-게시물 쌍 만듬
  • 이 데이터 셋을 이용하여 프롬프트를 검증, 현재 제작에 사용되는 프롬프트는 검증 세트에서 94.5%의 정확도를 달성
    • company name queries
    • title queries, like data engineer, product manager
    • skill queries, like finance, customer services, marketing
    • newsy queries, like february jobs report
    • other top queries, for example: work from home, open to work

6. HOWDO WE USE SEMANTIC EVALUATION TO IMPROVE THE PRODUCT?

  • 이 평가 파이프라인을 오프라인 벤치마크로 선택하여 진행
  • Trained model이 쿼리 의도를 잘파악했는지 측정 ⇢ 성능 모니터링, 모델 개선에 활용

7. CONCLUSION

  • semantic evaluation pipeline for search engine offline evaluation 제안
    • 검색 결과와 사용자의 쿼리 간의 관련성을 측정
    • 사람이 평가하는 것과 높은 유사도를 보임
반응형