ABSTRACT
- "주제별 비율"이라는 메트릭을 도입
- GPT 3.5로 호출을 전송하는 파이프라인을 설계
- 의미 평가 파이프라인은 관련성 개선을 위해 공통적인 실패 패턴과 목표를 식별하는 데 도움
- keyword: Semantic Relevance, Search System Evaluation, Content Search, Information Retrieval, Generative AI
1 INTRODUCTION
시맨틱 매칭 기능은 검색에 사용된 정확한 키워드가 없더라도 검색 쿼리와 개념적으로 관련된 결과를 제공하여 회원들이 지식을 더 쉽게 찾을 수 있도록 도와줍니다.
- Indirect measurement: 회원 피드백이 들어오면 시스템이 예상대로 작동하는지 여부를 판단, 추가 오버헤드 발생
- Not operationalized; 시간이 지날 수록 의미관련도가 달라짐.
이 격차 해결을 위해 Generative AI를 활용하여 품질 평가하는 의미론적 평가 파이프라인을 제시
"주제별 비율" ( 주제와 관련된 콘텐츠 검색 결과의 비율 ) 이라는 지표를 제안
- 콘텐츠 검색 모델의 성능 평가도구, 일반적인 실패 패턴을 식별하는 데에도 도움, 검색 결과의 관련성을 향상
새로운 의미 평가 파이프라인을 제시
- 사용자 문제를 운영 가능한 기술적 패턴으로 변환하는 데 도움을 주며, 검색 엔진 오프라인 평가에 중요한 역할
2 RELATEDWORK
3 ON-TOPIC RATE
3.1 Task Formulation
- OTR(On-topic rate): 검색 결과와 사용자의 쿼리 간의 관련성을 측정하는 지표
- 𝑞: query, 𝐷 = (𝑑1, 𝑑2, ..., 𝑑𝑛): documents, K: selecting the top 𝐾 returned documents for each query.
3.2 Computation
𝑂𝑛𝑇𝑜𝑝𝑖𝑐𝑅𝑎𝑡𝑒 (𝑞, 𝑑𝑖 ) = 1 if the pair is relevant, otherwise 0
4 SEMANTIC EVALUATION SETUP
4.1 Create Query Set: 정적 쿼리세트
4.1.1 Golden Set: 쿼리를 평가하고 벤치마킹하기 위한 안정적이고 균일한 표준으로 사용
- Top queries: 회원들이 가장 인기 있고 대표적인 키워드로 볼 수 있는 공통 쿼리를 통합
- covid-19, resume, microsoft excel, we’re hiring, work from home
- Topical queries: 특정 주제나 주제와 관련된 검색 질문 포함. 의도가 길고 복잡하여 평가 도전 과제를 제기
- how to create a personal brand, how to stand out in a competitive job market, how do I negatiate my salary
4.1.2 Open Set.: 동적 쿼리 세트
- 트렌드 쿼리 및 최신 쿼리, 다양성을 더하기 위한 몇 가지 무작위 쿼리
- fed raises rates,leadership first, barbie, women ai study
4.2 Get search results for query set
- top𝐾 = 10으로 데이터 수집
4.3 Formulate the prompt
- GPT 3.5가 LLM으로부터 피드백을 수집하도록 아래 내용을 포함해서 프롬프트를 구성
- (1) 주제별 비율의 정의
- (2) 의사 결정을 위한 세부 지침
- (3) 질문
- (4) 게시물, 주석 및 재공유된 게시물/기사를 포함한 게시물의 모든 텍스트 정보
4.3.1 Metric Definition.
- 결정의 정확성을 높이기 위해 프롬프트를 계속 반복 (B가 성능이 월등하게 높음)
- Prompt A: Given the post below, is the post strongly relevant to the query?
- Prompt B: Given the post below, is the post primarily about query or strongly relevant to the query?
4.3.2 Guidance
- (1) 주제별 의사 결정은 쿼리와 게시물 간의 키워드 일치만을 고려해서는 안됨 쿼리 의도와 게시물 세부 사항 간의 의미론적 일치를 반영 필요
- (2) 게시물 정보는 주로 사용자 쿼리와 관련
4.4 Compute OTR Metrics
- Binary decision: 검색된 게시물이 주로 쿼리의 주제에 해당하는지 여부에 직접적으로 해당
- Relevance score: Binary decision관련 점수. 쿼리와 게시물 간의 의미론적 관련성 측정 목표. 일관성을 유지필수
- Decision reason: Binary decision 과 관련성 점수의 이유를 설명
- 관련성 점수가 임계치(0.5)이상인 쿼리, 문서쌍만 사용
- 𝑂𝑇𝑅@𝐾와 nDCG(normalized Discounted cumulative gain) 계산
5 EXPERIMENT
5.1 Human Evaluation on Generated Output
- 10명의 사람을 평가시키기 위해 고용
- 1) TestSet 1: 어노테이션을 사람이 작업한것 (쿼리&문서의 관련성 평가, 관련성없을 경우 이유 제공)
- 2) TestSet 2: 이 파이프라인을 이용한 것으로 구분
- 두 데이터는 상당히 일치함 (81.72% 유사)
5.2 Performance on Validation Set
- 프롬프트의 품질 보장 필요함
- 검증 세트에는 총 60개의 쿼리가 포함 각각 10개의 관련 게시물과 짝을 이루어 600개의 쿼리-게시물 쌍 만듬
- 이 데이터 셋을 이용하여 프롬프트를 검증, 현재 제작에 사용되는 프롬프트는 검증 세트에서 94.5%의 정확도를 달성
- company name queries
- title queries, like data engineer, product manager
- skill queries, like finance, customer services, marketing
- newsy queries, like february jobs report
- other top queries, for example: work from home, open to work
6. HOWDO WE USE SEMANTIC EVALUATION TO IMPROVE THE PRODUCT?
- 이 평가 파이프라인을 오프라인 벤치마크로 선택하여 진행
- Trained model이 쿼리 의도를 잘파악했는지 측정 ⇢ 성능 모니터링, 모델 개선에 활용
7. CONCLUSION
- semantic evaluation pipeline for search engine offline evaluation 제안
- 검색 결과와 사용자의 쿼리 간의 관련성을 측정
- 사람이 평가하는 것과 높은 유사도를 보임
반응형