만땅이의 서랍장

공부 서랍장/논문

[논문리뷰] Semantic Search Evaluation

만땅이 2025. 1. 23. 11:24

ABSTRACT

"주제별 비율"이라는 메트릭을 도입
GPT 3.5로 호출을 전송하는 파이프라인을 설계
의미 평가 파이프라인은 관련성 개선을 위해 공통적인 실패 패턴과 목표를 식별하는 데 도움
keyword: Semantic Relevance, Search System Evaluation, Content Search, Information Retrieval, Generative AI

1 INTRODUCTION

시맨틱 매칭 기능은 검색에 사용된 정확한 키워드가 없더라도 검색 쿼리와 개념적으로 관련된 결과를 제공하여 회원들이 지식을 더 쉽게 찾을 수 있도록 도와줍니다.

Indirect measurement: 회원 피드백이 들어오면 시스템이 예상대로 작동하는지 여부를 판단, 추가 오버헤드 발생
Not operationalized; 시간이 지날 수록 의미관련도가 달라짐.

이 격차 해결을 위해 Generative AI를 활용하여 품질 평가하는 의미론적 평가 파이프라인을 제시

"주제별 비율" ( 주제와 관련된 콘텐츠 검색 결과의 비율 ) 이라는 지표를 제안

콘텐츠 검색 모델의 성능 평가도구, 일반적인 실패 패턴을 식별하는 데에도 도움, 검색 결과의 관련성을 향상

새로운 의미 평가 파이프라인을 제시

사용자 문제를 운영 가능한 기술적 패턴으로 변환하는 데 도움을 주며, 검색 엔진 오프라인 평가에 중요한 역할

2 RELATEDWORK

3 ON-TOPIC RATE

3.1 Task Formulation

OTR(On-topic rate): 검색 결과와 사용자의 쿼리 간의 관련성을 측정하는 지표
𝑞: query, 𝐷 = (𝑑1, 𝑑2, ..., 𝑑𝑛): documents, K: selecting the top 𝐾 returned documents for each query.

3.2 Computation

𝑂𝑛𝑇𝑜𝑝𝑖𝑐𝑅𝑎𝑡𝑒 (𝑞, 𝑑𝑖 ) = 1 if the pair is relevant, otherwise 0

4 SEMANTIC EVALUATION SETUP

4.1 Create Query Set: 정적 쿼리세트

4.1.1 Golden Set: 쿼리를 평가하고 벤치마킹하기 위한 안정적이고 균일한 표준으로 사용

Top queries: 회원들이 가장 인기 있고 대표적인 키워드로 볼 수 있는 공통 쿼리를 통합
- covid-19, resume, microsoft excel, we’re hiring, work from home
Topical queries: 특정 주제나 주제와 관련된 검색 질문 포함. 의도가 길고 복잡하여 평가 도전 과제를 제기
- how to create a personal brand, how to stand out in a competitive job market, how do I negatiate my salary

4.1.2 Open Set.: 동적 쿼리 세트

트렌드 쿼리 및 최신 쿼리, 다양성을 더하기 위한 몇 가지 무작위 쿼리
- fed raises rates,leadership first, barbie, women ai study

4.2 Get search results for query set

top𝐾 = 10으로 데이터 수집

4.3 Formulate the prompt

GPT 3.5가 LLM으로부터 피드백을 수집하도록 아래 내용을 포함해서 프롬프트를 구성
- (1) 주제별 비율의 정의
- (2) 의사 결정을 위한 세부 지침
- (3) 질문
- (4) 게시물, 주석 및 재공유된 게시물/기사를 포함한 게시물의 모든 텍스트 정보

4.3.1 Metric Definition.

결정의 정확성을 높이기 위해 프롬프트를 계속 반복 (B가 성능이 월등하게 높음)
- Prompt A: Given the post below, is the post strongly relevant to the query?
- Prompt B: Given the post below, is the post primarily about query or strongly relevant to the query?

4.3.2 Guidance

(1) 주제별 의사 결정은 쿼리와 게시물 간의 키워드 일치만을 고려해서는 안됨 쿼리 의도와 게시물 세부 사항 간의 의미론적 일치를 반영 필요
(2) 게시물 정보는 주로 사용자 쿼리와 관련

4.4 Compute OTR Metrics

Binary decision: 검색된 게시물이 주로 쿼리의 주제에 해당하는지 여부에 직접적으로 해당
Relevance score: Binary decision관련 점수. 쿼리와 게시물 간의 의미론적 관련성 측정 목표. 일관성을 유지필수
Decision reason: Binary decision 과 관련성 점수의 이유를 설명

관련성 점수가 임계치(0.5)이상인 쿼리, 문서쌍만 사용
𝑂𝑇𝑅@𝐾와 nDCG(normalized Discounted cumulative gain) 계산

5 EXPERIMENT

5.1 Human Evaluation on Generated Output

10명의 사람을 평가시키기 위해 고용
- 1) TestSet 1: 어노테이션을 사람이 작업한것 (쿼리&문서의 관련성 평가, 관련성없을 경우 이유 제공)
- 2) TestSet 2: 이 파이프라인을 이용한 것으로 구분
두 데이터는 상당히 일치함 (81.72% 유사)

5.2 Performance on Validation Set

프롬프트의 품질 보장 필요함
검증 세트에는 총 60개의 쿼리가 포함 각각 10개의 관련 게시물과 짝을 이루어 600개의 쿼리-게시물 쌍 만듬
이 데이터 셋을 이용하여 프롬프트를 검증, 현재 제작에 사용되는 프롬프트는 검증 세트에서 94.5%의 정확도를 달성
- company name queries
- title queries, like data engineer, product manager
- skill queries, like finance, customer services, marketing
- newsy queries, like february jobs report
- other top queries, for example: work from home, open to work

6. HOWDO WE USE SEMANTIC EVALUATION TO IMPROVE THE PRODUCT?

이 평가 파이프라인을 오프라인 벤치마크로 선택하여 진행
Trained model이 쿼리 의도를 잘파악했는지 측정 ⇢ 성능 모니터링, 모델 개선에 활용

7. CONCLUSION

semantic evaluation pipeline for search engine offline evaluation 제안
- 검색 결과와 사용자의 쿼리 간의 관련성을 측정
- 사람이 평가하는 것과 높은 유사도를 보임

저작자표시 비영리 변경금지

'공부 서랍장 > 논문' 카테고리의 다른 글

[논문 리뷰] Variable speed induction motors’ fault detection based on transient motor current signatures analysis (0)	2024.02.21
[논문리뷰 - 이미지] DeiT Training data-efficient image transformers & distillation through attention (0)	2022.05.17
[논문-의료] Explainable Image Quality Analysis of Chest X-Rays (0)	2022.05.11
[논문리뷰-의료] Deep LF-Net: Semantic lung segmentation from Indian chest radiographs including severely unhealthy images (0)	2022.03.27
[논문리뷰-의료] Automated Image Quality Evaluation of Structural Brain MRI Using an Ensemble of Deep Learning Networks (0)	2021.11.29

현재글[논문리뷰] Semantic Search Evaluation

취미 + 대학원 + 자격증

파이썬, 코테, 약술형, Python, 빅분기필기, 이기적, 데이터분석기사, 데이터, 정처기, 큐넷티켓팅, 빅데이터분석기사, 큐넷꿀팁, 프로그래머스, 실기, 코딩테스트, 빅분기 필기, 정보처리기사, 기사시험, 기사, 빅분기,

Today :
Yesterday :

만땅이의 서랍장

[논문리뷰] Semantic Search Evaluation

ABSTRACT

1 INTRODUCTION

2 RELATEDWORK

3 ON-TOPIC RATE

3.1 Task Formulation

3.2 Computation

4 SEMANTIC EVALUATION SETUP

5 EXPERIMENT

5.1 Human Evaluation on Generated Output

5.2 Performance on Validation Set

6. HOWDO WE USE SEMANTIC EVALUATION TO IMPROVE THE PRODUCT?

7. CONCLUSION

'공부 서랍장 > 논문' 카테고리의 다른 글

'공부 서랍장/논문'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

[논문리뷰] Semantic Search Evaluation

ABSTRACT

1 INTRODUCTION

2 RELATEDWORK

3 ON-TOPIC RATE

3.1 Task Formulation

3.2 Computation

4 SEMANTIC EVALUATION SETUP

5 EXPERIMENT

5.1 Human Evaluation on Generated Output

5.2 Performance on Validation Set

6. HOWDO WE USE SEMANTIC EVALUATION TO IMPROVE THE PRODUCT?

7. CONCLUSION

'공부 서랍장 > 논문' 카테고리의 다른 글

'공부 서랍장/논문'의 다른글

관련글

티스토리툴바