목차
Abstract
딥러닝이 네크워킹 문제에 적용되고 있음.
하지만, 실제 적용환경이 학습한 환경과 다를때, 성능이 저하된다.
학습중심 시스템을 안전하게 배치하려면 시스템 동작이 일관적인지 여부를 실시간으로 확인하여야 하는데 그렇지 않은 경우, 휴리스틱으로 기본설정할 수 있어야함. = 온라인 안전 보장문제
비디오 스트리밍의 경우이 문제가
불확실성을 추론하는데 사용되는 3가지 접근법 제시
1. Introduction
- 네트워크 도메인에서 딥러닝 기능을 사용하려면 데이터가 많이 필요하며, 오프라인으로 학습뒤에 실행이 가능함.
- 하지만 실제 네트워크의 복잡성을 포착하지 못함. 라우팅변경, 고장, 사용자 증가 등으로 인하여 어려움
( online safety assurance problem (OSAP))
- So, 시스템에 훈련되지 않았고 신뢰할 수 있는 결정을 내릴 수 없는 시나리오를 감지하는 수단을 내장
> 환경상태에 대한 불확실성
> 일관되지 않은 행동 선택
> 행동의 선택이 성능에 어떤 영향을 미치는지 일관되지 않은 인식
- 안전한 순차적 의사결정을 위한 불확실성 신호를 탐구하는 첫 번째 연구
- 결정 불확실성이 감지될때 Pensieve의 훈련 및 운영 환경이 일치할때 고성능과 안전 모두 가능
2. ONLINE SAFETY ASSURANCE
마르코프 의사결정 프로세스(MDP)에 따른 의사결정인 순차적 의사결정을 위한 표준 모델을 고려
2.1 Sequential Decision Making
- 이산시간 𝑡 = 0, 1, .
- Agent는 가능한 작업 A집합에서 작업a를 수행
- 𝑃 (𝑠𝑡+1 |𝑠𝑡 , 𝑎𝑡 ). 시간t에서 새로운 상태 𝑠𝑡+1 상태에 가능성
2.2 The OSAP Problem
- 학습 데이터와 테스트 데이터를 다르게 구성함
- 이는 실제에 무한한 케이스의 다양한 환경에 대하여 반영하기 위함
- OSAP에서 Agent의 결정이 신뢰할 수 없는 경우 식별 하는 것을 규칙으로 고안하는 것이 목표임.
2.3 What to Measure?
- 의사결정 불확실성을 정량화 하는 3가지 방법 ( U𝑆 , U𝜋 , and U𝑉)
- test데이터가 train데이터와 차이가 크다면, novelty detection을 이용하여 새로움을 감지한다
- train과 test데이터가 다르면, 각 데이터에서 관찰된 상태의 시퀀스가 차이가 난다.
- U𝑆 : ND의 확장, train에서 test가 outlier인지 알아보는 것. agnet의 입력(관찰된 환경 상태)와 관련있음
- U𝜋 & U𝑉 : agent의 출력(결정과 관련된 불확실성) 과 관련있음. train과 test가 동일한 환경이지만 잘못된 결정을 내릴때 예방 가능
2.4 How to Measure?
- U𝑆 : the one-class support vector machine (OCSVM) 사용. OC-SVM enables learning a function that outputs +1 in a small region capturing most of the data points, and −1 elsewhere. 우리의 방법은 동일한 훈련 환경에서 기능의 앙상블을 훈련하고 다른 기능의 출력이 일치하는 범위의 관점에서 불확실성을 정량화하는 것에 기초한다
- Measuring U𝜋 via agent ensembles. : 동일한 train 환경에서 다른 agent 학습일때, 유일한 과정은 학습과정
확률 벡터 사이의 유사성을 정량화 하기위해 KL발산 사용. 모든 출력𝑎의 평균의 sum
- Measuring U𝑉 via value-function ensembles. : 해당 에이전트에 대한 가치 함수 ( 환경 상호작용으로 인한 상태, 행동 보상 기록등을 관찰)를 이용. value function에 의해 출력되는 값과 평균 값의 차이 합.
2.5 Setting Thresholds for Defaulting
- 불이행에 대하여 결정할 임계값은 2가지 아이디어를 통합
1) sequences of data points 2) U𝜋, U𝑉에 검증하여 정해진 𝑘 > 0, 𝑙 > 0 (𝑘는 지난 time step)
→ 𝑘, 𝑙 ,U𝜋, U𝑉 값 정하는 것 필요. 이 값은 시스템의 설계자/운영자가 성능과 위험사이에서 균형을 반영 (경험적)
- 본 실험에서 UΩ , UΩ 및 UΩ에 관한 온라인 안전 보장은 𝜇𝑡𝑟𝑎𝑖𝑛𝑖𝑛𝑔 = 𝜇𝑡𝑒𝑠𝑡 일 때 동일한 성능을 달성하도록 교정
3. CASE STUDY: VIDEO STREAMING
- adaptive bitrate (ABR) selection in video streaming 에 적용
- ABR : 다른 해상도(bitrate)로 인코딩, 동일한 기간의 chunk로 분할. 클라이언트는 네크워트 처리량에 대한 로컬 확인으로 다운로드할 비트 전송률 결정. 변동률은 QoE, 해상도를 선택할때 ABR알고리즘을 언더슈팅하거나 비디오 오버 슈트 하거나 너무 자주 변경할 수 있음.
3.1 Evaluation Framework
Datasets
- 3G/HSDPA mobile dataset collected in Norway 와 a 4G/LTE mobile dataset collected in Belgium 데이터 사용.
- train 70%( valid 30%포함), test 30%
- 네트워크 처리량 i.id를 샘플링해서 4개의 합성데이터 셋 추가 ( Gamma with shape 1 and scale 2, Gamma with shape 2 and scale 2, Logistic with 𝜇 = 4 and scale 0.5, and Exponential with scale 1 )
Network emulation
- 비디오 클라이언트와 서버 사이의 80ms RTT로 입력 네트워크 추적에서 네트워크 상태를 에뮬레이트하는 데 사용.
- [27]의 실험 프레임워크를 기반
QoE metric
- 이전 연구의 기존 선형 QoE metric 고려 [27,63]
> 𝑁 is the number of chunks in the video
> 𝑅𝑛 is the bitrate at which video chunk 𝑛 was downloaded
> 𝑇𝑛은 bitrate 𝑅𝑛으로 chunk 𝑁을 다운 받을 때 발생하는 rebuffering 시간
Video
- EnvivioDash3를 사용.
- 6개의 비트레이트 사용 ({240, 360, 480, 720, 1080, 1400}),
- 각각 4초길이의 46개 비디오 chunk로 나눔.
- 영상 지속 시간을 늘리기위해 원본 영상을 5번 연결하여 새로운 영상 만듬
Learned and default ABR algorithms.
- Pensieve 와 ABR policies를 기본으로 함
Online safety assurance schemes.
- U𝑆 : SciPy로 구현된 OS-SVM이용,
- 𝑘 = 5 경험적, 𝑘 = 30 합성 분포. 더 좋은 성능을 얻으려면 길어야함
- C-SVM model provides a binary answer, either in-distribution or out-of-distribution (OOD)로 분류
- 시간이 3개이상 연속으로 OOD가 나오면 BB로 설정됨
- U𝜋 and U𝑉 : size 𝑖 = 5 is trained. 평균과 가장 거리가 높은 2개는 삭제하고 나머지 계산
Threshold calibration.
- U𝜋 -based and U𝑉 -based safety assurance scheme 임계 값을 U𝑆 -based scheme에 맞도록 조정
Remark: offline and online running times.
3.2 Pensieve with safety assurance still outperforms BB in-distribution
- “vanilla” Pensieve (with no safety assurance), ND, A-ensemble, V-ensemble, BB 모델을 동일한 데이터로 성능 확인
- A- Ensemble과 V-Ensemble은 에이전트 및 V 앙상블에 대한 기본 임계값은 ND성능과 일치하도록 보정됨
- 성능 : BB < 3개의 모델 < Pensieve
3.3 Pensieve is dominated by BB when out-of-distribution
- 어떤 경우에 random( bitrate를 무작위로 선택)보다 Pensieve가 안좋은 결과를 보임
- So, Pensieve를 일반화 하기는 어려움
- 각 데이터 셋별로 pensieve의 정규화된 점수
- pensieve가 1점 미만이면 BB가, 0점 미만이면 random이 앞선다는 것
- pensieve는 일반적으로 OOD일 때 BB에 의해 성능이 저하
3.4 Contrasting the three safety assurance schemes when OOD
- three safety-enhanced Pensieve을 적용한 것과 기본의 성능을 보임.
- 전체 실험의 CDF값을 보임. 3가지 가 전부다 기존의 Pensieve보다 나음
- A-Ensemble은 다른 두가지 방법에 의해 지배됨. 최소값이 랜덤보다 작고, 다른 두개보다 조금 나쁘거나 동등
> 각각 다른 (좋은) 정책을 배울 수 있기 때문이라고 추측
> But agent출력 간의 변동성은 훈련 분포에서 확인가능. 성능을 보정하기때문에 가변성은 A-Ensemble불일치에 내성 가지도록 임계값 설정시키고 agent가 OOD 작동할떄 탐지 못하게됨. 훈련의 높은 변동성으로 A앙상블은 본질적으로 OSAP에 대한 신뢰성이 낮은 불확실성 추정기임
- V-앙상블이 최대 성능 측면에서 더 나은 반면 ND는 최소 및 평균 성능 측면에서 더 우수.
> 따라서 ND는 더 안전한 선택이지만 V-앙상블은 더 높은 성능 향상을 제공 가능
> V-앙상블은 단일 에이전트의 정책과 관련하여 훈련될 때 Aensembles의 가변성으로 인해 어려움을 겪지 않음
> ND는 OOD 샘플이 검출될 때마다 기본값이 되기 때문에 가장 보수적인 접근 방식을 반영하는 반면, Venseemble은 값이 높은 확실성을 가질 때 UD 샘플에 Pensieve를 고수하기로 선택할 때 잠재적으로 더 높은 보상을 얻을 수 있음
4. RELATEDWORK
- 다른 연구들은 어떤 것도 환경의 변화에 안전하게 반응하는 방법에 대한 문제를 다루지 않는다.
- 호기심 기반 탐사에 대한 연구는 환경 모델[17, 37], 상태 관찰 및 가치 함수 또는 정책의 앙상블 사이의 일치 수준에서 불확실성을 측정하지만 다른 목표를 가지고 있음
5. CONCLUSION AND DIRECTIONS FOR FUTURE RESEARCH
- 우리는 시스템이 도달한 결정을 더 이상 신뢰할 수 없을 때 실시간으로 감지하고 더 안전한 대안으로 디폴트할 것을 제안
- ABR 비디오 스트리밍에 대한 그러한 온라인 안전 보장에 대한 우리의 초기 조사 결과, 이 목적을 위해 신규성 감지 방법 또는 가치 기반 불확실성 추정을 적용하는 것이 유망한 반면, 행동 기반 불확실성을 신호 요금으로 사용하는 것은 훨씬 더 나쁜 것으로 나타났다.
- 새로움-탐지 기반과 가치-불확실성 기반 중 어떤 것이 다른 맥락에서 더 적합한지에 대한 추가 조사와 다른 임계 전략의 수행에 대한 영향을 탐구하는 것이 포함