공부 서랍장/논문

[논문리뷰 - 네트워크] Online Safety Assurance for Learning-Augmented Systems

만땅이 2021. 11. 23. 23:59

목차

     

    Abstract

    딥러닝이 네크워킹 문제에 적용되고 있음.

    하지만, 실제 적용환경이 학습한 환경과 다를때, 성능이 저하된다. 

    학습중심 시스템을 안전하게 배치하려면 시스템 동작이 일관적인지 여부를 실시간으로 확인하여야 하는데 그렇지 않은 경우,  휴리스틱으로 기본설정할 수 있어야함.  = 온라인 안전 보장문제

    비디오 스트리밍의 경우이 문제가 

    불확실성을 추론하는데 사용되는 3가지 접근법 제시

    1. Introduction

     - 네트워크 도메인에서 딥러닝 기능을 사용하려면 데이터가 많이 필요하며, 오프라인으로 학습뒤에 실행이 가능함.

     - 하지만 실제 네트워크의 복잡성을 포착하지 못함. 라우팅변경, 고장, 사용자 증가 등으로 인하여 어려움

    ( online safety assurance problem (OSAP))

    - So, 시스템에 훈련되지 않았고 신뢰할 수 있는 결정을 내릴 수 없는 시나리오를 감지하는 수단을 내장

       > 환경상태에 대한 불확실성

       > 일관되지 않은 행동 선택

       > 행동의 선택이 성능에 어떤 영향을 미치는지 일관되지 않은 인식

     - 안전한 순차적 의사결정을 위한 불확실성 신호를 탐구하는 첫 번째 연구

     - 결정 불확실성이 감지될때 Pensieve의 훈련 및 운영 환경이 일치할때 고성능과 안전 모두 가능

     

    2. ONLINE SAFETY ASSURANCE

    마르코프 의사결정 프로세스(MDP)에 따른 의사결정인 순차적 의사결정을 위한 표준 모델을 고려

    2.1 Sequential Decision Making

     - 이산시간 𝑡 = 0, 1, .

     - Agent는 가능한 작업 A집합에서 작업a를 수행

     - 𝑃 (𝑠𝑡+1 |𝑠𝑡 , 𝑎𝑡 ). 시간t에서  새로운 상태 𝑠𝑡+1 상태에 가능성

    2.2 The OSAP Problem

     - 학습 데이터와 테스트 데이터를 다르게 구성함

     - 이는 실제에  무한한 케이스의 다양한 환경에 대하여 반영하기 위함

     - OSAP에서 Agent의 결정이 신뢰할 수 없는 경우 식별 하는 것을 규칙으로 고안하는 것이 목표임.

    2.3 What to Measure?

     - 의사결정 불확실성을 정량화 하는 3가지 방법 ( U𝑆 , U𝜋 , and U𝑉)

     - test데이터가 train데이터와  차이가 크다면, novelty detection을 이용하여 새로움을 감지한다

     - train과 test데이터가 다르면, 각 데이터에서 관찰된 상태의 시퀀스가 차이가 난다.

     - U𝑆 : ND의 확장, train에서 test가 outlier인지 알아보는 것. agnet의 입력(관찰된 환경 상태)와 관련있음

     - U𝜋 &  U𝑉 : agent의 출력(결정과 관련된 불확실성) 과 관련있음.  train과 test가 동일한 환경이지만 잘못된 결정을 내릴때 예방 가능

    2.4 How to Measure?

     - U𝑆 : the one-class support vector machine (OCSVM) 사용. OC-SVM enables learning a function that outputs +1 in a small region capturing most of the data points, and −1 elsewhere. 우리의 방법은 동일한 훈련 환경에서 기능의 앙상블을 훈련하고 다른 기능의 출력이 일치하는 범위의 관점에서 불확실성을 정량화하는 것에 기초한다

     - Measuring U𝜋 via agent ensembles. : 동일한 train 환경에서 다른 agent 학습일때, 유일한 과정은 학습과정

    확률 벡터 사이의 유사성을 정량화 하기위해 KL발산 사용. 모든 출력𝑎의 평균의 sum

       - Measuring U𝑉 via value-function ensembles. : 해당 에이전트에 대한 가치 함수 ( 환경 상호작용으로 인한 상태, 행동 보상 기록등을 관찰)를 이용. value function에 의해 출력되는 값과 평균 값의 차이 합.

    2.5 Setting Thresholds for Defaulting

     - 불이행에 대하여 결정할 임계값은 2가지 아이디어를 통합

        1) sequences of data points 2) U𝜋, U𝑉에 검증하여 정해진  𝑘 > 0, 𝑙 > 0  (𝑘는 지난 time step)

     → 𝑘, 𝑙 ,U𝜋, U𝑉 값 정하는 것 필요. 이 값은 시스템의 설계자/운영자가 성능과 위험사이에서 균형을 반영 (경험적)

     - 본 실험에서 UΩ , UΩ 및 UΩ에 관한 온라인 안전 보장은 𝜇𝑡𝑟𝑎𝑖𝑛𝑖𝑛𝑔 = 𝜇𝑡𝑒𝑠𝑡 일 때 동일한 성능을 달성하도록 교정

     

    3. CASE STUDY: VIDEO STREAMING

     - adaptive bitrate (ABR) selection in video streaming 에 적용

     - ABR : 다른 해상도(bitrate)로 인코딩, 동일한 기간의 chunk로 분할. 클라이언트는 네크워트 처리량에 대한 로컬 확인으로 다운로드할 비트 전송률 결정. 변동률은 QoE, 해상도를 선택할때 ABR알고리즘을 언더슈팅하거나 비디오 오버 슈트 하거나 너무 자주 변경할 수 있음. 

    3.1 Evaluation Framework

    Datasets

     - 3G/HSDPA mobile dataset collected in Norway 와 a 4G/LTE mobile dataset collected in Belgium 데이터 사용.

     - train 70%( valid 30%포함), test 30%

     - 네트워크 처리량 i.id를 샘플링해서 4개의 합성데이터 셋 추가 ( Gamma with shape 1 and scale 2, Gamma with shape 2 and scale 2, Logistic with 𝜇 = 4 and scale 0.5, and Exponential with scale 1 )

    Network emulation

     - 비디오 클라이언트와 서버 사이의 80ms RTT로 입력 네트워크 추적에서 네트워크 상태를 에뮬레이트하는 데 사용. 

     - [27]의 실험 프레임워크를 기반

     QoE metric

     - 이전 연구의 기존 선형  QoE metric 고려 [27,63]

     > 𝑁 is the number of chunks in the video

     > 𝑅𝑛 is the bitrate at which video chunk 𝑛 was downloaded

     > 𝑇𝑛은 bitrate 𝑅𝑛으로 chunk 𝑁을 다운 받을 때 발생하는 rebuffering 시간

    Video

     - EnvivioDash3를 사용. 

     - 6개의  비트레이트 사용 ({240, 360, 480, 720, 1080, 1400}),

     - 각각 4초길이의 46개 비디오 chunk로 나눔.

     - 영상 지속 시간을 늘리기위해 원본 영상을 5번 연결하여 새로운 영상 만듬

    Learned and default ABR algorithms.

     - Pensieve 와 ABR policies를 기본으로 함

    Online safety assurance schemes.

     - U𝑆 : SciPy로 구현된 OS-SVM이용, 

     - 𝑘 = 5 경험적, 𝑘 = 30 합성 분포. 더 좋은 성능을 얻으려면 길어야함

      - C-SVM model provides a binary answer, either in-distribution or out-of-distribution (OOD)로 분류

     - 시간이 3개이상 연속으로 OOD가 나오면 BB로 설정됨

     -  U𝜋 and U𝑉 : size 𝑖 = 5 is trained. 평균과 가장 거리가 높은 2개는 삭제하고 나머지 계산

    Threshold calibration.

     - U𝜋 -based and U𝑉 -based safety assurance scheme 임계 값을 U𝑆 -based scheme에 맞도록 조정

    Remark: offline and online running times.

    3.2 Pensieve with safety assurance still outperforms BB in-distribution

     - “vanilla” Pensieve (with no safety assurance), ND, A-ensemble, V-ensemble, BB 모델을 동일한 데이터로 성능 확인

     - A- Ensemble과 V-Ensemble은 에이전트 및 V 앙상블에 대한 기본 임계값은 ND성능과 일치하도록 보정됨

    - 성능 : BB <  3개의 모델 < Pensieve

    3.3 Pensieve is dominated by BB when out-of-distribution

     -  어떤 경우에 random( bitrate를 무작위로 선택)보다 Pensieve가 안좋은 결과를 보임

     - So, Pensieve를 일반화 하기는 어려움

     - 각 데이터 셋별로 pensieve의 정규화된 점수

    - pensieve가 1점 미만이면 BB가, 0점 미만이면 random이 앞선다는 것

     - pensieve는 일반적으로 OOD일 때 BB에 의해 성능이 저하

    3.4 Contrasting the three safety assurance schemes when OOD

     - three safety-enhanced Pensieve을 적용한 것과 기본의 성능을 보임.

    - 전체 실험의 CDF값을 보임.  3가지 가 전부다 기존의 Pensieve보다 나음

     - A-Ensemble은 다른 두가지 방법에 의해 지배됨. 최소값이 랜덤보다 작고, 다른 두개보다 조금 나쁘거나 동등

        > 각각 다른 (좋은) 정책을 배울 수 있기 때문이라고 추측 

        > But agent출력 간의 변동성은 훈련 분포에서 확인가능. 성능을 보정하기때문에 가변성은 A-Ensemble불일치에 내성 가지도록 임계값 설정시키고 agent가 OOD 작동할떄 탐지 못하게됨. 훈련의 높은 변동성으로 A앙상블은 본질적으로 OSAP에 대한 신뢰성이 낮은 불확실성 추정기임

     - V-앙상블이 최대 성능 측면에서 더 나은 반면 ND는 최소 및 평균 성능 측면에서 더 우수.

        > 따라서 ND는 더 안전한 선택이지만 V-앙상블은 더 높은 성능 향상을 제공 가능

        >  V-앙상블은 단일 에이전트의 정책과 관련하여 훈련될 때 Aensembles의 가변성으로 인해 어려움을 겪지 않음

        > ND는 OOD 샘플이 검출될 때마다 기본값이 되기 때문에 가장 보수적인 접근 방식을 반영하는 반면, Venseemble은 값이 높은 확실성을 가질 때 UD 샘플에 Pensieve를 고수하기로 선택할 때 잠재적으로 더 높은 보상을 얻을 수 있음

    4. RELATEDWORK

     - 다른 연구들은 어떤 것도 환경의 변화에 안전하게 반응하는 방법에 대한 문제를 다루지 않는다.

     - 호기심 기반 탐사에 대한 연구는 환경 모델[17, 37], 상태 관찰 및 가치 함수 또는 정책의 앙상블 사이의 일치 수준에서 불확실성을 측정하지만 다른 목표를 가지고 있음

    5. CONCLUSION AND DIRECTIONS FOR FUTURE RESEARCH

     -  우리는 시스템이 도달한 결정을 더 이상 신뢰할 수 없을 때 실시간으로 감지하고 더 안전한 대안으로 디폴트할 것을 제안

     - ABR 비디오 스트리밍에 대한 그러한 온라인 안전 보장에 대한 우리의 초기 조사 결과, 이 목적을 위해 신규성 감지 방법 또는 가치 기반 불확실성 추정을 적용하는 것이 유망한 반면, 행동 기반 불확실성을 신호 요금으로 사용하는 것은 훨씬 더 나쁜 것으로 나타났다.

     - 새로움-탐지 기반과 가치-불확실성 기반 중 어떤 것이 다른 맥락에서 더 적합한지에 대한 추가 조사와 다른 임계 전략의 수행에 대한 영향을 탐구하는 것이 포함

    반응형