자격증 43

[필기] (이기적) 추론통계

* 추정량의 선택 기준 ① 불편성: 표본 통계량의 기댓값이 모수의 실제값과 같을때 가짐 ② 효율성: 최소의 분산을 가진 추정량이 가장 효율적 ③ 일치성: 표본 크기가 증가할수록 좋은 추정값 ④ 충분성: 추정량이 모수에 대해 많은 정보를 제공할때 추정량은 충분추정량이됨 * 점추정량: 모집단의 특정을 단일값으로 추정 ex) 표본균, 표본분산, 중앙값 * 적률방법 - 적률: 양수n에 대해 확률변수의 기댓값을 확률변수의 원점에 대한n차 적률 * 편향 / 평균제곱오차 / 유효추정량 / 최대우도점추정 → 공식 및 상세 내용은 109~202페이지 참고 * 구간추정: 점추정에 오차의 개념 ① 일반화 : 구간을 나눔 ② 신뢰도, 신뢰구간: 구간 추정에 있어 추정한 구간에 모수가 들어갈 확률 * 모평균의 구간추정은 모집단..

[필기] (이기적) 통계기법

* 모집단: 정보를 얻고자 하는 고나심 대상의 전체 집합 * 표본 : 모집단에서 일부를 끄집어내어 조사한 결과 * 표본추출 : 모집단에서 표본을 선택하는 행위 * 전수조사: 모집단 전체 조사 * 표본조사: 모집단에서 표본을 추출해서 이를 대상으로 조사 시행 * 표본 추출 오차 ① 과잉 대표: 중복선택 등의 원인으로 모집단이 반복,중복된 데이터로 규정 ② 최소대표: 실제 모집단의 대표성x * 표본 추출 기법 ① 단순 무작위 추출: 난수 이용 ② 계통 추출: 추출간격설정해서 무작위 ③ 층화추출: 모집단이 곂치치 않게 여러 층별로 배정된 표본을 단순 임의 추출 ④ 군집추출: 모집단을 군집으로 나누어 일부 혹은 전체 분석 시행 * 독립 사건 : 두사건이 서로에게 영향x * 배반사건 : 두 사건이 동시에 일어날 ..

[필기] (이기적) 데이터 탐색

* 변수간의 상관성 분석 ① 단순상관분석: 두 변수가 어느정도 강산 관계? ② 다중상관분석: 3개 이상의 변수간의 관계 강도 측정 ③ 편상관계분석: 다중상관분석에서 다른변수와의 관계를 고정하고, 두 변수의 관계 강도 측정 * 상관분석의 기본가정 ① 선형성 ② 동변량성 ③두 변인의 정규분포성 ④무선독립표본 * 상관분석 방법 ① 피어슨 상관계수 ② 스피어만 상관계수: 데이터가 서열자료일때 이용, 데이터를 작은것부터 차례로 순위 매김 * 중심화 경향 기초통계량 ① 산술평균 ② 기하평균 ③ 중앙값 ④ 최빈값 ⑤ 분위수 : 자료의 위치를 표현하는 수치 ex) 사분위수 * 산포도(분산도) ① 분산, 표준편차 ② 범위 ③ 평균 절대 편차: 자료값과 표본평균과의 편차의 절대값에 대한 산술평균 ④ 사분위편차 : 자료를 ..

[필기] (이기적) 분석 변수 처리

* 변수별 모형 분류 ① 전체 모형 : 모든 독립변수 사용 ② 축소 모형 : 변수 개수 줄임 ③ 영 모형 : 독립변수 없음 *변수 선택방법 ① 전진 선택방법: 영 모형에서 시작, 종속변수와 단순상관계수의 절댓값이 가장 큰변수를 분석모형에 포함 - 부분 F 검정으로 유의성 검증, 한번 추가된 변수는 제거x ② 후진 선택법 : 전체 모델에서 시작, 종속변수와 단순상관계수의 절댓값이 갖아 작은 변수를 모형에서 제외 - 부분 F 검정으로 유의성 검증, 한번 제거되면 변수 제거 x ③ 단계적 선택법 : 전진+후진 선택법 * 차원축소 : 변수의 양을 줄이는것 - 필요성 : ① 복잡도의 축소 ②과적합(Overfit)의 방지 ③ 해석력의 확보 * 차원 축소 방법 ① 요인 분석 : 변수간의 상관관계분석하여 공통 차원 축..

[필기] (이기적) 데이터 수집 및 전환

* 데이터 수집: 여러장소에 있는데이터를 한곳으로 모으는것 *데이터 수집 시스템 구축절차 1) 수집데이터 유형파악 2) 수집 기술 결정 3) 아키텍처 수립 4) 하드웨어 구축 5) 실행환경 구축 *원천 데이터 정보 수집 내용 : 데이터의 수집 가능성, 데이터의 보안, 데이터 정확성, 수집 난이도, 수집 비용 * Sqoop 기술 (Apache Sqoop): 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송,적재과정자동화, 병렬처리 - 특징 ① Bulk import 지원 : 전체DB나 테이블을 HDFS로 전송 ② 데이터 전송 병렬화 : 병렬로 데이터 전송 ③ Direct input 제공:Hbase와 Hive에 직접 import 제공 ④ 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통해 데..

[필기] (이기적) 분석 작업 계획

* 데이터 처리 영역 : 기초 데이터를 정의, 수집 및 저장, 분석용 물리적 환경 제공 ① 데이터 소스 : 내부,외부 데이터, 미디어 정보 ② 데이터 수집 : 입력, 로그수집기, 크롤링, 센싱 ③ 데이터 저장 : 정형, 비정형데이터, 저장 장치 ④ 데이터 처리: 배치 처리, 실시간 처리, 분산 처리 * 데이터 분석 영역: 데이터를 가공하여 분석을 수행하고 표현 ① 도메인 이슈 도출 : 현황 파악 및 개선과제 정의, 빅데이터 요건 정의서 작성 ② 분석 목표 수립 : 분석목표 수립, 분석목표 정의서 작성 ③ 프로젝트 계획 수립 : 분석몰표정의서, 프로젝트 소요비용 배분계획을 바탕으로 작업 분할 구조도(WBS) 작성 ④ 보유 데이터 자산 확인 : 현재 데이터의 법률적 이슈나 제약상항 검토 * 데이터 표현 : ..

[필기] (이기적) 빅데이터 분석 방안

* 분석과제 도출방법 ① 하향식 접근방법 : 문제가 먼저 주어지고, 해법을 찾아가는 방법 ② 상향식 접근방법 : 데이터 기반으로 문제의 재정의 및 해결방안 탐색 ③ 최적의 의사결정을 위한 혼합방식 : 발산과 수렴을 반복하는 혼합방식 - 상향식 접근 방식의 발산(Diverge)단계 : 가능한 옵션을 도출 - 하향식 접근 방식의 수렴(Converge)단계 : 도출된 옵션을 분석하고 검증 * 하향식 접근 방식 ① 문제 탐색 단계 - 기준모델을 확인 활용하여 누락없이 문제 도출 및 식별 - 비지니스 모델기반, 외부 참조 무델기반, 분석 유스케이스 정의 등으로 구분가능 ② 문제 정의 단계 - 식별된 비지니스 문제를 데이터적인 문제로 변환&정의 ③ 해결방안 탐색 단계 - 기법 및 시스템 분석 역량 등에 따라 세분화..

[필기] (이기적) 빅데이터 분석 방안 수립

* 데이터 분석 : 대용량 데이터에서 유용한 정보 찾고 결과예측을 위함, 정형/비정형 대용량 데이터를 구축, 탐새, 분석, 시각화 * 데이터 분석 지향점 ①전략적 통찰이 없는 데이터 분석 배제 ②일차원적인 데이터 분석 지양 ③전략도출을 위한 가치 기반 데이터 분석 지향 * 데이터 분석 기획 : 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 것인가에 대한 일련의 계획 수립 * 분석 기획의 특징 ① 분석 대상과 방법에 따른 분류 ② 목표 시점에 따른 분류 : 단기적 접근 방식, 중장기적 접근 방식, 혼합 방식 * 분석 기획 시 필요역량 ① 분석 기획을 위한 기본적인 소양 ② 프로젝트 관리 역량과 리더쉽 * 분석 기획 시 고려사항 ① 사용 가능한 데이터 확인 ② 적합한 사례 탐색 ③..

[필기] (이기적)빅데이터 제도

* 개인정보: 살아있는 개인에 관한 정보 * 개인정보의 처리와 활용 ①개인정보의 이전 ②개인정보 처리위탁 ③개인정보의 제3자 제공 * 빅데이터 개인정보 보호 가이드라인(방통위) ①비식별화 ②투명성 확보 ③재식별 시 조치 ④민감정보 및 비밀 정보 처리 ⑤기술적/관리적 보호조치 * 개인정보 보호법: 당사자의 동이없이 정보를 수집,활용하며 금지 제2조 제1호 - 범위 : 정보가 특정 개인을 알아볼 수 있게 하는가?, 다른정보랑 결합해서 판단해도! - 처리위탁 : 일정한 내용을 기재한 문서에 의하여 업무 위탁이 이루어져야한다 개인정보보호법 제26조 제1항 - 수탁자에대한 교육, 감독 의무 부담 개인정보보호법 제26조 제3항 - 수탁자가 처리과정에서 위반하면 손해배상책임은 수탁자를 개인정보처리자의 소속직원으로봄 ..

[필기](이기적) 빅데이터 기술

* 빅데이터 플랫폼: 빅데이터 수집,저장,처리,분석 등 전 과정을 통합적으로 제공 * 빅데이터 플랫폼 등장 배경 ① 비지니스 요구사항 변화 ② 데이터 규모와 처리 복잡도 증가 ③ 데이터 구조의 변화와 신속성 요구 ④ 데이터 분석 유연성 증대 * 빅데이터 플랫폼 기능 ( 아래 문제를 해결함 ) ① 컴퓨팅 부하 발생 : 연산과정에서 부하 발생 ② 저장 부하발생 : 입력,가공,출력등 여러 단계에서 발생 ③ 네크워크 부하 발생 : 분산처리시에 노드 산의 통신과정 부하발생 *빅데이터 플랫폼은 서비스 사용자와 제공자 측면 어디에도 치우치면 안됨 * 빅데이터 플랫폼의 구조 ① 소프트웨어 계층 : 어플 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제 - 데이터 처리 및 분석 엔진(데이터 처리 및 분석, ..

728x90