자격증/빅데이터 분석기사 15

[빅분기|실기] 준비 환경 및 자동완성 대체품 help, dir

1. 실제 빅데이터분석기사 시험환경웹상(  like 프로그래머스 )에서 진행되는 시험, 주피터처럼 cell별로 찍어볼 수는 없음 ㅜㅠR/Python모두 지원Testcase를 직접 추가해서 확인해볼 수 있음자동완성.. Tab 불가능...아래와 같은 환경이 실제 검정 환경과 동일함(https://dataq.goorm.io/exam/3/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/1) 2. 자동완성 불가능의 단점을 보완하는 방법: 파이썬을 좀 사용해보신 분들이라면, 이 두가지 방법을 이용하면... 쉽게 준비할지도 ~!dir() : 네임스페이스에 등록되어 있는 이름들을 리스트로 반환해주는 pthon의 내장함수아래와같이 결과가 송출되는데, 함수명이 정확히생각이 안난다면 아래와 같은 ..

[필기] 2021년 2회 필기 후기

(◍•ᴗ•◍) 도움이 되셨다면 하트와 광고한번 부탁드립니다 (◍•ᴗ•◍) 우선 밑밥을 깔자면... 내 게시글을 보신분이라면 알겠지만..ㅋㅋㅋㅋ 게시글이 매우 극초반에 멈췄다 ㅋㅋㅋㅋ = 공부를 안했습니다. 제2회 필기 시험이 4월 17일이였는데 내 게시글이 1월에 멈춰있는걸보면 말다했지 ^^ㅋㅋㅋㅋㅋㅋㅋ 연구실 사람들이랑 스터디를 하기는했다. 일주일에 1번씩 파트별로 문제 출제하기! 연구실 사람들은 이쪽을 공부하고, 실제 적용하는 것까지 꽤 오래했기 때문에 나와 배경이 달랐다 하지만 그들은... 열심히도 했찌.. 나는 아니고 ㅎㅅㅎ 결론부터 말하면 떨어졌다 근데 생각보다 아깝게 떨어졌다 나는 무조건 과락일꺼라고 생각했는데 과락은 없었고, 2번과목 빅데이터 탐색에서 점수를 획득을 못해서 56점으로 떨어졌다..

[필기] (이기적) 추론통계

* 추정량의 선택 기준 ① 불편성: 표본 통계량의 기댓값이 모수의 실제값과 같을때 가짐 ② 효율성: 최소의 분산을 가진 추정량이 가장 효율적 ③ 일치성: 표본 크기가 증가할수록 좋은 추정값 ④ 충분성: 추정량이 모수에 대해 많은 정보를 제공할때 추정량은 충분추정량이됨 * 점추정량: 모집단의 특정을 단일값으로 추정 ex) 표본균, 표본분산, 중앙값 * 적률방법 - 적률: 양수n에 대해 확률변수의 기댓값을 확률변수의 원점에 대한n차 적률 * 편향 / 평균제곱오차 / 유효추정량 / 최대우도점추정 → 공식 및 상세 내용은 109~202페이지 참고 * 구간추정: 점추정에 오차의 개념 ① 일반화 : 구간을 나눔 ② 신뢰도, 신뢰구간: 구간 추정에 있어 추정한 구간에 모수가 들어갈 확률 * 모평균의 구간추정은 모집단..

[필기] (이기적) 통계기법

* 모집단: 정보를 얻고자 하는 고나심 대상의 전체 집합 * 표본 : 모집단에서 일부를 끄집어내어 조사한 결과 * 표본추출 : 모집단에서 표본을 선택하는 행위 * 전수조사: 모집단 전체 조사 * 표본조사: 모집단에서 표본을 추출해서 이를 대상으로 조사 시행 * 표본 추출 오차 ① 과잉 대표: 중복선택 등의 원인으로 모집단이 반복,중복된 데이터로 규정 ② 최소대표: 실제 모집단의 대표성x * 표본 추출 기법 ① 단순 무작위 추출: 난수 이용 ② 계통 추출: 추출간격설정해서 무작위 ③ 층화추출: 모집단이 곂치치 않게 여러 층별로 배정된 표본을 단순 임의 추출 ④ 군집추출: 모집단을 군집으로 나누어 일부 혹은 전체 분석 시행 * 독립 사건 : 두사건이 서로에게 영향x * 배반사건 : 두 사건이 동시에 일어날 ..

[필기] (이기적) 데이터 탐색

* 변수간의 상관성 분석 ① 단순상관분석: 두 변수가 어느정도 강산 관계? ② 다중상관분석: 3개 이상의 변수간의 관계 강도 측정 ③ 편상관계분석: 다중상관분석에서 다른변수와의 관계를 고정하고, 두 변수의 관계 강도 측정 * 상관분석의 기본가정 ① 선형성 ② 동변량성 ③두 변인의 정규분포성 ④무선독립표본 * 상관분석 방법 ① 피어슨 상관계수 ② 스피어만 상관계수: 데이터가 서열자료일때 이용, 데이터를 작은것부터 차례로 순위 매김 * 중심화 경향 기초통계량 ① 산술평균 ② 기하평균 ③ 중앙값 ④ 최빈값 ⑤ 분위수 : 자료의 위치를 표현하는 수치 ex) 사분위수 * 산포도(분산도) ① 분산, 표준편차 ② 범위 ③ 평균 절대 편차: 자료값과 표본평균과의 편차의 절대값에 대한 산술평균 ④ 사분위편차 : 자료를 ..

[필기] (이기적) 분석 변수 처리

* 변수별 모형 분류 ① 전체 모형 : 모든 독립변수 사용 ② 축소 모형 : 변수 개수 줄임 ③ 영 모형 : 독립변수 없음 *변수 선택방법 ① 전진 선택방법: 영 모형에서 시작, 종속변수와 단순상관계수의 절댓값이 가장 큰변수를 분석모형에 포함 - 부분 F 검정으로 유의성 검증, 한번 추가된 변수는 제거x ② 후진 선택법 : 전체 모델에서 시작, 종속변수와 단순상관계수의 절댓값이 갖아 작은 변수를 모형에서 제외 - 부분 F 검정으로 유의성 검증, 한번 제거되면 변수 제거 x ③ 단계적 선택법 : 전진+후진 선택법 * 차원축소 : 변수의 양을 줄이는것 - 필요성 : ① 복잡도의 축소 ②과적합(Overfit)의 방지 ③ 해석력의 확보 * 차원 축소 방법 ① 요인 분석 : 변수간의 상관관계분석하여 공통 차원 축..

[필기] (이기적) 데이터 수집 및 전환

* 데이터 수집: 여러장소에 있는데이터를 한곳으로 모으는것 *데이터 수집 시스템 구축절차 1) 수집데이터 유형파악 2) 수집 기술 결정 3) 아키텍처 수립 4) 하드웨어 구축 5) 실행환경 구축 *원천 데이터 정보 수집 내용 : 데이터의 수집 가능성, 데이터의 보안, 데이터 정확성, 수집 난이도, 수집 비용 * Sqoop 기술 (Apache Sqoop): 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송,적재과정자동화, 병렬처리 - 특징 ① Bulk import 지원 : 전체DB나 테이블을 HDFS로 전송 ② 데이터 전송 병렬화 : 병렬로 데이터 전송 ③ Direct input 제공:Hbase와 Hive에 직접 import 제공 ④ 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통해 데..

[필기] (이기적) 분석 작업 계획

* 데이터 처리 영역 : 기초 데이터를 정의, 수집 및 저장, 분석용 물리적 환경 제공 ① 데이터 소스 : 내부,외부 데이터, 미디어 정보 ② 데이터 수집 : 입력, 로그수집기, 크롤링, 센싱 ③ 데이터 저장 : 정형, 비정형데이터, 저장 장치 ④ 데이터 처리: 배치 처리, 실시간 처리, 분산 처리 * 데이터 분석 영역: 데이터를 가공하여 분석을 수행하고 표현 ① 도메인 이슈 도출 : 현황 파악 및 개선과제 정의, 빅데이터 요건 정의서 작성 ② 분석 목표 수립 : 분석목표 수립, 분석목표 정의서 작성 ③ 프로젝트 계획 수립 : 분석몰표정의서, 프로젝트 소요비용 배분계획을 바탕으로 작업 분할 구조도(WBS) 작성 ④ 보유 데이터 자산 확인 : 현재 데이터의 법률적 이슈나 제약상항 검토 * 데이터 표현 : ..

[필기] (이기적) 빅데이터 분석 방안

* 분석과제 도출방법 ① 하향식 접근방법 : 문제가 먼저 주어지고, 해법을 찾아가는 방법 ② 상향식 접근방법 : 데이터 기반으로 문제의 재정의 및 해결방안 탐색 ③ 최적의 의사결정을 위한 혼합방식 : 발산과 수렴을 반복하는 혼합방식 - 상향식 접근 방식의 발산(Diverge)단계 : 가능한 옵션을 도출 - 하향식 접근 방식의 수렴(Converge)단계 : 도출된 옵션을 분석하고 검증 * 하향식 접근 방식 ① 문제 탐색 단계 - 기준모델을 확인 활용하여 누락없이 문제 도출 및 식별 - 비지니스 모델기반, 외부 참조 무델기반, 분석 유스케이스 정의 등으로 구분가능 ② 문제 정의 단계 - 식별된 비지니스 문제를 데이터적인 문제로 변환&정의 ③ 해결방안 탐색 단계 - 기법 및 시스템 분석 역량 등에 따라 세분화..

[필기] (이기적) 빅데이터 분석 방안 수립

* 데이터 분석 : 대용량 데이터에서 유용한 정보 찾고 결과예측을 위함, 정형/비정형 대용량 데이터를 구축, 탐새, 분석, 시각화 * 데이터 분석 지향점 ①전략적 통찰이 없는 데이터 분석 배제 ②일차원적인 데이터 분석 지양 ③전략도출을 위한 가치 기반 데이터 분석 지향 * 데이터 분석 기획 : 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 것인가에 대한 일련의 계획 수립 * 분석 기획의 특징 ① 분석 대상과 방법에 따른 분류 ② 목표 시점에 따른 분류 : 단기적 접근 방식, 중장기적 접근 방식, 혼합 방식 * 분석 기획 시 필요역량 ① 분석 기획을 위한 기본적인 소양 ② 프로젝트 관리 역량과 리더쉽 * 분석 기획 시 고려사항 ① 사용 가능한 데이터 확인 ② 적합한 사례 탐색 ③..

728x90