* 데이터 수집: 여러장소에 있는데이터를 한곳으로 모으는것
*데이터 수집 시스템 구축절차
1) 수집데이터 유형파악
2) 수집 기술 결정
3) 아키텍처 수립
4) 하드웨어 구축
5) 실행환경 구축
*원천 데이터 정보 수집 내용 : 데이터의 수집 가능성, 데이터의 보안, 데이터 정확성, 수집 난이도, 수집 비용
* Sqoop 기술 (Apache Sqoop): 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송,적재과정자동화, 병렬처리
- 특징 ① Bulk import 지원 : 전체DB나 테이블을 HDFS로 전송
② 데이터 전송 병렬화 : 병렬로 데이터 전송
③ Direct input 제공:Hbase와 Hive에 직접 import 제공
④ 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통해 데이터 상호작용
* Flume 기술 (Apache Flume): 로그/센서데이터 수집용
- 특징 ①신뢰성 ②확장성 ③효율성
* Scrapy기술 : 웹 사이트 크롤링, 구조화된 데이터 수집하는 프레임워크
- 특징 : ① 파이썬 기반 ②단순환 스크랩 과정 ③다양한 부가 요소
* 수집되는 데이터 형태
① HTML : 웹페이지 만들때 사용되는 문서형식 - 텍스트, 태그, 스크립트로 구성
② XML : 데이터 표현을 위해 tag를 사용하는 언어 - 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성
③ JSON : 자바 스크립들을 위해 객체 형식으로 자료를 ㅍ현하는 문서형식
* 데이터저장방식
①파일 시스템 ②관계형 데이터베이스 ③ 분산처리 데이터베이스
* 데이터 적절성 검증
① 데이터 누락점검
② 소스 데이터와 비교
③ 데이터의 정확성 점검
④ 보안사항 점검
⑤ 저작권 점검
⑥ 대량 트래픽 발생여부
* 데이터 베이스 구조설계 순서
① DBMS 구축 여부 결정
② 저장 데이터베이스 결정
③ DBMS 설치
④ 테이블 구조 설계
* 비정형/반정형 데이터의 변환
① 수집데이터의 속성 구조 파악
② 데이터 수집 절차에 대한 수행 코드 정의
③ 데이터 저장 프로그램 작성
④ 데이터베이스에 저장
* 데이터 가명처리 : 장 - 데이터 변형, 변질 수준 낮음/ 단 - 대체값부여해도 식별가능한 고유 속성 유지
① 휴리스틱 가명화 ex) 이름을 일반화된 홍길동으로 변경 ② 암호화 ③ 교환방법
* 총계 처리 : 장 - 비식별조치가능, 통계분석용데이터센 작성에 유리/ 단:- 정밀분석 어려움, 집계수량이 문제
① 부분총계 ② 라운딩 ③ 재배열
* 데이터 삭제 : 장- 개인식요소 전부 및 일부삭제 가능/ 단: 유효성, 신뢰성 저하
①식별자 (부분)삭제 yy-mm →yy ②레코드 삭제 ③ 식별요소 전부삭제
* 데이터 범주화: 장- 다양한 분석 및 가공 가능/ 단: 정확한 도출 어려움
① 감추기 ② 랜덤 라운딩 ③ 범위 방법 ④ 제어 라운딩
*데이터마스킹 : 장-개인식별 요소 제거가능, 데이터 변형 적음/ 단-마스킹↑데이터 목적 활용어려움, 낮으면 추론
① 임의 잡음 추가 ②공백과 대체
* 데이터 품질 관리의 중요성
① 분석 결과의 신뢰성 확보 ②일원화된 프로세스 ③데이터 활용도 향상 ④양질의 데이터 확보
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
[필기] (이기적) 데이터 탐색 (0) | 2021.01.26 |
---|---|
[필기] (이기적) 분석 변수 처리 (0) | 2021.01.24 |
[필기] (이기적) 분석 작업 계획 (0) | 2021.01.15 |
[필기] (이기적) 빅데이터 분석 방안 (1) | 2021.01.15 |
[필기] (이기적) 빅데이터 분석 방안 수립 (0) | 2021.01.15 |