자격증/빅데이터 분석기사

[필기] (이기적) 데이터 수집 및 전환

만땅이 2021. 1. 24. 21:02

* 데이터 수집: 여러장소에 있는데이터를 한곳으로 모으는것

 

*데이터 수집 시스템 구축절차

1) 수집데이터 유형파악

2) 수집 기술 결정

3) 아키텍처 수립

4) 하드웨어 구축

5) 실행환경 구축

 

*원천 데이터 정보 수집 내용 : 데이터의 수집 가능성, 데이터의 보안, 데이터 정확성, 수집 난이도, 수집 비용

 

 

*  Sqoop 기술 (Apache Sqoop): 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송,적재과정자동화, 병렬처리

 - 특징 ① Bulk import 지원 : 전체DB나 테이블을 HDFS로 전송

          ② 데이터 전송 병렬화 : 병렬로 데이터 전송

          ③ Direct input 제공:Hbase와 Hive에 직접 import 제공

          ④ 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통해 데이터 상호작용

 

* Flume 기술 (Apache Flume): 로그/센서데이터 수집용

- 특징 ①신뢰성 ②확장성 ③효율성

 

* Scrapy기술 : 웹 사이트 크롤링, 구조화된 데이터 수집하는 프레임워크

- 특징 : ① 파이썬 기반 ②단순환 스크랩 과정 ③다양한 부가 요소

 

* 수집되는 데이터 형태

 ① HTML : 웹페이지 만들때 사용되는 문서형식 - 텍스트, 태그, 스크립트로 구성

   ② XML : 데이터 표현을 위해 tag를 사용하는 언어 - 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성

   ③ JSON : 자바 스크립들을 위해 객체 형식으로 자료를 ㅍ현하는 문서형식

 

* 데이터저장방식

①파일 시스템 ②관계형 데이터베이스 ③ 분산처리 데이터베이스

 

* 데이터 적절성 검증

① 데이터 누락점검

② 소스 데이터와 비교

③ 데이터의 정확성 점검

④ 보안사항 점검

⑤ 저작권 점검

⑥ 대량 트래픽 발생여부

 

* 데이터 베이스 구조설계 순서

① DBMS 구축 여부 결정

② 저장 데이터베이스 결정

③ DBMS 설치

④ 테이블 구조 설계

 

* 비정형/반정형 데이터의 변환

① 수집데이터의 속성 구조 파악

② 데이터 수집 절차에 대한 수행 코드 정의

③ 데이터 저장 프로그램 작성

④ 데이터베이스에 저장

 

* 데이터 가명처리 : 장 - 데이터 변형, 변질 수준 낮음/ 단 - 대체값부여해도 식별가능한 고유 속성 유지

① 휴리스틱 가명화 ex) 이름을 일반화된 홍길동으로 변경 ② 암호화 ③ 교환방법

 

* 총계 처리 : 장 - 비식별조치가능, 통계분석용데이터센 작성에 유리/ 단:- 정밀분석 어려움, 집계수량이 문제

① 부분총계 ② 라운딩 ③ 재배열

 

* 데이터 삭제 : 장- 개인식요소 전부 및 일부삭제 가능/ 단: 유효성, 신뢰성 저하

①식별자 (부분)삭제 yy-mm →yy ②레코드 삭제 ③ 식별요소 전부삭제

 

* 데이터 범주화: 장- 다양한 분석 및 가공 가능/ 단: 정확한 도출 어려움

① 감추기 ② 랜덤 라운딩 ③ 범위 방법 ④ 제어 라운딩

 

*데이터마스킹 : 장-개인식별 요소 제거가능, 데이터 변형 적음/ 단-마스킹↑데이터 목적 활용어려움, 낮으면 추론

① 임의 잡음 추가 ②공백과 대체

 

* 데이터 품질 관리의 중요성

① 분석 결과의 신뢰성 확보 ②일원화된 프로세스 ③데이터 활용도 향상 ④양질의 데이터 확보

반응형