만땅이의 서랍장

자격증/빅데이터 분석기사

[필기] (이기적) 데이터 수집 및 전환

만땅이 2021. 1. 24. 21:02

* 데이터 수집: 여러장소에 있는데이터를 한곳으로 모으는것

*데이터 수집 시스템 구축절차

1) 수집데이터 유형파악

2) 수집 기술 결정

3) 아키텍처 수립

4) 하드웨어 구축

5) 실행환경 구축

*원천 데이터 정보 수집 내용 : 데이터의 수집 가능성, 데이터의 보안, 데이터 정확성, 수집 난이도, 수집 비용

* Sqoop 기술 (Apache Sqoop): 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송,적재과정자동화, 병렬처리

- 특징 ① Bulk import 지원 : 전체DB나 테이블을 HDFS로 전송

② 데이터 전송 병렬화 : 병렬로 데이터 전송

③ Direct input 제공:Hbase와 Hive에 직접 import 제공

④ 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통해 데이터 상호작용

* Flume 기술 (Apache Flume): 로그/센서데이터 수집용

- 특징 ①신뢰성 ②확장성 ③효율성

* Scrapy기술 : 웹 사이트 크롤링, 구조화된 데이터 수집하는 프레임워크

- 특징 : ① 파이썬 기반 ②단순환 스크랩 과정 ③다양한 부가 요소

* 수집되는 데이터 형태

　① HTML : 웹페이지 만들때 사용되는 문서형식 - 텍스트, 태그, 스크립트로 구성

② XML : 데이터 표현을 위해 tag를 사용하는 언어 - 엘리먼트, 속성, 처리명령, 엔티티, 주석, CDATA 섹션으로 구성

③ JSON : 자바 스크립들을 위해 객체 형식으로 자료를 ㅍ현하는 문서형식

* 데이터저장방식

①파일 시스템 ②관계형 데이터베이스 ③ 분산처리 데이터베이스

* 데이터 적절성 검증

① 데이터 누락점검

② 소스 데이터와 비교

③ 데이터의 정확성 점검

④ 보안사항 점검

⑤ 저작권 점검

⑥ 대량 트래픽 발생여부

* 데이터 베이스 구조설계 순서

① DBMS 구축 여부 결정

② 저장 데이터베이스 결정

③ DBMS 설치

④ 테이블 구조 설계

* 비정형/반정형 데이터의 변환

① 수집데이터의 속성 구조 파악

② 데이터 수집 절차에 대한 수행 코드 정의

③ 데이터 저장 프로그램 작성

④ 데이터베이스에 저장

* 데이터 가명처리 : 장 - 데이터 변형, 변질 수준 낮음/ 단 - 대체값부여해도 식별가능한 고유 속성 유지

① 휴리스틱 가명화 ex) 이름을 일반화된 홍길동으로 변경 ② 암호화 ③ 교환방법

* 총계 처리 : 장 - 비식별조치가능, 통계분석용데이터센 작성에 유리/ 단:- 정밀분석 어려움, 집계수량이 문제

① 부분총계 ② 라운딩 ③ 재배열

* 데이터 삭제 : 장- 개인식요소 전부 및 일부삭제 가능/ 단: 유효성, 신뢰성 저하

①식별자 (부분)삭제 yy-mm →yy ②레코드 삭제 ③ 식별요소 전부삭제

* 데이터 범주화: 장- 다양한 분석 및 가공 가능/ 단: 정확한 도출 어려움

① 감추기 ② 랜덤 라운딩 ③ 범위 방법 ④ 제어 라운딩

*데이터마스킹 : 장-개인식별 요소 제거가능, 데이터 변형 적음/ 단-마스킹↑데이터 목적 활용어려움, 낮으면 추론

① 임의 잡음 추가 ②공백과 대체

* 데이터 품질 관리의 중요성

① 분석 결과의 신뢰성 확보 ②일원화된 프로세스 ③데이터 활용도 향상 ④양질의 데이터 확보

저작자표시 비영리 동일조건

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

[필기] (이기적) 데이터 탐색 (0)	2021.01.26
[필기] (이기적) 분석 변수 처리 (0)	2021.01.24
[필기] (이기적) 분석 작업 계획 (0)	2021.01.15
[필기] (이기적) 빅데이터 분석 방안 (1)	2021.01.15
[필기] (이기적) 빅데이터 분석 방안 수립 (0)	2021.01.15

현재글[필기] (이기적) 데이터 수집 및 전환

취미 + 대학원 + 자격증

기사시험, 약술형, 데이터, 정처기, 빅분기 필기, 코딩테스트, 빅분기필기, 파이썬, Python, 기사, 코테, 실기, 프로그래머스, 이기적, 큐넷꿀팁, 빅데이터분석기사, 정보처리기사, 데이터분석기사, 빅분기, 큐넷티켓팅,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

만땅이의 서랍장

[필기] (이기적) 데이터 수집 및 전환

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

'자격증/빅데이터 분석기사'의 다른글

티스토리툴바

[필기] (이기적) 데이터 수집 및 전환

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

'자격증/빅데이터 분석기사'의 다른글

관련글

티스토리툴바