자격증/빅데이터 분석기사

[필기](이기적) 빅데이터 기술

만땅이 2021. 1. 15. 15:33

* 빅데이터 플랫폼: 빅데이터 수집,저장,처리,분석 등 전 과정을 통합적으로 제공

 

* 빅데이터 플랫폼 등장 배경

① 비지니스 요구사항 변화

② 데이터 규모와 처리 복잡도 증가

③ 데이터 구조의 변화와 신속성 요구

④ 데이터 분석 유연성 증대

 

* 빅데이터 플랫폼 기능 ( 아래 문제를 해결함 )

① 컴퓨팅 부하 발생 : 연산과정에서 부하 발생

② 저장 부하발생 : 입력,가공,출력등 여러 단계에서 발생

③ 네크워크 부하 발생 : 분산처리시에 노드 산의 통신과정 부하발생

 

*빅데이터 플랫폼은 서비스 사용자와 제공자 측면 어디에도 치우치면 안됨

 

* 빅데이터 플랫폼의 구조

① 소프트웨어 계층 : 어플 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제

- 데이터 처리 및 분석 엔진(데이터 처리 및 분석, 처리 및 분석 워크플로우구성, 데이터 표현) / 데이터 수집 및 정제 모듈 (데이터 추출, 변환, 적재) / 서비스 관리 모듈 / 사용자 관리모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈

② 플랫폼 계층 :어플 시행을 위함. 

- 사용자 요청 파싱 / 작업 스케줄링 모듈 / 데이터 및 자원 할당 모듈 (초기데이터 할당, 데이터재할당 및 복제, 초기 자원할당, 자원재할당 및 스케일링) / 프로파일링 모듈 (자원 프로파일링, 앱 프로파일링, 앱 시뮬레이션) / 데이터 관리 모듈 / 자원 관리 모듈 / 사용자 관리 모듈 ( 인증 및 접속관리, 사용자서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈

③ 인프라스트럭처 계층 : 자원 배치 및 스토리지 관리, 네트워크 관리 등 빅데이터 처리와 분석에 필요한 자원제공

- 사용자 요청 파싱 / 자원배치모듈 (초기자원 배치, 자원 재배치 및 스케일링) / 노드 관리 모듈 / 데이터 관리 모듈 / 자원 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 (서비스모니터링, 자원 모니터링) /보안 모듈

 

* 빅데이터 처리과정 및 요소 기술

①생성 ②수집 ③저장(공유) ④처리 ⑤분석 ⑥시각화

 

* 빅데이터 수집

①크롤링 ②로그 수집기 ③센서 네트워크 ④ RSS Reader/Open API ⑤ETL 프로세스 

- 센서 네트워크 : 저전력의 센서들로 구성된 유무선 네트워크

- RSS Reader/Open API: 데이터 생산, 공유, 참여 가능한 환경인 웹 2.0 구현

- ETL 프로세스(Extract, Transform, Load) : 데이터를 추출, 변환하여 데이터 웨어하우스에 적제 하는 과정 

 

* 빅데이터 저장

① NoSQL: 데이터 모델을 단순화 하여, SQL을 사용하지 않는 DBMS와 데이터 저장장치

 - DMBS 트렌젝션 속성 원자성/일관성/독립성/지속성 을 포기

 - 데이터 업데이트 즉각 가능 ex) Cloudata, Hbase, Cassandra 등

②공유데이터 시스템(Shared-data System)

 - 일관성/가용성/네트워크분할 감내성 중에서 2개만 가능 (CAP 이론), 높은 성능과 확장성

③병렬 데이터 베이스 관리시스템 DBMS: 데이터 베이스 처리를 동시에 수행

-트랜잭션 적용 필요 ex) VoltDB, SAP HANA, Vertica, Greenplum, Netezza

④분산 파일 시스템 : 네트워크로 공유하여 여러 호스트이 파일 접근 가능

- 분산 저장하면 데이터 추출 및 가공시 빠르게 처리가능  ex) GFS, HDFS, 아마존 S3

⑤네트워크 저장 시스템 : 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결해서 저장 및 관리

- ex) SAN, NAS

 

* 빅데이터 처리

①분산 시스템과 병렬 시스템

②분산 병렬 컴퓨팅: 다수 독립된 컴퓨팅을 네트워크 상에 연결해서 제어하는 미들웨어로 하나의 시스템으로 동작

③하둡: 분산 처리 환경에서 대용량 데이터 처리 및 분석 지원하는 오픈소스 SW 프레임워크.야후에서 개발.

          HDFS와 Hbase, MapReduce로 구성. 수천대 장비에 파일을 나눠 저장할 수 있음

④아피치 스파크: 실시간 분산형 컴퓨팅 플랫폼. 하둡보다 빠름. 스칼라언어로 개발, java, R, python 가능

⑤맵리듀스: 구글에서 개발하여, 효과적인 병렬 및 분산 처리 지원. 분산 병렬 데이터 처리 기술의 표준

 

* 맵리듀스 처리단계

데이터 읽고 분할 → 맵작업 수행, 중간데이터를 통합및 재분할 → 중간데이터 셔픞 → 리듀스 작업수행 →출력데이터 생성, 맵리듀스 처리 종료

 

* 데이터 분석 방법의 분류

① 탐구 요인분석 : 상호간 관계파악을 위해 사용

② 확인 요인 분석 : 변수들의 집합 요소 구조 파악을 위하여 사용

 

* 데이터 분석 방법

①분류 ②군집화 ③기계학습 ④텍스트 마이닝 ⑤웹 마이닝 ⑥오피티언 마이닝 ⑦리얼리티 마이닝 ⑧소셜 네트워크 분석 ⑨감성 분석

 

* 인공지능: 기계가 환경에서 적절히, 예지력을 가지고 작동하게 하는것 

 

* 딥러닝의 특징 : 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있음

 

* 기계 학습의 종류

①지도학습 ②비지도 학습 ③준지도학습(목표값이 있는거, 없는거 다 학습) ④강화학습(보상 최대화)

 

* 인공 지능 데이터 학습의 진화

①전이학습: 인간의 응용력같이 적은 양의 데이터로 좋은 결과를 얻을 수있음

②전이 학습 기반 사전학습모형 : 인지능력을 갖춘 딥러닝 모형에 추가적으로 데이터 학습. 적은데이터로 가능. 보조역할

③BERT(Bidirectional Encoder Representations from Transformers): 구글에서 발표한 언어인식 사전학습모형. 신속한 학습가능

 

* 인공지능의 기술동향

①기계학습 프레임워크 보급 확대: 텐서플러우, 케라스

②생성적 적대 네트워크(GAN) : 두개의 인공신경망으로 구성된 이미지 생성 알고리즘

③오토인코더 : 라벨설정이 안되어 있을때, 학습데이터로부터 효율적인 코드로 표현하도록 학습하는 신경망

④설명 가능한 인공지능 : 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공

⑤기계학습 자동화 (AutoML): 기계학습의 전개과정을 자동화, ex)데이터 전처리, 변수생성 등

 

반응형