* 빅데이터 플랫폼: 빅데이터 수집,저장,처리,분석 등 전 과정을 통합적으로 제공
* 빅데이터 플랫폼 등장 배경
① 비지니스 요구사항 변화
② 데이터 규모와 처리 복잡도 증가
③ 데이터 구조의 변화와 신속성 요구
④ 데이터 분석 유연성 증대
* 빅데이터 플랫폼 기능 ( 아래 문제를 해결함 )
① 컴퓨팅 부하 발생 : 연산과정에서 부하 발생
② 저장 부하발생 : 입력,가공,출력등 여러 단계에서 발생
③ 네크워크 부하 발생 : 분산처리시에 노드 산의 통신과정 부하발생
*빅데이터 플랫폼은 서비스 사용자와 제공자 측면 어디에도 치우치면 안됨
* 빅데이터 플랫폼의 구조
① 소프트웨어 계층 : 어플 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제
- 데이터 처리 및 분석 엔진(데이터 처리 및 분석, 처리 및 분석 워크플로우구성, 데이터 표현) / 데이터 수집 및 정제 모듈 (데이터 추출, 변환, 적재) / 서비스 관리 모듈 / 사용자 관리모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈
② 플랫폼 계층 :어플 시행을 위함.
- 사용자 요청 파싱 / 작업 스케줄링 모듈 / 데이터 및 자원 할당 모듈 (초기데이터 할당, 데이터재할당 및 복제, 초기 자원할당, 자원재할당 및 스케일링) / 프로파일링 모듈 (자원 프로파일링, 앱 프로파일링, 앱 시뮬레이션) / 데이터 관리 모듈 / 자원 관리 모듈 / 사용자 관리 모듈 ( 인증 및 접속관리, 사용자서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈
③ 인프라스트럭처 계층 : 자원 배치 및 스토리지 관리, 네트워크 관리 등 빅데이터 처리와 분석에 필요한 자원제공
- 사용자 요청 파싱 / 자원배치모듈 (초기자원 배치, 자원 재배치 및 스케일링) / 노드 관리 모듈 / 데이터 관리 모듈 / 자원 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 (서비스모니터링, 자원 모니터링) /보안 모듈
* 빅데이터 처리과정 및 요소 기술
①생성 ②수집 ③저장(공유) ④처리 ⑤분석 ⑥시각화
* 빅데이터 수집
①크롤링 ②로그 수집기 ③센서 네트워크 ④ RSS Reader/Open API ⑤ETL 프로세스
- 센서 네트워크 : 저전력의 센서들로 구성된 유무선 네트워크
- RSS Reader/Open API: 데이터 생산, 공유, 참여 가능한 환경인 웹 2.0 구현
- ETL 프로세스(Extract, Transform, Load) : 데이터를 추출, 변환하여 데이터 웨어하우스에 적제 하는 과정
* 빅데이터 저장
① NoSQL: 데이터 모델을 단순화 하여, SQL을 사용하지 않는 DBMS와 데이터 저장장치
- DMBS 트렌젝션 속성 원자성/일관성/독립성/지속성 을 포기
- 데이터 업데이트 즉각 가능 ex) Cloudata, Hbase, Cassandra 등
②공유데이터 시스템(Shared-data System)
- 일관성/가용성/네트워크분할 감내성 중에서 2개만 가능 (CAP 이론), 높은 성능과 확장성
③병렬 데이터 베이스 관리시스템 DBMS: 데이터 베이스 처리를 동시에 수행
-트랜잭션 적용 필요 ex) VoltDB, SAP HANA, Vertica, Greenplum, Netezza
④분산 파일 시스템 : 네트워크로 공유하여 여러 호스트이 파일 접근 가능
- 분산 저장하면 데이터 추출 및 가공시 빠르게 처리가능 ex) GFS, HDFS, 아마존 S3
⑤네트워크 저장 시스템 : 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결해서 저장 및 관리
- ex) SAN, NAS
* 빅데이터 처리
①분산 시스템과 병렬 시스템
②분산 병렬 컴퓨팅: 다수 독립된 컴퓨팅을 네트워크 상에 연결해서 제어하는 미들웨어로 하나의 시스템으로 동작
③하둡: 분산 처리 환경에서 대용량 데이터 처리 및 분석 지원하는 오픈소스 SW 프레임워크.야후에서 개발.
HDFS와 Hbase, MapReduce로 구성. 수천대 장비에 파일을 나눠 저장할 수 있음
④아피치 스파크: 실시간 분산형 컴퓨팅 플랫폼. 하둡보다 빠름. 스칼라언어로 개발, java, R, python 가능
⑤맵리듀스: 구글에서 개발하여, 효과적인 병렬 및 분산 처리 지원. 분산 병렬 데이터 처리 기술의 표준
* 맵리듀스 처리단계
데이터 읽고 분할 → 맵작업 수행, 중간데이터를 통합및 재분할 → 중간데이터 셔픞 → 리듀스 작업수행 →출력데이터 생성, 맵리듀스 처리 종료
* 데이터 분석 방법의 분류
① 탐구 요인분석 : 상호간 관계파악을 위해 사용
② 확인 요인 분석 : 변수들의 집합 요소 구조 파악을 위하여 사용
* 데이터 분석 방법
①분류 ②군집화 ③기계학습 ④텍스트 마이닝 ⑤웹 마이닝 ⑥오피티언 마이닝 ⑦리얼리티 마이닝 ⑧소셜 네트워크 분석 ⑨감성 분석
* 인공지능: 기계가 환경에서 적절히, 예지력을 가지고 작동하게 하는것
* 딥러닝의 특징 : 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있음
* 기계 학습의 종류
①지도학습 ②비지도 학습 ③준지도학습(목표값이 있는거, 없는거 다 학습) ④강화학습(보상 최대화)
* 인공 지능 데이터 학습의 진화
①전이학습: 인간의 응용력같이 적은 양의 데이터로 좋은 결과를 얻을 수있음
②전이 학습 기반 사전학습모형 : 인지능력을 갖춘 딥러닝 모형에 추가적으로 데이터 학습. 적은데이터로 가능. 보조역할
③BERT(Bidirectional Encoder Representations from Transformers): 구글에서 발표한 언어인식 사전학습모형. 신속한 학습가능
* 인공지능의 기술동향
①기계학습 프레임워크 보급 확대: 텐서플러우, 케라스
②생성적 적대 네트워크(GAN) : 두개의 인공신경망으로 구성된 이미지 생성 알고리즘
③오토인코더 : 라벨설정이 안되어 있을때, 학습데이터로부터 효율적인 코드로 표현하도록 학습하는 신경망
④설명 가능한 인공지능 : 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
⑤기계학습 자동화 (AutoML): 기계학습의 전개과정을 자동화, ex)데이터 전처리, 변수생성 등
'자격증 > 빅데이터 분석기사' 카테고리의 다른 글
[필기] (이기적) 빅데이터 분석 방안 수립 (0) | 2021.01.15 |
---|---|
[필기] (이기적)빅데이터 제도 (0) | 2021.01.15 |
[필기] (이기적) 빅데이터 개요 및 활용 (0) | 2021.01.15 |
[빅분기] 2020년 제1회 빅분기 취소 (0) | 2021.01.04 |
[빅분기] 응시접수 서버터짐 + 자리TO 검정센터장 피셜 (0) | 2020.11.23 |