만땅이의 서랍장

자격증/빅데이터 분석기사

[필기](이기적) 빅데이터 기술

만땅이 2021. 1. 15. 15:33

* 빅데이터 플랫폼: 빅데이터 수집,저장,처리,분석 등 전 과정을 통합적으로 제공

* 빅데이터 플랫폼 등장 배경

① 비지니스 요구사항 변화

② 데이터 규모와 처리 복잡도 증가

③ 데이터 구조의 변화와 신속성 요구

④ 데이터 분석 유연성 증대

* 빅데이터 플랫폼 기능 ( 아래 문제를 해결함 )

① 컴퓨팅 부하 발생 : 연산과정에서 부하 발생

② 저장 부하발생 : 입력,가공,출력등 여러 단계에서 발생

③ 네크워크 부하 발생 : 분산처리시에 노드 산의 통신과정 부하발생

*빅데이터 플랫폼은 서비스 사용자와 제공자 측면 어디에도 치우치면 안됨

* 빅데이터 플랫폼의 구조

① 소프트웨어 계층 : 어플 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제

- 데이터 처리 및 분석 엔진(데이터 처리 및 분석, 처리 및 분석 워크플로우구성, 데이터 표현) / 데이터 수집 및 정제 모듈 (데이터 추출, 변환, 적재) / 서비스 관리 모듈 / 사용자 관리모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈

② 플랫폼 계층 :어플 시행을 위함.

- 사용자 요청 파싱 / 작업 스케줄링 모듈 / 데이터 및 자원 할당 모듈 (초기데이터 할당, 데이터재할당 및 복제, 초기 자원할당, 자원재할당 및 스케일링) / 프로파일링 모듈 (자원 프로파일링, 앱 프로파일링, 앱 시뮬레이션) / 데이터 관리 모듈 / 자원 관리 모듈 / 사용자 관리 모듈 ( 인증 및 접속관리, 사용자서비스 관리, SLA관리) / 모니터링 모듈 / 보안 모듈

③ 인프라스트럭처 계층 : 자원 배치 및 스토리지 관리, 네트워크 관리 등 빅데이터 처리와 분석에 필요한 자원제공

- 사용자 요청 파싱 / 자원배치모듈 (초기자원 배치, 자원 재배치 및 스케일링) / 노드 관리 모듈 / 데이터 관리 모듈 / 자원 관리 모듈 / 서비스 관리 모듈 / 사용자 관리 모듈 (인증 및 접속관리, 사용자 서비스 관리, SLA관리) / 모니터링 모듈 (서비스모니터링, 자원 모니터링) /보안 모듈

* 빅데이터 처리과정 및 요소 기술

①생성 ②수집 ③저장(공유) ④처리 ⑤분석 ⑥시각화

* 빅데이터 수집

①크롤링 ②로그 수집기 ③센서 네트워크 ④ RSS Reader/Open API ⑤ETL 프로세스

- 센서 네트워크 : 저전력의 센서들로 구성된 유무선 네트워크

- RSS Reader/Open API: 데이터 생산, 공유, 참여 가능한 환경인 웹 2.0 구현

- ETL 프로세스(Extract, Transform, Load) : 데이터를 추출, 변환하여 데이터 웨어하우스에 적제 하는 과정

* 빅데이터 저장

① NoSQL: 데이터 모델을 단순화 하여, SQL을 사용하지 않는 DBMS와 데이터 저장장치

- DMBS 트렌젝션 속성 원자성/일관성/독립성/지속성 을 포기

- 데이터 업데이트 즉각 가능 ex) Cloudata, Hbase, Cassandra 등

②공유데이터 시스템(Shared-data System)

- 일관성/가용성/네트워크분할 감내성 중에서 2개만 가능 (CAP 이론), 높은 성능과 확장성

③병렬 데이터 베이스 관리시스템 DBMS: 데이터 베이스 처리를 동시에 수행

-트랜잭션 적용 필요 ex) VoltDB, SAP HANA, Vertica, Greenplum, Netezza

④분산 파일 시스템 : 네트워크로 공유하여 여러 호스트이 파일 접근 가능

- 분산 저장하면 데이터 추출 및 가공시 빠르게 처리가능 ex) GFS, HDFS, 아마존 S3

⑤네트워크 저장 시스템 : 이기종 데이터 저장 장치를 하나의 데이터 서버에 연결해서 저장 및 관리

- ex) SAN, NAS

* 빅데이터 처리

①분산 시스템과 병렬 시스템

②분산 병렬 컴퓨팅: 다수 독립된 컴퓨팅을 네트워크 상에 연결해서 제어하는 미들웨어로 하나의 시스템으로 동작

③하둡: 분산 처리 환경에서 대용량 데이터 처리 및 분석 지원하는 오픈소스 SW 프레임워크.야후에서 개발.

HDFS와 Hbase, MapReduce로 구성. 수천대 장비에 파일을 나눠 저장할 수 있음

④아피치 스파크: 실시간 분산형 컴퓨팅 플랫폼. 하둡보다 빠름. 스칼라언어로 개발, java, R, python 가능

⑤맵리듀스: 구글에서 개발하여, 효과적인 병렬 및 분산 처리 지원. 분산 병렬 데이터 처리 기술의 표준

* 맵리듀스 처리단계

데이터 읽고 분할 → 맵작업 수행, 중간데이터를 통합및 재분할 → 중간데이터 셔픞 → 리듀스 작업수행 →출력데이터 생성, 맵리듀스 처리 종료

* 데이터 분석 방법의 분류

① 탐구 요인분석 : 상호간 관계파악을 위해 사용

② 확인 요인 분석 : 변수들의 집합 요소 구조 파악을 위하여 사용

* 데이터 분석 방법

①분류 ②군집화 ③기계학습 ④텍스트 마이닝 ⑤웹 마이닝 ⑥오피티언 마이닝 ⑦리얼리티 마이닝 ⑧소셜 네트워크 분석 ⑨감성 분석

* 인공지능: 기계가 환경에서 적절히, 예지력을 가지고 작동하게 하는것

* 딥러닝의 특징 : 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있음

* 기계 학습의 종류

①지도학습 ②비지도 학습 ③준지도학습(목표값이 있는거, 없는거 다 학습) ④강화학습(보상 최대화)

* 인공 지능 데이터 학습의 진화

①전이학습: 인간의 응용력같이 적은 양의 데이터로 좋은 결과를 얻을 수있음

②전이 학습 기반 사전학습모형 : 인지능력을 갖춘 딥러닝 모형에 추가적으로 데이터 학습. 적은데이터로 가능. 보조역할

③BERT(Bidirectional Encoder Representations from Transformers): 구글에서 발표한 언어인식 사전학습모형. 신속한 학습가능

* 인공지능의 기술동향

①기계학습 프레임워크 보급 확대: 텐서플러우, 케라스

②생성적 적대 네트워크(GAN) : 두개의 인공신경망으로 구성된 이미지 생성 알고리즘

③오토인코더 : 라벨설정이 안되어 있을때, 학습데이터로부터 효율적인 코드로 표현하도록 학습하는 신경망

④설명 가능한 인공지능 : 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공

⑤기계학습 자동화 (AutoML): 기계학습의 전개과정을 자동화, ex)데이터 전처리, 변수생성 등

저작자표시 비영리 동일조건

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

[필기] (이기적) 빅데이터 분석 방안 수립 (0)	2021.01.15
[필기] (이기적)빅데이터 제도 (0)	2021.01.15
[필기] (이기적) 빅데이터 개요 및 활용 (0)	2021.01.15
[빅분기] 2020년 제1회 빅분기 취소 (0)	2021.01.04
[빅분기] 응시접수 서버터짐 + 자리TO 검정센터장 피셜 (0)	2020.11.23

현재글[필기](이기적) 빅데이터 기술

만땅이의 서랍장 취미 + 대학원 + 자격증

취미 + 대학원 + 자격증

이기적, 정처기, Python, 파이썬, 데이터분석기사, 빅분기필기, 약술형, 코테, 빅데이터분석기사, 프로그래머스, 큐넷꿀팁, 빅분기, 정보처리기사, 기사, 코딩테스트, 실기, 빅분기 필기, 기사시험, 큐넷티켓팅, 데이터,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

만땅이의 서랍장

[필기](이기적) 빅데이터 기술

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

'자격증/빅데이터 분석기사'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[필기](이기적) 빅데이터 기술

'자격증 > 빅데이터 분석기사' 카테고리의 다른 글

'자격증/빅데이터 분석기사'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역