1. 빅데이터 플랫폼 (★★)¶
(1) 빅데이터 플랫폼의 개념¶
- 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집->저장->처리->분석->시각화)를 규격화한 기술
- 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세
(2) 빅데이터 플랫폼 구성요소¶
- 크게 수집, 저장, 분석, 활용 단계로 구성됨
- 수집
- 원천 데이터(정형/반정형/비정형) 수집
ETL, 크롤러, EAI
등
- 저장
- 정형, 반정형, 비정형 데이터 저장
RDBMS, NoSQL
등
- 분석
- 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
SNS분석, 예측 분석
등
- 활용
- 데이터 가시화 및 BI, OpenAPI 연계
히스토그램, 인포그래픽
등
- 수집
(3) 빅데이터 플랫폼 데이터 형식¶
- 데이터 형식은 대표적으로 HTML, XML, JSON, CSV가 있음
(4) 빅데이터 플랫폼 구축 소프트웨어: R, 우지(Oozie), 플럼(Flume), HBase, 스쿱 등이 있음¶
- R(빅데이터 분석)
- 우지(Oozie)(워크플로우 관리)
- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템(스케쥴링/모니터링)
- 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우제어
- 플럼(Flume)(데이터수집)
- 이벤트와 에이전트를 활용하여 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동
- HBase(분산데이터베이스)
- 컬럼 기반 저장소로 HDFS와 인터페이스 제공
- 스쿱(Sqoop)(정형 데이터 수집)
- 커넥터를 사용하여 RDBMS에서 하둡파일시스템(HDFS)으로 데이터를 수집하거나, HDFS에서 RDBMS로 데이터를 보내는 기능 수행
- 분산 컴퓨팅 환경 소프트웨어 구성요소
(맵얀 스파하)
- 맵 리듀스(Map Reduce)
- key-value 형태의 데이터 처리
- 맵(Map)->셔플(Shuffle)->리듀스(Reduce) 순서대로 데이터 처리
- 맵(map): key-value 형태로 데이터를 취합
- 셔플(shuffle): 데이터를 통합하여 처리
- 리듀스(reduce): 맵 처리된 데이터를 정리
- 얀(YARN)
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
- 리소스 매니저(Master)와 노드 매니저(Slave)로 구성
- 리소스 매니저: 스케쥴러 역할을 수행하고 클러스터 이용률 최적화를 수행
- 노드 매니저: 노드 내의 자원을 관리하고 리소스 매니저에게 전달 수행 및 컨테이너를 관리
- 애플리케이션 마스터: 리소스 매니저와 자원의 교섭을 책임지고, 컨테이너를 실행
- 컨테이너: 프로그램 구동을 위한 격리 환경을 지원하는 가상화 지원
- 아파치 스파크(Apache Spark)
- 하둡 기반 대규모 데이터 분산처리 시스템
- 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리
- 스칼라, 자바, 파이썬, R 등에 사용 가능
- 하둡 분산 시스템(HDFS)
- Hadoop Distributed File System의 약자
- 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
- 네임 노드(Master)와 데이터 노드(Slave)로 구성
- 네임 노드: 파일 이름, 권한 등의 속성 기록
- 데이터 노드: 일정한 크기로 나눈 블록 형태로 저장
- 아파치 하둡(Apache Hadoop)
- 분산 파일 시스템(HDFS)과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐
- 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석
Spark, Hive, YARN, Cassandra, Pig
등
- 맵 리듀스(Map Reduce)
(5) 하둡 에코시스템¶
- 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임
- 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분
- 1) 하둡 에코 시스템의 수집, 저장, 처리 기술
- 비정형 데이터 수집
- 척와(Chukwa): 분산된 각 서버에서 에이전트를 실행하고, 컬렉터(Collector)가 에이전트로부터 데이터를 받아 HDFS에 저장
- 플럼(Flume): 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
- 스트라이브(Stribe)
- 다수의 서버로부터 실시간으로 스트리밍 되는 로그데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
- 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능
- HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용
- 정형 데이터 수집
- 스쿱(Sqoop)
- 대용량 데이터 전송 솔루션
- 커넥터(Connector)를 사용하여 RDBMS에서 HDFS로 데이터를 수집하거나, HDFS에서 RDBMS로 데이터를 보내는 기능 수행
- Oracle, MS-SQL, DB2와 같은 상용 RDBMS와 MySQL과 같은 오픈소스 RDBMS 지원
- 히호(Hiho)
- 스쿱과 같은 대용량 데이터 전송 솔루션, 깃헙에 공개됨
- 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스 지원.
- 현재는 Oracle, MySQL의 데이터만 전송 지원
- 스쿱(Sqoop)
- 분산 데이터 저장
- HDFS
- 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
- 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원
- 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징이 있음
- HDFS
- 분산 데이터 처리
- 맵 리듀스(Map Reduce)
- 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
- 모든 데이터를 키-값(Key-value) 쌍으로 구성, 데이터를 분류
- 맵 리듀스(Map Reduce)
- 분산 데이터 베이스
- HBase
- 컬럼 기반 저장소로 HDFS와 인터페이스 제공
- 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트 할 수 있음
- HBase
- 비정형 데이터 수집
- 2) 하둡 에코 시스템의 데이터 가공 및 분석, 관리를 위한 주요 기술
- 데이터 가공
- 피그(Pig)
- 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵 리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어 제공
- 맵리듀스 API를 매우 단순화시키고, SQL과 유사한 형태로 설계됨
- SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것이 어려움
- 하이브(Hive)
- 하둡 기반의 DW 솔루션
- SQL과 매우 유사한 HiveQL이라는 쿼리 제공
- HiveQL은 내부적으로 맵리듀스로 변환되어 실행됨
- 피그(Pig)
- 데이터 마이닝
- 머하웃(Mahout)
- 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
- 분류, 클러스터링, 추천 및 협업필터링, 패턴 마이닝, 회귀분석, 진화 알고리즘 등 주요 알고리즘 ㄷ지원
- 머하웃(Mahout)
- 실시간 SQL 질의
- 임팔라(Impala)
- 하둡 기반의 SQL 질의 시스템
- 데이터 조회를 위한 인터페이스로 HiveQL을 사용
- 수초 내에 SQL 질의 결과를 확인할 수 있으며, HBase와 연동이 가능
- 임팔라(Impala)
- 워크플로우 관리
- 우지(Oozie)
- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
- 자바 서플릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
- 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
- 우지(Oozie)
- 분산 코디네이션
- 주키퍼(Zookeeper)
- 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
- 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
- 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장
- 주키퍼(Zookeeper)
- 데이터 가공
2. 빅데이터와 인공지능 (★)¶
(1) 인공지능의 개념¶
- 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어
(2) 빅데이터와 인공지능의 관계¶
- 1950년에 등장한 인공지능을 최신 트랜드로 끌고 온 것은 '빅데이터'의 존재
- 빅데이터는 비정형 데이터를 고속으로 분석할 수 있고, 이러한 점은 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
- 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 됨
(3) 빅데이터와 인공지능의 전망¶
- 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
- 빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점
- 빅데이터는 인공지능을 위한 기술일 될 가능성이 큼
3. 개인정보호법,제도 (★)¶
(1) 개인정보보호의 개념¶
- 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미
(2) 개인정보보호의 필요성¶
- 개인정보는 정보사회의 핵심 인프라 (
유정개-> 유정이는 개를 좋아함
)- 유출 시 피해 심각: 개인적 피해(정신적/경제적)와 함께 사회적 혼란 야기
- 정보사회 핵심 인프라: 정보사회에서의 모든 경제활동의 중심이 개인정보를 매개로 운영
- 개인정보 자기 통제권: 정보 주체는 자신과 관련된 정보의 수집, 이용, 공개, 제공에 대해 본인이 통제할 수 있는 권리가 있음
(3) 빅데이터 개인정보보호 가이드란인¶
- 한국 인터넷진흥원에서 재정한 <빅데이터 개인정보보호 가이드라인>의 주요 내용
- 개인정보 비식별화
- 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치
- 개인정보가 포함된 공개 정보 및 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제3자 제공 등 가능
- 개인정보 재식별 시 조치
- 개인정보 재식별 시, 즉시 파기 및 비식별화 조치
- 빅데이터 처리 과정 및 생성정보에 개인정보가 재식별될 경우, 즉시 파기하거나 추가적인 비식별화 조치 시행
- 민감정보 처리
- 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지
- 특정 개인의 사상, 신념, 정치적 견해 등 민감정보의 생성을 목적으로 정보의 수집, 이용, 저장, 조합, 분석 등 처리 금지
- 이메일, 문자, 메세지 등 통신 내용의 수집, 이용, 저장, 조합분석 등 처리 금지
- 투명성 확보
- 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보
- 개인정보 취급방침을 통해 비식별화 조치 후 빅데이터 처리 사실, 목적, 수집 출처 및 정보 활용 거부권 행사 방법 등을 이용자에게 투명하게 공개
- 개인정보 취급방침
- 비식별화 조치 후 빅데이터의 처리 사실, 목적 등을 이용자에게 공개
- <정보 활용 거부 페이지 링크>를 제공하여 이용자가 거부권을 행사할 수 있도록 조치
- 수집 출처 고지
- 이용자 이외의 자로부터 수집한 개인정보 처리 시 <수집 출처, 목적, 개인정보 처리 정지 요구권>을 이용자에게 고지
- 이용자 이외의 자로부터 수집한 개인정보 처리 시 <수집 출처, 목적, 개인정보 처리 정지 요구권>을 이용자에게 고지
- 수집된 정보의 보호조치
- 수집된 정보의 저장관리 시 기술적, 관리적 보호조치
- 비식별화 조치가 취해진 정보를 저장관리하고 있는 정보처리시스템에 대한 기술적, 관리적 보호조치 적용
- 개인정보 비식별화
(4) 개인정보보호 관련 법령¶
- 개인정보 보호법, 정보통신망법, 신용정보법 등의 개인정보보호 관련 법령이 존재
- 안전한 데이터 결합 절차 마련, 가명 정보 안전성 강화, 개인정보 관련 시행령 일원화, 금융 분야 마이데이터 산업 육성 등 데이터 3법 개정안이 개정될 예정
- 개인정보보호 관련 법령
- 개인정보 보호법
- 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
- 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
- 정보통신망법
- 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
- 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
- 신용정보법
- 개인 신용정보의 취급 단게별 보호조치 및 의무사항에 관한 규정
- 개인 신용정보의 취급 단게별 보호조치 및 의무사항에 관한 규정
- 위치정보법
- 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정
- 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정
- 개인정보의 안정성 확보조치 기준
- 개인정보 처리자가 갱니정보를 처리함에 있어서 분실, 도난, 유출, 변조, 훼손되지 않도록 안정성을 확보하기 위해 취해야 하는 세부적인 기준 규정
- 개인정보 처리시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정
- 개인정보 보호법
(5) 개인정보보호 내규¶
- 가이드라인의 주요 내용
- 정보보호 업무처리 지침
- 정보보호 조치, 개인정보 수집, 개인정보 처리 안정성 확보
- 정보보호 시스템 운영 등 각종 행정처리 절차 명시
- 개발 보안 가이드
- 소프트웨어 개발 시 보안 약점 제거
- 보안성을 높이는 개발 기법 가이드 관련
- 개인정보 암호화 메뉴얼
- 꼭 필요한 최소한의 사용자만 개인정보 접근 허용
- 개인정보 파일 암호화 저장, 사용
- 소프트웨어 개발 보안 구조
- 정보보안 통제 구조
- 전체적인 정보기술 아키텍처와의 관련성 명시
- 기술적, 관리적 보호
- 개인정보의 분실, 도난, 누출, 변조, 훼손 방지 방법 마련
- 개인정보의 분실, 도난, 누출, 변조, 훼손 방지 방법 마련
- 정보보호 업무처리 지침
4. 개인정보 활용 (★)¶
(1) 개인정보 비식별화 개념¶
- 데이터값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치
(2) 개인정보 비식별화 절차 (사비적사 -> 사비를 들여 적토마를 삼
)¶
- 사전검토
- 비식별조치
- 적정성 평가
- 사후관리
(3) 개인정보 비식별 조치 방법 (가총 삭범마 -> 가발쓰고 총을 든 삭발한 범인을 마주함
)¶
- 개인정보 비식별 조치 방법은 가명처리, 총계처리, 데이터삭제, 데이터 범주화, 데이터 마스킹 등이 있음
- 가명처리 (휴리스틱 익명화/ 암호화/ 교환방법)
- 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
장길산,20세,인천 거주,미래대 재학 -> 김식별,20대,인천 거주,외국대 재학
- 총계처리 (총계처리 기본 방식/ 부분집계/ 라운딩/ 데이터 재배열)
- 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 방법
장길정 160cm, 김식별 150cm, 김콩쥐 170cm -> 물리학과 학생 키 합: 480cm, 평균 160cm
- 데이터 삭제 (속성값 삭제/ 속성값 부분 삭제/ 준 식별자 제거를 통한 단순 익명화)
- 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
주민번호 801212-1234567 -> 80년대 생, 남자, 개인과 관련된 날짜 정보(합격일) 등은 연단위 처리)
- 데이터 범주화 (범주화 기본 방식/ 랜덤 올림 방법/ 범위 방법/ 세분 정보 제한 방법/ 제어 올림 방법)
- 단일 식별 정보를 해당 그룹의 대푯값으로 반환하거나, 구간 값으로 변환
장길산, 41세 -> 장 씨, 40~50세
- 데이터 마스킹 (임의 잡음 추가 방법/ 공백과 대체 방법)
- 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값(공백, *, 노이즈 등)으로 변환
장길산, 41세, 서울 거주, 미래대학 재학 -> 장OO, 41세, 서울 거주, OO대학 재학
- 가명처리 (휴리스틱 익명화/ 암호화/ 교환방법)
(4) 재식별 가능성 모니터링¶
- 비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야함
- 모니터링 결과, 점검 항목 중 어느 하나에 해당하는 경우에는 추가적인 비식별 조치를 강구
- 비식별 가능 모니터링 점검 항목
- 내부 요인의 변화
- 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우
- 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우
- 비식별 수준을 낮추어 달라고 요구가 있는 경우
- 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우
- 외부 환경의 변화
- 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별되었다고 알려진 경우
- 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우
- 새롭게 연계가능한 정보가 출현하거나, 공개된 것으로 알려진 경우
- 내부 요인의 변화
In [ ]:
'빅데이터분석기사정리' 카테고리의 다른 글
빅데이터 분석기사 내용 정리/ 1. 빅데이터 개요 및 활용 (0) | 2020.12.04 |
---|