빅데이터분석기사정리

빅데이터 분석기사 내용 정리/ 1. 빅데이터 개요 및 활용

H_erb Salt 2020. 12. 4. 16:20
1.빅데이터 개요 및 활용

1. 빅데이터 개요 및 활용

1. 빅데이터 특징 (★★★)

(1) 빅데이터 개념

  • DIKW 피라미드 (대정식혜): 대전 식혜 꿀맛
    • Data(데이터): 객관적 사실로서 다른 데이터와의 상관관계각 없는 가공하기 전의 순수한 수치나 기호
      • 수제비 책을 A사이트에서 35,000원 B사이트 30,000원 판매
    • Information(정보): 가공, 처리하여 데이터간의 연관관계와 함께 의미가 도출된 데이터
      • 수제비 책은 A 사이트에서 더 싸게 판매
    • Knowledge(지식): 획득된 다양한 정보를 구조화하여 유의미한 정보로 분류되고 일반화시킨 결과물. 정보에 기반해 찾아진 규칙
      • A 사이트가 싸게 팔아서 여기서 책을 사야지
    • Wisdom(지혜): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어, 상황이나 맥락에 맞게 규칙을 적용하는 요소
      • A 사이트에서 다른 상품들도 B 사이트보다 더 저렴할 것으로 판단
  • 데이터를 수집, 저장, 관리, 분석하는 기존의 관리 방법으로는 막대한 양(수십테라이상)의 데이터를 처리하기 어려울 때 빅데이터를 사용
    • 바이트, 킬로, 메가, 기가, 테라, 페타, 엑사, 제타, 요타

(2) 빅데이터 특징

  • 빅데이터는 전통적으로 3V에서 5V, 7V까지 확장되는 중(규다속신 가정휘
    • 3V
      • Volumne(규모): 분석 규모에 관련된 특징(최근에 기하급수적 증가)
      • Variety(다양성): 자원유형에 관한 특징(정형/반정형/비정형)
      • Velocity(속도): 수집,분석,활용 속도에 관한 특징(속도 중요성 증가)
    • 5V
      • Veracity(신뢰성): 수집 대상 데이터가 가지는 신뢰에 관한 특징(노이즈 및 오류 제거를 통해 데이터에 관한 품질과 신뢰성 제고 요구)
      • Value(가치): 수집 데이터를 통해 얻을 수 있는 가치(가치는 데이터의 정확성 및 시간성과 관련됨)
    • 7V
      • Validity(정확성): 수집 대상 데이터가 가지는 유효성과 정확성(데이터가 타당한지 정확한지에 대한 여부는 의사결정에 중요 요소)
      • Volatility(휘발성): 수집 대상 데이터가 의미가 있는 기간(장기적인 관점에서 유용한 가치를 창출해야 함)

(3) 빅데이터 유형

  • 빅데이터 유형은 데이터의 구조적 관점에서 정형, 반정형, 비정형 데이터로 구분됨
  • 데이터 구조적 관점에서의 빅데이터 유형
    • 정형
      • DBMS에 내용이 저장될 수 있는 구조
      • 고정된 필드에 저장된 데이터
      • RDBMS(Oracle/ MSSQL 등)
    • 반정형
      • 데이터 내부에 데이터 구조에 대한 메타 정보가 포함된 구조
      • 고정된 필드에 저장되어 있지만 메타데이터나 데이터 스키마 정보를 포함하는 데이터
      • XML, HTML, JSON 등
    • 비정형
      • 수집 데이터 각각이 데이터 객체로 구분
      • 고정 필드 및 메타데이터(스키마포함)가 정의안됨
      • 크롤러, API, RSS 등의 수집 기술 활용
      • 텍스트문서, 이진파일, 이미지, 동영상 등

(4) 데이터 지식 경영

  • 데이터 기반 지식경영의 핵심 이슈는 암묵지와 형식지의 상호작용에 있음
  • 지식구분
    • 암묵지(내면화/공통화)
      • 노하우(개인에게 체화되어 있지만 겉으로 안드러남/사회적으로 중요하나 공유되기 힘듦)
      • 수영, 태권도 등
    • 형식지(표출화/연결화)
      • 문서나 메뉴얼
      • 전달과 공유 용이
  • 상호작용에는 내공 표연(내면화/공통화) (표출화/연결화)
    • 내면화: 형식지가 개인의 암묵지로 체화되는 단계
    • 공통화: 다른사람이랑 대화 등 상호작용으로 개인이 암묵지를 습득하는 단계
    • 표출화: 노하우를 문서나 매체로 저장하거나 가공, 분석하는 과정
    • 연결화: 형식지가 상호결합해서 새로운 형식지 창출


2. 빅데이터의 가치 (★)

(1) 빅데이터의 가치

  • 빅데이터를 통해 기업/조직의 불확실성 제거, 리스크 감소, 스마트한 경쟁력, 타분야 융합으로 가치창출 가능
  • 빅데이터의 가치
    • 경제적 자산: 사회 및 경제 발전의 엔진 역할수행
    • 불확실성 제거: 패턴분석과 미래 전망/ 여러 가능성에 대한 시나리오 시뮬레이션
    • 리스크 감소: 위험 징후 및 이상 신호 포착/ 이슈를 사전에 인지 및 분석하여 빠른 의사 결정과 실시간 대응
    • 스마트한 경쟁력: 상황 인지, 인공지능 서비스 가능/ 개인화, 지능화 서비스 제공확대/ 트랜드 변화 분석
    • 타 분야 융합: 타 분야와의 융합을 통해 새로운 가치 창출/ 새로운 융합시장 창출

(2) 빅데이터 가치 산정이 어려운 이유

  • 데이터 활용 방식, 새로운 가치 창출, 분석기술 발전으로 인해 빅데이터 가치를 정확히 산정하기 어려움
  • 가치 산정이 어려운 이유
    • 데이터 활용 방식의 다양화
      • 특징 데이터를 언제 어디서 누가 활용할지 알 수 없어 어려움
      • 기존에 풀 수 없는 문제를 해결하하는데 도움을 줘서 가치산정이 어려움
      • ex) 구글이 검색결과를 낼 때마다 클라우드에 저장된 웹 사이트 정보를 매번 사용
    • 새로운 가치 창출
      • 데이터가 기존에 없던 가치를 창출하여 가치 산정이 어려움
      • ex) 고객의 성향 분석하여 맞춤 서비스 제공
    • 분석기술의 급속한 발전
      • 비용 문제로 인해 분석할 수 없었던 것을 저렴한 비용으로 분석하면서 활용도가 증가하여 어려움
      • ex) 텍스트 마이닝을 통한 SNS 분석

(3) 빅데이터 영향

  • 빅데이터의 가치를 활용함으로써 기업, 정보, 개인이 스마트해짐
  • 빅데이터 영향
    • 기업 (혁신수단 제공, 경쟁력강화, 생산성 향상)
      • 비즈니스 모델을 혁신하거나 신사업 발굴
      • 경쟁사보다 우위 확보
    • 정부 (환경탐색, 상황분석, 미래 대응가능)
      • 사회 변화를 추정하고 각종 재해 관련 정보 추출
      • 사회관계망 분석, 시스템 다이내믹스와 같은 분석 방식을 통해 미래 의제 도출
    • 개인 (목적에 따른 활용)
      • 서비스를 저렴한 비용으로 활용
      • 적시에 필요 정보 획득

(4) 빅데이터 위기 요인 및 통제 방안

  • 유용한 가치를 주는 동시에 부정적인 영향을 줄 수 있음
  • 부정적인 영향으로 인해 위기가 발생하므로 이를 극복하기 위한 통제방안이 필요함
  • 위기 요인
    • 사생활 침해: 사생활침해를 넘어 사회 경제적 위협으로 확대 가능(ex) 여행사실 페북에 올려 도둑맞음
    • 책임 원칙 훼손: 예측 알고리즘의 희생양이 될 가능성 증가/ 민주주의 국가 원리를 훼손할 가능성 (ex) 마이너리티리포트, 신용도와 무관한 대출거부
    • 데이터 오용: 언제나 맞을 수 없는 오류가 존재함. 잘못된 지표를 사용하는 것도 빅데이터의 피해가 됨
  • 위기 요인 통제방안
    • 알고리즌 접근 허용
      • 예측 알고리즘의 부당함을 반증할 수 있는 '알고리즘에 대한 접근권'을 제공하여 데이터 오용 위기 요소 대응
      • 알고리즘을 통해 불이익을 당한 사람을 대변할 알고리즈미스트라는 전문가 필요
    • 책임 강조
      • 개인정보를 사용하는 자의 '책임'을 통해 해결하는 방안 강구
      • 사용주체가 적극적인 보호 장치를 강구함
    • 결과 기반의 책임 적용
      • 기존 원칙 보강 및 강화, 예측자료 불이익 가능성을 최소화하는 장치를 마련
      • 오류가 있는 알고리즘을 통해서는 불이익을 줄 수 없으며, 방지를 위한 피해 최소화 장치 마련


3. 빅데이터 산업의 이해

(1) 빅데이터 산업 개요

  • 신성장동력으로 급부상
  • 클라우드 컴퓨팅 기술 발전으로 데이터 처리비용이 급감하여 빅데이터 발전
  • 주요국 및 글로벌 기업은 산업 육성 및 활용에 주력
  • 우리나라는 잠재력이 크지만 불확실성에 따른 투자 리스크 등으로 활용은 저조

(2) 산업별 빅데이터 활용

  • 산업별 활용
    • 의료,건강: 헬스케어 플랫폼
    • 과학기술: 대규모 과학기술 빅데이터 공유 활용 플랫폼 구축
    • 정보보안: 보안사고 징후 파악 및 조기 대응 협업시스템 구축
    • 제조,공정: 품질향상을 위한 빅데이터 시스템 구축, 중소/중견 기업 공동활용(SW 개발지원 등)
    • 소비,거래: 구매패턴 및 트랜잭션 분석, 소비트랜드 예측, 판매 포트폴리오 ㄱ구성 지원 및 리스크 관리 등
    • 교통,물류: 수요에측, 제어 등 물류 유통체계 최적화


4. 빅데이터 조직 및 인력 (★★★)

(1) 빅데이터 조직 설계

  • 업무 프로세스를 이해하고 조직의 특성을 고려해야함
  • 1) 업무 프로세스: 빅데이터 도입계획 수립/ 빅데이터 시스템 구축/ 빅데이터 서비스 운용 단계
    • 빅데이터 도입 단계
      • 도입 기획, 기술 검토, 도입 조직 구성, 예산 확보 등 수행
    • 빅데이터 구축 단계
      • 요구사항 분석, 설계, 구현, 테스트 단계 수행
    • 빅데이터 운영 단계
      • 운영 계획 수립
      • 플랫폼 운영, 분석 모델 운영, 운영 조직, 운영 예산 고려
  • 2) 조직 설계 절차
    1. 경영 전략 및 사업 전략 수립
    2. 전체 조직 구조 설계
    3. 핵심 업무 프로세스 검토
    4. 팀 조직 구조 설계
    5. 핵심 인력 선발
    6. 역할과 책임 할당
    7. 성과 측정 및 기준 수립
    8. 역량 교육 및 훈련
  • 3-1) 조직 구조 설계 요소: 업무 활동, 부서화, 보고 체계 고려
    • 업무 활동: 수직 업무 활동/ 수평 업무 활동으로 구분
      • 수직 업무 활동: 경영 계획/ 예산 할당 등 우선 순위 결정
      • 수평 업무 활동: 업무 프로세스 절차별로 업무 배분
    • 부서화: 조직 구조 유형 설계
      • 집중 구조, 기능 구조, 분산 구조로 분류
    • 보고 체계: 업무 활동 및 부서의 보고 체계 설계
  • 3-2) 조직 구조 유형: 집중 구조, 기능 구조, 분산 구조 (집기분): 집사람 기분이 좋다~
    • 집중 구조
      • 전사 분석 업무를 별도의 분석 전담 조직(DSCoE-데이터 사이언스 전문가 조직)에서 담당
      • 분석 조직이 우선순위 정해서 진행
      • 현업 업무부서와의 분석 업무 중복 및 이원화 가능성 높음
    • 기능 구조
      • 일반적인 형태로 별도 분석조직이 없고 해당 조직에서 분석 수행(DSCoE가 없음)
      • 전사적 핵심 분석이 어려움. 과거에 국한된 분석
    • 분산 구조
      • DSCoE 인력들을 현업 부서로 직접 배치해 분석
      • 전사 차원의 우선 순위 수행
      • 신속한 피드백이 나오고 모범사례 공유 가능
      • 업무 과다와 이원화 가능성 존재(부서 분석 업무와 역할 분담을 명확히 해야함)
  • 4) 조직 구조 설계 특성: 공식화, 분업화, 직무 전문성, 통제 범위, 의사소통 및 조정 등의 특성 고려
    • 공식화
      • 업무에 필요한 기준을 사전에 설정하여 공식화
    • 분업화
      • 업무 분할하여 수행
      • 수직적 분할과 수평적 분할로 구분
    • 직무 전문화
      • 업무에 활용되는 직무 전문성의 유형을 의미
      • 전문 지식과 경험이 중요한 요소
    • 통제 범위
      • 효율적으로 관리할 수 잇는 조직의 인원 수
    • 의사소통 및 조정
      • 업무 지시, 보고, 피드백 등 수직적인 활동과 협업 등의 수평적인 활동으로 구분

(2) 조직 역량

  • 지속적인 경영을 위해서는 조직 역량 확보가 필수
  • 조직 역량은 조직이 기대하는 성과 달성을 위한 중요한 요소
  • 1) 역량 모델링
    • 우수 성과자의 행동 특성 파악 후 직무별 역량 모델 생성, 타 조직원에게 전달 및 공유
    • 데이터 사이언티스트 요규 역량에는 하드스킬과 소프트 스킬이 있음
      • 소프트스킬
        • 통찰력: 비판 능력, 사고력, 호기심
        • 협업 능력: 커뮤니케이션
        • 전달력: 스토리텔링, 비쥬얼라이제이션
      • 하드스킬
        • 이론적 지식: 기법 및 방법론 습득
        • 숙련도: 목적에 맞는 최적 분석 설계, 노하우
    • 가트너는 데싸가 갖춰야 할 역량으로 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석을 제시함
  • 2) 역량 모델 개발 절차: 조직의 미션/성과 목표/CSF를 검토하고, 우수성과자의 행동 특성을 도출하여 이를 기반으로 지식, 스킬, 태도와 같은 역량을 도출하여 개발
    1. 조직의 미션/ 성과목표/ CSF(핵심성공요인) 검토
    2. 조직 구성원의 행동 특성 도출
    3. 조직 구성원의 역량 도출
    4. 조직 수어의 역량 모델 확정
  • 3) 역량 교육 체계 설게 절차
    1. 요구사항 분석
    2. 직무별 모델 검토
    3. 역량 차이 분석
    4. 직무 역량 매트릭스 작성
    5. 직무별 역량 교육 체계 설계

(3) 조직성과 평가

  • 개인의 성과에 대한 목표 설정에 필요한 CSF와 목표 달성에 필요한 KPI를 정의하고 관리
  • 1) 조직성과 평가 절차
    1. 목표 설정
    2. 모니터링
    3. 목표 조정
    4. 평가 실시
    5. 결과 피드백
  • 2) 균형 성과표(BSC) 관리: 네 가지 관점으로 목표를 설정하여 관리
    • 재무: 재무적인 지표를 통해 조직의 성과를 보여주기 위한 관점
    • 고객: 고객 관계 관리를 위한 관점. 고객 지향적 프로세스를 만들어 나감
    • 내부 프로세스: 기업의 핵심 프로세스 및 핵심 역량을 규명하는 과정
    • 학습,성장: BSC의 관점 중 가장 미래지향적. 장기적인 잠재력에 대한 투자가 기업 성장에 얼만큼 영향을 미칠 수 있을지 파악
In [ ]: