자격증공부

[빅분기] 빅데이터 분석 기사 필기 요약/요점 정리

서용이 2022. 9. 30. 01:29
반응형

1. 빅데이터 분석 기획

1) 빅데이터의 이해

  • 데이터의 유형
    • 정성적 데이터(qualitative) : 언어, 문자 등 비정형 - 주관적
    • 정량적 데이터(quantitative) : 수치, 도형, 기호 등 정형 - 객관적
  • 데이터 유형(구조적 관점)
    • 정형 : RDB, CSV, 스프레드시트
    • 반정형 : 웹로그, 알람, XML, HTML, JSON, RSS
    • 비정형 : 이미지, 오디오, 문자, NoSQL
  • 데이터 기반 지식 구분

          내면화 → 공통화 → 표출화 → 연결화
                (암묵지)                   (형식지)

  • DIKW피라미드

          Data - Information - Knowledge - Wisdom
          객관적사실 - 연관관계도출 - 일반화규칙 - 창의적아이디어

  • 바이트 크기

          K M G T P E Z Y     킬메기테페엑제요

  • 빅데이터 특징
    • 3V : Volume, Variety, Velocity     규모, 다양성, 속도
    • 5V : + Value, Veracity     가치, 진실성
    • 7V : + Validity, Volatility     정확성, 휘발성
  • 빅데이터의 가치

          경제적자산, 불확실성제거, 리스크감소, 타분야융합, 스마트한경쟁력

  • 빅데이터 가치 선정이 어려운 이유

          데이터활용방식, 새로운가치창출, 분석기술발전

  • 빅데이터 영향
    • 기업 : 혁신수단제공, 경쟁력강화, 생산성향상
    • 정부 : 환경탐색, 상황분석, 미래대응가능
    • 개인 : 목적에 따른 활용
  • 빅데이터의 본질적인 변화

          사후처리, 전수조사, 양, 상관관계

  • 빅데이터 위기요인 및 통제방안
    • 사생활침해 : 개인 정보 데이터를 목적 외에 사용
                        → 제공자의 '동의'에서 사용자의 '책임'으로
    • 책임원칙훼손 : 예측 알고리즘의 희생양이 됨
                          → 결과 기반 책임원칙 고수
    • 데이터오용 : 잘못된 지표 사용
                        → 알고리즘 접근 허용 (알고리즈미스트 - 알고리즘 해석 전문가)
  • 데이터 사이언티스트 요구역량
    • Hard Skill : 이론적지식, 분석기술숙련
    • Soft Skill : 통찰력, 설득력있는전달, 협업능력
  • 분석조직의 구조
    • 집중구조 - 전담조직구성(별도의 팀 존재)
                       중복 및 이원화
    • 분산구조 - 분석인력들을 현업부서로 직접배치
                       베스트프렉티스 공유O, 업무과다 및 이원화
    • 기능구조 - 별도의 조직이 없고 해당 부서에서 수행
                       핵심 분석 어려움, 과거에 국한된 분석수행
  • 데이터베이스 특징
    • 일반 : 통합된, 저장된, 공용, 변화되는 데이터
    • 다양한 측면 : 정보축적 및 전달, 정보이용, 정보관리, 정보기술발전, 경제/산업
  • 기업 내부 데이터베이스
    • 1980년대
      OLTP(Online Transaction Processing) : 데이터를 수시로 갱신하는 프로세싱
      OLAP(Online Analytical Processing) : 데이터를 접근해 정보위주의 분석처리
    • 2000년대
      CRM(Customer Relationship Management) : 기업의 고객 관계 관리체계
      SCM(Supply Chain Management) : 기업에서 생산/유통 등 모든 공급망을 관리
    • 경영/제조 부문
      ERP(Enterprise Application Integration) : 기업 내 연관된 어플리케이션을 유기적 연동
      EDW(Enterprise Data Warehouse) : 기존 데이터 웨어하우스를 전사적으로 확장
    • 유통부문
      KMS(Knowledge Management System) : 지식 관리 시스템
      RFID(Radio-Frequency Identification) : 주파수를 이용해 ID를 식별
    • 사회기반구조
      EDI(Electronic Data Interchange) : 서류를 전자신호를 통해 거래처에 전송
      VAN(Value Added Network) : 통신회선을 차용하여 독자적인 네트워크 형성
      CALS : 전자상거래 구축을 위한 경영 통합 정보 시스템

2) 데이터 분석 계획

  • 분석의 기획
분석방법(How) \ 분석대상(What) Known Unknown
Known Optimization Insight
Unknown Solution Discovery
  • 목표 시점 별 분석기획
                                  과제 단위                     마스터플랜 단위
    • 1차 목표         Speed/Test                Accurancy/Deploy
    • 과제 유형       Quick/Win                  LongTermView 
    • 접근 방식       Problem Solving        Problem Definition
  • 분석 기획 시 고려사항

          가용데이터확보 → 적절한 유스케이스탐색 → 낮은실행장벽

  • 분석 마스터플랜 수립
    • 우선순위고려요소
                - 전략적 중요도 (전략적 필요성, 시급성)
                - 실행용이성 (투자용이성, 기술용이성)
                - 비즈니스성과/ROI
                   (3V - Volume/Variety/Velocity : 투자비용요소 + 4V - Value : 비즈니스효과)
                                                                           <난이도>                               <시급성>
    • 적용범위/방식 고려요소
                - 업무내재화 적용수준
                - 분석데이터 적용수준
                - 기술 적용수준
    • 이행로드맵 수립 : 데이터분석체계도입 → 유효성검증 → 분석확산 및 고도화
    • 세부이행계획 수립 : 순차적 단계 + 반복적 모델링 단계를 수행하는 '혼합형' 적용
  • 하향식접근법 (Top Down)
    • 문제탐색 : 비즈니스모델 기반                            +  외부사례 기반(벤치마킹)
                    (업무/제품/고객/규제,감사/지원인프라)    (Quick & Easy)
    • 문제정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환 - 최종 사용자 관점
    • 해결방안탐색
    • 타당성검토 : 경제적 타당성 + 데이터 및 기술적 타당성
  • 상향식접근법 (Bottom Up)
    • 디자인사고
    • 프로토타이핑의 필요성
  • 데이터분석방법론
              - 방법론 : 상세한절차, 방법, 도구와기법, 템플릿과산출물
              - 장애요소 : 고정관념, 편향된생각, 프레이밍효과
              - 모델 : 폭포수모델, 프로토타입모델, 나선형모델
              - 계층적프로세스 : 단계, 테스크, 스텝
              - 일반적 분석방법론 절차
                 분석기획 → 데이터준비 → 데이터분석 ⇢ 시스템구현 → 평가전개
                      ↑                  ↑_________|  |____________________↑ |
                       |____________________________________________|
    • KDD 분석방법론 : 'Fayyad'가 '통계적 패턴'이나 지식을 찾기 위해 정리한 데이터
    • CRISP-DM 분석방법론 : 유럽연합의 ESPRIT에서 시작되어 주요 5개의 업체들이 주도
    • SEMMA 분석방법론 : SAS사의 주도로 만들어진 기술중심/통계중심의 방법론
                                       샘플링 → 탐색 → 수정 → 모델링 → 검증
KDD (7단계) CRISP-DM (6단계)
분석대상 비즈니스이해 업무이해
데이터셋선택 데이터의이해
데이터전처리
데이터변환 데이터준비
데이터마이닝 모델링
결과평가 평가
활용 전개

3) 데이터 수집 및 저장 계획

  • 정형 데이터 수집 기법
    • ETL : 추출, 변환, 적재 프로세스 및 기술 (+ EAI)
              ※ ETL 프로세스 : 데이터 이동 및 변환이 주된 목적
    • FTP : TCP/IP 프로토콜,
              클라이언트→서버(Active FTP)/클라이언트←서버(Passive FTP)
    • API : OS나 프로그래밍 언어의 기능을 제어하는 인터페이스, 실시간 데이터 수신 가능
    • Sqoop : RDB나 Hadoop 간 대용량 데이터를 변환하는 어플리케이션,
                   RDB → HDFS → MapReduce 기능제공, 장애허용 및 병렬처리
                       (데이터)    (변환)
  • 반정형 데이터 수집 기법
    • Scribe : 실시간 스트리밍 로그 데이터 수집 어플리케이션 (Facebook)
                  분산서버 → 중앙집중서버, 확장성/신뢰성/설치용이성
    • Flume : 대량의 로그 데이터를 효율적으로 전송하는 서비스 (Cloudera)
                  신뢰성/확장성/운영가능성/가용성
    • Chukwa : 다양한 로그 데이터를 HDFS에 저장 및 분석 (Yahoo)
                     수집로그 : 모니터링/하둡/응용프로그램→실시간모니터링
  • 비정형 데이터 수집 기법
    • Scrapy : 파이썬으로 작성된 오픈소스 웹 크롤링 프레임워크
    • Apach Kafka : 실시간 데이터 피드를 관리하기 위해 높은처리량, 낮은지연시간의 플랫폼 제공 (발행/구독)
    • Crawling : 웹로봇/웹크롤러
  • 빅데이터 수집 시스템의 요건

          확장성, 안정성, 유연성, 실시간성

  • 데이터 변환 기술
    • 평활화 : 잡음제거를 위해 추세에 벗어나는 값을 변환
    • 집계 : 데이터 요약 및 축소
    • 일반화 : 특정구간에 분포하는 값으로 스케일 변환
    • 정규화 : 정해진구간 내에 포함되도록 변환 (minmax, z-score 등)
    • 속성생성 : 데이터 통합을 위해 새로운 속성 및 특징 생성
  • 데이터 보안 적용 기술

          사용자인증, 접근제어, 암호화, 개인정보비식별화, 개인정보암호화

  • 비식별화 기술
    • 가명처리 : 다른값 대체 (휴리스틱익명화, 암호화, 교환방법)
    • 총계처리 : 통계값 대체 (총계처리, 부분총계, 라운딩, 재배열)
    • 데이터삭제 : 특정값 삭제 (식별자삭제, 레코드삭제, 전부삭제)
    • 범주화 : 대표값 및 구간값 변환 (감추기, 랜덤라운딩, 범위방법, 제어라운딩)
    • 마스킹 : 공백 및 노이즈 등 대체 (임의잡음추가, 공백과대체)
  • 프라이버시모델 추론방지기술
    • K-익명성 : 일정확률 수준 이상 비식별 조치
    • I-다양성 : 민감한 정보의 다양성을 높임
    • T-근접성 : 민감한 정보의 분포를 낮춤
  • 데이터 품질관리의 중요성

          데이터분석 결과의 신뢰성확보, 일원화된 프로세스, 데이터 활용도 향상, 양질의 데이터 확보

  • 데이터 품질 기준
    • 정형 : 완전성, 유일성, 유효성, 일관성, 정확성
    • 비정형 : 신뢰성, 기능성, 효율성, 사용성, 이식성
  • 빅데이터 저장기술
    • 분산파일시스템
      1. 하둡 : 대규모 데이터 처리가 가능한 자바 오픈소스 프레임워크,
                분산컴퓨팅환경을 지원하는 소프트웨어
      2. HDFS : 클라우드 컴퓨팅 환경을 구축하기 위해 이용,
                   리눅스서버에서 이용되며 확장성이 뛰어남 (네임노드+데이터노드)
      3. GFS : 구글의 대규모 클러스터 서비스 플랫폼
    • NoSQL - SQL사용 X
      1. Cassandra : 대용량 처리 시스템
      2. HBase : 자바기반 비관계형 DB (네이버, 라인)
                    HDFS, MapReduce 함께 사용 - 구글 Bigtable 참고
    • 병렬 DBMS : Volt DB, SAP HANA, Vertica, Greenplum
    • 클라우드 파일저장시스템 : Amazon S3, OpenStack, Swift
    • 네트워크구성 저장시스템 : SAN, NAS
  • 데이터웨어하우스
  • 데이터레이크


2. 빅데이터 탐색

1) 데이터 전처리

  • 데이터 정제
    • 결측치
      • 결측치 유형
        1. 완전무작위 : 아무연관 X
        2. 무작위 : 영향은 받지만 연관 X
        3. 비무작위 : 연관 O
      • 결측치 처리
        1. 단순대치법
                    - 단순삭제
                    - 평균대치법 : 비조건부, 조건부(회귀)
                    - 단순확률 : 핫덱
        2. 다중대치법 : 단순대치를 m번 수행
                            대치 → 분석 → 결합
        3. 그 외 : 수작업, 전역상수, 무시
    • 이상치
      • 이상치 판별
        1. 사분위수 : Q1 - 1.5 x IQR ~ Q3 + 1.5 x IQR
        2. 정규분포 : µ - 3σ ~ µ + 3σ (EDS, 3 sigma rule)
        3. 군집화
        4. 기하평균 : 2.5 x 표준편차
      • 이상치 처리
        1. 결측처리 : 존재할 수 없는 값 제거
        2. 극단치 기준 이용 : 사분위수 적용 제거
        3. 극단값 절단 : 상하위 5% 제거
        4. 극단값 조정
  • 데이터 통합
    • 스키마 통합과 개체의 매칭
    • 데이터 중복
    • 하나의 속성에 대해 여러 상충되는 값
  • 데이터 축소
  • 데이터 변환
    • 데이터 형식 및 구조 변환
    • 데이터 스케일링
      1. 표준화 : Z-Score (평균 0, 표준편차 1)
      2. 정규화 : min-max
    • 평활화 : 데이터를 매끄럽게 처리 (구간화, 군집화)
    • 비정형 데이터 변환
  • 변수선택
    • 필터방법 : 데이터의 통계적 특성을 활용해 변수선택
                     0에 가까운 분산, 큰 상관계수의 변수 제거
    • 래퍼방법 : 변수의 일부를 사용해 모델링 수행
                     전진선택, 후진제거, 단계별선택 등
    • 임베디드방법 : 모델링 기법 자체에 변수선택이 포함
                           라쏘, 릿지, 엘라스틱넷
  • 차원축소

          다차원척도법(MDS), 주성분분석(PCA), 요인분석, 선형판별분석(LDA), 특이값분해(SVD), t-SNE, 서포트벡터머신(SVM)

  • 파생변수
  • 변수변환
    • 변수 구간화 방법
      1. Binning : 연속형 → 범주형 변환
      2. Decision Tree : 분리 기준 사용
    • 더미변수
    • 정규분포화 : 로그변환, 제곱근변환
  • 불균형데이터처리
    • 오버 샘플링 : Resampling, SMOTE, Borderline SMOTE, ADASYN
    • 언더 샘플링 : Random, Tomek Links, CNN, OSS

2) 데이터 탐색

  • 탐색적 데이터 분석 (EDA)
    • 저항성 : 데이터가 일부 파손되어도 영향을 적게 받는 성질
    • 잔차의 해석 : 주경향에서 벗어난것이 존재하는지 탐색
    • 데이터 재표현 : 데이터를 단순화해 해석이 쉽도록 함
    • 현시성 : 데이터시각화
  • 기초통계량의 이해
    • 중심경향도 : 평균, 중앙값, 최빈값

M>0, M=0, M<0

    • 산포도 : 범위, 분산, 표준편차, 사분위수, 평균의 표준오차, 변동계수

    • 자료분포의 비대칭도

  • 데이터 시각화

          막대그래프, 원그래프, 도수분포표, 히스토그램, 줄기잎그림, 상자그림, 도수다각형, 선그래프, 산점도

  • 상관관계 분석
    • 상관분석 : 산점도, 공분산, 상관계수로 선형관계 파악
    • 공분산 : 두 변수의 공통분포를 나타내는 분산

    •  상관계수
  피어슨 스피어만
변수 등간/비유 서열
계수           Cov(X,Y)
𝜸 =   ⎯⎯⎯⎯⎯
             Sx*Sy
ρ
  • 상관관계 유의성 검정
    • 가설설정 : (H0) 두 변수 간 선형관계 없음 ↔ (H1) 있음
    • 검정통계량(t-통계량)


    • 유의성검정

3) 통계기법의 이해

  • 표본집단 용어
    • 원소 : 모집단을 구성하는 개체
    • 모수 : 표본 관측에 의해 구하고자 하는 정보
    • 통계량 : 표본으로부터 얻은 자료의 대푯값
    • 추정량 : 통계량에서 모수를 추정하는 값
    • 표본오차 : 표본의 자료가 모집단을 추론함으로써 생긴 오차
    • 비표본오차 : 표본오차를 제외한 오차
    • 표준오차 : 통계량의 분포인 표본분포의 표준편차
  • 표본 추출 과정

          모집단 결정 → 표본 틀 선정 → 표본 추출 방법 결정 → 표본 크기 설정 → 표본 추출

  • 표본 추출 방법
    • 확률 표본 추출법
      1. 단순랜덤추출법
      2. 계통추출법 : 구간화
      3. 집락추출법 : 일부집락 랜덤선택
      4. 층화추출법 : 각계층에서 고루 추출
    • 비확률 표본 추출법
      1. 편의 표본 추출
      2. 유의 표본 추출
      3. 지원자 표본 추출
      4. 할당 표본 추출
      5. 눈덩이 표본 추출
  • 이산형 확률분포

          베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포

  • 연속형 확률분포

          균일분포, 정규분포, 지수분포, t-분포, x²-분포, F-분포

  • 중심극한정리 : 표본이 크면 모집단의 분포와 상관없이 정규분포를 따름
  • 점추정량의 조건

          불편성, 효율성, 일치성, 충족성, 표본평균, 표본분산


3. 빅데이터 모델링

1) 분석 모형 설계

  • 데이터 분석 모델 유형
    • 통계분석 - 숫자를 다루는 기존의 분석기법
      1. 회귀분석
      2. 분산분석
      3. 판별분석
      4. 주성분분석
      5. 상관분석
    • 데이터마이닝 - 데이터의 패턴과 상관성을 발견 (+ 기술, 추정)
      1. 분류 : 로지스틱회귀, 의사결정나무, SVM, 나이브베이즈, KNN, ANN
      2. 예측 : 회귀분석, 시계열분석, KNN, ANN, 의사결정나무, 장바구니분석
      3. 연관 : 연관성분석, 순차패턴분석
      4. 군집화 : 군집분석, k-means, EM
    • 머신러닝 - 기계가 매개변수를 자동학습
      1. 지도학습 : 분류, 회귀
      2. 비지도학습 : 군집화, 차원축소, 연관규칙
      3. 강화학습 : 보상
    • 비정형데이터분석 - 인간의 학습을 모델링
      1. 텍스트마이닝
      2. 오피니언마이닝
      3. 소셜네트워크분석
  • 분석 도구 종류
    • R : 오픈소스, 다양한 운영체제, S언어 기반 표준플랫폼, 객체지향 및 함수형언어
    • Python : 동적데이터, 쉬운문법, 높은확장성 - Glue Language, 높은생산성, 객체지향 인터프리터언어,
                    고수준 자료형 제공 - String, Tuple, List, Dictionary
    • SAS, SPASS : 유료
    • 머하웃, 하이브, 피그
  • 분석 모형 구축절차
    • 분석데이터 수집/처리
      1. 분석데이터 마트구성
                  분석목적 이해 → 필요데이터 사전조사 → 분석데이터 선정 - 최대항목도출
      2. 분석데이터 현황분석 - 데이터탐색단계
                  데이터 항목별 분석(데이터충실도, 데이터이상값, 데이터분포도, 데이터오류율, 기타)
                  → 항목간 연계분석 → 분석데이터 리스트 작성
    • 분석알고리즘 수행
      1. 분석알고리즘 선정
        • 분석목적 : 지도, 비지도
        • 데이터유형 : 정형, 텍스트, 링크드, 이미지 등
        • 데이터볼륨 : 소, 중, 대
        • 분석인프라 : 하둡, 패키지 등
      2. 분석알고리즘 수행
                  데이터셋 준비 → 파라미터 설정 - 도메인지식 중요함 → 분석모델 수행 → 분석결과 기록
    • 분석결과 평가 및 모델산정
                평가기준 선정 → 분석결과 검토 → 알고리즘 결과비교
  • 데이터 분류 방법
    • 홀드아웃(hold-out) 방법 : 랜덤하게 train/test set을 분리
    • 교차검증(cross-validation) 방법 :
                k개로 분리한 데이터를 순차적으로 학습 검증하여 얻어낸 k개의 MSE값들을 평균내어 최종적으로 사용

2) 통계 분석 기법

<회귀분석>

  • 회귀분석의 변수
    • X : 설명변수, 독립변수, 예측변수
    • Y : 반응변수, 종속변수, 결과변수
  • 선형회귀분석의 가정

          선형성(독립/종속), 독립성(잔차/독립), 등분산성(독립/오차), 비상관성, 정상성
                                                                                                             (잔차)

  • 단순선형회귀
    •  Yᵢ = β₀ + β₁𝒙₁ + ℰᵢ     : 독립변수 1개
           (회귀계수)   (오차)     - 회귀계수가 통계적으로 유의미한지 판단
    • 회귀계수 추정방법 : 최소제곱법(최고자승법) - 단점) 노이즈에 취약
                                   잔차의 제곱합을 최소로 만드는 직선을 찾는 것
    • 잔차의 제곱합
                RSS = Σ(yᵢ - ŷᵢ)²     을 최소로 만들어야 함
                       (실제값)(예측값)
    • RSS를 최소로 갖는 회귀계수를 구하는 공식

  • 단순선형회귀 분석 결과 해석
    • 회귀모형은 통계적으로 유의한가? (F-검정)
                F통계량의 p-value가 유의수준 0.05보다 작다면 귀무가설(β₁=0)이 기각되고 대립가설(β₁≠0)이 채택됨

SSE = Σ(yᵢ - ŷᵢ)²     → MSE = SSE/n-k-1
SSR = Σ(ŷᵢ - ȳ)²     → MSR = SSR/k     (k : 변수개수이며 단순선형회귀에서 k=1이다)
SST = Σ(yᵢ - ȳ)²     → MST = SST/n-1
➡ F통계량 = MSR/MSE     - 값이 커지면 p-value가 작아짐


    • 회귀계수는 통계적으로 유의한가? (t-검정)
                p-value가 0.05보다 작거나 t-통계량의 절댓값이 2보다 크면 귀무가설(β₁=0)을 기각하고 통계적으로 유의하다고 판단
    • 모형은 데이터를 얼마나 설명할 수 있는가? (결정계수)
                R² = SSR/SST (0≤ R² ≤1)
                결정계수가 1에 가까울수록 설명력이 높다고 판단
    • 모형이 데이터를 잘 적합하고 있는가?
                잔차를 그래프로 그리고 회귀진단을 수행하여 판단
                Residuals/Fitted, NormalQ-Qplot, Scale-Location, Residuals/Leverage,
                Cook's distance, Cook's dist/Leverage

  • 다중선형회귀
    • Yᵢ = β₀ + β₁𝒙₁ + β₂𝒙₂ + ... + βℓ𝒙ℓ + ℰᵢ     : 독립변수 2개 이상
    • 다중공산성 문제 발생 : 독립변수들 간의 강한 상관관계가 정확한 회귀계수 추정을 방해
      1. 독립변수들 간의 상관계수를 구함
      2. 허용오차를 구함(0.1이하라면 문제 심각)
        (1-Rᵢ²) → Rᵢ² : xᵢ의 독립변수와 다른 독립변수의 설명력
      3. 분산팽창요인(VIF) 구함(10이상이면 문제 심각)
        (허용오차의 역수)
    • 결과해석은 단순선형회귀와 동일하지만 결정계수는 독립변수의 수가 많아짐에 따라 커지기 때문에 수정된 결정계수를 활용
  • 최적 회귀 방정식 선택
    • 단계적 변수 선택 - 래퍼방법
      1. 전진선택법 : 변수의 수가 많은 경우 사용가능
                          안정성 부족 및 선택된 변수 제거 불가
      2. 후진제거법 : 전체변수의 정보 이용
                          변수의 수가 많은 경우 사용 어렵고 변수 제거 불가
      3. 단계적방법 : 전진 + 후진 → 모든 변수 조합 고려 가능
                           계산량이 많아짐
    • 벌점화된 선택기준


    • 수정된 결정계수
                MSE값이 최소인 시점의 모형을 선택
    • Mallow's C𝘱
                변수가 많이 추가될수록 RSS는 작아지며 RSS가 최소인 모형을 선택한다는 것은
                모든 변수를 갖는 모델을 선택한 것(과적합문제발생) 따라서 Mallow's C𝘱는 모든 변수를 선택한 모델과
                p개의 변수를 선택한 모델의 차이를 비교하는 통계량이며, 그 값이 비슷하다면 더 적은 변수의 수를 갖는
                모델을 택한다

(a : 모든 변수를 선택한 모델, b : p개의 변수를 선택한 모델)
C𝘱 = p : 우수한 모델
C𝘱 > p : 추가적인 변수 필요
C𝘱 < p : 변수 제거 필요
 예측식이 가진 수행능력을 예측값의 변이를 기준으로 평가하기 위해 MSE를 고려

 

AIC(Akaike information criterion)

  • 정규화 선형회귀 - 임베디드방법
              선형회귀계수에 제약조건을 추가해 모델의 과적합을 방지
              따라서 계수의 크기를 제한하는 방법
    • 릿지회귀(Ridge) : L2 penalty
                모든 가중치들의 제곱합을 최소화
                ※ 하이퍼 모수 : 크다 - 정규화↑/가중치값↓, 작다 - 정규화↓/가중치값↑
    • 라쏘회귀(Lasso) : L1 penalty
                모든 가중치 절대값들의 합을 최소화, 가중치가 0이되기도 함 - 따라서 자동적으로 변수선택의 효과가 있음
    • 엘라스틱넷(Elastic Net) : 라쏘 + 릿지
  • 일반화 선형회귀 - 종속변수가 정규성을 만족하지 못하는 경우

          랜덤성분, 체계적성분, 연결함수

  • 회귀분석의 영향력 진단 - 안정성 평가

          Cook's Distance, DFBEtAS, DFFltS, Leverage H

<범주형자료분석>

  • 분할표 분석
  Success Fail
exposed a b
unexposed c d

    • 상대위험도 (Relative Rank)
                             Percent when exposed            a / (a+b)
                RR =  ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯  =  ⎯⎯⎯⎯⎯  =  X
                          Percent when not exposed         c / (c+d)
                노출되었을 때 발생할 확률이 그렇지 않을 때보다 X배 높다
    • 오즈비 (Odds Ratio) - 모집단을 알 수 없을 때 사용
      1. Odds :           주어진 환경에서 발생할 확률 (p)
                        ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
                        주어진 환경에서 발생하지 않을 확률 (1-p)          ex) exposed 환경일 때 = a/b
      2. Odds ratio : 각 Odds의 비율
                          Odds(exposed)                  a / b
                   ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯  =  ⎯⎯⎯⎯  =  X
                        Odds(unexposed)                c / d
                  노출되었을 때 발생할 확률이 그렇지 않을 때보다 X배 높은 경향이 있다
  • 교차분석
    • 카이제곱(x²)검정 : 두 변수간의 관계를 알아보기 위해 사용되며
                                 적합성 검정, 독립성 검정, 동질성 검정에 사용됨
      1. 적합성 검정 : 관측값들이 예상이론과 일치하는지 검정
                           H₀ = 두 분포는 일치, H₁ = 두 분포는 불일치
                           x² 큰 경우 : 두 분포는 불일치, x² 작은 경우 : 두 분포는 일치
                  자유도(df) = k-1
      2. 독립성 검정 : 변수들 사이의 관계가 독립인지 검정
                          H₀ = 독립이다, H₁ = 종속이다
                  자유도(df) = (R-1)(C-1)
      3. 동질성 검정 : 범주화된 집단의 분포가 동일한지 검정
                           계산은 독립성겁정과 동일

<다차원척도법>

  • 다차원척도법 : 개체들 사이의 유사성/비유사성을 측정하여 개체를 2,3차원 공간에 점으로 표현해 개체간 근접성과 집단화를 시각화
  • 목적
    • 데이터 속 잠재된 패턴 발견하고 공간에 기하학적으로 표현
    • 데이터 축소의 목적, 데이터 정보 발견을 위한 탐색수단
    • 데이터가 만들어진 현상이나 과정에 고유의 구조로 의미부여
  • 분석방법
    • 유클리드 거리행렬 : 개체간 거리계산 후 적합/부적합 정도를 스트레스 값으로 표현

→ 스트레스 값이 최소가 되는 모형을 찾으며 0.15가 넘으면 적합도 수준이 나쁘다고 판단할 수 있다

  • 종류
    • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 사용
    • 비계량적 MDS : 데이터가 순서척도인 경우 사용

<다변량분석>
한번에 분석하는 통계적 기법
3차원 공간상의 입체적 표현이 필요
여러 변인들간의 선형조합으로 해석

  • 주성분분석 (PCA) : 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진
                                '주성분'이라는 새로운 변수에 변수들을 요약 및 축소하는 기법
    • 목적
      1. 차원을 축소함으로써 데이터의 이해와 관리가 쉬워짐
      2. 다중공산성 문제 해결
      3. 군집분석 수행해 연산속도 개선
    • 주성분선택
      1. 주성분기여율 : 주성분 변수의 분산으로 총 변동에 대한 설명력
                             → 누적기여율이 85% 이상이 되는 지점까지 주성분 선택
      2. 스크리산점도 : 주성분을 x축, 주성분의 고유값을 y축에 둔 그래프
                             → 고유값이 급격히 완만해지는 지점의 전단계까지 주성분 선택
      3. 전체변이공헌도
      4. 평균고유값
  • 요인분석 (Factor Analysis) : 변수들의 상관관계를 고려해 유사한 변수들을 묶어 새로운 잠재요인들을 추출
                                                 즉, 변수를 축소하고 데이터를 요약
                                                 → 변수가 간격/비율 척도여야 하며 표본은 100개 이상이 바람직하고 최소 50개 이상이 되야함
    • 용어 : 요인 - 새롭게 생성한 변수집단
              요인적재값 - 변수와 요인간 상관계수
              요인행렬 - 적재값을 모은 행렬
              고유값 - 적재값 제곱의 합
              공통성 - range 0~1
    • 요인추출방법 : 주성분분석/공통요인분석 → 고유값 1이상에 해당하는 요인들 추출
    • 절차
                데이터입력 → 상관계수산출 → 요인추출 → 요인적재량산출 → 요인회전 → 생성된요인해석 → 요인점수산출
                요인회전 - 요인해석과 요인패턴을 찾기위해 분산 재분배
                                 종류 : 직각회전(쿼티,베리,미쿼) / 비직각회전(오블리민)
                요인점수산출 - sum(요인점수계수 * 관측치곱)
                                        방법 : 회귀분석, Bartlett
  • 판별분석 (Discriminant Analysis) : 집단을 구별할 수 있는 판별함수 및 판별규칙을 만들어
                                                           개체가 어느집단에 속하는지 분류하는 다변량기법
                                                           → 독립변수 : 간격,비율척도 / 종속변수 : 명목,순서척도
    • 판별식 수 : min('집단의 수 - 1', '독립변수의 수')
  • 시계열분석 - 탐색목적/예측목적
    • 정상성 : 시계열의 확률적인 성질들이 시간의 흐름에 변하지 않음을 의미
                 시계열분석은 정상성을 만족해야함
      1. 평균이 일정 : 모든 시점에 대해 일정, 차분을 통해 정상화
                           차분 - 현시점자료에서 전시점자료를 빼는 것
                                     종류 : 일반차분 / 계절차분
      2. 분산이 일정 : 시점에 의존 x, 변환을 통해 정상화
      3. 공분산을 시차에만 의존, 특정 시점에 의존 x
    • 이동평균법 (Moving Average Method) : 과거부터 현재까지의 자료를 대상으로 일정기간별 이동평균을 계산하고
                                                                      이들의 추세를 파악해 다음 기간을 예측
      1. 쉽게 미래 예측 가능, 안정된 패턴일 경우 예측 품질 높음
      2. 특정기간 안에 속한 시계열에 동일한 가중치 부여
      3. 짧은기간(불규칙변동↓) / 긴기간(불규칙변동↑) 사용
      4. 적절한기간 사용, 즉 n개수 설정의 중요
    • 지수평활법 (Exponential Smoothing Method) : 모든 시계열 자료를 사용해 평균을 구하고
                                                                                  최근 시계열에 더 많은 가중치를 부여, 중기예측이상에 주로 사용
      1. 단기간 발생하는 불규칙변동을 평활, 불규칙변동 영향 제거
      2. 작은ɑ(불규칙변동↑) / 큰ɑ(불규칙변동↓) 사용 (0.05≤ ɑ ≤0.3)
      3. 지수평활계수는 예측오차가 가장 잦은 값을 선택하는게 바람직하며, 과거로 갈수록 감소함
    • 자기회귀모형 (AR) : 자기상관성을 시계열 모형으로 구성한 것
                                   자기상관성 - p시점 전의 자료가 현재 자료에 영향을 주는 특성
                자기상관함수(ACF) : 시계열 데이터의 자기상관성 파악
    • 이동평균모령 (MA) : 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 경향을 표현,
                                     언제나 정상성 만족
    • 자기회귀누적이동평균모형 (ARIMA) : p = AR, q = MA, d = I
    • 분해시계열
      1. 추세변동 : 장기적으로 나타나는 추세경향
      2. 계절변동 : 일정한 주기로 반복적인 패턴을 보임(주기짧음)
      3. 순환변동 : 알려지지 않은 주기를 가지고 변함                       → 1/2/3 : 체계적 변동
      4. 불규칙변동 : 불규칙하게 우연적으로 발생
    • 시계열데이터분석절차
                시간그래프 작성 → 추세/계절성 제거 → 잔차예측 → 잔차에대한 모델적합 → 예측된 잔차에 추세/계절성 더해 미래예측

<비모수통계>

  모수 비모수 - 자료수가 적고 서열관계일 때 사용
가설설정 모집단에 대한 분포를 가정
모수에 대한 가설설정
모집단 분포에 아무 제약을 가하지 않음
가정된 분포가 없고 분포의 형태 설정(동일/비동일)
검정방법 표본평균, 표본분산 이용해 검정실시 절대적 크기가 없는 관측값 순위나 값 차이의 부호를 이용해 검정
  • Kolmogorov-Smirnov 검정 (단일표본)

          관측치들이 특정한 분포를 따르는지에 대한 검정
          H₀ : 주어진 분포는 ɑ분포를 따른다 ↔ H₁ : 따르지 않는다

  • Mann-Whitney U검정 (독립두표본)

          두 집단의 분포가 동일한지를 조사 ≒ Wilcoxon rank-Sum 검정
          H₀ : 두 집단의 순위 합은 동일하다 ↔ H₁ : 동일하지 않다

                                  ↕

  • Wilcoxon Signend-rank test (대응두표본)

          대응되는 두 데이터의 중위 수 차이가 있는지를 검정
          H₀ : 두 집단의 중앙값은 동일하다 ↔ H₁ : 동일하지 않다

  • Run test

          일련의 관측값들이 임의적으로 나타난 것인지를 검정(우연성검정)
          ex) [AAA / BB / A / BBB / A] → 런의 수 : 5개
          H₀ : 일련의 관측치는 랜덤이다(표본이 독립이다) ↔ H₁ : 랜덤이 아니다


3) 정형 데이터분석 기법

<분류분석>

  • Logistic Regression Analysis
  • Decision Tree
    • 성장단계
      1. 이산형 : 카이제곱통계량, 지니지수, 엔트로피지수
      2. 연속형 : F통계량, 분산의감소량
    • 가지치기단계
    • 타당성평가 : 이익도표, 위험도표, 시험용데이터
    • 해석및예측

의사결정나무알고리즘

CART C4.5 / C5.0 CHAID
범주/연속 범주 범주/연속
지니지수/분산감소량 엔트로피지수 카이제곱/F검정
이진분리 다지분리 다지분리
  • Support Vector Machine (SVM) : 패턴인식, 자료분석을 위한 지도학습 머신러닝 모델 (회귀/분류)
  • KNN : 새로운 데이터를 어떤 범주로 분류할지 결정하는 지도학습
    • K개수선택 : 훈련데이터 개수의 제곱근
    • 거리계산법 : 유클리디안, 맨하탄, 민코우스키 등
  • Naive Bayes Classification : 데이터에서 변수들에 대한 조건부 독립을 가정하는 알고리즘
    • 베이즈정리 : 두 확률변수의 사전확률과 사후확률 사이의 관계

    • 클래스조건독립성
  • Ensemble : 여려개의 예측모형을 만들어 조합해 하나의 최종모형을 만드는 법
    • 배깅(Bagging) - 일반적인 모델생성 : 분산을 줄이고 정확도 향상
    • 부스팅(Boosting) - 잘 틀리는 문제를 맞추는 모델생성 : 예측오차 향상
    • 랜덤포레스트(Random Forest)

<연관분석>

  • 연관성규칙 : 장바구니분석/서열분석 이라고 불리며 일련의 사건들 간에 규칙을 발견하기 위해 적용
                      조건-반응(IF-THEN) 형태
  • 연관규칙의 측도

  • Apriori : 반발항목집합(최소지지도보다 큰 지지도값을 갖는 품목의 집합)에 대해서만 연관규칙을 계산

<군집분석>
각 개체의 유사성을 측정하여 유사성이 높은 대상집단을 분류

  • 거리측정방법
    • 연속형변수
      1. 유클라디안 - 통계적 x
      2. 표준화 : 해당변수의 표준편차로 척도변환 후 유클라디안 계산
      3. 마할라노비스 : 변수들의 산포(표본공분산)을 고려해 표준화 - 상관성고려
      4. 체비셰프
      5. 맨하탄 - 직각의이동거리합
      6. 캔버라
      7. 민코우스키 - 맨하탄+유클리디안
    • 범주형변수
      1. 자카드계수
      2. 자카드유사도
      3. 코사인유사도
      4. 코사인거리
  • 계층적 군집분석 : n개의 군집으로 시작해 군집 개수를 줄여나감(합병형-작은군집시작 / 분리형-큰군집시작)
                              군집의 개수를 미리정하지 x
                              종류 : 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법 - 편차들의제곱합고려,
                                      군집화 - 덴드로그림→군집개수선택(max=5)→군집수선정
  • 비계층적 군집분석(분할적)
    • k-평균 군집분석 : 군집개수 및 초기값 설정 → 군집분류 (반복)
    • 혼합분포 군집 : 모형기반으로 가중치를 자료로부터 추정 - EM알고리즘 사용
    • SOM : 고차원 → 저차원, 하나의 전방패스, 실시간처리
      1. 입력층 : 경쟁층 각각의 뉴런들과 완전 연결되어있음
      2. 경쟁층 : 가까운 거리 계산의 경쟁학습으로 입력패턴과 가장 유사한 뉴런이 승자가 됨
    • 밀도기반 군집분석

4) 딥러닝

  • ANN
    • 뉴런의 계산 : 뉴런은 활성화함수(전이함수)를 사용해 출력을 결정

    • 뉴런의 활성화함수


    • 단층 퍼셉트론
                퍼셉트론 = 선형결합기 + 하드리미터
                초평면을 선형분리함수로 정의 Σ𝑥ᵢ𝑤ᵢ- θ = 0
  • DNN : 다중의 은닉층을 포함하는 인공신경망(ANN)
  • CNN
  • RNN
  • LSTM

5) 비정형 데이터분석 기법

<비정형데이터마이닝>

  • 텍스트마이닝
    • 기능 : 문서분류, 문서군집, 정보추출
    • 과정
      1. 텍스트수집 --(정제,통합,선택,변환)--> 코퍼스
      2. 텍스트전처리 : 토큰화(단어/어절/형태소/품사) → 불용어처리(쓸모없는단어제거) → 
                             정제와 정규화(단어통합/대소문자/정규표현식) → 어간과 어근추출(단어개수줄이기) 
                             텍스트인코딩(원-핫인코딩/말뭉치/TF-IDF/워드임베딩)
      3. 텍스트분석 - 후처리 : 토픽모델링(ATM/DTM), 감성분석, 텍스트분류, 군집화
      4. 텍스트시각화 : 워드클라우드, 의미연결망분석(SNA sementic)
  • 사회연결망분석
    • SNA(Social)
      1. 집합론적방법 : 객체들 관계를 관계쌍으로 표현
      2. 그래프이론방법 : 객체를 점으로 표현해 두점을 연결
      3. 행렬방법 : 객체를 행,열에 배치해 관계 표현(0,1)
    • 중심성
      1. 연결정도 중심성 : 한점에 직접적으로 연결된 점들의 합
      2. 근접 중심성 : 한점에 연결되는 최소단계의 합
      3. 매개 중심성 : 최다연결경로에 위치하는 노드
      4. 위세 중심성 - 보나시치권력지수 : 자신과 연결된 타인의 영향력의 합
    • SNA 적용
                그래프 생성 → 목적에따라 가공분석  → 각객체 정의 → 다른 데이터마이닝기법과 연계

 

출처 : https://eatchu.tistory.com/6

반응형