[빅분기] 빅데이터 분석 기사 필기 요약/요점 정리
1. 빅데이터 분석 기획
1) 빅데이터의 이해
- 데이터의 유형
- 정성적 데이터(qualitative) : 언어, 문자 등 비정형 - 주관적
- 정량적 데이터(quantitative) : 수치, 도형, 기호 등 정형 - 객관적
- 데이터 유형(구조적 관점)
- 정형 : RDB, CSV, 스프레드시트
- 반정형 : 웹로그, 알람, XML, HTML, JSON, RSS
- 비정형 : 이미지, 오디오, 문자, NoSQL
- 데이터 기반 지식 구분
내면화 → 공통화 → 표출화 → 연결화
(암묵지) (형식지)
- DIKW피라미드
Data - Information - Knowledge - Wisdom
객관적사실 - 연관관계도출 - 일반화규칙 - 창의적아이디어
- 바이트 크기
K M G T P E Z Y 킬메기테페엑제요
- 빅데이터 특징
- 3V : Volume, Variety, Velocity 규모, 다양성, 속도
- 5V : + Value, Veracity 가치, 진실성
- 7V : + Validity, Volatility 정확성, 휘발성
- 빅데이터의 가치
경제적자산, 불확실성제거, 리스크감소, 타분야융합, 스마트한경쟁력
- 빅데이터 가치 선정이 어려운 이유
데이터활용방식, 새로운가치창출, 분석기술발전
- 빅데이터 영향
- 기업 : 혁신수단제공, 경쟁력강화, 생산성향상
- 정부 : 환경탐색, 상황분석, 미래대응가능
- 개인 : 목적에 따른 활용
- 빅데이터의 본질적인 변화
사후처리, 전수조사, 양, 상관관계
- 빅데이터 위기요인 및 통제방안
- 사생활침해 : 개인 정보 데이터를 목적 외에 사용
→ 제공자의 '동의'에서 사용자의 '책임'으로 - 책임원칙훼손 : 예측 알고리즘의 희생양이 됨
→ 결과 기반 책임원칙 고수 - 데이터오용 : 잘못된 지표 사용
→ 알고리즘 접근 허용 (알고리즈미스트 - 알고리즘 해석 전문가)
- 사생활침해 : 개인 정보 데이터를 목적 외에 사용
- 데이터 사이언티스트 요구역량
- Hard Skill : 이론적지식, 분석기술숙련
- Soft Skill : 통찰력, 설득력있는전달, 협업능력
- 분석조직의 구조
- 집중구조 - 전담조직구성(별도의 팀 존재)
중복 및 이원화 - 분산구조 - 분석인력들을 현업부서로 직접배치
베스트프렉티스 공유O, 업무과다 및 이원화 - 기능구조 - 별도의 조직이 없고 해당 부서에서 수행
핵심 분석 어려움, 과거에 국한된 분석수행
- 집중구조 - 전담조직구성(별도의 팀 존재)
- 데이터베이스 특징
- 일반 : 통합된, 저장된, 공용, 변화되는 데이터
- 다양한 측면 : 정보축적 및 전달, 정보이용, 정보관리, 정보기술발전, 경제/산업
- 기업 내부 데이터베이스
- 1980년대
OLTP(Online Transaction Processing) : 데이터를 수시로 갱신하는 프로세싱
OLAP(Online Analytical Processing) : 데이터를 접근해 정보위주의 분석처리 - 2000년대
CRM(Customer Relationship Management) : 기업의 고객 관계 관리체계
SCM(Supply Chain Management) : 기업에서 생산/유통 등 모든 공급망을 관리 - 경영/제조 부문
ERP(Enterprise Application Integration) : 기업 내 연관된 어플리케이션을 유기적 연동
EDW(Enterprise Data Warehouse) : 기존 데이터 웨어하우스를 전사적으로 확장 - 유통부문
KMS(Knowledge Management System) : 지식 관리 시스템
RFID(Radio-Frequency Identification) : 주파수를 이용해 ID를 식별 - 사회기반구조
EDI(Electronic Data Interchange) : 서류를 전자신호를 통해 거래처에 전송
VAN(Value Added Network) : 통신회선을 차용하여 독자적인 네트워크 형성
CALS : 전자상거래 구축을 위한 경영 통합 정보 시스템
- 1980년대
2) 데이터 분석 계획
- 분석의 기획
분석방법(How) \ 분석대상(What) | Known | Unknown |
Known | Optimization | Insight |
Unknown | Solution | Discovery |
- 목표 시점 별 분석기획
과제 단위 마스터플랜 단위
- 1차 목표 Speed/Test Accurancy/Deploy
- 과제 유형 Quick/Win LongTermView
- 접근 방식 Problem Solving Problem Definition
- 분석 기획 시 고려사항
가용데이터확보 → 적절한 유스케이스탐색 → 낮은실행장벽
- 분석 마스터플랜 수립
- 우선순위고려요소
- 전략적 중요도 (전략적 필요성, 시급성)
- 실행용이성 (투자용이성, 기술용이성)
- 비즈니스성과/ROI
(3V - Volume/Variety/Velocity : 투자비용요소 + 4V - Value : 비즈니스효과)
<난이도> <시급성> - 적용범위/방식 고려요소
- 업무내재화 적용수준
- 분석데이터 적용수준
- 기술 적용수준 - 이행로드맵 수립 : 데이터분석체계도입 → 유효성검증 → 분석확산 및 고도화
- 세부이행계획 수립 : 순차적 단계 + 반복적 모델링 단계를 수행하는 '혼합형' 적용
- 우선순위고려요소
- 하향식접근법 (Top Down)
- 문제탐색 : 비즈니스모델 기반 + 외부사례 기반(벤치마킹)
(업무/제품/고객/규제,감사/지원인프라) (Quick & Easy) - 문제정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환 - 최종 사용자 관점
- 해결방안탐색
- 타당성검토 : 경제적 타당성 + 데이터 및 기술적 타당성
- 문제탐색 : 비즈니스모델 기반 + 외부사례 기반(벤치마킹)
- 상향식접근법 (Bottom Up)
- 디자인사고
- 프로토타이핑의 필요성
- 데이터분석방법론
- 방법론 : 상세한절차, 방법, 도구와기법, 템플릿과산출물
- 장애요소 : 고정관념, 편향된생각, 프레이밍효과
- 모델 : 폭포수모델, 프로토타입모델, 나선형모델
- 계층적프로세스 : 단계, 테스크, 스텝
- 일반적 분석방법론 절차
분석기획 → 데이터준비 → 데이터분석 ⇢ 시스템구현 → 평가전개
↑ ↑_________| |____________________↑ |
|____________________________________________|- KDD 분석방법론 : 'Fayyad'가 '통계적 패턴'이나 지식을 찾기 위해 정리한 데이터
- CRISP-DM 분석방법론 : 유럽연합의 ESPRIT에서 시작되어 주요 5개의 업체들이 주도
- SEMMA 분석방법론 : SAS사의 주도로 만들어진 기술중심/통계중심의 방법론
샘플링 → 탐색 → 수정 → 모델링 → 검증
KDD (7단계) | CRISP-DM (6단계) |
분석대상 비즈니스이해 | 업무이해 |
데이터셋선택 | 데이터의이해 |
데이터전처리 | |
데이터변환 | 데이터준비 |
데이터마이닝 | 모델링 |
결과평가 | 평가 |
활용 | 전개 |
3) 데이터 수집 및 저장 계획
- 정형 데이터 수집 기법
- ETL : 추출, 변환, 적재 프로세스 및 기술 (+ EAI)
※ ETL 프로세스 : 데이터 이동 및 변환이 주된 목적 - FTP : TCP/IP 프로토콜,
클라이언트→서버(Active FTP)/클라이언트←서버(Passive FTP) - API : OS나 프로그래밍 언어의 기능을 제어하는 인터페이스, 실시간 데이터 수신 가능
- Sqoop : RDB나 Hadoop 간 대용량 데이터를 변환하는 어플리케이션,
RDB → HDFS → MapReduce 기능제공, 장애허용 및 병렬처리
(데이터) (변환)
- ETL : 추출, 변환, 적재 프로세스 및 기술 (+ EAI)
- 반정형 데이터 수집 기법
- Scribe : 실시간 스트리밍 로그 데이터 수집 어플리케이션 (Facebook)
분산서버 → 중앙집중서버, 확장성/신뢰성/설치용이성 - Flume : 대량의 로그 데이터를 효율적으로 전송하는 서비스 (Cloudera)
신뢰성/확장성/운영가능성/가용성 - Chukwa : 다양한 로그 데이터를 HDFS에 저장 및 분석 (Yahoo)
수집로그 : 모니터링/하둡/응용프로그램→실시간모니터링
- Scribe : 실시간 스트리밍 로그 데이터 수집 어플리케이션 (Facebook)
- 비정형 데이터 수집 기법
- Scrapy : 파이썬으로 작성된 오픈소스 웹 크롤링 프레임워크
- Apach Kafka : 실시간 데이터 피드를 관리하기 위해 높은처리량, 낮은지연시간의 플랫폼 제공 (발행/구독)
- Crawling : 웹로봇/웹크롤러
- 빅데이터 수집 시스템의 요건
확장성, 안정성, 유연성, 실시간성
- 데이터 변환 기술
- 평활화 : 잡음제거를 위해 추세에 벗어나는 값을 변환
- 집계 : 데이터 요약 및 축소
- 일반화 : 특정구간에 분포하는 값으로 스케일 변환
- 정규화 : 정해진구간 내에 포함되도록 변환 (minmax, z-score 등)
- 속성생성 : 데이터 통합을 위해 새로운 속성 및 특징 생성
- 데이터 보안 적용 기술
사용자인증, 접근제어, 암호화, 개인정보비식별화, 개인정보암호화
- 비식별화 기술
- 가명처리 : 다른값 대체 (휴리스틱익명화, 암호화, 교환방법)
- 총계처리 : 통계값 대체 (총계처리, 부분총계, 라운딩, 재배열)
- 데이터삭제 : 특정값 삭제 (식별자삭제, 레코드삭제, 전부삭제)
- 범주화 : 대표값 및 구간값 변환 (감추기, 랜덤라운딩, 범위방법, 제어라운딩)
- 마스킹 : 공백 및 노이즈 등 대체 (임의잡음추가, 공백과대체)
- 프라이버시모델 추론방지기술
- K-익명성 : 일정확률 수준 이상 비식별 조치
- I-다양성 : 민감한 정보의 다양성을 높임
- T-근접성 : 민감한 정보의 분포를 낮춤
- 데이터 품질관리의 중요성
데이터분석 결과의 신뢰성확보, 일원화된 프로세스, 데이터 활용도 향상, 양질의 데이터 확보
- 데이터 품질 기준
- 정형 : 완전성, 유일성, 유효성, 일관성, 정확성
- 비정형 : 신뢰성, 기능성, 효율성, 사용성, 이식성
- 빅데이터 저장기술
- 분산파일시스템
- 하둡 : 대규모 데이터 처리가 가능한 자바 오픈소스 프레임워크,
분산컴퓨팅환경을 지원하는 소프트웨어 - HDFS : 클라우드 컴퓨팅 환경을 구축하기 위해 이용,
리눅스서버에서 이용되며 확장성이 뛰어남 (네임노드+데이터노드) - GFS : 구글의 대규모 클러스터 서비스 플랫폼
- 하둡 : 대규모 데이터 처리가 가능한 자바 오픈소스 프레임워크,
- NoSQL - SQL사용 X
- Cassandra : 대용량 처리 시스템
- HBase : 자바기반 비관계형 DB (네이버, 라인)
HDFS, MapReduce 함께 사용 - 구글 Bigtable 참고
- 병렬 DBMS : Volt DB, SAP HANA, Vertica, Greenplum
- 클라우드 파일저장시스템 : Amazon S3, OpenStack, Swift
- 네트워크구성 저장시스템 : SAN, NAS
- 분산파일시스템
- 데이터웨어하우스
- 데이터레이크
2. 빅데이터 탐색
1) 데이터 전처리
- 데이터 정제
- 결측치
- 결측치 유형
- 완전무작위 : 아무연관 X
- 무작위 : 영향은 받지만 연관 X
- 비무작위 : 연관 O
- 결측치 처리
- 단순대치법
- 단순삭제
- 평균대치법 : 비조건부, 조건부(회귀)
- 단순확률 : 핫덱 - 다중대치법 : 단순대치를 m번 수행
대치 → 분석 → 결합 - 그 외 : 수작업, 전역상수, 무시
- 단순대치법
- 결측치 유형
- 이상치
- 이상치 판별
- 사분위수 : Q1 - 1.5 x IQR ~ Q3 + 1.5 x IQR
- 정규분포 : µ - 3σ ~ µ + 3σ (EDS, 3 sigma rule)
- 군집화
- 기하평균 : 2.5 x 표준편차
- 이상치 처리
- 결측처리 : 존재할 수 없는 값 제거
- 극단치 기준 이용 : 사분위수 적용 제거
- 극단값 절단 : 상하위 5% 제거
- 극단값 조정
- 이상치 판별
- 결측치
- 데이터 통합
- 스키마 통합과 개체의 매칭
- 데이터 중복
- 하나의 속성에 대해 여러 상충되는 값
- 데이터 축소
- 데이터 변환
- 데이터 형식 및 구조 변환
- 데이터 스케일링
- 표준화 : Z-Score (평균 0, 표준편차 1)
- 정규화 : min-max
- 평활화 : 데이터를 매끄럽게 처리 (구간화, 군집화)
- 비정형 데이터 변환
- 변수선택
- 필터방법 : 데이터의 통계적 특성을 활용해 변수선택
0에 가까운 분산, 큰 상관계수의 변수 제거 - 래퍼방법 : 변수의 일부를 사용해 모델링 수행
전진선택, 후진제거, 단계별선택 등 - 임베디드방법 : 모델링 기법 자체에 변수선택이 포함
라쏘, 릿지, 엘라스틱넷
- 필터방법 : 데이터의 통계적 특성을 활용해 변수선택
- 차원축소
다차원척도법(MDS), 주성분분석(PCA), 요인분석, 선형판별분석(LDA), 특이값분해(SVD), t-SNE, 서포트벡터머신(SVM)
- 파생변수
- 변수변환
- 변수 구간화 방법
- Binning : 연속형 → 범주형 변환
- Decision Tree : 분리 기준 사용
- 더미변수
- 정규분포화 : 로그변환, 제곱근변환
- 변수 구간화 방법
- 불균형데이터처리
- 오버 샘플링 : Resampling, SMOTE, Borderline SMOTE, ADASYN
- 언더 샘플링 : Random, Tomek Links, CNN, OSS
2) 데이터 탐색
- 탐색적 데이터 분석 (EDA)
- 저항성 : 데이터가 일부 파손되어도 영향을 적게 받는 성질
- 잔차의 해석 : 주경향에서 벗어난것이 존재하는지 탐색
- 데이터 재표현 : 데이터를 단순화해 해석이 쉽도록 함
- 현시성 : 데이터시각화
- 기초통계량의 이해
- 중심경향도 : 평균, 중앙값, 최빈값
-
- 산포도 : 범위, 분산, 표준편차, 사분위수, 평균의 표준오차, 변동계수
-
- 자료분포의 비대칭도
- 데이터 시각화
막대그래프, 원그래프, 도수분포표, 히스토그램, 줄기잎그림, 상자그림, 도수다각형, 선그래프, 산점도
- 상관관계 분석
- 상관분석 : 산점도, 공분산, 상관계수로 선형관계 파악
- 공분산 : 두 변수의 공통분포를 나타내는 분산
-
- 상관계수
피어슨 | 스피어만 | |
변수 | 등간/비유 | 서열 |
계수 | Cov(X,Y) 𝜸 = ⎯⎯⎯⎯⎯ Sx*Sy |
ρ |
- 상관관계 유의성 검정
- 가설설정 : (H0) 두 변수 간 선형관계 없음 ↔ (H1) 있음
- 검정통계량(t-통계량)
- 유의성검정
3) 통계기법의 이해
- 표본집단 용어
- 원소 : 모집단을 구성하는 개체
- 모수 : 표본 관측에 의해 구하고자 하는 정보
- 통계량 : 표본으로부터 얻은 자료의 대푯값
- 추정량 : 통계량에서 모수를 추정하는 값
- 표본오차 : 표본의 자료가 모집단을 추론함으로써 생긴 오차
- 비표본오차 : 표본오차를 제외한 오차
- 표준오차 : 통계량의 분포인 표본분포의 표준편차
- 표본 추출 과정
모집단 결정 → 표본 틀 선정 → 표본 추출 방법 결정 → 표본 크기 설정 → 표본 추출
- 표본 추출 방법
- 확률 표본 추출법
- 단순랜덤추출법
- 계통추출법 : 구간화
- 집락추출법 : 일부집락 랜덤선택
- 층화추출법 : 각계층에서 고루 추출
- 비확률 표본 추출법
- 편의 표본 추출
- 유의 표본 추출
- 지원자 표본 추출
- 할당 표본 추출
- 눈덩이 표본 추출
- 확률 표본 추출법
- 이산형 확률분포
베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
- 연속형 확률분포
균일분포, 정규분포, 지수분포, t-분포, x²-분포, F-분포
- 중심극한정리 : 표본이 크면 모집단의 분포와 상관없이 정규분포를 따름
- 점추정량의 조건
불편성, 효율성, 일치성, 충족성, 표본평균, 표본분산
3. 빅데이터 모델링
1) 분석 모형 설계
- 데이터 분석 모델 유형
- 통계분석 - 숫자를 다루는 기존의 분석기법
- 회귀분석
- 분산분석
- 판별분석
- 주성분분석
- 상관분석
- 데이터마이닝 - 데이터의 패턴과 상관성을 발견 (+ 기술, 추정)
- 분류 : 로지스틱회귀, 의사결정나무, SVM, 나이브베이즈, KNN, ANN
- 예측 : 회귀분석, 시계열분석, KNN, ANN, 의사결정나무, 장바구니분석
- 연관 : 연관성분석, 순차패턴분석
- 군집화 : 군집분석, k-means, EM
- 머신러닝 - 기계가 매개변수를 자동학습
- 지도학습 : 분류, 회귀
- 비지도학습 : 군집화, 차원축소, 연관규칙
- 강화학습 : 보상
- 비정형데이터분석 - 인간의 학습을 모델링
- 텍스트마이닝
- 오피니언마이닝
- 소셜네트워크분석
- 통계분석 - 숫자를 다루는 기존의 분석기법
- 분석 도구 종류
- R : 오픈소스, 다양한 운영체제, S언어 기반 표준플랫폼, 객체지향 및 함수형언어
- Python : 동적데이터, 쉬운문법, 높은확장성 - Glue Language, 높은생산성, 객체지향 인터프리터언어,
고수준 자료형 제공 - String, Tuple, List, Dictionary - SAS, SPASS : 유료
- 머하웃, 하이브, 피그
- 분석 모형 구축절차
- 분석데이터 수집/처리
- 분석데이터 마트구성
분석목적 이해 → 필요데이터 사전조사 → 분석데이터 선정 - 최대항목도출 - 분석데이터 현황분석 - 데이터탐색단계
데이터 항목별 분석(데이터충실도, 데이터이상값, 데이터분포도, 데이터오류율, 기타)
→ 항목간 연계분석 → 분석데이터 리스트 작성
- 분석데이터 마트구성
- 분석알고리즘 수행
- 분석알고리즘 선정
- 분석목적 : 지도, 비지도
- 데이터유형 : 정형, 텍스트, 링크드, 이미지 등
- 데이터볼륨 : 소, 중, 대
- 분석인프라 : 하둡, 패키지 등
- 분석알고리즘 수행
데이터셋 준비 → 파라미터 설정 - 도메인지식 중요함 → 분석모델 수행 → 분석결과 기록
- 분석알고리즘 선정
- 분석결과 평가 및 모델산정
평가기준 선정 → 분석결과 검토 → 알고리즘 결과비교
- 분석데이터 수집/처리
- 데이터 분류 방법
- 홀드아웃(hold-out) 방법 : 랜덤하게 train/test set을 분리
- 교차검증(cross-validation) 방법 :
k개로 분리한 데이터를 순차적으로 학습 검증하여 얻어낸 k개의 MSE값들을 평균내어 최종적으로 사용
2) 통계 분석 기법
<회귀분석>
- 회귀분석의 변수
- X : 설명변수, 독립변수, 예측변수
- Y : 반응변수, 종속변수, 결과변수
- 선형회귀분석의 가정
선형성(독립/종속), 독립성(잔차/독립), 등분산성(독립/오차), 비상관성, 정상성
(잔차)
- 단순선형회귀
- Yᵢ = β₀ + β₁𝒙₁ + ℰᵢ : 독립변수 1개
(회귀계수) (오차) - 회귀계수가 통계적으로 유의미한지 판단 - 회귀계수 추정방법 : 최소제곱법(최고자승법) - 단점) 노이즈에 취약
잔차의 제곱합을 최소로 만드는 직선을 찾는 것 - 잔차의 제곱합
RSS = Σ(yᵢ - ŷᵢ)² 을 최소로 만들어야 함
(실제값)(예측값) - RSS를 최소로 갖는 회귀계수를 구하는 공식
- Yᵢ = β₀ + β₁𝒙₁ + ℰᵢ : 독립변수 1개
- 단순선형회귀 분석 결과 해석
- 회귀모형은 통계적으로 유의한가? (F-검정)
F통계량의 p-value가 유의수준 0.05보다 작다면 귀무가설(β₁=0)이 기각되고 대립가설(β₁≠0)이 채택됨
- 회귀모형은 통계적으로 유의한가? (F-검정)
SSE = Σ(yᵢ - ŷᵢ)² → MSE = SSE/n-k-1
SSR = Σ(ŷᵢ - ȳ)² → MSR = SSR/k (k : 변수개수이며 단순선형회귀에서 k=1이다)
SST = Σ(yᵢ - ȳ)² → MST = SST/n-1
➡ F통계량 = MSR/MSE - 값이 커지면 p-value가 작아짐
- 회귀계수는 통계적으로 유의한가? (t-검정)
p-value가 0.05보다 작거나 t-통계량의 절댓값이 2보다 크면 귀무가설(β₁=0)을 기각하고 통계적으로 유의하다고 판단 - 모형은 데이터를 얼마나 설명할 수 있는가? (결정계수)
R² = SSR/SST (0≤ R² ≤1)
결정계수가 1에 가까울수록 설명력이 높다고 판단 - 모형이 데이터를 잘 적합하고 있는가?
잔차를 그래프로 그리고 회귀진단을 수행하여 판단
Residuals/Fitted, NormalQ-Qplot, Scale-Location, Residuals/Leverage,
Cook's distance, Cook's dist/Leverage
- 회귀계수는 통계적으로 유의한가? (t-검정)
- 다중선형회귀
- Yᵢ = β₀ + β₁𝒙₁ + β₂𝒙₂ + ... + βℓ𝒙ℓ + ℰᵢ : 독립변수 2개 이상
- 다중공산성 문제 발생 : 독립변수들 간의 강한 상관관계가 정확한 회귀계수 추정을 방해
- 독립변수들 간의 상관계수를 구함
- 허용오차를 구함(0.1이하라면 문제 심각)
(1-Rᵢ²) → Rᵢ² : xᵢ의 독립변수와 다른 독립변수의 설명력 - 분산팽창요인(VIF) 구함(10이상이면 문제 심각)
(허용오차의 역수)
- 결과해석은 단순선형회귀와 동일하지만 결정계수는 독립변수의 수가 많아짐에 따라 커지기 때문에 수정된 결정계수를 활용
- 최적 회귀 방정식 선택
- 단계적 변수 선택 - 래퍼방법
- 전진선택법 : 변수의 수가 많은 경우 사용가능
안정성 부족 및 선택된 변수 제거 불가 - 후진제거법 : 전체변수의 정보 이용
변수의 수가 많은 경우 사용 어렵고 변수 제거 불가 - 단계적방법 : 전진 + 후진 → 모든 변수 조합 고려 가능
계산량이 많아짐
- 전진선택법 : 변수의 수가 많은 경우 사용가능
- 벌점화된 선택기준
- 단계적 변수 선택 - 래퍼방법
- 수정된 결정계수
MSE값이 최소인 시점의 모형을 선택 - Mallow's C𝘱
변수가 많이 추가될수록 RSS는 작아지며 RSS가 최소인 모형을 선택한다는 것은
모든 변수를 갖는 모델을 선택한 것(과적합문제발생) 따라서 Mallow's C𝘱는 모든 변수를 선택한 모델과
p개의 변수를 선택한 모델의 차이를 비교하는 통계량이며, 그 값이 비슷하다면 더 적은 변수의 수를 갖는
모델을 택한다
- 수정된 결정계수
(a : 모든 변수를 선택한 모델, b : p개의 변수를 선택한 모델)
C𝘱 = p : 우수한 모델
C𝘱 > p : 추가적인 변수 필요
C𝘱 < p : 변수 제거 필요
➡ 예측식이 가진 수행능력을 예측값의 변이를 기준으로 평가하기 위해 MSE를 고려
AIC(Akaike information criterion)
- 정규화 선형회귀 - 임베디드방법
선형회귀계수에 제약조건을 추가해 모델의 과적합을 방지
따라서 계수의 크기를 제한하는 방법- 릿지회귀(Ridge) : L2 penalty
모든 가중치들의 제곱합을 최소화
※ 하이퍼 모수 : 크다 - 정규화↑/가중치값↓, 작다 - 정규화↓/가중치값↑ - 라쏘회귀(Lasso) : L1 penalty
모든 가중치 절대값들의 합을 최소화, 가중치가 0이되기도 함 - 따라서 자동적으로 변수선택의 효과가 있음 - 엘라스틱넷(Elastic Net) : 라쏘 + 릿지
- 릿지회귀(Ridge) : L2 penalty
- 일반화 선형회귀 - 종속변수가 정규성을 만족하지 못하는 경우
랜덤성분, 체계적성분, 연결함수
- 회귀분석의 영향력 진단 - 안정성 평가
Cook's Distance, DFBEtAS, DFFltS, Leverage H
<범주형자료분석>
- 분할표 분석
Success | Fail | |
exposed | a | b |
unexposed | c | d |
- 상대위험도 (Relative Rank)
Percent when exposed a / (a+b)
RR = ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ = ⎯⎯⎯⎯⎯ = X
Percent when not exposed c / (c+d)
노출되었을 때 발생할 확률이 그렇지 않을 때보다 X배 높다 - 오즈비 (Odds Ratio) - 모집단을 알 수 없을 때 사용
- Odds : 주어진 환경에서 발생할 확률 (p)
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
주어진 환경에서 발생하지 않을 확률 (1-p) ex) exposed 환경일 때 = a/b - Odds ratio : 각 Odds의 비율
Odds(exposed) a / b
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ = ⎯⎯⎯⎯ = X
Odds(unexposed) c / d
노출되었을 때 발생할 확률이 그렇지 않을 때보다 X배 높은 경향이 있다
- Odds : 주어진 환경에서 발생할 확률 (p)
- 상대위험도 (Relative Rank)
- 교차분석
- 카이제곱(x²)검정 : 두 변수간의 관계를 알아보기 위해 사용되며
적합성 검정, 독립성 검정, 동질성 검정에 사용됨- 적합성 검정 : 관측값들이 예상이론과 일치하는지 검정
H₀ = 두 분포는 일치, H₁ = 두 분포는 불일치
x² 큰 경우 : 두 분포는 불일치, x² 작은 경우 : 두 분포는 일치
자유도(df) = k-1 - 독립성 검정 : 변수들 사이의 관계가 독립인지 검정
H₀ = 독립이다, H₁ = 종속이다
자유도(df) = (R-1)(C-1) - 동질성 검정 : 범주화된 집단의 분포가 동일한지 검정
계산은 독립성겁정과 동일
- 적합성 검정 : 관측값들이 예상이론과 일치하는지 검정
- 카이제곱(x²)검정 : 두 변수간의 관계를 알아보기 위해 사용되며
<다차원척도법>
- 다차원척도법 : 개체들 사이의 유사성/비유사성을 측정하여 개체를 2,3차원 공간에 점으로 표현해 개체간 근접성과 집단화를 시각화
- 목적
- 데이터 속 잠재된 패턴 발견하고 공간에 기하학적으로 표현
- 데이터 축소의 목적, 데이터 정보 발견을 위한 탐색수단
- 데이터가 만들어진 현상이나 과정에 고유의 구조로 의미부여
- 분석방법
- 유클리드 거리행렬 : 개체간 거리계산 후 적합/부적합 정도를 스트레스 값으로 표현
→ 스트레스 값이 최소가 되는 모형을 찾으며 0.15가 넘으면 적합도 수준이 나쁘다고 판단할 수 있다
- 종류
- 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 사용
- 비계량적 MDS : 데이터가 순서척도인 경우 사용
<다변량분석>
한번에 분석하는 통계적 기법
3차원 공간상의 입체적 표현이 필요
여러 변인들간의 선형조합으로 해석
- 주성분분석 (PCA) : 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진
'주성분'이라는 새로운 변수에 변수들을 요약 및 축소하는 기법- 목적
- 차원을 축소함으로써 데이터의 이해와 관리가 쉬워짐
- 다중공산성 문제 해결
- 군집분석 수행해 연산속도 개선
- 주성분선택
- 주성분기여율 : 주성분 변수의 분산으로 총 변동에 대한 설명력
→ 누적기여율이 85% 이상이 되는 지점까지 주성분 선택 - 스크리산점도 : 주성분을 x축, 주성분의 고유값을 y축에 둔 그래프
→ 고유값이 급격히 완만해지는 지점의 전단계까지 주성분 선택 - 전체변이공헌도
- 평균고유값
- 주성분기여율 : 주성분 변수의 분산으로 총 변동에 대한 설명력
- 목적
- 요인분석 (Factor Analysis) : 변수들의 상관관계를 고려해 유사한 변수들을 묶어 새로운 잠재요인들을 추출
즉, 변수를 축소하고 데이터를 요약
→ 변수가 간격/비율 척도여야 하며 표본은 100개 이상이 바람직하고 최소 50개 이상이 되야함- 용어 : 요인 - 새롭게 생성한 변수집단
요인적재값 - 변수와 요인간 상관계수
요인행렬 - 적재값을 모은 행렬
고유값 - 적재값 제곱의 합
공통성 - range 0~1 - 요인추출방법 : 주성분분석/공통요인분석 → 고유값 1이상에 해당하는 요인들 추출
- 절차
데이터입력 → 상관계수산출 → 요인추출 → 요인적재량산출 → 요인회전 → 생성된요인해석 → 요인점수산출
요인회전 - 요인해석과 요인패턴을 찾기위해 분산 재분배
종류 : 직각회전(쿼티,베리,미쿼) / 비직각회전(오블리민)
요인점수산출 - sum(요인점수계수 * 관측치곱)
방법 : 회귀분석, Bartlett
- 용어 : 요인 - 새롭게 생성한 변수집단
- 판별분석 (Discriminant Analysis) : 집단을 구별할 수 있는 판별함수 및 판별규칙을 만들어
개체가 어느집단에 속하는지 분류하는 다변량기법
→ 독립변수 : 간격,비율척도 / 종속변수 : 명목,순서척도- 판별식 수 : min('집단의 수 - 1', '독립변수의 수')
- 시계열분석 - 탐색목적/예측목적
- 정상성 : 시계열의 확률적인 성질들이 시간의 흐름에 변하지 않음을 의미
시계열분석은 정상성을 만족해야함- 평균이 일정 : 모든 시점에 대해 일정, 차분을 통해 정상화
차분 - 현시점자료에서 전시점자료를 빼는 것
종류 : 일반차분 / 계절차분 - 분산이 일정 : 시점에 의존 x, 변환을 통해 정상화
- 공분산을 시차에만 의존, 특정 시점에 의존 x
- 평균이 일정 : 모든 시점에 대해 일정, 차분을 통해 정상화
- 이동평균법 (Moving Average Method) : 과거부터 현재까지의 자료를 대상으로 일정기간별 이동평균을 계산하고
이들의 추세를 파악해 다음 기간을 예측- 쉽게 미래 예측 가능, 안정된 패턴일 경우 예측 품질 높음
- 특정기간 안에 속한 시계열에 동일한 가중치 부여
- 짧은기간(불규칙변동↓) / 긴기간(불규칙변동↑) 사용
- 적절한기간 사용, 즉 n개수 설정의 중요
- 지수평활법 (Exponential Smoothing Method) : 모든 시계열 자료를 사용해 평균을 구하고
최근 시계열에 더 많은 가중치를 부여, 중기예측이상에 주로 사용- 단기간 발생하는 불규칙변동을 평활, 불규칙변동 영향 제거
- 작은ɑ(불규칙변동↑) / 큰ɑ(불규칙변동↓) 사용 (0.05≤ ɑ ≤0.3)
- 지수평활계수는 예측오차가 가장 잦은 값을 선택하는게 바람직하며, 과거로 갈수록 감소함
- 자기회귀모형 (AR) : 자기상관성을 시계열 모형으로 구성한 것
자기상관성 - p시점 전의 자료가 현재 자료에 영향을 주는 특성
자기상관함수(ACF) : 시계열 데이터의 자기상관성 파악 - 이동평균모령 (MA) : 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 경향을 표현,
언제나 정상성 만족 - 자기회귀누적이동평균모형 (ARIMA) : p = AR, q = MA, d = I
- 분해시계열
- 추세변동 : 장기적으로 나타나는 추세경향
- 계절변동 : 일정한 주기로 반복적인 패턴을 보임(주기짧음)
- 순환변동 : 알려지지 않은 주기를 가지고 변함 → 1/2/3 : 체계적 변동
- 불규칙변동 : 불규칙하게 우연적으로 발생
- 시계열데이터분석절차
시간그래프 작성 → 추세/계절성 제거 → 잔차예측 → 잔차에대한 모델적합 → 예측된 잔차에 추세/계절성 더해 미래예측
- 정상성 : 시계열의 확률적인 성질들이 시간의 흐름에 변하지 않음을 의미
<비모수통계>
모수 | 비모수 - 자료수가 적고 서열관계일 때 사용 | |
가설설정 | 모집단에 대한 분포를 가정 모수에 대한 가설설정 |
모집단 분포에 아무 제약을 가하지 않음 가정된 분포가 없고 분포의 형태 설정(동일/비동일) |
검정방법 | 표본평균, 표본분산 이용해 검정실시 | 절대적 크기가 없는 관측값 순위나 값 차이의 부호를 이용해 검정 |
- Kolmogorov-Smirnov 검정 (단일표본)
관측치들이 특정한 분포를 따르는지에 대한 검정
H₀ : 주어진 분포는 ɑ분포를 따른다 ↔ H₁ : 따르지 않는다
- Mann-Whitney U검정 (독립두표본)
두 집단의 분포가 동일한지를 조사 ≒ Wilcoxon rank-Sum 검정
H₀ : 두 집단의 순위 합은 동일하다 ↔ H₁ : 동일하지 않다
↕
- Wilcoxon Signend-rank test (대응두표본)
대응되는 두 데이터의 중위 수 차이가 있는지를 검정
H₀ : 두 집단의 중앙값은 동일하다 ↔ H₁ : 동일하지 않다
- Run test
일련의 관측값들이 임의적으로 나타난 것인지를 검정(우연성검정)
ex) [AAA / BB / A / BBB / A] → 런의 수 : 5개
H₀ : 일련의 관측치는 랜덤이다(표본이 독립이다) ↔ H₁ : 랜덤이 아니다
3) 정형 데이터분석 기법
<분류분석>
- Logistic Regression Analysis
- Decision Tree
- 성장단계
- 이산형 : 카이제곱통계량, 지니지수, 엔트로피지수
- 연속형 : F통계량, 분산의감소량
- 가지치기단계
- 타당성평가 : 이익도표, 위험도표, 시험용데이터
- 해석및예측
- 성장단계
의사결정나무알고리즘
CART | C4.5 / C5.0 | CHAID |
범주/연속 | 범주 | 범주/연속 |
지니지수/분산감소량 | 엔트로피지수 | 카이제곱/F검정 |
이진분리 | 다지분리 | 다지분리 |
- Support Vector Machine (SVM) : 패턴인식, 자료분석을 위한 지도학습 머신러닝 모델 (회귀/분류)
- KNN : 새로운 데이터를 어떤 범주로 분류할지 결정하는 지도학습
- K개수선택 : 훈련데이터 개수의 제곱근
- 거리계산법 : 유클리디안, 맨하탄, 민코우스키 등
- Naive Bayes Classification : 데이터에서 변수들에 대한 조건부 독립을 가정하는 알고리즘
- 베이즈정리 : 두 확률변수의 사전확률과 사후확률 사이의 관계
-
- 클래스조건독립성
- Ensemble : 여려개의 예측모형을 만들어 조합해 하나의 최종모형을 만드는 법
- 배깅(Bagging) - 일반적인 모델생성 : 분산을 줄이고 정확도 향상
- 부스팅(Boosting) - 잘 틀리는 문제를 맞추는 모델생성 : 예측오차 향상
- 랜덤포레스트(Random Forest)
<연관분석>
- 연관성규칙 : 장바구니분석/서열분석 이라고 불리며 일련의 사건들 간에 규칙을 발견하기 위해 적용
조건-반응(IF-THEN) 형태 - 연관규칙의 측도
- Apriori : 반발항목집합(최소지지도보다 큰 지지도값을 갖는 품목의 집합)에 대해서만 연관규칙을 계산
<군집분석>
각 개체의 유사성을 측정하여 유사성이 높은 대상집단을 분류
- 거리측정방법
- 연속형변수
- 유클라디안 - 통계적 x
- 표준화 : 해당변수의 표준편차로 척도변환 후 유클라디안 계산
- 마할라노비스 : 변수들의 산포(표본공분산)을 고려해 표준화 - 상관성고려
- 체비셰프
- 맨하탄 - 직각의이동거리합
- 캔버라
- 민코우스키 - 맨하탄+유클리디안
- 범주형변수
- 자카드계수
- 자카드유사도
- 코사인유사도
- 코사인거리
- 연속형변수
- 계층적 군집분석 : n개의 군집으로 시작해 군집 개수를 줄여나감(합병형-작은군집시작 / 분리형-큰군집시작)
군집의 개수를 미리정하지 x
종류 : 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법 - 편차들의제곱합고려,
군집화 - 덴드로그림→군집개수선택(max=5)→군집수선정 - 비계층적 군집분석(분할적)
- k-평균 군집분석 : 군집개수 및 초기값 설정 → 군집분류 (반복)
- 혼합분포 군집 : 모형기반으로 가중치를 자료로부터 추정 - EM알고리즘 사용
- SOM : 고차원 → 저차원, 하나의 전방패스, 실시간처리
- 입력층 : 경쟁층 각각의 뉴런들과 완전 연결되어있음
- 경쟁층 : 가까운 거리 계산의 경쟁학습으로 입력패턴과 가장 유사한 뉴런이 승자가 됨
- 밀도기반 군집분석
4) 딥러닝
- ANN
- 뉴런의 계산 : 뉴런은 활성화함수(전이함수)를 사용해 출력을 결정
-
- 뉴런의 활성화함수
- 단층 퍼셉트론
퍼셉트론 = 선형결합기 + 하드리미터
초평면을 선형분리함수로 정의 Σ𝑥ᵢ𝑤ᵢ- θ = 0
- 단층 퍼셉트론
- DNN : 다중의 은닉층을 포함하는 인공신경망(ANN)
- CNN
- RNN
- LSTM
5) 비정형 데이터분석 기법
<비정형데이터마이닝>
- 텍스트마이닝
- 기능 : 문서분류, 문서군집, 정보추출
- 과정
- 텍스트수집 --(정제,통합,선택,변환)--> 코퍼스
- 텍스트전처리 : 토큰화(단어/어절/형태소/품사) → 불용어처리(쓸모없는단어제거) →
정제와 정규화(단어통합/대소문자/정규표현식) → 어간과 어근추출(단어개수줄이기) →
텍스트인코딩(원-핫인코딩/말뭉치/TF-IDF/워드임베딩) - 텍스트분석 - 후처리 : 토픽모델링(ATM/DTM), 감성분석, 텍스트분류, 군집화
- 텍스트시각화 : 워드클라우드, 의미연결망분석(SNA sementic)
- 사회연결망분석
- SNA(Social)
- 집합론적방법 : 객체들 관계를 관계쌍으로 표현
- 그래프이론방법 : 객체를 점으로 표현해 두점을 연결
- 행렬방법 : 객체를 행,열에 배치해 관계 표현(0,1)
- 중심성
- 연결정도 중심성 : 한점에 직접적으로 연결된 점들의 합
- 근접 중심성 : 한점에 연결되는 최소단계의 합
- 매개 중심성 : 최다연결경로에 위치하는 노드
- 위세 중심성 - 보나시치권력지수 : 자신과 연결된 타인의 영향력의 합
- SNA 적용
그래프 생성 → 목적에따라 가공분석 → 각객체 정의 → 다른 데이터마이닝기법과 연계
- SNA(Social)