일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- t-test
- 큰수의 법칙
- 선형성
- 통계 오류
- R4DS
- 산입 범위
- 산입범위
- 비행기 추락
- R 프로그래밍
- 티모시페리스
- 찬물샤워
- 핵 개발
- 핵개발
- 동전 던지기
- 아인슈타인
- 성악설
- 자기관리
- 비선형성
- 조던피더슨
- 최저 시급
- t검정
- 유닛테스트
- 수학적 사고
- 비율
- 멘탈관리
- 이기적 유전자
- 통계오류
- 인터스텔라
- R 기초
- 최저시급 개정안
- Today
- Total
목록데이터분석/따라하며 배우는 데이터 과학 (6)
public bigdata

7.1 80%의 실제 문제는 20%정도의 통계 기법으로 처리할 수 있다. > 그 통계 기법들은 크게 선형 모형, 일반화 선형 모형, 그리고 고차원 통계학습 모형인 라쏘 모형, 랜덤 포레스트 정도이다. 데이터형 분석 기법과 R함수 모형 0. 모든 데이터 데이터 내용, 구조 파악(glimpse) 요약 통계량(summary) 단순시각화(plot, pairs) 1. 수량형 변수 분포시각화(hist, boxplot, density) 요약 통계량(mean, median) t-검정(t.test) 2. 범주형 변수(성공-실패) 도수 분포(table, xtabs) 바그래프 barplot 이항검정 binom.test X ~ binom(n, p) 3. 수량형 x, 수량형 y 산점도 plot 상관계수 cor 단순회귀 lm 로..

6.1 통계, 올바른 분석을 위한 툴 ※ 꼭 알아야하는 통계 개념 P-값이란? 신뢰구간이란? 표본분포란? 통계학은 왜 어려운가? 6.2 통계학은 숨겨진 진실을 추구한다 통계학은 알려지지 않은 참값이 있음을 가정한다. 멋진 말로 모수(population parameter)라고 한다. 귀무가설 : 변화 없음, 효과 없음, 차이 없음을 나타낸다 대립가설 : 변화 있음, 효과 있음, 차이 있음을 나타낸다 6.2.1 P값 해석 P값이 크면 귀무가설을 기각하지 못하고 귀무가설을 받아들이게 되는데 이것은 귀무가설이 옳음을 증명하는 것은 아니다 다만. 귀무가설을 기각할 만한 증거가 불충분하다는 것이지 귀무가설을 증명하는 증거가 있다는 것이 아니다. 6.3 통계학은 불확실성을 인정한다 ※ 귀무가설과 대립가설 중에 어떤 ..

5.1 스타일 가이드와 협업 코드 레이아웃 : 줄바꾸기 변수명/함수명 : 대문자가 섞인 카멜케이스(CarmelCase)를 사용할 것인가, 아니면 밑줄을 사용한 스네이크케이스(snake_case)를 사용할 것인가, 동사를 사용할 것인가 들여쓰기 : 탭을 사용할 것인가, 아니면 스페이스를 사용할 것인가, 몇 글자를 들여쓸 것인가 > R에는 해들리 위컴과 구글 스타일이 있다.

4장 데이터 분석 순서 glimpse 함수를 통해 데이터를 살펴본다. 간단한 통계량을 계산해본다. [summary 함수 활용] 시각화 해본다. 데이터의 정규성, 등분산성이 필요한 경우에는 log, sqrt 변환을 통해서 가정을 만족시켜주는 것이 중요하다. 시각화의 중요성 아래 그림은 앤스콤의 사인방이라 불리는 시각화 예이다. 놀랍게도 네 그래프의 데이터 모두 동일한 평균, 분산, 상관관계, 선형 모형을 가지고 있다. 그럼에도 불구하고 데이터가 다른 패턴을 보인다. 이렇듯 데이터 분석과 함께 시각화를 함께 살펴보는 것이 정말 중요하다. 4.2.1 ggplot error bar 그리기 df % summarise(mean = mean(y), sd = sd(y)) ggplot() + geom_point(data..

3.2.1 예제 데이터를 어디서 얻을 것인가? 머신러닝 리포 UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 475 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou archive.ics.uci.edu R의 'dataset'패키지에서 제공하는 데이터 library(dataset) data() #여기까..

2.4.2 패키지의 의존 패키지와 권장 패키지 설치 1. 의존 패키지 설치 의존 패키지 : 해당 패키지가 작동하기 위해 꼭 필요한 패키지 install.package("caret", dependencies = "Depends") 2. 제안 패키지 설치 제안 패키지 : 의존 패키지 처럼 꼭 필요하진 않지만 부수적으로 필요한 패키지 install.package("caret", dependencies = c("Depends", "Suggests") > "Suggest"를 추가해주면 된다. 2.7 Git Git : 깃은 재현 가능한 연구, 코드 백업, 협업의 핵심 도구다. 코드뿐 아니라 텍스트 문서 버전을 관리하기 위해 개인과 조직에서 가장 많이 사용되는 도구 중 하나다. Git 참고 문헌(한글) Git - B..