일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이기적 유전자
- 성악설
- 통계 오류
- R4DS
- 비행기 추락
- 찬물샤워
- 수학적 사고
- t-test
- R 기초
- R 프로그래밍
- 멘탈관리
- 비율
- 최저 시급
- 핵 개발
- 티모시페리스
- 선형성
- 아인슈타인
- 큰수의 법칙
- 조던피더슨
- t검정
- 자기관리
- 유닛테스트
- 통계오류
- 인터스텔라
- 핵개발
- 산입범위
- 최저시급 개정안
- 산입 범위
- 동전 던지기
- 비선형성
- Today
- Total
목록R programming (36)
public bigdata
https://colab.research.google.com/drive/19lLiXjpklTdowMzwK1o2DgUnk9r1UNPk Google Colaboratory colab.research.google.com
공식 홈페이지 https://rmarkdown.rstudio.com/flexdashboard/index.html flexdashboard: Easy interactive dashboards for R Use R Markdown to publish a group of related data visualizations as a dashboard. Support for a wide variety of components including htmlwidgets; base, lattice, and grid graphics; tabular data; gauges and value boxes; and text annotations. Flexible and easy rmarkdown.rstudio.com 1. 참고1 ..
1. DBI MySql 연결 > # Load the DBI package > library(DBI) > > # Connect to the MySQL database: con > con > # Build a vector of table names: tables > tables > # Display structure of tables > str(tables) chr [1:3] "comments" "tweats" "users" DMI패키지는 RMySQL과 같은 데이터베이스 패키지들을 통합해서 사용할 수 있도록 표준 인터페이스를 제공한다. dbListTables : 연결된 db의 테이블들을 반환한다. 2. 데이터베이스의 테이블 가져오기 > # Import the users table from tweater: u..
8.2 read_csv : 쉼표로 구분된 파일 읽기 read_csv2 : 세미콜론으로 구분된 파일 읽기(,가 소수점 자리로 사용되는 국가에 일반적 형태) read_tsv : 탭 구분 파일을 읽는다. read_fwf : 고정 너비 파일을 읽는다. read_delim : 임의의 구분자로 된 파일을 읽는다. read_table : 고정 너비 파일의 일반적 변형 형태인 열이 공백으로 구분된 파일을 읽는다? read_log : apache 스타일의 로그 파일을 읽는다. skip 인자를 통해 첫 n줄을 건너 뛸 수 있다. comment = "#"을 사용하여 #으로 시작하는 모든 줄을 무시할 수 있다. col_names = FALSE를 사용하면 첫 행을 헤드로 취급하지 않고 X1~Xn 순차적으로 이름을 붙인다. co..
7.1 1) 티블은 사실은 데이터프레임이지만, 오래된 동작들을 수정한 객체이다. 2) tidyverse의 작업을 약간 쉽게 만들어주는 고집 있는 데이터프레임을 제공 3) tibble은 입력의 유형을 절대로 변경하지 않는다 Ex. character --> factor 4) 변수의 이름을 바꾸거나 행 이름을 생성하지 않는다. 5) tibble은 R 변수명으로 유효하지 않은 이름도 열 이름으로 가질 수 있다.(단. 이 변수들을 참조하려면 역따옴표 `로 감싸야 한다.) 3) 더 자세히 배우려면 vignette("tibble")을 이용하면 된다. 7.2 1) as_tibble : 일반적인 데이터프레임을 티블로 강제 변환 2) tibble : data.frame과 같은 tibble을 생성하는 함수 3) tribbl..
6장 워크플로: 프로젝트 6.2 분석작업이 어디에 남아있는가? 권장하지는 않지만 R 내에서 setwd를 통해 작업 디렉터리를 설정할 수도 있다. 6.3 경로와 디렉터리 1) 경로에는 2가지의 기본 스타일 mac/linux, window가 존재하므로 경로와 디렉터리는 약간 복잡하다. 서로 다른 세 가지 주요 방식이 있다. 가장 중요한 차이점은 경로의 구성요소를 분리하는 방법이다. mac/linux : "plots/diamonds.pdf" window : "plots\diamonds.pdf" R은 현재의 플랫폼과 상관없이 2개의 타입 모두 동작하지만, 역슬래시는 R에서 특별한 의미가 있으므로 경로에 2개의 역슬래시를 사용해야 한다. 때문에 슬래시 하나만 사용하는 linux/mac 스타일을 사용하는 것이 좋다..
https://lovetoken.github.io/r/2018/03/01/fstPackage.html R에서 테이블 형 객체를 파일단위로 저장할 때 특화된 fst package lovetoken.github.io
5.2 질문하기 EDA는 근본적으로 창의적인 과정 좋은 질문을 하는 핵심은 많은 양의 질문을 생성하는 것 데이터셋에 어떤 통찰력이 포함되어 있는지 알 수 없기 때문에 흥미로운 질문을 하기 어렵다 스스로 발견한 것을 따라 새로운 질문들을 만들다 보면 시사하는 바가 큰 질문을 발견할 수 있다. 데이블 형식의 데이터는 각 변수들과 관측값의 조합인 값들의 집합이다 테이블 형식의 데이터는 각 값은 '셀'에, 변수들은 열에, 관측값은 행에 있을 때 타이디(tidy)하다고 한다. 5.3.1 분포 시각화 dplyr::count와 ggplot2::cut_width를 결합하면 값을 직접 나누어 플롯할 수 있다. > diamonds %>% + count(cut_width(carat, 0.5)) # A tibble: 11 x..
3.1 dplyr filter arrange select mutate summarize 해당 함수들은 모두 group_by에 의해서 그룹마다 동작하도록 할 수 있다. 3.2.1 비교연산 > sqrt(2)^2 == 2 [1] FALSE > 1/49*49 == 1 [1] FALSE 컴퓨터는 유한한 정밀도의 산술을 사용하므로 위와 같은 결과가 도출된다. == 대신 near 함수를 사용하면 아래와 같다 > dplyr::near(sqrt(2)^2, 2) [1] TRUE > dplyr::near(1/49*49, 1) [1] TRUE 3.2.2 논리 연산자 드모르간 법칙을 적용한 R 논리 연산자 !(x&y) --> !x|!y !(x|y) --> !x & !y 3.6.4 집계와 논리형 서브셋을 조합하는 것이 유용할 때..