일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 동전 던지기
- 성악설
- 큰수의 법칙
- 최저시급 개정안
- R4DS
- 아인슈타인
- 수학적 사고
- 이기적 유전자
- 멘탈관리
- 최저 시급
- 산입범위
- 인터스텔라
- 핵 개발
- 조던피더슨
- 통계오류
- 비율
- 산입 범위
- 통계 오류
- 자기관리
- 비행기 추락
- 선형성
- t검정
- 비선형성
- R 기초
- 찬물샤워
- t-test
- R 프로그래밍
- 티모시페리스
- 핵개발
- 유닛테스트
- Today
- Total
목록R programming/R4DS (R for DataScience) (11)
public bigdata

문자열의 출력 표시는 문자열 자체와 같지 않다. 출력에서는 이스케이프가 보인다. 문자열의 원시 형태를 보려면 writeLines 함수를 사용한다. x #1 내가 한 방식 > data data %>% unlist() [1] "seven books" "two met" "two factors" "three lists" "seven is" "two when" "ten inches" [8] "one war" "one button" "six minutes" "ten years" "two shares" "two distinct" "five cents" [15] "two pins" "five robins" "four kinds" "three story" "three inches" "six comes" "three ba..
10.1 데이터 분석 시에 테이블을 하나만 사용하는 경우는 거의 없고 이들을 적절하게 결합 해야 하는 상황이 발생한다. 관계는 두 개의 테이블 사이에서 정의된다. 이런 관계형 데이터에 동작하도록 설계된 세 가지 유형의 함수가 dplyr 패키지 안에 있다고 한다. 뮤테이팅 조인 : 다른 데이터프레임에 있는 관측값에서 값을 가져와 테이블의 새로운 변수로 추가 필터링 조인 : 다른 테이블의 관측값과 일치하는지에 다라 관측값을 걸러낸다. 집합 연산 : 관측값을 집합 원소로 취급한다. dplyr 패키지는 SQL보다 쉽고 데이터 분석에 특화되었기 때문에 일반적인 데이터 분석 작업을 하기는 더 쉽지만, 일반적으로 필요하지 않은 작업을 수행하기에는 더 어렵다. 10.2 연습문제 - pass 10.3 키 테이블에 기본키..

※ tidy한 데이터란? 데이터셋을 타이디하게 만드는, 서로 연관된 세 가지 규칙 변수마다 해당되는 열이 있어야 한다. 관측값마다 해당되는 행이 있어야 한다. 값마다 해당하는 하나의 셀이 있어야 한다. 위의 3가지 규칙들은 서로 연관되어 있기에, 셋 중 두가지만 충족시키는 것은 불가능하다고 한다. ※ tidy 데이터의 장점 일관된 데이터 구조를 사용하여, 적용할 도구들이 공통성을 가지게 되어 배우기 쉽다. 변수를 열에 배치하여 R의 벡터화 속성이 잘 발휘된다. 9.3.1 gather()로 모으기 아래와 같은 데이터 형태가 있을 때 english, math, science 세 가지 열 이름들은 과목이라는 변수의 값들이라고 본다면 tidy하지 않은 형태라고 할 수 있다.(tidy데이터의 조건을 만족하기는 한..

8.2 read_csv : 쉼표로 구분된 파일 읽기 read_csv2 : 세미콜론으로 구분된 파일 읽기(,가 소수점 자리로 사용되는 국가에 일반적 형태) read_tsv : 탭 구분 파일을 읽는다. read_fwf : 고정 너비 파일을 읽는다. read_delim : 임의의 구분자로 된 파일을 읽는다. read_table : 고정 너비 파일의 일반적 변형 형태인 열이 공백으로 구분된 파일을 읽는다? read_log : apache 스타일의 로그 파일을 읽는다. skip 인자를 통해 첫 n줄을 건너 뛸 수 있다. comment = "#"을 사용하여 #으로 시작하는 모든 줄을 무시할 수 있다. col_names = FALSE를 사용하면 첫 행을 헤드로 취급하지 않고 X1~Xn 순차적으로 이름을 붙인다. co..

7.1 1) 티블은 사실은 데이터프레임이지만, 오래된 동작들을 수정한 객체이다. 2) tidyverse의 작업을 약간 쉽게 만들어주는 고집 있는 데이터프레임을 제공 3) tibble은 입력의 유형을 절대로 변경하지 않는다 Ex. character --> factor 4) 변수의 이름을 바꾸거나 행 이름을 생성하지 않는다. 5) tibble은 R 변수명으로 유효하지 않은 이름도 열 이름으로 가질 수 있다.(단. 이 변수들을 참조하려면 역따옴표 `로 감싸야 한다.) 3) 더 자세히 배우려면 vignette("tibble")을 이용하면 된다. 7.2 1) as_tibble : 일반적인 데이터프레임을 티블로 강제 변환 2) tibble : data.frame과 같은 tibble을 생성하는 함수 3) tribbl..

6장 워크플로: 프로젝트 6.2 분석작업이 어디에 남아있는가? 권장하지는 않지만 R 내에서 setwd를 통해 작업 디렉터리를 설정할 수도 있다. 6.3 경로와 디렉터리 1) 경로에는 2가지의 기본 스타일 mac/linux, window가 존재하므로 경로와 디렉터리는 약간 복잡하다. 서로 다른 세 가지 주요 방식이 있다. 가장 중요한 차이점은 경로의 구성요소를 분리하는 방법이다. mac/linux : "plots/diamonds.pdf" window : "plots\diamonds.pdf" R은 현재의 플랫폼과 상관없이 2개의 타입 모두 동작하지만, 역슬래시는 R에서 특별한 의미가 있으므로 경로에 2개의 역슬래시를 사용해야 한다. 때문에 슬래시 하나만 사용하는 linux/mac 스타일을 사용하는 것이 좋다..

5.2 질문하기 EDA는 근본적으로 창의적인 과정 좋은 질문을 하는 핵심은 많은 양의 질문을 생성하는 것 데이터셋에 어떤 통찰력이 포함되어 있는지 알 수 없기 때문에 흥미로운 질문을 하기 어렵다 스스로 발견한 것을 따라 새로운 질문들을 만들다 보면 시사하는 바가 큰 질문을 발견할 수 있다. 데이블 형식의 데이터는 각 변수들과 관측값의 조합인 값들의 집합이다 테이블 형식의 데이터는 각 값은 '셀'에, 변수들은 열에, 관측값은 행에 있을 때 타이디(tidy)하다고 한다. 5.3.1 분포 시각화 dplyr::count와 ggplot2::cut_width를 결합하면 값을 직접 나누어 플롯할 수 있다. > diamonds %>% + count(cut_width(carat, 0.5)) # A tibble: 11 x..

3.1 dplyr filter arrange select mutate summarize 해당 함수들은 모두 group_by에 의해서 그룹마다 동작하도록 할 수 있다. 3.2.1 비교연산 > sqrt(2)^2 == 2 [1] FALSE > 1/49*49 == 1 [1] FALSE 컴퓨터는 유한한 정밀도의 산술을 사용하므로 위와 같은 결과가 도출된다. == 대신 near 함수를 사용하면 아래와 같다 > dplyr::near(sqrt(2)^2, 2) [1] TRUE > dplyr::near(1/49*49, 1) [1] TRUE 3.2.2 논리 연산자 드모르간 법칙을 적용한 R 논리 연산자 !(x&y) --> !x|!y !(x|y) --> !x & !y 3.6.4 집계와 논리형 서브셋을 조합하는 것이 유용할 때..

2.2 이름 규칙 객체 이름은 문자로만 시작한다. 문자, 숫자, _, .만 포함해야 한다 객체 이름이 설명력이 있으면 좋으므로 여러 단어를 이어쓸 때의 규칙이 필요하다. 소문자들을 _으로 구분하는 snake_case를 추천한다. this_is_name

저작권 : "R for DataScience by Hadley Wickham and Garrett Grolemund(O'Reilly). Copyright 2017 Garrett Grolemund, Hadley Wickham, 978-1-491-91039-9 1.1 들어가기 시작하기 전 ggplot2의 이론적 토대에 대해 더 자세히 알고 싶다면 The Layered Grammar of Graphics를 읽을 것을 추천한다. 1.2.3 그래프 작성 템플릿 ggplot(data=)+ (mapping=aes()) ggplot을 하면 좌표 시스템이 생성되고 레이어를 추가할 수 있다. 1.3 library(tidyverse) ggplot(data = mpg)+ geom_point(mapping = aes(x=dis..