public bigdata

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

apply 계열 함수 정리하기

1. lapply 2. sapply ##########예시############## sapply(cafe24$PC_URL, function(url){ url %>% read_html() %>% html_nodes(xpath = '//*[@property="product:sale_price:amount"]') %>% html_attr('content') }) sapply에서 data로는 vector, list, data.frame이 가능한데, vector가 들어가면 vector의 요소 하나씩 꺼내서 sapply의 function 인자로 들어간다. (아래 참조) min을 min(x)으로 사용하면 벡터 전체에서 최솟값을 찾아주지만 아래처럼 sapply에 벡터가 들어가는 경우에는 벡터의 요소 하나씩 꺼내서 fu..

R programming 2019. 9. 1. 20:50

tidyverse other verbs, tips

0. filter tip Base R에서는 인덱스 또는 인덱스에 해당하는 조건의 반환 값이 NA인 경우 NA를 반환한다. 데이터가 위와 같을 때 실행한 코드와 결과가 아래 있다. filter 함수는 조건이 NA로 반환되는 경우에는 해당 값을 반환하지 않고 무시한다. Base R의 경우에는 반환값을 NA로 뱉어준다. ###########Base R NA반환############ > iris[iris$Sepal.Length >=1, ] Sepal.Length Sepal.Width Petal.Length Petal.Width Species NA NA NA NA NA NA.1 NA NA NA NA ###########tidyverse filter NA 대처 방법############ > iris %>% + fi..

R programming 2019. 9. 1. 20:11

Tidy evaluation, most common actions(개인적 정리)_비표준 평가 관련2

library(tidyverse) bare_to_quo % select(!!var) %>% head(1) } bare_to_quo(mtcars, quo(cyl)) dplyr 동사에 변수명을 전달하는 방법이다. var = cyl이라고 적는다면 var에 할당된 cyl이 무엇인지 평가하게 되는데 cyl은 함수 내부의 select 함수에서 평가될 객체인데 그냥 car = cyl이라고 적는다면 이 단계에서 cyl이 무엇인지 평가하게 되므로 오류가 발생한다. var = quo(cyl)으로 적어서 cyl을 인용하여 평가하지 않도록 한다. 그러면 함수 내부의 select에 도달한 뒤 !!와 quo(cyl)이 만나서 quo가 벗겨지고 cyl이 select 안에 도달하게 된다. 그럼 mtcars의 변수인 cyl을 sele..

R programming 2019. 8. 29. 22:25

Programming with dplyr_비표준 평가 관련1

Programming with dplyr vignette을 개인적으로 번역?, 이해한 내용 입니다. Programming with dplyr Operations on data frames can be expressed succinctly because you don’t need to repeat the name of the data frame. For example, you can write filter(df, x == 1, y == 2, z == 3) instead of df[df$x == 1 & df$y ==2 & df$z == 3, ]. cran.r-project.org 비표준적 평가 : 대부분의 프로그래밍 언어에서는 단지 함수 인자의 값에만 접근할 수 있다. 그런데 R에서는 그것들을 계산하는데 사..

R programming 2019. 8. 16. 20:21

qqplot 대략 이해 ㅎㅎ

데이터분석/통계, 머신러닝 기법 정리 2019. 8. 15. 22:46

따라하며 배우는 데이터 과학 7장

7.1 80%의 실제 문제는 20%정도의 통계 기법으로 처리할 수 있다. > 그 통계 기법들은 크게 선형 모형, 일반화 선형 모형, 그리고 고차원 통계학습 모형인 라쏘 모형, 랜덤 포레스트 정도이다. 데이터형 분석 기법과 R함수 모형 0. 모든 데이터 데이터 내용, 구조 파악(glimpse) 요약 통계량(summary) 단순시각화(plot, pairs) 1. 수량형 변수 분포시각화(hist, boxplot, density) 요약 통계량(mean, median) t-검정(t.test) 2. 범주형 변수(성공-실패) 도수 분포(table, xtabs) 바그래프 barplot 이항검정 binom.test X ~ binom(n, p) 3. 수량형 x, 수량형 y 산점도 plot 상관계수 cor 단순회귀 lm 로..

데이터분석/따라하며 배우는 데이터 과학 2019. 8. 1. 21:20

따라하며 배우는 데이터 과학 6장(통계의 기본 개념 복습)_중요

6.1 통계, 올바른 분석을 위한 툴 ※ 꼭 알아야하는 통계 개념 P-값이란? 신뢰구간이란? 표본분포란? 통계학은 왜 어려운가? 6.2 통계학은 숨겨진 진실을 추구한다 통계학은 알려지지 않은 참값이 있음을 가정한다. 멋진 말로 모수(population parameter)라고 한다. 귀무가설 : 변화 없음, 효과 없음, 차이 없음을 나타낸다 대립가설 : 변화 있음, 효과 있음, 차이 있음을 나타낸다 6.2.1 P값 해석 P값이 크면 귀무가설을 기각하지 못하고 귀무가설을 받아들이게 되는데 이것은 귀무가설이 옳음을 증명하는 것은 아니다 다만. 귀무가설을 기각할 만한 증거가 불충분하다는 것이지 귀무가설을 증명하는 증거가 있다는 것이 아니다. 6.3 통계학은 불확실성을 인정한다 ※ 귀무가설과 대립가설 중에 어떤 ..

데이터분석/따라하며 배우는 데이터 과학 2019. 7. 10. 22:43

따라하며 배우는 데이터 과학 5장 (코딩 스타일)

5.1 스타일 가이드와 협업 코드 레이아웃 : 줄바꾸기 변수명/함수명 : 대문자가 섞인 카멜케이스(CarmelCase)를 사용할 것인가, 아니면 밑줄을 사용한 스네이크케이스(snake_case)를 사용할 것인가, 동사를 사용할 것인가 들여쓰기 : 탭을 사용할 것인가, 아니면 스페이스를 사용할 것인가, 몇 글자를 들여쓸 것인가 > R에는 해들리 위컴과 구글 스타일이 있다.

데이터분석/따라하며 배우는 데이터 과학 2019. 7. 9. 21:07

따라하며 배우는 데이터 과학 4장

4장 데이터 분석 순서 glimpse 함수를 통해 데이터를 살펴본다. 간단한 통계량을 계산해본다. [summary 함수 활용] 시각화 해본다. 데이터의 정규성, 등분산성이 필요한 경우에는 log, sqrt 변환을 통해서 가정을 만족시켜주는 것이 중요하다. 시각화의 중요성 아래 그림은 앤스콤의 사인방이라 불리는 시각화 예이다. 놀랍게도 네 그래프의 데이터 모두 동일한 평균, 분산, 상관관계, 선형 모형을 가지고 있다. 그럼에도 불구하고 데이터가 다른 패턴을 보인다. 이렇듯 데이터 분석과 함께 시각화를 함께 살펴보는 것이 정말 중요하다. 4.2.1 ggplot error bar 그리기 df % summarise(mean = mean(y), sd = sd(y)) ggplot() + geom_point(data..

데이터분석/따라하며 배우는 데이터 과학 2019. 7. 6. 15:36

머신러닝 공부 소스 정리

1. 유튜브 채널 1) R 관련 유튜브 에이림 Rcoholic rcoholic - YouTube www.youtube.com 2. Kaggle 관련 자료 이유한님 캐클 및 머신러닝 팁

데이터분석/머신러닝 참고자료 2019. 7. 5. 22:22

public bigdata

목록전체 글 (121)

public bigdata

티스토리툴바