일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이기적 유전자
- 인터스텔라
- R4DS
- 통계오류
- 티모시페리스
- 핵개발
- 산입 범위
- 아인슈타인
- 최저시급 개정안
- t검정
- 찬물샤워
- 조던피더슨
- t-test
- 핵 개발
- 최저 시급
- R 기초
- 큰수의 법칙
- 선형성
- 자기관리
- 비선형성
- 멘탈관리
- 산입범위
- 동전 던지기
- R 프로그래밍
- 수학적 사고
- 비행기 추락
- 통계 오류
- 성악설
- 유닛테스트
- 비율
- Today
- Total
목록분류 전체보기 (121)
public bigdata

https://uiandwe.tistory.com/969 8-3 mongodb 기초 쿼리 mongodb 는 기존 rdb와는 구조부터가 다릅니다. 데이블(mongodb 에서는 컬렉션이라 부릅니다만 테이블로 통용하겠습니다.) 의 foreign key 가 없기 때문에 테이블간의 join 이 어려우며 비정형테이블이기 때문에.. uiandwe.tistory.com - 인덱스 이외에는 32MB 이내로 제한되어 있다. https://stackoverflow.com/questions/27023622/overflow-sort-stage-buffered-data-usage-exceeds-internal-limit Overflow sort stage buffered data usage exceeds internal limi..

5.2 질문하기 EDA는 근본적으로 창의적인 과정 좋은 질문을 하는 핵심은 많은 양의 질문을 생성하는 것 데이터셋에 어떤 통찰력이 포함되어 있는지 알 수 없기 때문에 흥미로운 질문을 하기 어렵다 스스로 발견한 것을 따라 새로운 질문들을 만들다 보면 시사하는 바가 큰 질문을 발견할 수 있다. 데이블 형식의 데이터는 각 변수들과 관측값의 조합인 값들의 집합이다 테이블 형식의 데이터는 각 값은 '셀'에, 변수들은 열에, 관측값은 행에 있을 때 타이디(tidy)하다고 한다. 5.3.1 분포 시각화 dplyr::count와 ggplot2::cut_width를 결합하면 값을 직접 나누어 플롯할 수 있다. > diamonds %>% + count(cut_width(carat, 0.5)) # A tibble: 11 x..
1강, 2강 ## 1강 # 그냥 개념만 있어서 ... ## 2강 xml # XML, JSON 등의 마크업 언어가 있다. # XML은 ""가 있다는 점에서 HTML과 매우 유사하지만 # 다른 점은 A, P, H1 등의 태그 같은 형식이 아니여도 된다 # 원하는 대로 정할 수 있다. # XML은 부모 자식 관계를 가진 트리 구조이다. # XML은 eXtensible Markup Language의 약자로, # 다음과 같은 계층 구조로 이루어져있습니다. # HTML과 비슷하지만 원하는 이름의 태그를 만들 수 있다는 # 특징이 있고, HTML보다 문법 오류를 더 엄격하게 다룹니다. import xml.etree.ElementTree as ET input = ''' 001 Chuck 009 Brent ''' stu..

3.1 dplyr filter arrange select mutate summarize 해당 함수들은 모두 group_by에 의해서 그룹마다 동작하도록 할 수 있다. 3.2.1 비교연산 > sqrt(2)^2 == 2 [1] FALSE > 1/49*49 == 1 [1] FALSE 컴퓨터는 유한한 정밀도의 산술을 사용하므로 위와 같은 결과가 도출된다. == 대신 near 함수를 사용하면 아래와 같다 > dplyr::near(sqrt(2)^2, 2) [1] TRUE > dplyr::near(1/49*49, 1) [1] TRUE 3.2.2 논리 연산자 드모르간 법칙을 적용한 R 논리 연산자 !(x&y) --> !x|!y !(x|y) --> !x & !y 3.6.4 집계와 논리형 서브셋을 조합하는 것이 유용할 때..

2.2 이름 규칙 객체 이름은 문자로만 시작한다. 문자, 숫자, _, .만 포함해야 한다 객체 이름이 설명력이 있으면 좋으므로 여러 단어를 이어쓸 때의 규칙이 필요하다. 소문자들을 _으로 구분하는 snake_case를 추천한다. this_is_name

해당 글은 R-blogger 포스트를 보고 개인적으로 정리한 내용이기에 중간중간 내용이 빠져있을 수 있으며 이해하기 어려울 것이다. 궁금하다면 원글을 참고할 것 ※ 병렬 처리는 컴퓨터 cpu의 여러 코어를 사용하여 여러 작업을 동시에 실행하는 것이다. 병렬 처리가 필요한 경우? 계산적으로 무거운 과정 여러 개의 기계 학습 모델을 장착하는 것 일반적으로 3분 이상 걸리는 프로세스가 있는 경우 병렬 프로세싱을 사용하면 좋다 하나의 과제가 있더라도 해당 과제를 작은 조각으로 나누면 병렬 처리의 이점을 얻을 수 있다 ※ R 병렬 프로그래밍에 널리 사용되는 패키지는 parallel, foreach가 있다. 1. 데이터 가져오기 library(tidyverse) # ggplot2, dplyr, tidyr, read..

# 1~4 강 소켓(Socket)은 소프트웨어로 작성된 추상적인 개념의 통신 접속점이라고 할 수 있다 네트워크 응용 프로그램은 소켓을 통하여 통신망으로 데이터를 송수신하게 된다(원문) 포트(Port)는 하나의 컴퓨터에 실행 중인 여러 네트워크 프로그램을 구분하기 위해 부여된 번호입니다. 16비트로 구성된 번호입니다.(원문) 예를들면, 우편물이 집에 도착했는데 그 우편물이 누구의 것이냐는 것입니다. 여기서 집을 하나의 컴퓨터(호스트)라 하고, 주소를 컴퓨터의 IP, 우편물에 적힌 이름은 포트 번호라고 이해하시면 쉬울 것입니다. 즉, 컴퓨터까지는 왔는데 그 컴퓨터의 어느 프로그램이 패킷을 받을지를 알아야 하니 이런 번호가 부여됩니다. ## 1. 소켓 모듈을 통한 네트워크 연결 # 소켓의 개념 # ? # 포트..
#########3강######## # 이메일 호스트 추출1(기본 방법) data = 'From stephen.marquard@uct.ac.za Sat Jan' st = data.find("@") ed = data.find(' ',st) host = data[st+1:ed] print(host) # 이메일 호스트 추출2(split 메서드 이용) data = 'From stephen.marquard@uct.ac.za Sat Jan' words = data.split(' ') # 공백 기준 나누기 email = words[1] pieces = email.split('@') print(pieces[1]) # 이메일 호스트 추출2(정규식 이용) # 이번엔 정규식을 사용한 방법입니다. # 여기에서 '^ '는 공백..

#1. import ## 해당 방법으로 import 하는 경우에는 가장 마지막 항목은 모듈또는 패키지만 가능하다. import 모듈 이름 #2. from ~ import ~ # 단. from sfdsdf.sdfsdf import xxx.yyy 처럼 'from~import~'에서는 '.'을 사용할 수 없다. from 패키지.모듈 import 함수 or 변수 or 클래스 (모듈 안에 정의된 객체?) 모듈 실행방법 도스창1 : 모듈이 있는 디렉토리에서 python 실행 현재 스크립트와 동일한 위치에 모듈이 존재하는 경우 바로 import 가능 sys 모듈의 sys.path.append()를 통해서 모듈의 위치를 추가해 주는 방법 도스창2 : >set PYTHONPATH = C:\~~~~ 를 통해서 환경변수를 ..

1. "tidyverse"패키지 설치 error 회사에서 R studio server를 설치해 주었다. "tidyverse"패키지를 설치하려고 하니 다음과 같은 에러가 발생했다. > install.packages("tidyverse") Installing package into ‘/home/dfine/R/x86_64-pc-linux-gnu-library/3.4’ (as ‘lib’ is unspecified) also installing the dependencies ‘curl’, ‘httr’, ‘rvest’, ‘xml2’ URL 'https://cloud.r-project.org/src/contrib/curl_4.2.tar.gz'을 시도합니다 Content type 'application/x-gzip' ..