일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- t-test
- R4DS
- 최저 시급
- 산입 범위
- R 기초
- 유닛테스트
- 찬물샤워
- 아인슈타인
- 큰수의 법칙
- 핵개발
- 티모시페리스
- t검정
- R 프로그래밍
- 비선형성
- 비행기 추락
- 조던피더슨
- 동전 던지기
- 산입범위
- 수학적 사고
- 자기관리
- 인터스텔라
- 핵 개발
- 비율
- 성악설
- 선형성
- 이기적 유전자
- 최저시급 개정안
- 통계오류
- 멘탈관리
- 통계 오류
- Today
- Total
목록Python programming/웹 크롤링 (5)
public bigdata
1강, 2강 ## 1강 # 그냥 개념만 있어서 ... ## 2강 xml # XML, JSON 등의 마크업 언어가 있다. # XML은 ""가 있다는 점에서 HTML과 매우 유사하지만 # 다른 점은 A, P, H1 등의 태그 같은 형식이 아니여도 된다 # 원하는 대로 정할 수 있다. # XML은 부모 자식 관계를 가진 트리 구조이다. # XML은 eXtensible Markup Language의 약자로, # 다음과 같은 계층 구조로 이루어져있습니다. # HTML과 비슷하지만 원하는 이름의 태그를 만들 수 있다는 # 특징이 있고, HTML보다 문법 오류를 더 엄격하게 다룹니다. import xml.etree.ElementTree as ET input = ''' 001 Chuck 009 Brent ''' stu..
# 1~4 강 소켓(Socket)은 소프트웨어로 작성된 추상적인 개념의 통신 접속점이라고 할 수 있다 네트워크 응용 프로그램은 소켓을 통하여 통신망으로 데이터를 송수신하게 된다(원문) 포트(Port)는 하나의 컴퓨터에 실행 중인 여러 네트워크 프로그램을 구분하기 위해 부여된 번호입니다. 16비트로 구성된 번호입니다.(원문) 예를들면, 우편물이 집에 도착했는데 그 우편물이 누구의 것이냐는 것입니다. 여기서 집을 하나의 컴퓨터(호스트)라 하고, 주소를 컴퓨터의 IP, 우편물에 적힌 이름은 포트 번호라고 이해하시면 쉬울 것입니다. 즉, 컴퓨터까지는 왔는데 그 컴퓨터의 어느 프로그램이 패킷을 받을지를 알아야 하니 이런 번호가 부여됩니다. ## 1. 소켓 모듈을 통한 네트워크 연결 # 소켓의 개념 # ? # 포트..
#########3강######## # 이메일 호스트 추출1(기본 방법) data = 'From stephen.marquard@uct.ac.za Sat Jan' st = data.find("@") ed = data.find(' ',st) host = data[st+1:ed] print(host) # 이메일 호스트 추출2(split 메서드 이용) data = 'From stephen.marquard@uct.ac.za Sat Jan' words = data.split(' ') # 공백 기준 나누기 email = words[1] pieces = email.split('@') print(pieces[1]) # 이메일 호스트 추출2(정규식 이용) # 이번엔 정규식을 사용한 방법입니다. # 여기에서 '^ '는 공백..
#########2강######## #1-1 숫자패턴 추출하기 import re x = 'My favorite numbers are 19 and 42' y = re.findall('[0-9]+', x) # x 문자열에서 정수 형태의 데이터 모두 추출하여 y에 리스트로 저장해줌 print(y) #1-2 영대문자 일부 매칭 import re x = 'My favorite numbers are 19 and 42' y = re.findall('[AEIOUMy]+', x) print(y) #2-1 탐욕적 방식의 패턴 찾기 # 만약 다음 문장에서 '^F.+:'라는 패턴과 일치하는 부분을 찾는다면, # x = 'From: Using the : character' # From: # From: Using the : # ..
잘 알려주셔서 감사합니다. pc 에서 보는 경우 코드가 길어서 보이지 않는데 (Shift + 마우스 드래그) 조합을 사용하면 쉽게 볼 수 있다. 1강 ## 정규식 간단한 요약 ## # ^ 라인의 처음을 매칭 # $ 라인의 끝을 매칭 # . 임의의 문자를 매칭 (와일드 카드) # \s 공백 문자를 매칭 # \S 공백이 아닌 문자를 매칭 # * 바로 앞선 문자에 적용되고 0 혹은 그 이상의 앞선 문자와 매칭을 표기함. # *? 바로 앞선 문자에 적용되고 0 혹은 그 이상의 앞선 문자와 매칭을 탐욕적이지 않은 방식으로 표기함. # + 바로 앞선 문자에 적용되고 1 혹은 그 이상의 앞선 문자와 매칭을 표기함 # +? 바로 앞선 문자에 적용되고 1 혹은 그 이상의 앞선 문자와 매칭을 탐욕적이지 않은 방식으로 표기..