본문 바로가기

Computer Science

(25)
파이썬 기본편 #4 While 문 While 문: 조건으로 반복하는 방법.: 조건이 True 이면 명령을 수행: 항상 True 인 조건이 올 경우, 무한루프 => if 조건으로 break 문 활용 while 조건 :     while True :       if 조건:      break
파이썬 기본편 #3 For 문 1. for 문 유형for i in 시퀀스 :    => 시퀀스(문자열, 리스트)의 원소를 하나씩 명령 실행. for i in len(시퀀스) :    => 시퀀스의 길이 횟수 만큼 실행. for i in range(a,b) :    => a ~ b-1 번 실행 for i in range(a) :    => a 번 실행 (그러나 range(a) 의 반환은 0 ~ a-1 임을 유의, 횟수처럼 활용하는 방법이 됨) 2. Range: 연속되는 숫자를 만들어주는 시퀀스 자료형: range(a,b) = a, a+1, a+2, ... , b-1   * b-1까지만 만들어짐에 유의: range(a) = range(0,a) = 0, 1, ... , a-1
파이썬 기본편 #2 List(시퀀스) list에 사용되는 함수들1. list.insert(i,d) : 인덱스 i에 자료 d 추가 (한 개의 자료만 가능)1-1. list.append(d) : 맨 뒤에 자료 d 추가2. list.remove(d) : 처음 나오는 자료 d 제거2-1. list.pop(i) : 인덱스 i의 원소를 제거 후, 그 원소를 반환 (괄호 비울 시 마지막 원소)3. list.sort() : 리스트 정렬 (숫자형은 오름차순, 문자열은 사전순)4. 'd' in list : 리스트 안에 원소가 있는지 확인 (T,F 출력)5. len(list) : 원소 갯수 출력6. list + list : 시퀀스 두개를 이어 붙일 수 있음7. list * n : 시퀀스 n번 반복8. list.count(d) : 리스트 내부 자료 d 개수 반환..
파이썬 기본편 #1 print 인자들print("파이썬", end=" ") # end 입력 시 줄바꿈 하지 않고 이어 다음 문구 출력함, 다른 문자 넣어도 됨 print("파이썬", "자바", sep=",") # 구분자 설정 가능 print("파이썬", "자바", file=sys.stdout) # 표준 출력으로 처리 print("파이썬", "자바", file=sys.stderr) # 표준 에러 처리print(subject.ljust(8), str(score).rjust(4)) #subject는 8칸 공간 확보 후 왼쪽 정렬 #score은 4칸 공간 확보 후 오른쪽 정렬 print(str(num).zfill(3)) #num에 3자리 공간 확보 후 0으로 채우는 것 {0} 으로 입력할 수도 있지만,{0: >10} = 빈..
Learning Curves Learning Curves는 우리가 만든 모델의 성능을 조사하기에 가장 좋은 방법입니다. 머신러닝에서 우리는 끊임없이 underfitting과 overfitting 사이의 어딘가 적정한 지점을 찾기 위해 노력합니다. 우리가 조금 결함이 있는 모델을 만들어 냈다면, 어떤 부분에서 잘못되었는지, 그래서 어디를 고쳐야 하는지를 아는 것은 아주 중요합니다. 예를 들면, 약간 underfitting된 상태라면 새로운 데이터를 얻어오는 것이 도움이 될것이고, overfitting된 상태라면 hyper-parameter를 수정하는 것이 도움이 될 것입니다. 아니면 새 데이터를 더 수집할 수도 있겠지요. 이번 포스팅의 목적은 예측기의 성능이 데이터의 수에 따라 어떻게 바뀌는지 알아보는 것입니다. 나아가 내 예측기가 ..
Cross Validation, Grid Search with GridSearchCV 우리가 의사결정 나무를 사용하면, 정확도가 아주 높지는 않습니다. 대략 테스트 셋의 60-80% 정도의 accuracy를 보이죠. decision tree를 구성하는 파라미터는 아주 많은데, 각각의 파라미터에 어떤 값을 넣어주어야 할까요? 이때 각각의 파라미터를 바꿔가며 모델을 여러가 맨들어 최적의 파라미터를 찾아주는 함수가 있습니다. 바로 Grid Search 입니다. 게다가 train set과 test set을 한 번 만 나누지 않고 Cross Validation을 사용해서 각 매개변수의 성능을 평가할 수도 있습니다.. 데이터는 저번 포스팅과 같은 Breast cancer 데이터를 사용할 것입니다. Decision tree Classifier와 Accuracy score 라이브러리도 불러옵니다. tr..
크롤링 기본 더보기 목차 1. 파이썬 오픈소스 패키지 사용 2. 파이썬으로 데이터 수집하기 3. 안티크롤링, 헤더값 추가하기 4. URL과 요청값 이해하기 1. 오픈소스 패키지 파이썬은 오픈소스 프로그래밍 언어로 누구나 사용, 수정, 재배포 할 수 있습니다. 파이썬이 강력한 이유는 개발자들이 파이썬을 통해 유용한 도구들을 개발해 놓았기 때문입니다. ex) django - 장고는 파이썬으로 웹개발을 할 수 있는 패키지입니다. 인스타그램, 유튜브 등 ex) flask - 장고보다 가벼우나 숙련자가 사용하기 좋습니다. 핀터레스트 ex) pandas - 표 형태의 데이터를 쉽게 다룰 수 있는 패키지입니다. 데이터 수집, 분석에 자주 사용 ex) request - 웹상의 데이터를 가져올 수 있게 하는 패키지 ex) beaut..
맨날 까먹어서 적는 파이썬 기본 문법 간단한 파이썬 문법 1. print() -괄호 안의 데이터를 화면에 출력합니다. -문자는 큰 따옴표" 또는 작은 따옴표' 로 묶어 준 후 입력합니다. (프로그래밍 언어에 따라 구분하기도 합니다) -숫자는 그대로 넣습니다. ​ 2. 변수의 개념 이해하기 a = "Hello World" b = 3 c = -11 ​ 수학에서와 다르게, b는 -3과 같다는 뜻이 아니라, -3이라는 데이터를 b라는 변수에 저장하는 것입니다. ​ 변수 = 값(문자/숫자) - 숫자를 저장하는 경우 : 그대로 - 문자를 저장하는 경우 : 큰 따옴표나 작은 따옴표로 묶어줍니다. - 변수 이름은 자유롭게 설정 가능하나 숫자로 시작하거나 특수기호를 사용할 수 없습니다. - 변수 이름에 공백을 사용할 수 없으므로 _를 대체해서 자주 사용합니..