* 짧은 서론
대학교 3학년 열역학 시간에 교수님이 가르쳐 주신 것을 처음으로 주피터 노트북을 알게 되었습니다. 그때는 이게 뭐하는 프로그램인지도 모르고 사용했었는데 이제는 정확히 알고 제대로 사용해보고 싶어서 공부하고 있습니다!
Jupyter Notebook
살아있는 파이썬 문서를 만들어 문서화, 시각화, 분석을 용이하게 만들어주는 개발 환경입니다.
파이참이나 비쥬얼 스튜디오로 파이썬 프로그램을 개발하듯, Jupyter Notebook은 데이터 분석용 파이썬 편집기라고 할 수 있습니다. (설계 + 기록 + 분석)
간단한 활용
코드를 작성해 Run을 누르면 작동하고, Mode를 Markdown으로 바꾸면 아래와 같이 문서처럼 문자삽입도 가능합니다.
1. 마크다운에서 적용 가능한 서식들
위위 코드를 실행하면 위 사진 처럼 실행됩니다.
#은 7개 이후로는 다른 효과가 없네요!
리스트 생성도 가능합니다! 자동 글머리도 숫자로 바꿔주네요
+) 글 중간에 코드 넣기, 인용구
2. 마크다운으로 이미지와 링크삽입 하기
이미지는 텍스트보다는 조금 더 까다롭습니다. 마크 다운은 문자열로만 구성된 문서로 작성되어야 하기 때문에 이미지를 직접 포함할 수 는 없고, 인터넷 상에서 접근 가능한 외부 주소에 이미지를 올리고 이를 참조하거나 자신의 PC(로컬)에 있는 이미지를 넣을 수도 있습니다. 대신 경로를 정확히 맞춰주어야 하고, 주피터 노트북 파일이 있는 동일 디렉토리에 있어야 합니다.
기본 문법은 로, !로 이미지 문법을 시작하고 []사이에 이미지를 대체할 텍스트를 입력하고, ()에 이미지를 참조할 주소를 입력합니다.
* 대체 텍스트의 작성 이유? : 이미지를 출력할 수 없는 경우(네트워크 문제 등), 텍스트 브라우저나 스크린 리더를 사용하는 경우, 검색 엔진 최적화를 위하여(웹문서의 수집과 분석에 활용)
이미지의 제목도 지정이 가능합니다. ()사이에 주소를 지정하고, 한칸 띄운 후 "Optional title"을 지정합니다.
<img src="https://path/to/img.jpg" alt="Alt text" title="Optional title">
HTML 태그를 살펴보면 다음과 같이 변환되어 title 속성도 추가됩니다. title의 경우 alt 보다는 우선 순위가 낮지만 작성하는 것은 좋습니다.
링크 삽입 문법은 느낌표를 뺀 [링크 참조](URL) 입니다.
*---은 수평선입니다.
3. 마크다운으로 표 만들기
라이브러리 import하기
파이참에서 라이브러리를 불러오듯 주피터 노트북도 가능합니다.
코드 맨 앞에 추가해 주시면 됩니다.
Numpy(넘파이)와 Pandas(판다스)에 대하여
넘파이 : 파이썬으로 행렬, 수치 계산 등 데이터를 다루기 쉽게 도와주는 유명 데이터 조작 라이브러리. 최대값 찾기, 평균값 찾기, 표준편차 계산하기 ...
판다스 : 파이썬으로 엑셀 다루듯 고성능의 데이터 구조를 만들 수 있는 유명 라이브러리. 평균 구하기, 총점 구하기, 정렬하기 ...
*엑셀과 다른 점 : 판다스는 최종 사용자를 위한 엑셀파일이 제작되도록 하는 것이고, 엑셀은 데이터 정리 그 자체를 목적으로 합니다.
✔ Numpy 속성
1. 내 마음대로 배열 만들기
2. 배열의 형태 알기
3. 배열의 필요한 부분 자르기
4. 내용 수정하기
5. 배열의 상수 연산
6. 배열 끼리 연산
7. 계산 기능
8. 요소 선택 (★ 어려움 주의)
✔ Pandas 속성
판다스를 사용하면 행 데이터, 열 데이터가 단순 숫자 모음에서 더 의미를 가진 데이터 베이스로 바뀌어 분석에 편리합니다.
1. 시리즈 만들기
2. 데이터 프레임 만들고 행과 열 추가하기
dictionary, list로 데이터, 행, 열을 입력하면 자동으로 series 변환되어 추가가 됩니다.
* 열은 df로 추가, 행은 df.loc로 추가합니다.
* 시리즈가 모여 데이터 프레임을 이루는 것이라고 이해하면 편합니다.
* 앞에서 시리즈를 입력하고 열에 추가해도 괜찮고, 시리즈를 직접 입력해 추가해도 괜찮습니다.
3. 원하는 열과 행 골라 출력하기
+) 필터링 조건에 조건문 삽입도 가능합니다.
loc[행,열] 순서로 필터링 하므로, 행 : 영어 점수 100점 이상 / 열 : 수학 점수 = 영어 점수 100점 이상 학생들의 수학점수 평균이 되겠습니다.
4. 계산 기능
* axis = 0 은 열, axis = 1은 행을 의미합니다. axis = 0은 생략 가능하여 sum()으로 작성해도 됩니다.
* mean은 평균을 구하는 함수입니다. average는 일상생활에서 쓰이는 평균(대푯값)으로, 상황에 따라 산술, 기하, 조화 평균 다 의미할 수 있고, 최빈값과 중앙값을 의미할 수도 있습니다. 반면 mean은 수학적 의미에서의 평균이고, 특정하지 않으면 산술평균을 의미한다고 합니다.
'Computer Science > Jupyter notebook' 카테고리의 다른 글
파이썬 기본편 #2 List(시퀀스) (0) | 2024.09.22 |
---|---|
파이썬 기본편 #1 (2) | 2024.09.22 |
맨날 까먹어서 적는 파이썬 기본 문법 (0) | 2020.12.23 |
Pandas로 cvs 파일 편집하기 with Feature Engineering (0) | 2020.06.16 |
데이터 시각화(matplotlib, seaborn 입문) (0) | 2020.06.14 |