Computer Science (25) 썸네일형 리스트형 Getting started with the Scikit-Learn library Scikit Learn 라이브러리는 이전 포스팅에서도 언급한 적이 있는데요. 이 라이브러리 하나만으로도 데이터 셋을 쪼개고, 모델에 훈련시키고 테스트 하기에 무리가 없습니다. 이번 포스팅에서는 간단한 데이터 split과 모델 훈련 데이터에 대해 알아보고자 합니다. 싸이킷런을 활용해보는 것에 중점을 두고자, 데이터는 파이썬에 업로드 되어있는 데이터를 활용했어요. 따라서 데이터 전처리는 건너뛰도록 하겠습니다. (7. Dataset loading utilities — scikit-learn 0.23.2 documentation (scikit-learn.org) 7. Dataset loading utilities — scikit-learn 0.23.2 documentation The 20 newsgroups d.. Dendrograms and Heat Plots 데이터 셋은 수업시간에 제공된 자료를 활용했습니다. 데이터의 의미보다는 코딩을 중점으로 봐주세요. # import libraries import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.cluster.hierarchy import dendrogram, linkage from pylab import figure, colorbar # data upload data = pd.read_excel("panda_example.xlsx") enzymes = ["DhlA", "LinB", "DbjA", "DmbA", "DrbA"] substrates = data["Name"] halides = data["Halide"] act.. Hierarchical Clustering에 대하여 Clustering은 Unsupervised Learning의 주요 수단입니다. 최종 목표는 데이터셋 중에 서로 가까운 데이터 포인터 들 끼리 묶어 하위 그룹을 만드는 것에 있습니다. 이번 포스팅에서는 K-means clustering에 대한 내용을 다룹니다. 중요한 포인트는 K를 고르는 것인데, 이는 알고리즘을 적용하기 전에 결정해야합니다. 만약 정확히 얼마나 많은 clusters가 사용될지 예측할 수 없다면, hierarchical clustering이 이때 사용됩니다. 즉, 모든 데이터 포인트들을 거리가 0인 점으로 잡고, 거리를 늘려가는데 이때 두 cluster가 만난다면 둘을 하나의 cluster로 잡고 dendrogram에서 평행한 선을 그어 두 점을 잇습니다. 이 과정을 계속하면 cluste.. Chebyshev inequality에 대하여 (Lecture 4 후반부) 우리가 어떤 확률 변수의 기댓값과 분산을 안다고 할 때, 체비셰프 부등식을 사용해 보다 정확한 예측을 할 수 있습니다. 어떠한 양의 실수 t에 대해 정의는 다음과 같습니다. 간단한 증명 방법이 있는데, 이는 마르코프 부등식에서 출발합니다. 여기에서 X를 (X-E(X))²로 바꾸고(음이 아닌 확률변수 조건을 만족), a를 t²으로 바꿉니다. E((X-E(X))²) = V(X)이고, (X-E(X))²≥t² 는 부등식의 변수 모두 음이 아니므로 |X-E(X)|≥t와 같은 표현이 됩니다. 간단한 예제를 풀어보겠습니다. Example(Coin flipping revisited) Bound the probability of obtaining more than ¾n heads in a s.. Moments, Deviations에 대하여 (Lecture 4 전반부) Moments(적률) 기댓값으로 정의될 수 있는 중요한 함수, moment function입니다. 정의는 아래와 같습니다. 정의 : The rth moment of a random variable X is defined as E(X^r) 따라서 r에 따라 적률 함수의 특징이 달라지는데요. 기댓값과 분산은 익숙한 표현입니다. 기댓값은 평균이 어떤지, 분산은 평균으로 부터 얼마나 분산되어 있는지를 나타내는 척도입니다. 왜도와 첨도는 생소한 용어인데, 왜도는 값이 분포가 오른쪽으로 치우져 있는지, 왼쪽으로 치우져 있는지를 나타내는 척도입니다. 첨도는 분포도가 뾰족한지 완만한지를 나타냅니다. 적률 함수의 대표적인 네가지 종류에 대해 알아봤는데요. 적률 생성 함수에 대해 알아보고자 합.. Markov Inequality에 대하여 (Lecture 3 후반부) 확률 변수에 대해 배우면서 우리는 평균, 분산, 기댓값 등을 계산하는 법에 대해 배웠습니다. 이번 포스팅은 평균(기댓값)을 이용하여 자료의 분포를 추정하는 공식인 마르코프 부등식(Markov Inequality)에 대해 서술합니다. 즉, 확률 변수의 확률 분포가 알려지지 않고 기댓값만이 주어질 때 확률 분포에 대한 정보를 알려줍니다. 음이 아닌 수를 값으로 갖는 확률 변수가 어떤 양수 a보다 큰 값을 가질 확률이 기댓값을 a로 나눈 것 보다 클 수 없음을 나타냅니다. 러시아의 수학자 마르코브의 이름을 딴 부등식이고, 다음 게시글에 작성할 마르코프의 스승 체비쇼프의 연구결과에도 나타난다고 합니다. 이를 증명하는 방법은 두 가지를 준비했는데요. 1. 네이버 블로그 서치 2. 수업.. Random Variable의 연산에 대하여 (Lecture 3 중반부) Functions of a Random Variable가 이번 포스팅에서 다룰 내용입니다. 1. Convolution(합성곱) of Independent Random Variables X와 Y가 음이 아닌 독립 확률 변수라고 할때, 확률 변수 Z=X+Y는 X와 Y의 convolution이라고 부릅니다. 그리고 이 Z의 확률 분포는 아래 식과 같습니다. 이때 누적 확률 분포 함수는 다음과 같습니다. 그리고 이를 미분하여 얻을 수 있는 확률 분포 함수는 다음과 같습니다. 간단한 예제 하나 풀어보겠습니다. Example) If X and Y are independet random variables, both uniformly distributed on (0,1), calculate.. 웹페이지의 구성에 대하여 * 코알라 스터디 1주차 내용 HTML의 개념 이해하기 우리가 쉽게 사용하는 포털 사이트들의 홈페이지는 HTML 이라는 웹문서로 구성되어있고, 이 웹문서를 인터넷 브라우저(인터넷 익스플로러, 크롬, 파이어 폭스 등)로 실행하면 익숙한 홈페이지의 모습으로 나타나게 됩니다. *웹브라우저에서 마우스 오른쪽 클릭 후 를 클릭하면 페이지의 소스코드를 확인할 수 있습니다. 이 HTML이라는 웹문서 안에 우리가 수집하기를 원하는 데이터가 저장되어 있습니다. 데이터 수집은 바로 이 웹뭉서 어딘가에 저장되어 있는 데이터를 찾아 저장하는 것입니다. 초간단 웹문서(HTML) 만들기 메모장으로도 간단하게 HTML 문서를 만들 수 있는데요. 메모장을 켜 "Hello World!"라고 적어봅시다. 그리고 저장할 때 확장자.. 이전 1 2 3 4 다음