22-04-13 (통계학)
[1장] - 강조하신 것 빨간색 (시험에 나온다 하신것)
모집단과 표폰
원소 - element
변수 - variable
관찰값 - observation
데이터세트 - dataset
표본 추출 방법
복원 추출
비복원 추출 (외울 필요는 없다)
전수조사
표본조사
대표표본
단순랜덤표본
측정
1) 명목척도(nominal scale) : 분류에 목적이 있는 척도 ex)성별, 국적별, bar chart
2) 순서척도(ordinal scale) : 순서 부여에 목적이 있는 척도 ex) 대소관계 가능
3) 구간척도 (interval scale) : 일정한 구간의 개수만큼 나타나는 경우 ex)길이, 무게 섭씨 혹은 화씨 온도 --> 히스토그램 (+,-연산가능)
4) 비율척도 (ratio scale) : 일정한 양의 비례로 표현되는 경우 (x,/ 연산가능) , [절대온도(켈빈온도), 길이와 무게는 구간척도인 도잇에 비율척도 이다. ]
양적변수 (quantitative variable). --> interval or ratio
숫자로 표현될 수 있는 변수
1) 이산형 (discrete type) : 헤아릴 수 있는 값을 가지는 양적 변수로 주로 정수값을 가짐. (가구당 자동차 보유대수)
2) 연속형 (continuous type) : 주어진 구간에서 임의의 값을 가질 수 있는 변수로 실수값을 가짐. (사람의 키, 몸무게)
질적 또는 범주형 변수 (qualitativie or cateforical variable) -->nominal scale
2가지 이상의 범주로 나누어 측정하며 관찰된 횟수로 분석이 가능한 변수
예) 성별, 혈액형
'편의'와 '정도'
편의 : 참값과 얼마나 관련 되어 있는가 (편의가 크면 참값과 먼 값, 편의가 작으면 참값과 가까운 값), 또 고려사항 치우침이 있는가? 치우침이 있으면 편의가 있는 것이다.
정도 : 얼마나 서로 유사한가
측정의 타당성과 신뢰성
타당성 : 측정된 데이터가 주어진 목적에 적합한가
신뢰성 : 측정값이 얼마나 일관성 있게 얻어지는가?
막대그래프와 히스토그램
막대그래프는 nominal scale 이기 때문에 붙이거나 떼거나 가능하다.
히스토그램은 interval scale (구간척도) 이기 때문에 값이 연속적이라 붙이거나 떼거나 불가능하다.
표본오차
편의추출 --> 참값을 얻을 수 없는 추출 방법이다.
비표본오차(nonsampling Error ) : 무응답오차, 응답오차, 처리오차
표본 조사 방법 (글자색 다르게 한 이유? 내가 외우고 싶어서)
단순랜덤추출법(SRS : Simple Random Samplilng) : 모집단 N개 , 표본 n개 , 모든 원소들이 표본으로 뽑힐 가능성이 동일, 난수표 이용
단점 : 모집단이 동질이 아니면 편의가 일어날 가능성이 많다.
계통 추출법 (systematic sampling) : 모집단 N을 n 개 구간으로 나누어서 , 그 구간내에서 추출
단점 : 주기적으로 일어나는 제품 생산의 경우 , 표본으로서의 대표성이 문제가 될 수 있다.
집락 추출법(cluster random sampling) : 모집단을 몇 개의 집락으로 구성 , 모집단이 비동질이나 각 원소는 동질인 경우
예) 서울시내 가구를 대상으로 조사 --> 서울시 25개의 구 중에서 5개의 구 , 각 구에서 4개의 동, 각 동에서 50개의 가구
구 , 동, 가구 등 각 원소는 동질이다.
층화추출법 (stratified random sampling) : 모집단이 이질적 원소들로 구성되어 있을 때, 유사한 것끼리 층을 나눈후 각 층에서 SRS
집락 추출법 vs 층화추출법
집락추출법 : 집단 내에서 이질적이고 집단 간 차이가 동질적 --> 1반 군집, 2반 군집 .. 한 군집 내 1학년부터 3학년 포함 --> 집단 내 원소끼리 비동질
층화추출법 : 집단 내에서 동질적 집단 간 차이가 이질적 -> 1학년, 2학년, 3학년, 집단 내에 같은 학년 끼리 있으니 동질, 하지만 집단 간 차이는 학년 별로 차이가 있으니 비동질
[2주]
표와 그림을 통한 자료의 요약 ( 자료 조직화 & 표현 방법 , 도수분포표 작성 방법 , 그래프와 히스토그램 줄기와 잎 그림)
확률번수(random variable) Xi : 변수의 값이 확률적으로 정해지는 변수
확률분표 (probability distribution) : 확률변수의 다양한 값들이 갖는 흩어진 모양
일변량 ,이변량, 다변량 데이터 : ex) (키, 몸무게 ) , (경도,위도,고도)
표(table) : 주로 질적인 데이터의 요약에 사용된다.
도수 (frequency) : 데이터 에서 그 값이 나타난 횟수
상대도수 (relative frequency) : 전체 데이터 수에 대한 도수의 비율
누적상대도수 (Cumulative relative frequency)
도수분포표 (frequency table)
질적 데이터의 그래프 표현
막대 그래프 : 명목척도 , 항목끼리 붙거나 떨어져도 관계 없다. 막대의 넓이는 도수의 비율을 정확히 반영해야 한다.
막대그래프는 세로로 그려도 문제가 되지 않는다.
원그림 (pie chart) : 변수 별 데이터의 비율을 나타낸다.
양적 데이터 정리
계급(class) : 양적 자료에 대해 상한값과 하한값 사이에 들어가는 모든 값을 포함하는 구간
계급 경계값 : 계급의 상한값(포함), 다음 계급의 하한값(불포함)
계급 크기 (class size) : 상한 경계값에서 하한 경계값을 뺀 값
계급 중앙값 (class midpoint) : 계급의 중앙값으로 하한값에서 계급크기의 반을 더한 값
도수 분포표 작성
1)계급의 수 : 자료의 수에 따라 사용자가 임의로 결정 (아 민트색 보기 싫다.. 잘못 고른듯ㅋ)
2) 계급 크기 : (가장 큰 값 - 가장 작은 값)/ 계급의 수 (편의상 소수점 다 떼어버려도 된다. )
3) 하한값 혹은 시작점 : 자료의 가장 작은 값이나 혹은 더 작은 값을 첫번째 계급의 하한값을 사용
막대그래프 : 간격 있다. nominal scale
히스토그램 : 간격 없다. 구간별로 항목 바뀜 interval scale, ordinal scale
히스토그램
가로축에 각 계급을, 세로축에 도수 , 상대도수, 퍼센트 혹은 백분위를 나타낸다.
1. 막대의 폭 일정
2. 양적 데이터는 순서가 있다. --> 순서 못 뒤집는다.
도수다각형(frequency polygon)
히스토그램의 각 막대의 중앙을 직선으로 서로 연결한 그래프
도수분포곡선 (frequency distribution curve) : 자료가 많아지고 계급의 수가 증가하게 되면 도수분포곡선이 된다.
도수다각형 vs 꺾은선 그래프
도수다각형 : 히스토그램의 중간값
꺾은선 그래프 : 시간에 따른 데이터 변화
꺾은선 그래프 (line graph) --> x축에는 항상 시간이 온다. (시간 축 간격 일정해야 함)
레이더 차트 (별 그림 star plot) : observation에 대해 영역별 비교하기에 용이하다.
막대그래프를 분포의 모양으로 볼 수 없는 이유 --> 이런게 시험에 나온다.
막대그래프의 특성을 알면 대답할 수 있다. 막대 그래프는 nominal scale 이기 때문에
히스토그램 그릴 때 주의 사항
구간/비율 척도로 측정한 데이터를 나타낸다. (interval scale. ratio scale)
- 가로축에 나타나는 값끼리는 붙어야 한다. (떨어져 있어 막대의 높이가 0 이면 도수가 0)
- 막대의 높이는 도수의 비율을 정확히 반영
-분포(데이터의 흩어진 모양)을 볼 수 있다.
시험에 나오는 유형 : 그래프 보여주고 , 이 그래프의 잘못된 점 찾아라. (비판하라)
나이팅게일 그래프 잘못된 점 : 실제로는 거리비에 따른 비율변화인데, 마치 면적에 따른 비처럼 사람들이 오해하기 쉽다.
줄기 잎 그림
1. 각 값을 두 부분(줄기부분, 잎부분) 으로 나눔
2. 줄기 부분들을 열방향으로 나열한 다음 오른 쪽에 수직선을 그어 줄기와 잎 구별
3. 각 값에 대해 , 줄기에 해당되는 잎 부분들 수직선 오른쪽에 나열
4. 각 줄기에서 잎부분을 가장 작은 수부터 가장 큰 수까지 정렬 --> sort 해야 하는 건 몰랐네
히스토그램의 모양과 분포 읽기
대칭 히스토그램(symmetric histogram): unimodal, bimodal
비대칭 히스토그램(skewed histogram) : skewed right (소득분포), skewed left
시간에 따른 변화는 Line chart 로만 그려야 한다.
누적도수분포곡선 -> 어떤 요인이 전체 분량 중 몇 퍼센트를 차지하는가?
파레토 차트 (pareto chart) : 정렬된 열과 누적 총 백분율을 나타내는 선이 모두 포함되어 있다.
그래프를 그릴 때는
1. 변량의 종류 따라 그릴 수 있는지 여부
2. 나타내고자 하는 내용이 무엇인지.
3. 축의 선정에 오류가 없는지.
4. 가로축과 세로축의 비율이 적정한지
5. 특히 세로축을 절단함으로써 생길 오류가 있는지 여부 확인
아ㅏㅏㅏㅏㅏㅏ 3주차 작성한 거 다 날려먹었다.. 실수로 뒤로 가기 눌렀따....
이제부터 티스토리에 글 안쓴다…
워드에 쓰고 옮겨 적을 거야..
[3] 기술통계
3.1 자료의 중심위치의 측도
3.2 자료의 산포도
3.3 집단화된 자료의 평균, 분산 표준편차
3.4 표준편차의 이용
3.5 상대적 위치의 측도
3.6 상자그림 ( Box plot)
분포의 중심위치 , 산포의 측도 객관적 대표 수리적 측도
3-1 자료의 중심위치의 측도
평균 (mean) : 산술평균을 의미
모평균 : 다 더해서 자료의 개수로 나눈 값
표본평균 : 표본을 다 더해서 , 표본의 개수로 나눈 값
가중 평균 : 각 측정값에 일정한 가중치 곱하여 평균을 구한 것
Ex) 성적평점평균 , 물가지수
모평균은 상수 이지만, 표본평균은 변수이다.
이상치 : 아주 큰 값이나, 아주 작은 값 절사평균 , 중앙값 사용 이유
중앙값 (median) : sorting 된 양적 자료에서 가운데 놓이는 값
n : 홀수 (n+1) / 2 번째의 값
n : 짝수 n/2 , n/2+1 번째의 값의 평균
최빈값(mode) : 빈도가 가장 많은 값. 최빈값이 없거나 하나 이상일 수 있다.
평균이나 중앙값은 단 하나의 값, 양적 자료에만 사용 가능
최빈값은 질적 자료나 양적 자료에 모두 사용될 수 있음
히스토그램 : 가장 도수가 높은 계급을 찾아 그 계급의 중간값을 최빈값으로 택함
평균, 중앙값, 최빈값의 관계 (히스토그램이나 도수분포 곡선)
Unimodal : 평균 = 중앙값 = 최빈값
Skewed right : 최빈값 < 중앙값 < 평균
Skewed left : 평균 <중앙값 < 최빈값
절사평균 (trimmed mean) : 가장 작은 값과 가장 큰 값을 제한 나머지의 평균
(문제 풀이를 통한 연습 필요)
산포 (dispersion) : 자료의 흩어짐에 대한 측도 (범위, 분산, 표준편차, 변동계수)
범위 (range) : 최대값 – 최소값
분산과 표준편차 : 평균을 중심으로 얼마나 퍼져있느냐 값이 클 수록 퍼져있음
모분산 : (xi-평균)의 제곱의 합/ 자료의 개수
표본분산 : (xi – 표본평균)의 제곱의 합/ 표본의 개수 -1
모표준편차 : 모분산의 양의 제곱근
표본표준편차 : 표본분산의 양의 제곱근
3-2 자료의 산포도
1. 분산과 표준편차는 음수가 될 수 없음
2. 자료들의 변동이 하나도 없으면 분산 , 표준편차 는 0
3. 분산의 단위는 원자료의 제곱
4. 표준편차의 단위는 원자료와 같다. 표준편차를 사용하는 이유
5. 모집단의 자료에서 계산된 평균,중앙값,최빈값, 범위, 분산, 표준편차와 같은 수리적 측도를 모수 (population parameter)라고 한다.
6. 표본자료에서 계산된 측도를 통계량 (statistic)이라고 한다.
7. 뮤와 시그마는 모수이고, 표본평균과 표본분산은 통계량이다.
변동계수 (coefficient of variation : CV)
자료값의 차이가 큰 경우, 측정 단위가 다른 경우 산포를 비교하려고 할 때 사용
변동계수 (모집단) : CV = 모표준편차 / 모평균 x 100%
변동계수 (표본집단) : CV = 표본표준편차 / 표본평균 x 100 %
예시 ) 회사 주별 매출실적 평균 2억원, 표준편차 0.3억원 , 월별 8억원, 표준편차 0.5 억원
주별 매출액의 변동 계수 = (0.3/2) *100 % = 15%
월별 매출액의 변동 계수 = (0.5/8)*100 % = 6.25 %
주별 매출액 변화 > 월별 매출액의 변화
3-3 집단화된 자료의 평균, 분산, 표준편차
집단화된 자료의 평균 : 합의 근사치를 구하여 집단화된 자료의 평균을 구함
모평균 : (각 계급의 중앙값 * 도수)의 합 / 도수의 합
표본평균 : (각 계급의 중앙값 *도수)의 합 / 표본의 개수
모분산 : (각 계급의 중앙값 – 모평균)의 제곱의 합 / 도수의 합
표본분산 : (각 계급의 중앙값 – 표본평균)의 제곱의 합 / 표본의 개수 -1
3-4 표준편차의 이용
체비셰프의 정리 (Chebyshev’s theorem)
평균과 표준편차를 이용하여 평균에 대해 주어진 구간에 들어가는 관측치의 비율을 구할 수 있다.
“어떠한 k>1에 대하여, 자료 중 적어도 100(1-1/k^2)가 평균으로부터 표준편차의 k배 이내에 있다.”
K=2 : 적어도 75% 가 표준편차의 2배 이내에 있음
K=3 : 적어도 89% 가 표준편차의 3배 이내에 있음
경험적 규칙(empirical rule) 데이터가 많으면 많을수록 정규분포를 따른다.
자료의 분포가 대칭적이고 종 모양인 경우,
1 표본표준편차 이내에는 68 % 포함됨
2 표본표준편차 이내에는 95% 포함됨
3 표본표준편차 이내에는 99% 포함됨
백분위수 (percentile) : 크기 순서로 나열한 자료를 100등분한 측도를 말함 (sorting 되어있어야한다)
백분위수 구하는 공식 : 1+ p(n-1) = k.t 이면 k 는 index이고, t는 index+1의 값과의 차 에 곱해준다.
3-5 상대적 위치의 측도
사분위수 (quartile) : 크기 순서에 따라 나열한 자료를 4등분한 측도
제 1 사분위수 : Q1
제 2 사분위수 : Q2
제 3 사분위수 : Q3
제 4 사분위수 : Q4
사분위범위 (IQR) : 제 3 사분위수와 제 1 사분위수의 차
IQR = Q3 – Q1
사분위수 구하는 예시
15명의 혈압강압제를 투약한 후 혈압
Q1 : 1 +0.25(15-1) = 4.5 Q1 = (4번째 값) + 0.5 *(5번째 값 – 4번째 값)
Q2 : 1+0.5(15-1) = 8 Q2 = 8번째 값
Q3 : 1+ 0.75(15-1) = 11.5 Q3 = 11번째 값 + 0.5(12번째 값 – 11번째 값)
IQR = Q3 – Q1
3-6 상자그림 (box plot) : 중앙값, 제 1사분위수, 제 3 사분위수, 아래 울타리 , 위 울타리 로 자료의 정보를 그림을 나타낸 것 (다섯자리 요약)
아래 울타리 Q1 – 1.5IQR
위 울타리 Q3 + 1.5IQR
명목척도 nominal scale 최빈값
순서척도 ordinal scale 중앙값
구간/비율 척도 (interval/ratio scale) 평균, 최빈값, 중앙값
편차의 합은 항상
전수조사의 경우 : 표본 = 모집단 표본평균 = 모평균 (n-1 n)
이상치에 영향을 받는다.
다섯 숫자 요약(five numbers summary)
최저(10%) – Q1-Q2-Q3-최대(90%)
제 100 p(o<=p<=1) 백분율(percentile)크기 순대로 했을 때 언제쓰는 거지? 백분위수 구하는 건 위랑 같은데
방법
표본의 크기 n
m : pxn 보다 크거나 같은 수 중 가장 작은 수
nxp : 정수가 아니면 m번째
nxp:정수(m 번째 +(m+1)번째 )/ 2
예시) n = 150
정수가 아닌 경우 :95 백분위수 : 150 * 0.95 =142.5
m =143 index 143번째인 수를 찾자
정수인 경우 : 90 백분위수 : 150 * 0.90 =135
m =135 135번째와 136번째 값의 평균
[4주] 확률 문제는 여기부터 풀면 되지 않을까?
불확실성을 평가하는 척도 확률
확률의 기초적 개념과 확률 계산 법칙
확률의 정의
1. 장기간에 걸친 상대도수 : P(A) = lim n(A)/n , n(A) : 사건 A의 횟수
순열 – N개 중 r 개를 뽑는 경우 N!/(N-r)!
조합 – N!/r!(N-r)! 순서는 무시됨
사상(event) : 표본공간의 부분집합을 공집합 혹은 어던 특성을 갖는 실험결과들의 모임
단순사상 : 표보공간을 구성의 개개의 결과들로 구성되는 사상
복합사상 : 실험에서 두 개 이상의 결과들의 모임 단순 사상들의 합사상
조건부확률
여사상
배반사상
독립사상
종속사상의 관계
배반사상 : 동시에 일어날 수 없는 사상 : A 교 B = 공집합이다.
1) 두 사상이 서로 배반이거나 독립일 때
1. 서로 배반사상은 항상 종속이다.
2. 독립사상은 결코 서로 배반이 아니다.
2) 종속사상들은 서로 배반일 수 도 있고 아닐 수도 있다.
독립사상 p(AB) = p(A)p(B) p(A|B) = p(B)
배반사상과 독립사상
결합확률(joint probability) : A와 B가 동시에 일어날 확률
확률의 곱의 법칙
P(AB)=P(A)P(B|A) = P(B)P(A|B)
두 배반사상의 합사상의 확률
P(AUB) = P(A) + P(B)
2-3베이즈 법칙 (문제를 풀어야한다 문제를.. 익숙해지자) 시험에 진짜 나옴
전확률 공식을 통한 값이 분모이고, 분자에는 궁금한 조건부 확률이 올라옴.
기대값
정의 : 각 결과에 확률을 곱하여 전부 합한 것이다. 기댓값이 많은 시행을 통해 평균값에 가까워진다 (대수의 법칙)
[5주] 이산확률변수 Discrete Random Variables
확률변수
확률분포의 개념과 평균, 표준편차
이항분포
포아송 분포
5-1 이산형 분포와 성질
확률변수 : 사전에 값을 알 수 없는 변수
이산형 확률변수 : 가지는 값이 정수로만 표현됨.
이산형 확률분포 함수
1. 0<= pi = p(Xi) <= 1
2. 모든 확률의 합은 1
확률분포가 아닌 것 골라내기 다 더해서 1이 아니면 된다. 혹은 확률 중 음수가 있으면 땡
이산확률 변수 계산은 쉽다.
p(x>2) = p(x>3) + p(x>4)
이산확률변수의 평균 또는 기댓값
뮤 = E(X) = xp *(x)의 합 어떤 랜덤한 상황에서 수치로 나타난 결과가 A이고, 확률이 P이면 기대값은 결과에 확률을 곱하여 전부 합한 것이다.
기대값 정의 : E(x) = A1P1 + A2P2 + …. AkPk
기대값의 성질 : a,b,c 상수인 경우
E( c ) =c
E(aX+b) = aE(X) +b
E(aX +/- bY) = aE(X) +/- bE(Y)
이산확률변수 확률분포함수
P(x) = nCr* P^x *(1-P)^(n-x)
분산
E(x-m)^2 = V(x) = E(x^2) –(Ex)^2 ( 즉, 제곱의 평균 – 평균의 제곱)
베르누이 확률변수 : 실패(0)과 성공(1) 만으로 결과를 표현한 확률변수
E(x) = p
v(x) = pq
이항 분포 : 매회 성공률이 p인 베르누이 실험을 독립적으로 n번 반복할 때 성공한 횟수 (x)의 확률분포를 모수 n과 p인 이항 분포라 함. 이산확률분포의 한 종류
X~B(n,p)로 나타냄
이항 분포의 확률질량함수
이항 분포의 평균 = np
이항 분포의 분산 = npq
이항 실험 판단 방법
1. n 번 반복되며 이 모든 반복은 동일한 조건에서 시행한다.
2. 매 시행은 두가지의 결과만을 가짐 (성공 , 실패)
3. 매번 시행에서 성공의 확률은 p 이고, 실패의 확률은 1-p 이다. 그 값은 상수이다.
4. 모든 실험은 독립이다.
기댓값 E(X)의 정의
E(X) = nCr * p^x * q ^(n-x)
포아송 분포 : 이산형
1. 주어진 구간에서 사건의 평균 발생 횟수는 구간의 시작점과는 관계가 없고, 구간의 길이에만 영향을 받으며 비례한다.
2. 발생은 랜덤이나, 한 순간에 2회 이상의 사건이 발생할 확률은 거의 0이다.
3. 발생은 독립이다.
4. X~p(X) = E(X) = V(X) 이게 성질
포아송 분포 적용 예시
1. 한 달 동안 고속도로에서 발생하는 교통사고 건수
2. 한 학기 동안 대학교에서 일어나는 도난 사건
평균과 분산이 같다.
공식 대입이 전부 인 듯 공식 외우고, 문제에 나온 람다 값 대입하고,
확률 구해준다.
포아송 분포와 이항분포의 관계
X~b(n,p) 에서 p가 대단히 작고 ,n 이 대단히 크면 이항확률분포는 근사적으로 포아송 분포
P(np)를 따름.
초기하 분포 문제가 있긴 한데, 후순위로 미루자.
N : 유한 모집단의 크기
r : 유한 모집단 내의 특정 원소의 수
N – r : 유한 모집단 내의 특정 원소가 아닌 개수
n : 표본의 개수
x : 표본 가운데 특정 원소의 수
n 번 시행해서 x 번 특정 원소를 포함할 확률
P(X=x) = (nCr * N-nC n-x)/NCr
[6주] Continuous Random variables
연속확률변수에 대한 확률분포
정규분포
1-1 연속확률 분포의 개념
연속형 확률 변수 (-무한대, + 무한대) ex) 시간, 거리 등 구간 혹은 비율 척도로 표현되는 모든 값
연속형인 경우 히스토그램으로 그 분포를 나타낸다. 히스토그램 면적의 합은 1
확률 분포 함수의 적분 값은 1이다.
정확히 하나의 확률의 값은 = 0 이다.
즉 P(x=160) = 0
연속 확률 변수
E(ax+b) = aE(x) + b
V(ax+b) = a^2 V(x)
표준정규분포 Z ~ N(0,1)
평균 0 , 분산 1 인 정규분포
X~N(m,시그마^2) Z = X-m/시그마 ~ N(0,1)
표준화 Z
[7주]
표본 분포 sampling distribution