08_Ch3 - 제3장: Frequency Table and Graphical...

Info iconThis preview shows pages 1–9. Sign up to view the full content.

View Full Document Right Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon

Info iconThis preview has intentionally blurred sections. Sign up to view the full version.

View Full DocumentRight Arrow Icon
This is the end of the preview. Sign up to access the rest of the document.

Unformatted text preview: 제3장: Frequency Table and Graphical Presentation of Data ☞ frequency distributions: one way of summarizing the values you observe among a batch of numbers. 3.1 도수분포표: Grouping data into frequency distribution table ☞ 대상 자료의 수가 많을 때, 자료의 특성을 일정한 간격을 가지는 표로 재정리, 요약하는 방법 3.1.1 도수분포표를 만드는 절차 (Grouping rules) ⑴ decide how many classes to use (3.1.1.1 참조) ⑵ determine the class interval (3.1.1.2 참조) ⑶ set up the classes (3.1.2 예제 참조) ⑷ count the number of values that goes into each class 3.1.1.1 계급의 수 (How many classes? ): 다음의 네 가지를 종합적으로 고려하여 적절한 계급의 수 k를 설정. ① between 4 and 20 ② 2k > n ③ k ≃ 1 +3.3 log 10 n ④k ≃ n 10 ☞ 위의 네 가지 방법 중 어느 방법이 가장 낫다고 할 수 있는 것은 없다. 네 가지 기준 중 연구자가 판단하여 알맞다고 여겨지는 k를 결정한다. 또한 ungrouped data의 평균을 구해 가장 근접한 평균값을 제공하는 k를 선택하는 방법도 있다. 3.1.1.2 계급의 구간 (Find class interval) -c> r (여기에서 r은 범위(최댓값-최솟값)이고 k는 3.1.1.1에서 정한 계급의 수) k 8 28 11 10 2 3 0 3 7 20 7 8 4 7 4 1 4 10 13 11 2 6 13 9 8 10 3.1.2 예제: 한 주일 동안에 특정 홈페이지를 방문하는 횟수를 조사한 결과는 다음과 같다. (n=50, min=0, max=34) 7 5 5 6 4 14 10 18 13 15 7 16 12 30 7 11 8 27 8 14 34 8 15 10 ⑴ ① 4와 20 사이 6 ②2 = ③ k ≃ 1 +3.3log 10n ④k ≃ ⑵c> ⑶⑷ = 64 > 50; so k=6 1 +3.3log 1050 = 1 +3.3(1.699) = 6.6 ;so k = 7 n 10 = 50 10 = 5 ⇐ k 이러한 네 가지를 고려하여 k=6으로 결정 ∴c = 6 (Fi) 누적빈도 12 35 44 46 48 50 (계급구간) class boundary -.5 to 5.5 5.5 to 11.5 11.5 to 17.5 17.5 to 23.5 23.5 to 29.5 29.5 to 35.5 (lower limit, upper limit) r k = 34 = 5.6 6 (f i) 빈도 12 23 9 2 2 2 ( mi ) class midpoint(계급중앙값) 2.5 8.5 14.5 20.5 26.5 32.5 classes 05 6 - 11 12 - 17 18 - 23 24 - 29 30 - 35 ☞ 언제 grouped data를 사용할 것인가를 이해하는 것이 중요! ☞ class boundary의 lower limit와 upper limit는 주로 histogram을 그릴 때 사용하고, midpoint는 grouped data의 descriptive statistic을 구할 때 사용한다. 3.2 Summary measure of grouped data ⑴ mean: x= ∑ mif i i =1 k k = {(2.5)(12)+(8.5)(23)+(14.5)(9)+(20.5)(2)+(26.5)(2)+(32.5)(2)}/50 = 10.3 k ∑ fi i =1 ⑵ biased variance: ˆ2 s = ∑ (mi - x)2f i i =1 f ∑i k , 여기에서 ∑f i = n = total sample size임. = {(2.5-10.3)2(12)+(8.5-10.3)2(23)+…+(32.5-10.3)2(2)}/50 = 2682 / 50 = 53.64 2 ⑶ unbiased variance: s = ∑ (mi - x) 2f i i =1 ∑f i -1 = 2682 / 49 = 54.7347 ☞ 과제 3.1: ⑴ 위 예제를 이용하되 class 수를 7개로 해서 frequency table을 작성할 것! ⑵ 평균과 편의분산, 불편분산, 편의표준편차, 불편표준편차를 계산하되 부호, 공식과 계산 과정을 다 보일 것! 3.3 Graphical presentation of frequency: Ungrouped data 3.3.1 자료의 4가지 表示方法 ☞ absolute(절대) vs. cumulative(누적) frequency absolute(절대) vs. relative(상대) frequency ⑴ Absolute frequency(絶對度數) ⑵ (Absolute) Relative frequency((絶對)相對度數) ⑶ Cumulative (absolute) frequency(累積(絶對)度數) ⑷ Cumulative relative frequency(累積相對度數) (예제) A 동아리 구성원의 학년 x = {3, 4, 2, 3, 2, 4, 3, 2, 3, 1} x 1 2 3 4 1 3 4 2 fi 1 4 8 10 Fi fi/n 1/10 3/10 4/10 2/10 Fi/n 1/10 4/10 8/10 10/10 ☞ 절대도수는 개별도수로 fi로 표시하고, 누적도수는 그 값까지의 전체도수를 누적한 값으로 Fi로 표시한다. ☞ 절대도수이던 누적도수이던 Y-축의 단위를 절대도수 또는 백분율이나 비율로 나타내는 상대도수로 표시할 수 있다. 3.3.2 절대도수를 이용한 도표: Graphs for the absolute frequency ⑴ 散點圖 또는 산포도(Scatterplot; or plot): 각 변의 값을 X-축, 각 값의 절대(또는 상대)도수를 Y-축으로 각 계급중앙값과 도수를 점으로 대응시킨 도표. 산점도는 수집된 자료의 분포형태를 알아보기 위해 분석 초기에 가장 많이 사용되는 방법이다. ⑵ 度數多角形((Frequency) polygon): 산점도의 각 계급구간의 중앙값과 도수를 대응시킨 점을 선으로 연결하고 양끝을 닫은 도표. 일명 꺽은선 그림표라고도 한다. ⑶ 막대그림표(Bar-chart): 일반적으로 이산변수의 경우 각 변수 값의 빈도를 높이로 표시해 주는 도표이다. 산점도의 점을 수직으로 X-축까지 연결한 도표. ⑷ 히스토그램(Histogram): 일반적으로 연속변수를 위한 도표로서 각 값의 계급하한값(Class lower limit)과 계급상한값(Class upper limit)을 포함하는 면적을 이용하여 X-축까지 연결한 도표. fi 5 4 3 2 1 ・ ・ ・ ・ 학년 012345 ⒜ 절대도수를 이용한 산점도 5/10 4/10 3/10 2/10 1/10 fi/n ・ ・ ・ ・ ・ ・ 학년 0 1 2 3 4 5 ⒝ 상대도수를 이용한 도수다각형 (점들을 선으로 연결하고 양끝을 닫을 것) fi/n 1.0 .8 .6 .4 .2 ❙ 01234 ⒞ 상대도수를 이용한 바차트 fi 5 4 3 2 1 학년 01234 학년 ⒟ 절대도수를 이용한 히스토그램 ☞ 막대그림표와 히스토그램의 차이 막대그림표는 단순히 높이만을 보여주는 것이 목적이나 histogram은 면적을 보여주는 의미도 포함한다. 대부분의 경 우 일정 구간에서 특정한 값만을 가질 수 있는 이산변수(discrete variable)인 경우에는 막대그림표를, 일정 범위 내에서 어느 값이던지 가질 수 있는 연속변수로 높이가 아닌 면적으로 나타내는 경우에는 histogram을 사용한다. 3.3.3 SPSS for Windows에서의 graphs for absolute frequencies ⒜ 절대도수를 이용한 scatter plot ⒝ 상대도수를 이용한 polygon ⒞ 상대도수를 이용한 bar chart ⒟ 절대도수를 이용한 histogram ☞ 위의 graph에서 잘못된 점은? ☞ Graph를 사용할 때 주의해야할 점은? 1. 용도에 가장 적합한 그래프로 나타내야 한다. 2. 그래프를 설명하는 제목 3. X-축과 Y-축의 단위를 명확히 표시 4. 최솟값과 최댓값의 위치 판단 4. 읽는 법에 대한 설명 (legend) 3.3.4 누적도수를 이용한 도표: Graphs for the cumulative frequency ⑴ 누적산포도 (cumulative scatter plot) ⑶ 누적막대그림표 (cumulative bar chart) ⑵ 누적꺽은선 그림표 (ogive) ⑷ 누적히스토그램 (step function) ⑴ 누적 산점도(cumulative plot): 각 변수의 값을 X-축, 각 값의 누적(또는 누적상대)도수를 Y-축으로 각 계급중앙값과 도수를 점으로 나타낸 도표. ⑵ 누적도수 다각형그림표(ogive): 산점도의 각 계급구간의 중앙값과 누적도수를 대응시킨 점을 선으로 연결한 도표 ⑶ 누적도수 막대그림표(cumulative bar chart): 각 변수의 값을 X-축에, 각 값의 누적도수를 Y-축으로 계급중앙값을 중심으로 누적도수를 막대로 나타낸 도표 ⑷ 누적도수 히스토그램(step function): 변수 각 값의 계급하한값(class lower limit)과 계급상한값(class upper limit)을 포함하는 면적으로 누적도수를 나타낸 도표. Fi 10 9 8 7 6 5 4 3 2 1 ・ 0 1 F i /n 10/10 9/10 8/10 7/10 6/10 5/10 4/10 3/10 2/10 1/10 ・ 학년 2 3 4 5 0 1 2 3 4 5 ⒜ 누적도수를 이용한 산점도 Fi/n 1.0 .9 .8 .7 .6 .5 .4 .3 .2 .1 0 12 ・ ・ ・ ・ ・ ・ 학년 ⒝ 누적상대도수를 이용한 누적 상대도수 다각형그림표 (위의 점을 선으로 연결하고 끝을 마무리) 3 4 학년 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 학년 ⒞ 누적상대도수를 이용한 막대그림표 ⒟ 누적(절대)도수를 이용한 누적도수 히스토그램 3.3.5 SPSS for Windows에서의 graphs for cumulative frequencies ⒜ 절대도수를 이용한 cumulative plot ⒝ 상대도수를 이용한 ogive ⒞ 상대도수를 이용 cumulative bar chart ⒟ 절대도수를 이용한 step function ☞ 잘못된 점은? 과제 3.2 다음은 표본 20명으로부터 얻은 경영대학원생의 은행 통장 숫자이다. 이 자료를 이용하여 ⑴ 절대도수와 ⑵ 상대도수 각각을 ⒜ 절대도수를 나타내는 4가지 방법과 ⒝ 누적도수를 나타내는 4 가지 방법을 이용하여 표시하시오. (모두 16개의 graphs) (자료를 그룹화하지 말고 ungrouped data로 처리할 것) {4, 4, 4, 2, 3, 1, 3, 6, 2, 7, 6, 7, 4, 3, 6, 3, 0, 2, 0, 1} 3.4 Computer를 이용하는 경우 유용한 도표들: SPSS/PC를 이용한 경우 3.4.1 Stem-and-leaf plot - 관찰치의 값의 자리 수에 따라 줄기(Stem)와 잎(Leaf)으로 나누어 각 변수의 분포를 나타내 주는 도표. 모양은 막대그림표와 비슷하나 히스토그램이나 막대그림표에 비해 실제 관찰치의 값을 더욱 자세하게 묘사해 주기에 실용성이 높다. Stem-and-Leaf Plot for SEX= Frequency 4.00 4.00 7.00 7.00 4.00 1.00 Stem width: Each leaf: Stem & Leaf 1 . 2378 2 . 6789 3 . 1244579 4 . 1157899 5 . 0224 6. 5 10.00 1 case(s) Stem-and-Leaf Plot for SEX= Frequency 3.00 2.00 8.00 11.00 6.00 3.00 Stem width: Each leaf: Stem & Leaf 1 . 678 2 . 27 3 . 02233477 4 . 11234566688 5 . 046678 6 . 224 10.00 1 case(s) <남자 나이의 stem-and-leaf plot> 3.4.1.1 또 다른 stem-and-leaf plot 표기방법 (예) count 2 4 4 7 9 11 13 (6) 11 10 6 5 2 1 stem 6 7 8 9 10 11 12 13 14 15 16 17 18 19 leaf 06 56 157 34 18 26 012588 5 5577 4 569 0 4 <여자 나이의 stem-and-leaf plot> ☞ Stem-and-leaf plot의 stem의 수: No of stems < 10 x log10n 예를 들어 n = 30이라면 10 x log1030 = 14.77이기에 stem의 수는 14개 이하로 하는 게 좋다. 3.4.2 Box-and-whisker plot (or box plot): 記述統計를 위한 圖表 Box-and-whisker plot은 box와 whisker를 이용하여 변수의 분포를 보여주는 도표로서 이상치의 유무를 파악하는데 중점을 둔 도표이다. 직사각형의 box는 lower fourth(FL)부터 upper fourth(FU)까지의 제사범위 (fourth-spread)를 나타내고, 그 box 안에 중위수의 위치를 표시한다. Whiskers는 fourth로부터 이상치가 아닌 값 중 최솟값과 최댓값까지를 표시한다. (제사범위에 대한 자세한 설명은 제2장의 설명 참조) F L = x' Trunc[ (n+ 1)/2] + 1 2 F U = x'' Trunc[ (n+ 1)/2] + 1 2 이러한 box plot을 이해하기 위해서는 앞에서 설명한 lower and upper fourth와 fourth-spread 이외에 inner fence와 outer fence와 adjacent values의 개념을 이해해야 한다. Inner fence는 [FL-1.5(FU-FL), FU+1.5(FU-FL)]의 두 값, outer fences는 [FL-3.0(FU-FL), FU+3.0(FU-FL)]의 두 값이다. inner fence: [FL-1.5(FU-FL), FU+1.5(FU - FL)] outer fence: [FL-3.0(FU-FL), FU+3.0(FU-FL)] Inner fences 내에 들어가는 값 중에서 가장 작은 값과 가장 큰 값을 인접값(adjacent value)이라고 하는데 인접값은 whisker의 양끝을 나타낸다. 또한 inner fence와 outer fence 사이의 값들을 가능성이 비교적 낮은 이상치(possible outlier)라 하고, outer fence 밖의 값들을 가능성이 비교적 높은 이상치(probable outlier)라 한다. 통계 package에 따라 fourth 대신에 quartile을 사용하는 경우가 있다. 이러한 경우에는 box가 하한사분위(first quartile)부터 상한사분위(third quartile)까지의 사분위범위(interquartile range)를 나타내기도 한다. fourth-spread와 사분위범위가 약간 다르기는 하지만 큰 차이는 없다. SPSS를 비롯한 대부분의 통계 package는 fourth를 이용한 box-plot을 보여주고, Minitab은 quartile을 이용한 box-plot을 보여준다. 대부분의 자료보다 아주 크거나 아주 작은 값인 이상치를 다루는데 제사범위(fourth-spread)가 사분위범위(interquartile range)보다 통계적 특성이 우월하고, 계산이 다소 쉬운 이점이 있다. 다음은 SPSS를 이용한 box-plot이다. ① 경영대학원생의 한달 용돈의 box plot x = {15, 42, 30, 30, 20, 18, 55, 100, 5, 10} x' = {5, 10, 15, 18, 20, 30, 30, 42, 55, 100} x" = {100, 55, 42, 30, 30, 20, 18, 15, 10, 5} 120 100 8 ' - lower fourth F L = x Trunc[ ( n + 1)/2] + 1 2 = x'3 = 15 80 60 '' - upper fourth F U = x 3 = 42 - fourth-spread = FU - FL = 42 - 15 = 27 40 20 0 - inner fence = [15 - 1.5(27), 42 + 1.5(27)] = [-25.5, 82.5] - outer fence = [15 - 3(27), 42 + 3(27)] = [-66, 123] - adjacent value = [5, 55] 10 -20 N= 한달용돈 ☞ lower adjacent value는 -25.5에 제일 가까운 값인 5이고, upper adjacent value는 82.5에 제일 가까운 값인 55이다. - possible outlier: 82.5와 123 사이에 있는 8번째 관찰치인 100 - probable outlier: outer fence인 123보다 큰 값으로 이 경우엔 없음. ② First example: 성별에 따른 나이 (outlier가 없는 경우) 70 60 ☞ 남자와 여자의 분포상의 차이점은? 두 box plot을 비교하여 보면 두 분포의 차이를 쉽게 알 수 있다. 50 40 30 20 10 ③ Another example (Outlier가 있는 경우) 40 ☞ 기술통계 평균 중위수 최솟값 최댓값 사분위범위 하한사분위 상한사분위 제사범위 lower fourth upper fourth 왜도 첨도 남자 31.74 31.00 23.00 38.00 8.00 28.00 36.00 7.00 28.50 35.5 -.185 -1.013 여자 28.27 28.00 25.00 36.00 3.00 26.00 29.00 3.00 26.00 29.00 1.367 1.533 나이 0 N= 27 33 남자 여자 성별 38 4 8 35.5 32 29 28 26 25 23.0 20 N= 27 17 이상치(값: 36; sample # 4 & 8) 이상치(값: 35; sample # 17) 이상치가 아닌 가장 큰 관찰치 (adjacent value) FU: upper fourth md: 중위수 FL: lower fourth 이상치가 아닌 가장 작은 관찰치 (adjacent value) 31 30 28.5 어께선 33 남자 여자 성별 (남자) FL: 28.5, FU: 35.5, fourth-spread = 7 inner fence = [28.5-1.5(7), 35.5+1.5(7)] = [18, 46] outer fence = [28.5-3(7), 35.5+3(7)] = [7.5, 56.5] (여자) FL: 26, FU: 29, fourth-spread = 3 inner fence = [26-1.5(3), 29+1.5(3)] = [21.5, 33.5] outer fence = [26-3(3), 29+3(3)] = [17, 35] 과제 3.4 다음 각 음식 600g에 들어있는 지방질 함유량(fat in grams)으로 box plot을 작성하되 모든 자료를 보이고 설명하라. 32 13 8 24 46 23 46 54 20 10 98 19 11 9 31 3.4.3. Box plot과 확률분포와의 관계 ⑴ 일반적으로 관찰되는 분포 ⑵ 분포에 따른 Box-and-Whisker plot의 모양 ⒜ 정규분포의 경우 ⒝ Skewed to the left 경우 ⒞ Skewed to the right 경우 ⒟ 균일분포(uniform distribution)의 경우 ☞ Box plot과 분포의 모양과의 관계를 잘 익혀놓아 box plot만을 보고도 분포의 모양을 짐작할 수 있도록 해야... ...
View Full Document

Page1 / 9

08_Ch3 - 제3장: Frequency Table and Graphical...

This preview shows document pages 1 - 9. Sign up to view the full document.

View Full Document Right Arrow Icon
Ask a homework question - tutors are online