ความเห็น: 1
คิดมาก ไม่คิดมาก เรื่องยาก เรื่องง่าย # 2 [C]
ความเดิมตอนที่แล้ว คิดมาก ไม่คิดมาก เรื่องยาก เรื่องง่าย#1
จากข้อมูล dim1x ที่เมื่อเราดู distribution ของข้อมูลแล้วพบว่า ผลจากการทดสอบด้วยวิธีการต่าง ๆนั้น มีแนวโน้มที่จะให้ผลการทดสอบไปในทางปฏิเสธสมมติฐานของการทดสอบ หรือ ค่า p-value จากการทดสอบลู่เข้าหาศูนย์เกือบทั้งหมด ยกเว้นผลจากการทดสอบด้วยวิธี Robust Jarque Bera Test ที่ให้ผลการทดสอบไปในทิศตรงข้ามกับการทดสอบด้วยวิธีอื่น ๆ
เมื่อตรวจสอบการกระจายของข้อมูลโดยการใช้ plot ต่าง ๆ พบว่าการกระจายของข้อมูลไม่ได้เบี่ยงเบนออกจากข้อมูลที่มีการกระจายแบบปกติ (normal distribution/ Gaussian distribution) มากนัก และเมื่อดูผลจาก qqnorm plot พบว่าข้อมูลชุดนี้มีลักษณะของข้อมูลที่เป็น tile หรือข้อมูลชุดนี้มีค่าซ้ำ ๆ กันอยู่หลาย ๆ ค่า
จากข้อมูลทั้งหมด 439 ค่า
> length(dim1x)
[1] 439
dim1x เป็นวัตถุที่เป็น numeric vector ใน R
> class(dim1x)
[1] "numeric"
> is.vector(dim1x)
[1] TRUE
จาก qqnorm ของ dim1x
จะเห็นข้อมูลที่เป็น tile ค่อนข้างชัด
หรือเมื่อเราตรวจสอบการกระจายของข้อมูลด้วย stem and leaf plot เราจะเห็นการกระจายของข้อมูลชัดเจนยิ่งขึ้น
> stem(dim1x)
The decimal point is at the |
19 | 00000000
20 | 00000000000000000
21 | 0000000000000000000000000000000000
22 | 0000000000000000000000000000000000000000000000000
23 | 00000000000000000000000000000000000000000000000000000000000000000000+8
24 | 00000000000000000000000000000000000000000000000000000000000000000000+32
25 | 00000000000000000000000000000000000000000000000000000
26 | 0000000000000000000000000000000000
27 | 000000000000000000000000000
28 | 000000000000
29 | 00000
stem and leaf plot ก็ประมาณเดียวกับ histogram ครับ คือแบ่งข้อมูลออกเป็น stem และ leaf ดูว่า leaf แต่ละ leaf มีอะไรบ้าง
จาก stem and leaf ข้างต้นจะเห็นว่า ข้อมูลส่วนใหญ่จะมีค่าซ้ำ ๆ กัน โดยค่าที่มีค่าซ้ำกันมากที่สุดคือ 24.0 รองลงมาคือ 23.0
หรือเมื่อดูจากตารางแจกแจงความถี่จะได้เป็น
> table(dim1x)
dim1x
19 20 21 22 23 24 25 26 27 28 29
8 17 34 49 88 112 53 34 27 12 5
หรือเมื่อ summary dim1x จะพบว่า
> summary(dim1x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
19.00 23.00 24.00 23.72 25.00 29.00
ข้อมูลอยู่ในช่วง 19.0 - 29.0 เท่านั้น แต่มีจำนวนข้อมูลถึง 439 ค่า
เราดูเฉพาะค่าที่ไม่ซ้ำกันของข้อมูลจะพบว่า
> unique(dim1x)
[1] 25 22 23 24 21 27 20 29 26 19 28
> length(unique(dim1x))
[1] 11
หรือดูจากผลของ table(dim1x) ก็ได้
จากข้อมูลทั้งหมด 439 ข้อมูล มีข้อมูลที่มีค่าไม่ซ้ำกันอยู่แค่ 11 ค่าเท่านั้นเอง
หากเราลองตรวจสอบการกระจายของข้อมูลที่ไม่ซ้ำกันทั้ง 11 ค่าด้วยวิธีการทดสอบที่ผ่านมาจะได้ผลเป็นอย่างไร
> udim1x <- unique(dim1x)
> stem(udim1x)
The decimal point is 1 digit(s) to the right of the |
1 | 9
2 | 01234
2 | 56789
> boxplot(udim1x, main="boxplot of udim1x")
> hist(udim1x, prob=T,ylim=c(0,0.18))
> curve(dnorm(x,mean(udim1x),sd(udim1x)),add=T,lwd=2, col="red")
> plot(ecdf(udim1x))
> qqnorm(udim1x, col="blue")
> qqline(udim1x, col="red", lwd=2)
จาก qqnorm & qqline plot จะเห็นว่ามีเพียงค่าแรกและค่าสุดท้ายเท่านั้นที่อยู่ห่างจากเส้นสมมติสีแดง (เส้น qqline)
ลองทดสอบด้วยวิธีการทดสอบทางสถิติวิธีต่าง ๆ
> shapiro.test(udim1x)
Shapiro-Wilk normality test
data: udim1xW = 0.96839, p-value = 0.8698
> AndersonDarlingTest(udim1x)
Anderson-Darling test of goodness-of-fit Null hypothesis: uniform distribution
data: udim1xAn = Inf, p-value = 5.455e-05
> CramerVonMisesTest(udim1x)
Cramer-von Mises normality test
data: udim1xW = 0.018921, p-value = 0.9704
> ShapiroFranciaTest(udim1x)
Shapiro-Francia normality test
data: udim1xW = 0.98523, p-value = 0.9902
> JarqueBeraTest(udim1x)
Robust Jarque Bera Test
data: udim1xX-squared = 0.4944, df = 2, p-value = 0.781
> ks.test(udim1x, "dnorm", mean(udim1x), sd(udim1x), alternative="two.sided")
One-sample Kolmogorov-Smirnov test
data: udim1xD = 0.96139, p-value < 2.2e-16alternative hypothesis: two-sided
> ks.test(udim1x, "rnorm", mean(udim1x), sd(udim1x), alternative="two.sided")
One-sample Kolmogorov-Smirnov test
data: udim1xD = 25.395, p-value < 2.2e-16alternative hypothesis: two-sided
> LillieTest(udim1x)
Lilliefors (Kolmogorov-Smirnov) normality test
data: udim1xD = 0.09039, p-value = 0.9987
> PearsonTest(udim1x, n.classes=6, adjust=TRUE)
Pearson chi-square normality test
data: udim1xP = 0.45455, p-value = 0.9288
ผลจากการทดสอบด้วยวิธีการทางสถิติเกือบทุกวิธีการทดสอบให้ค่า p-value ของการทดสอบลู่เข้าหา 1 ยกเว้นการทดสอบด้วย KS Test ( Kolmogorov-Smirnov test) และ Anderson-Darling test เท่านั้นที่ยังให้ผลการทดสอบออกมาเหมือนเดิมคือค่า p-value จากการทดสอบยังลู่เข้าหา 0 เช่นเดิม
ข้อมูลชุดนี้ ไม่ได้เป็น ratio scale แท้ ๆ แต่เป็นข้อมูลที่เกิดจากผลรวมของ ordinal scale ดังนั้น เราจะพบข้อมูลที่มีลักษณะเป็น tile หรือมีข้อมูลที่มีค่าซ้ำกันจำนวนมากในข้อมูลชุดนี้
นิทานเรื่องนี้สอนให้รู้ว่า
..............
อิอิอิ
เราเอง
เพลง: บางเงา
ศิลปิน: มาลีฮวนน่า
30 July 2015 16:19
#103547
นิทานเรื่องนี้สอนให้รู้ว่า มีเลขแค่สิบเอ็ดตัวก็ทำให้เป็นสี่ร้อยกว่าๆค่าได้ แถมคิดอะไรต่ออะไรได้อีกมากมายทีเดียวเจียว...