ความเห็น: 3
เว็บหกดาว
จากที่เขียนถึง Spam Test-Kit แบบบ้าน ๆ ทำให้นึกขึ้นได้ว่า เรามีวิธีประเมินคุณภาพของเว็บแบบเร่งรัดได้วิธีหนึ่ง ที่ผู้ดูแลระบบ น่าจะพอทำได้ และได้ผลแบบเป็นกลางพอสมควรโดยไม่ต้องมาเถียงว่าปั้นแต่งหลักฐานหรือเปล่า ให้โปร่งใส ตรวจสอบได้ โดยใช้ search engine สามารถให้ดาวในการประเมินได้เลย ว่า หนึ่งดาว สองดาว สี่ดาว หรือหกดาว
แนวคิดคือ ใช้ search engine มาช่วยสร้างตัวชี้วัด
ผมตั้งสูตรใช้เองดังนี้
1. ดูความดังว่าเป็นกี่ดาว ให้ใช้ค้นว่า search engine นั้น รู้จักกี่ link
ความดัง = (log ฐาน 10 ของ [จำนวน link ที่พบ + 1]) หาร 2
ที่มาคือ ถ้า search engine รู้จักเพียง 1 รายการ แสดงว่ายังไม่ดัง ควรได้ 0
รู้จัก 100 รายการ ได้ 1 ดาว
รู้จัก 10000 รายการ ได้ 2 ดาว
รู้จัก 1 ล้านรายการ ได้ 3 ดาว
รู้จัก 100 ล้านรายการ ได้ 4 ดาว
ในสมการ มีบวก 1 เพื่อไว้รองรับกรณีที่ไม่เจออะไรเลย จะคำนวณไม่ได้ ต้องใส่เลขหลอกไปนิดหนึ่ง ให้คำนวณได้
เช่น ผมอยากรู้ว่า web ไหนดังแค่ไหนใน google ผมก็ค้นว่า
site:ชื่อเว็บ
โดยชื่อเว็บ อาจใส่แค่นามสกุล
2. ดูระดับความสะอาดว่าเป็นกี่ดาว ให้ใช้ search engine ค้นว่า พบปัญหากี่หน้าใน web นั้น ๆ
วิธีค้นคือ ใน google ใช้
วลีไม่เหมาะสม + site:ชื่อเว็บ
ก็จะแสดงออกมา ว่ามีกี่รายการที่พบวลีไม่เหมาะสมนั้น (=จำนวนหน้าเว็บที่ส่อว่ามีปัญหา)
ระดับความสะอาด = log ฐาน 10 ของ (จำนวนหน้าทั้งหมดที่search engine รู้จักที่เกี่ยวกับ site นั้น หาร [จำนวนหน้าเว็บที่ส่อว่ามีปัญหา+1])
หากทุกหน้าที่ search engine รู้จัก เปื้อนด้วยเนื้อหาไม่เหมาะสม ได้ 0 ดาว
หากเนื้อหาไม่เหมาะสม คือ เป็น 1 ในสิบของจำนวนรายการทั้งหมด (เพียง 10 % ของจำนวนรายการ) ถือว่า ได้ 1 ดาว
หากเนื้อหาไม่เหมาะสม เป็น 1 ในร้อย ของจำนวนรายการทั้งหมด (เพียง 1 % ของจำนวนรายการ) ถือว่า ได้ 2 ดาว
หากเนื้อหาไม่เหมาะสม เป็น 1 ในพันของจำนวนรายการทั้งหมด (เพียง 0.1 % ของจำนวนรายการ) ถือว่า ได้ 3 ดาว
หากเนื้อหาไม่เหมาะสม เป็น 1 ในหมื่นของจำนวนรายการทั้งหมด (เพียง 0.01 % ของจำนวนรายการ) ถือว่า ได้ 4 ดาว
ดังนั้น ที่ 6 ดาว คือ รายการไม่เหมาะสม เจอแค่ 1 ในล้าน
ตัวอย่างดีกว่า จาก Spam Test-Kit แบบบ้าน ๆ พูดถึงสถิติปัญหาที่พบ content ไม่เหมาะสมแบบสแปมชวนรำคาญ
- site:.go.th = 295,000 หน้า (จาก 19,600,000 หน้า)
- site:.ac.th = 260,000 หน้า (จาก 52,300,000 หน้า)
- site:.moph.go.th = 20,700 หน้า (จาก 4,760,000 หน้า)
- site:.or.th = 26,700 หน้า (จาก 7,310,000 หน้า)
- site:.psu.ac.th = 11,700 หน้า (จาก 2,920,000 หน้า)
- site:.pharmacy.psu.ac.th = 6 หน้า (จาก 141,000 หน้า)
- site:share.psu.ac.th = 0 หน้า (จาก 126,000 หน้า)
ถ้าประเมินเรทติ้ง ว่าเป็นกี่ดาวตามสูตรข้างต้น จะได้ดังนี้
- .go.th ความดัง 3.7 ดาว ความสะอาด 1.8 ดาว
- .ac.th ความดัง 3.8 ดาว ความสะอาด 2.3 ดาว
- .moph.go.th ความดัง 3.3 ดาว ความสะอาด 2.3 ดาว
- .or.th ความดัง 3.4 ดาว ความสะอาด 2.4 ดาว
- .psu.ac.th ความดัง 3.2 ดาว ความสะอาด 2.4 ดาว
- .pharmacy.psu.ac.th ความดัง 2.5 ดาว ความสะอาด 4.3 ดาว
- .share.psu.ac.th ความดัง 2.6 ดาว ความสะอาด 5.1 ดาว
ยังไม่มีใครสะอาดถึงระดับหกดาวครับ แม้แต่วงแชร์
แต่ที่วงแชร์ได้เพียง 5.1 ดาว ไม่ใช่เพราะโดนปนเปื้อน แต่เพราะยังดังไม่พอ ถ้ามีเรทติ้งสูงกว่านี้ ความสะอาดจะเขยิบขึ้นไปได้อีก
ซึ่งการตีความตรงนี้ ก็ต้องระวัง เพราะผมใช้วลีคือ c_i_a_l_i_s ควบ v_i_a_g_r_a เป็นตัวประเมิน วลีนี้ ไม่ได้มาตรฐาน เป็นเพียงการสแกนแบบหยาบ ๆ ที่สะดวก แต่ถ้าจะประเมินเว็บที่ค่อนข้างสะอาด เกณฑ์นี้ อาจใช้ไม่ได้
ตัวอย่างเช่น ในเว็บ drug.pharmacy.psu.ac.th ซึ่งสะอาดเกิน 4 ดาวตามเกณฑ์นี้ ตามปรกติ จะมีคน post ไม่เหมาัะสมเข้ามา 1 ใน 10 ถึง 1 ใน 100 ดังนั้น ถือว่า ฝีมือคน จะทำให้สกปรกจนอยู่ที่ระดับ 1 - 2 ดาว โดยไม่ต้องมีวลีนี้เลยก็ได้
แต่ถ้าเป็นซอฟท์แวร์แปะสแปมอัตโนมัติ สแปมท่วมข้อมูลปรกติได้ ระดับความสะอาดตามสูตรข้างต้นจะติดลบ ทำให้ไม่มีดาวเหลือ
เราจึงต้องกลัวซอฟท์แวร์แปะสแปม เพราะมันอาละวาดได้น่ากลัวกว่า
หากกวาดทำความสะอาดให้เตียน ระดับ 4 ดาวนี่ น่าจะอยู่ในวิสัยที่พอทำได้ ไม่ยากนัก
นี่เป็นการประเมินแบบคร่าว ๆ โดยอาศัยวลีมีปัญหาเพียงวลีเดียว ทำเป็นระบบ ต้องใช้วลีตรวจสอบกันเยอะ และใช้ค่าต่ำสุดมานำเสนอ เช่น วลีไม่เหมาะสมที่ 1 ได้คะแนนความสะอาด 5.1 ดาว วลีที่ 2 ได้ 1.8 ดาว ก็ต้องถือว่า ความสะอาดที่แท้จริง ควรเป็น 1.8 ดาวเท่านั้น
Other Posts By This Blogger
- Older « Spam Test-Kit แบบบ้าน ๆ
- Newer » พรบ.วิธีพิจารณาคดีผู้บริโภค พ.ศ....
ความเห็น
สวัสดีครับ คุณ Conductor
- ขอบคุณครับ ที่อุตสาห์ข้ามน้ำข้ามทะเลมาอ่านถึงวงแชร์
- ยังสงสัยว่า google text mode จะนำมาประยุกต์ใช้แบบ batch file ได้หรือเปล่า เพราะคงเป็นสถิติที่น่าสนใจเมื่อมองในภาพใหญ่ระดับประเทศ...
![]() |
- ผมว่าเมืองไทยควรจะมี search engine ของตัวเองครับ ดูเหมือนเป็นการขี่ช้างจับตั๊กแตน แต่ว่าเราควรจะมีสิ่งที่ relevance กับการใช้งานของคนไทย ภาษาไทย และภาษาถิ่นทั้งหมด
- แล้วการค้นคว้า ก็จะง่ายและรวดเร็วขึ้นครับ
- ข้างบนนี้ รัฐอย่างยุ่ง (ขอร้อง เดี๋ยวเพี้ยน)
- การใช้ batch search กับ google ทำได้ง่ายครับ เขียนโปรแกรมนิดหน่อยเอง (ค้นเว็บในประเทศ)
"http://www.google.co.th/search?hl=th&cr=countryTH&sa=X&oi=spell&resnum=0&ct=result&cd=1&q=cialis+site%3Ago.th&spell=1"
แก้ตรง q= ตามสบายครับ แล้วส่ง http GET รับเอา HTML มากรองผลอีกที - สำหรับศิลปิน ก็ลองนี่ได้เลยครับ
25 กรกฎาคม 2551 15:11
#32738