นโยบายการจัดการความรู้ มหาวิทยาลัยสงขลานครินทร์ 1.ให้ใช้เครื่องมือการจัดการความรู้ผลักดัน คุณภาพคน และกระบวนทำงาน 2.ส่งเสริมการแลกเปลี่ยนประสบการณ์การทำงาน จากหน้างาน 3.ส่งเสริมให้มีเวทีเรียนรู้ร่วมกัน
อ่าน: 2231
ความเห็น: 3

เว็บหกดาว

จากที่เขียนถึง Spam Test-Kit แบบบ้าน ๆ ทำให้นึกขึ้นได้ว่า เรามีวิธีประเมินคุณภาพของเว็บแบบเร่งรัดได้วิธีหนึ่ง ที่ผู้ดูแลระบบ น่าจะพอทำได้ และได้ผลแบบเป็นกลางพอสมควรโดยไม่ต้องมาเถียงว่าปั้นแต่งหลักฐานหรือเปล่า ให้โปร่งใส ตรวจสอบได้ โดยใช้ search engine สามารถให้ดาวในการประเมินได้เลย ว่า หนึ่งดาว สองดาว สี่ดาว หรือหกดาว

 

แนวคิดคือ ใช้ search engine มาช่วยสร้างตัวชี้วัด

 

ผมตั้งสูตรใช้เองดังนี้

1. ดูความดังว่าเป็นกี่ดาว ให้ใช้ค้นว่า search engine นั้น รู้จักกี่ link

    ความดัง = (log ฐาน 10 ของ [จำนวน link ที่พบ + 1]) หาร 2

ที่มาคือ ถ้า search engine รู้จักเพียง 1 รายการ แสดงว่ายังไม่ดัง ควรได้ 0

รู้จัก 100 รายการ ได้ 1 ดาว

รู้จัก 10000 รายการ ได้ 2 ดาว

รู้จัก 1 ล้านรายการ ได้ 3 ดาว

รู้จัก 100 ล้านรายการ ได้ 4 ดาว

ในสมการ มีบวก 1 เพื่อไว้รองรับกรณีที่ไม่เจออะไรเลย จะคำนวณไม่ได้ ต้องใส่เลขหลอกไปนิดหนึ่ง ให้คำนวณได้ 

เช่น ผมอยากรู้ว่า web ไหนดังแค่ไหนใน google ผมก็ค้นว่า

            site:ชื่อเว็บ

โดยชื่อเว็บ อาจใส่แค่นามสกุล

 

2. ดูระดับความสะอาดว่าเป็นกี่ดาว ให้ใช้ search engine ค้นว่า พบปัญหากี่หน้าใน web นั้น ๆ

วิธีค้นคือ ใน google ใช้

        วลีไม่เหมาะสม + site:ชื่อเว็บ

ก็จะแสดงออกมา ว่ามีกี่รายการที่พบวลีไม่เหมาะสมนั้น (=จำนวนหน้าเว็บที่ส่อว่ามีปัญหา)

ระดับความสะอาด = log ฐาน 10 ของ (จำนวนหน้าทั้งหมดที่search engine รู้จักที่เกี่ยวกับ site นั้น หาร [จำนวนหน้าเว็บที่ส่อว่ามีปัญหา+1])

หากทุกหน้าที่ search engine รู้จัก เปื้อนด้วยเนื้อหาไม่เหมาะสม ได้ 0 ดาว

หากเนื้อหาไม่เหมาะสม คือ เป็น 1 ในสิบของจำนวนรายการทั้งหมด (เพียง 10 % ของจำนวนรายการ) ถือว่า ได้ 1 ดาว

หากเนื้อหาไม่เหมาะสม เป็น 1 ในร้อย ของจำนวนรายการทั้งหมด (เพียง 1 % ของจำนวนรายการ) ถือว่า ได้ 2 ดาว

หากเนื้อหาไม่เหมาะสม เป็น 1 ในพันของจำนวนรายการทั้งหมด (เพียง 0.1 % ของจำนวนรายการ) ถือว่า ได้ 3 ดาว

หากเนื้อหาไม่เหมาะสม เป็น 1 ในหมื่นของจำนวนรายการทั้งหมด (เพียง 0.01 % ของจำนวนรายการ) ถือว่า ได้ 4 ดาว

ดังนั้น ที่ 6 ดาว คือ รายการไม่เหมาะสม เจอแค่ 1 ในล้าน

 

ตัวอย่างดีกว่า จาก Spam Test-Kit แบบบ้าน ๆ พูดถึงสถิติปัญหาที่พบ content ไม่เหมาะสมแบบสแปมชวนรำคาญ

  • site:.go.th = 295,000 หน้า (จาก 19,600,000 หน้า)
  • site:.ac.th = 260,000 หน้า (จาก 52,300,000 หน้า)
  • site:.moph.go.th = 20,700 หน้า (จาก 4,760,000 หน้า)
  • site:.or.th = 26,700 หน้า (จาก 7,310,000 หน้า)
  • site:.psu.ac.th = 11,700 หน้า (จาก 2,920,000 หน้า)
  • site:.pharmacy.psu.ac.th = 6 หน้า (จาก 141,000 หน้า)
  • site:share.psu.ac.th = 0 หน้า (จาก 126,000 หน้า)

 ถ้าประเมินเรทติ้ง ว่าเป็นกี่ดาวตามสูตรข้างต้น จะได้ดังนี้

  • .go.th ความดัง 3.7 ดาว ความสะอาด 1.8 ดาว
  • .ac.th ความดัง 3.8 ดาว ความสะอาด 2.3 ดาว
  • .moph.go.th ความดัง 3.3 ดาว ความสะอาด 2.3 ดาว
  • .or.th ความดัง 3.4 ดาว ความสะอาด 2.4 ดาว
  • .psu.ac.th ความดัง 3.2 ดาว ความสะอาด 2.4 ดาว
  • .pharmacy.psu.ac.th ความดัง 2.5 ดาว ความสะอาด 4.3 ดาว
  • .share.psu.ac.th ความดัง 2.6 ดาว ความสะอาด 5.1 ดาว

ยังไม่มีใครสะอาดถึงระดับหกดาวครับ แม้แต่วงแชร์

แต่ที่วงแชร์ได้เพียง 5.1 ดาว ไม่ใช่เพราะโดนปนเปื้อน แต่เพราะยังดังไม่พอ ถ้ามีเรทติ้งสูงกว่านี้ ความสะอาดจะเขยิบขึ้นไปได้อีก

ซึ่งการตีความตรงนี้ ก็ต้องระวัง เพราะผมใช้วลีคือ c_i_a_l_i_s ควบ v_i_a_g_r_a เป็นตัวประเมิน วลีนี้ ไม่ได้มาตรฐาน เป็นเพียงการสแกนแบบหยาบ ๆ ที่สะดวก แต่ถ้าจะประเมินเว็บที่ค่อนข้างสะอาด เกณฑ์นี้ อาจใช้ไม่ได้

ตัวอย่างเช่น ในเว็บ drug.pharmacy.psu.ac.th ซึ่งสะอาดเกิน 4 ดาวตามเกณฑ์นี้ ตามปรกติ จะมีคน post ไม่เหมาัะสมเข้ามา 1 ใน 10 ถึง 1 ใน 100 ดังนั้น ถือว่า ฝีมือคน จะทำให้สกปรกจนอยู่ที่ระดับ 1 - 2 ดาว โดยไม่ต้องมีวลีนี้เลยก็ได้

แต่ถ้าเป็นซอฟท์แวร์แปะสแปมอัตโนมัติ สแปมท่วมข้อมูลปรกติได้ ระดับความสะอาดตามสูตรข้างต้นจะติดลบ ทำให้ไม่มีดาวเหลือ

เราจึงต้องกลัวซอฟท์แวร์แปะสแปม เพราะมันอาละวาดได้น่ากลัวกว่า

หากกวาดทำความสะอาดให้เตียน ระดับ 4 ดาวนี่ น่าจะอยู่ในวิสัยที่พอทำได้ ไม่ยากนัก

นี่เป็นการประเมินแบบคร่าว ๆ โดยอาศัยวลีมีปัญหาเพียงวลีเดียว ทำเป็นระบบ ต้องใช้วลีตรวจสอบกันเยอะ และใช้ค่าต่ำสุดมานำเสนอ เช่น วลีไม่เหมาะสมที่ 1 ได้คะแนนความสะอาด 5.1 ดาว วลีที่ 2 ได้ 1.8 ดาว ก็ต้องถือว่า ความสะอาดที่แท้จริง ควรเป็น 1.8 ดาวเท่านั้น

 

หมวดหมู่บันทึก: วิจัย - วิจัยสถาบัน
สัญญาอนุญาต: สงวนสิทธิ์ทุกประการ Copyright
สร้าง: 25 กรกฎาคม 2551 09:01 แก้ไข: 04 ธันวาคม 2551 19:44 [ แจ้งไม่เหมาะสม ]
ดอกไม้
สมาชิกที่ให้กำลังใจ
 
Facebook
Twitter
Google

บันทึกอื่นๆ

ความเห็น

Ico48
Conductor [IP: 203.151.12.137]
25 กรกฎาคม 2551 15:11
#32738
เข้าท่าครับ

สวัสดีครับ คุณ Conductor

  • ขอบคุณครับ ที่อุตสาห์ข้ามน้ำข้ามทะเลมาอ่านถึงวงแชร์ 
  • ยังสงสัยว่า google text mode จะนำมาประยุกต์ใช้แบบ batch file ได้หรือเปล่า เพราะคงเป็นสถิติที่น่าสนใจเมื่อมองในภาพใหญ่ระดับประเทศ...

 

 

Ico48
Conductor [IP: 203.151.12.137]
26 กรกฎาคม 2551 00:53
#32787
  • ผมว่าเมืองไทยควรจะมี search engine ของตัวเองครับ ดูเหมือนเป็นการขี่ช้างจับตั๊กแตน แต่ว่าเราควรจะมีสิ่งที่ relevance กับการใช้งานของคนไทย ภาษาไทย และภาษาถิ่นทั้งหมด
  • แล้วการค้นคว้า ก็จะง่ายและรวดเร็วขึ้นครับ
  • ข้างบนนี้ รัฐอย่างยุ่ง (ขอร้อง เดี๋ยวเพี้ยน)
  • การใช้ batch search กับ google ทำได้ง่ายครับ เขียนโปรแกรมนิดหน่อยเอง (ค้นเว็บในประเทศ)
    "http://www.google.co.th/search?hl=th&cr=countryTH&sa=X&oi=spell&resnum=0&ct=result&cd=1&q=cialis+site%3Ago.th&spell=1"
    แก้ตรง q= ตามสบายครับ แล้วส่ง http GET รับเอา HTML มากรองผลอีกที
  • สำหรับศิลปิน ก็ลองนี่ได้เลยครับ

ร่วมแสดงความเห็นในหน้านี้

ชื่อ:
อีเมล:
IP แอดเดรส: 3.237.205.144
ข้อความ:  
เรียกเครื่องมือจัดการข้อความ
   
ยกเลิก หรือ