การวิเคราะห์ข้อมูลเชิงนับ (Count Data Analysis)

วิทยากร: อาจารย์ ดร.ศิริพร สมุทรวชิรวงษ์


การศึกษาข้อมูลเชิงนับ (Count Data) เช่น จำนวนผู้ป่วยที่เข้ารับการรักษาในโรงพยาบาล จำนวนการแพร่ระบาดของไข้หวัดนกสายพันธุ์ H5N1 จำนวนอุบัติเหตุบนท้องถนน เป็นต้น โดยทั่วไปมักใช้การแจกแจงปัวซง (Poisson distribution) ในการอธิบายลักษณะข้อมูลนั้น
แต่การแจกแจงดังกล่าวมีข้อสมมติ (assumption) ของการแจกแจงคือ ค่าเฉลี่ย (mean) ต้องเท่ากับค่าความแปรปรวน (variance)
ซึ่งสภาพของข้อมูลเชิงนับบางครั้งเกิดสภาพที่ขัดแย้งกับข้อสมมติข้างต้น เช่น กรณีที่ค่าสังเกตมีความถี่ใด ๆ สูงผิดปกติ เป็นต้น


ต่อมาในปี ค.ศ. 1920 Greenwood และ Yule ได้นำเสนอการแจกแจงทวินามลบ (negative binomial: NB)
ซึ่งสามารถใช้อธิบายชุดข้อมูลที่มีค่าความแปรปรวนมากกว่าค่าเฉลี่ยได้ดีกว่าการแจกแจงปัวซง โดยพัฒนาการจาก
การผสมระหว่างการแจกแจงปัวซงกับการแจกแจงแกมม่า (Gamma) (Greenwood and Yule, 1920)
แนวคิดการสร้างการแจกแจงใหม่ จึงเป็นแนวทางหนึ่งที่มีความสำคัญในการวิเคราะห์ข้อมูลเชิงนับ
ที่ไม่เป็นไปตามข้อสมมติของการแจกแจงพื้นฐาน

Stat @ Maejo University