Views
จาก คลังปัญญาไทย, สารานุกรมฟรี
การที่จะคาดคะเนเงินเดือนเริ่มต้นของบัณฑิตปริญญาตรีที่ไปทำงานในบริษัทเอกชนจากคะแนนเฉลี่ยสะสมหรือ GPA สามารถทำได้หรือไม่ ความเป็นไปได้ในการคาดคะเนขึ้นอยู่กับตัวแปรทั้งสอง ได้แก่ เงินเดือนเริ่มต้นและ GPA ว่ามีความสัมพันธ์กันหรือไม่ เมื่อตัวแปรมีความสัมพันธ์กันมาก การทราบค่าของตัวแปรหนึ่งจะช่วยให้ทำนายค่าของอีกตัวแปรหนึ่งได้ใกล้เคียง แต่ถ้าระดับความสัมพันธ์ไม่สูง สิ่งที่ทราบเกี่ยวกับตัวแปรหนึ่งก็ไม่ช่วยในการคาดเดาค่าของอีกตัวแปรมากนัก
[แก้ไข] การถดถอยและการคาดคะเนค่า
ความเข้าใจในสถานการณ์ต่าง ๆ และความสามารถในการคาดการณ์ล่วงหน้าให้ถูกต้องเป็นประโยชน์อย่างมากในการตัดสินใจ ดังนั้น เมื่อทราบว่าตัวแปรมีความสัมพันธ์กันสูง จึงต้องการหาสมการแสดงความสัมพันธ์ระหว่างตัวแปรที่บอกว่าค่าของตัวแปรที่สนใจเปลี่ยนแปลงตามค่าของตัวแปรอื่นอย่างไร สิ่งที่ได้จากสมการดังกล่าวคือ จะประมาณหรือคาดคะเนค่าของตัวแปรนั้นจากค่าของตัวแปรอื่นได้ ตัวแปรที่สนใจทำนายค่าเรียกว่า ตัวแปรตาม (dependent variable) ส่วนตัวแปรอื่นเรียกว่า ตัวแปรอิสระ (independent variable) ทั้งนี้ คิดว่าตัวแปรอิสระมีอิทธิพลทำให้ตัวแปรตามเปลี่ยนค่าตามไป เช่น ความสูงของบิดาคือตัวแปรอิสระที่มีอิทธิพลต่อความสูงของบุตรชายซึ่งเป็นตัวแปรตาม
ในเรื่องของเงินเดือนและ GPA เงินเดือนเริ่มต้น คือ ตัวแปรตามที่ต้องการคาดคะเนค่าจากตัวแปรอิสระ GPA ถ้ามีข้อมูลเงินเดือนเริ่มต้นและ GPA ของบัณฑิตหลายคนที่ผ่านมา ข้อมูลนั้นนำมาศึกษาหาความสัมพันธ์ระหว่างเงินเดือนเริ่มต้นและ GPA ได้
อย่างไรก็ตาม ในหลาย ๆ กรณีที่เกิดขึ้น ตัวแปรตามมักได้รับอิทธิพลจากตัวแปรอิสระหลายตัว เงินเดือนเริ่มต้นนอกจากจะขึ้นกับ GPA แล้ว ยังอาจขึ้นกับสาขาวิชาและสถาบันที่จบมา เพศ ประเภทของงาน สถานที่ตั้งของบริษัท และตัวแปรอื่น ๆ อีกมาก โดยทั่วไปจะไม่สามารถรวบรวมข้อมูลของปัจจัยทุกอย่างที่เกี่ยวข้องกับตัวแปรตามมาได้หมด การทำนายค่าของตัวแปรตามให้ถูกต้องแน่นอน จึงเป็นไปได้ยาก สำหรับในที่นี้ จะสนใจเฉพาะรูปแบบความสัมพันธ์อย่างง่ายคือ มีตัวแปรอิสระตัวเดียวและลักษณะความสัมพันธ์อยู่ในรูปเส้นตรง การจะทำนายค่าตัวแปรตามให้ใกล้เคียงจึงอยู่ที่สหสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระต้องมีค่าสูง
เพื่อให้สอดคล้องกับแผนภาพการกระจาย ให้ x เป็นตัวแปรอิสระ และ y เป็นตัวแปรตาม ความสัมพันธ์แบบเส้นตรงระหว่างตัวแปร x และ y เขียนเป็นสมการเส้นตรงที่ลักษณะของเส้นกำหนดโดยค่าคงที่ 2 ค่า คือ a และ b ดังนี้
ตัวอย่างเช่น ผู้ใช้บริการโทรศัพท์มือถือเสียค่าบริการรายเดือน ๆ ละ 500 บาท และค่าโทรศัพท์นาทีละ 3 บาท ดังนั้น สมการเส้นตรงที่ได้ คือ
นั่นคือ a = 500 และ b = 3
a คือ y - intercept ซึ่งเป็นความสูงของเส้น (ค่า y) เมื่อ x = 0 และ b คือความชันของเส้นตรงที่บอกอัตราการเปลี่ยนแปลงของค่าตัวแปรตามเมื่อตัวแปรอิสระเปลี่ยนแปลงค่าไป 1 หน่วย กล่าวคือ y จะมีค่าเปลี่ยนไป b หน่วยต่อทุกหน่วยของ x ที่เปลี่ยนค่าไป เครื่องหมายของค่า b สอดคล้องกับค่าสหสัมพันธ์ r โดยจะบอกว่าค่าของตัวแปร x และ y แปรผันตามกันหรือมีทิศทางสวนกัน
b = 0 แสดงว่า ตามสมการเส้นตรงนั้น x ไม่มีผลทำให้ y เปลี่ยนแปลงค่า
b > 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะเพิ่มขึ้น และเมื่อค่า x ลดลง ค่า y จะลดลง
และ b < 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะลดลง และเมื่อค่า x ลดลง ค่า y จะเพิ่มขึ้น
ตัวอย่างลักษณะเส้นตรงที่มีความชันเป็นบวกและลบแสดงในภาพ

สมการที่แสดงความสัมพันธ์ระหว่าง x และ y นี้เรียกว่า สมการถดถอย (regression equation) และเส้นตรงที่สร้างขึ้นตามสมการถดถอยเรียกว่า เส้นถดถอย (regression line) คำว่า การถดถอย มีที่มาจาก Sir Francis Galton ซึ่งเป็นบุคคลแรกที่ใช้คำนี้เมื่อเขาศึกษาความสัมพันธ์ระหว่างความสูงของบุตรชายและบิดา เขาสรุปไว้ในปี ค.ศ. 1885 โดยทั่วไปบุตรชายที่มีบิดาสูงกว่าค่าเฉลี่ยจะสูงกว่าคนอื่น ๆ โดยเฉลี่ย แต่อย่างไรก็ตามเขาจะไม่สูงเท่าบิดาของเขา ในทางกลับกัน บุตรชายที่มีบิดามีความสูงต่ำกว่าค่าเฉลี่ยจะสูงน้อยกว่าคนอื่น ๆ โดยเฉลี่ย แต่เขาก็ยังคงสูงกว่าบิดาของเขา อาจมองการสร้างสมการถดถอยว่าเป็นการนำค่าตัวแปร x ไปอธิบายความผันแปรของค่าตัวแปร y เช่น สมมุติว่าสนใจศึกษาน้ำหนักของผู้หญิง ลองพิจารณาสมการที่แสดงความสัมพันธ์ระหว่างน้ำหนักและความสูงของผู้หญิง ต่อไปนี้
สมการนี้ได้นำความสูงของผู้หญิงไปช่วยอธิบายว่า เหตุใดผู้หญิงแต่ละคนจึงมีน้ำหนักแตกต่างกัน กล่าวคือ เป็นเพราะแต่ละคนสูงไม่เท่ากัน คนที่สูงมากกว่าคนอื่น 1 เซนติเมตร ควรมีน้ำหนักมากกว่า 1 กิโลกรัม เป็นต้น ทั้งนี้ยังมีปัจจัยอื่นอีกหลายอย่างที่ทำให้ผู้หญิงแต่ละคนมีน้ำหนักไม่เท่ากัน เพราะคนที่สูงเท่ากันก็ยังมีที่น้ำหนักไม่เท่ากัน ดังนั้น หากสามารถหาปัจจัยหรือตัวแปรอิสระต่าง ๆ ไปอธิบายความผันแปรของน้ำหนักได้เพิ่มมากขึ้น ซึ่งหมายถึง หาคำอธิบายของการที่แต่ละคนน้ำหนักแตกต่างกันได้ดีขึ้น การคาดคะเนน้ำหนักก็จะใกล้เคียงขึ้น
การสร้างสมการถดถอย
แน่นอนว่าโดยปกติเส้นถดถอยไม่สามารถจะลากผ่านค่าข้อมูลทุกค่าในแผนภาพการกระจาย นั่นคือ สมการถดถอยไม่สามารถใช้คาดคะเนค่าตัวแปรตาม y ทุกค่าได้ถูกต้องจากค่าตัวแปรอิสระ x อย่างไรก็ตาม เราต้องการสมการถดถอย หรือค่า a และ b ที่ทำให้คาดคะเนค่าตัวแปรตามได้ดีที่สุดหรือผิดพลาดน้อยที่สุด
การประมาณค่า a และ b จากข้อมูล (x1 , y1) , (x2 , y2) , … , (xn , yn) เพื่อให้ได้เส้นตรงที่เข้ากับข้อมูลได้ดีที่สุด มีวิธีการที่เป็นที่นิยมใช้คือ วิธีกำลังสองน้อยที่สุด (least squares method) วิธีนี้จะให้ค่าประมาณ a และ b ที่ทำให้ความแตกต่างของค่าตัวแปรตามกับค่าที่คาดคะเนได้จากสมการถดถอยมีค่าน้อยที่สุด ดังนั้น ถ้าใช้สัญลักษณ์ (อ่านว่า y hat) แทนค่าคาดคะเนของตัวแปรตาม สมการถดถอยที่จะประมาณขึ้นคือ
และต้องการให้ค่า y ต่างจาก น้อยที่สุดที่ทุกจุดของค่าข้อมูล ในภาพ 2 แสดงให้เห็นแผนภาพการกระจายและเส้นถดถอยที่ดี และเส้นที่ไม่ดี พร้อมทั้งความแตกต่างของค่า y และค่า ที่จุดต่าง ๆ

ค่า intercept และความชันของเส้นถดถอยที่ประมาณด้วยวิธีกำลังสองน้อยที่สุด มีสูตรดังนี้

การประมาณสมการถดถอยหรือคำนวณค่า a และ b จะใช้เครื่องคิดเลขที่มีฟังก์ชันเฉพาะ หรือใช้คำสั่ง Regression ในโปรแกรม EXCEL ก็ได้ การใช้คอมพิวเตอร์จะสะดวกมากกว่า เพราะสามารถสร้างกราฟของแผนภาพการกระจายของข้อมูลขึ้นมาก่อน เพื่อดูว่าสมการเส้นตรงเหมาะสมกับข้อมูลหรือไม่
ตัวอย่าง
ในปัจจุบัน คอมพิวเตอร์เข้ามามีบทบาทในชีวิตเรามากขึ้น นิสิตทุกคนต้องเรียนรู้การประยุกต์ใช้งานคอมพิวเตอร์ในด้านต่าง ๆ ดังนั้นจึงมีผู้สนใจศึกษาว่า ความถนัดทางคอมพิวเตอร์ขึ้นอยู่กับความสามารถทางคณิตศาสตร์หรือไม่ ในการศึกษาเรื่องนี้ได้ให้นิสิตจำนวน 20 คน ทดลองทำแบบทดสอบ 2 ชุด ชุดหนึ่งวัดความสามารถทางคณิตศาสตร์ และอีกชุดวัดความถนัดทางคอมพิวเตอร์ คะแนนจากการทดสอบมีดังนี้

แผนภาพการกระจายของคะแนนของนิสิตทั้ง 20 คนในภาพ 3 (ซ้าย) ชี้ว่าความถนัดทางคอมพิวเตอร์มีความสัมพันธ์ในทางบวกกับความสามารถทางคณิตศาสตร์ ผู้ที่เก่งคณิตศาสตร์ก็มักจะถนัดในเรื่องคอมพิวเตอร์ด้วย ลักษณะความสัมพันธ์ของคะแนนทดสอบทั้งสองด้านเป็นเส้นตรง ค่าสัมประสิทธิ์สหสัมพันธ์จากโปรแกรม EXCEL คือ 0.9102 ซึ่งเป็นความสัมพันธ์เชิงเส้นตรงในระดับสูง ฉะนั้น จึงประมาณสมการถดถอยต่อไปได้เป็น
เมื่อ x เป็นคะแนนทดสอบด้านคณิตศาสตร์ และเป็นค่าประมาณของคะแนนทดสอบด้านคอมพิวเตอร์ ภาพ 3 (ขวา) แสดงเส้นถดถอยจากสมการนี้ จะเห็นจุดเกาะกลุ่มใกล้เส้นตรงพอสมควร แสดงว่า ความสามารถทางคณิตศาสตร์ของนิสิตนำมาช่วยอธิบายได้ค่อนข้างดีว่าทำไมนิสิตจึงมีความถนัดทางคอมพิวเตอร์ต่างกัน
จากสมการถดถอยทำให้ทราบว่า คะแนนทดสอบด้านคอมพิวเตอร์เพิ่มขึ้น (ลดลง) 0.96 คะแนน ต่อแต่ละคะแนนที่เพิ่มขึ้น (ลดลง) ของการทดสอบด้านคณิตศาสตร์ และจะประมาณคะแนนทดสอบด้านคอมพิวเตอร์จากคะแนนทดสอบด้านคณิตศาสตร์ได้ เช่น นิสิตที่ทำคะแนนคณิตศาสตร์ได้ 36 คะแนน คาดว่านิสิตผู้นั้นจะได้คะแนนคอมพิวเตอร์เป็น 13.41 คะแนน (สามารถคำนวณจาก [- 21.15 + 0.96 (36) ] )
การถดถอยและการคาดคะเนค่า - สมการถดถอยกับขอบเขตการใช้งาน

ในขณะที่สัมประสิทธิ์สหสัมพันธ์ที่ใช้วัดระดับความสัมพันธ์ระหว่างตัวแ ปรมีค่าไม่ขึ้นกับการกำหนดว่าตัวแปรใดเป็น x และตัวแปรใดเป็น y กล่าวคือ ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง x และ y จะเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง y และ x แต่ในเรื่องการถดถอยจะมีการแยกตัวแปรเป็นตัวแปรอิสระ x และตัวแปรตาม y ทั้งนี้ในบางเรื่องจะมีความชัดเจนว่าตัวแปรใดเป็นตัวแปรตาม และตัวแปรใดเป็นตัวแปรอิสระ เช่น ค่าบำรุงรักษารถยนต์แปรตามอายุการใช้งานของรถ แต่อายุการใช้งานไม่แปรตามค่าบำรุงรักษา เป็นต้น แต่ก็มีบางเรื่องที่ตัวแปรสองตัวสลับบทบาทการเป็นตัวแปรตามและตัวแปรอิสระได้ เช่น อายุของสามีและอายุของภรรยา อย่างไรก็ตาม การกำหนดตัวแปร x หรือ y สลับกัน ทำให้สมการถดถอยต่างไป สมการถดถอยที่มี y เป็นตัวแปรตามใช้คาดคะเนค่า y เมื่อกำหนดค่า x แต่จะใช้สมการเดียวกันนี้คาดคะเนค่า x เมื่อกำหนดค่า y ไม่ได้ จำเป็นต้องสร้างสมการคาดคะเนขึ้นใหม่
การคาดคะเน
หมายถึง การประมาณค่าที่ใกล้เคียง ไม่ว่าจะเป็นการคาดคะเน ระยะทาง ขนาด จำนวน และส่วนสูงโดยมีค่าผิดพลาด ไม่เกินร้อยละ 10
ประโยชน์ของการคาดคะเน
- สามารถกะประมาณสิ่งต่างๆ ได้โดยใกล้เคียง เพื่อจะแก้ไขเหตุการณ์บางประการ ในกรณีที่มีเหตุฉุกเฉิน
- เป็นการฝึกหัดไหวพริบ เพื่อการหลบเลี่ยงอันตราย
- ทำให้การดำเนินงานเป็นไปด้วยดี ถูกต้องใกล้ความเป็นจริง
ขอขอบคุณข้อมูลจาก











