.:: การถดถอยและการคาดคะเนค่า - คลังปัญญาไทย ::. .:: คลังปัญญาไทย : PanyaThai.or.th ::.
หน้าแรกคลังปัญญาไทย
หน้าแรกคลังปัญญาไทย
การถดถอยและการคาดคะเนค่า
 

จาก คลังปัญญาไทย, สารานุกรมฟรี

Jump to: navigation, search

        การที่จะคาดคะเนเงินเดือนเริ่มต้นของบัณฑิตปริญญาตรีที่ไปทำงานในบริษัทเอกชนจากคะแนนเฉลี่ยสะสมหรือ GPA สามารถทำได้หรือไม่ ความเป็นไปได้ในการคาดคะเนขึ้นอยู่กับตัวแปรทั้งสอง ได้แก่ เงินเดือนเริ่มต้นและ GPA ว่ามีความสัมพันธ์กันหรือไม่ เมื่อตัวแปรมีความสัมพันธ์กันมาก การทราบค่าของตัวแปรหนึ่งจะช่วยให้ทำนายค่าของอีกตัวแปรหนึ่งได้ใกล้เคียง แต่ถ้าระดับความสัมพันธ์ไม่สูง สิ่งที่ทราบเกี่ยวกับตัวแปรหนึ่งก็ไม่ช่วยในการคาดเดาค่าของอีกตัวแปรมากนัก

[แก้ไข]
การถดถอยและการคาดคะเนค่า

        ความเข้าใจในสถานการณ์ต่าง ๆ และความสามารถในการคาดการณ์ล่วงหน้าให้ถูกต้องเป็นประโยชน์อย่างมากในการตัดสินใจ ดังนั้น เมื่อทราบว่าตัวแปรมีความสัมพันธ์กันสูง จึงต้องการหาสมการแสดงความสัมพันธ์ระหว่างตัวแปรที่บอกว่าค่าของตัวแปรที่สนใจเปลี่ยนแปลงตามค่าของตัวแปรอื่นอย่างไร สิ่งที่ได้จากสมการดังกล่าวคือ จะประมาณหรือคาดคะเนค่าของตัวแปรนั้นจากค่าของตัวแปรอื่นได้ ตัวแปรที่สนใจทำนายค่าเรียกว่า ตัวแปรตาม (dependent variable) ส่วนตัวแปรอื่นเรียกว่า ตัวแปรอิสระ (independent variable) ทั้งนี้ คิดว่าตัวแปรอิสระมีอิทธิพลทำให้ตัวแปรตามเปลี่ยนค่าตามไป เช่น ความสูงของบิดาคือตัวแปรอิสระที่มีอิทธิพลต่อความสูงของบุตรชายซึ่งเป็นตัวแปรตาม

        ในเรื่องของเงินเดือนและ GPA เงินเดือนเริ่มต้น คือ ตัวแปรตามที่ต้องการคาดคะเนค่าจากตัวแปรอิสระ GPA ถ้ามีข้อมูลเงินเดือนเริ่มต้นและ GPA ของบัณฑิตหลายคนที่ผ่านมา ข้อมูลนั้นนำมาศึกษาหาความสัมพันธ์ระหว่างเงินเดือนเริ่มต้นและ GPA ได้

        อย่างไรก็ตาม ในหลาย ๆ กรณีที่เกิดขึ้น ตัวแปรตามมักได้รับอิทธิพลจากตัวแปรอิสระหลายตัว เงินเดือนเริ่มต้นนอกจากจะขึ้นกับ GPA แล้ว ยังอาจขึ้นกับสาขาวิชาและสถาบันที่จบมา เพศ ประเภทของงาน สถานที่ตั้งของบริษัท และตัวแปรอื่น ๆ อีกมาก โดยทั่วไปจะไม่สามารถรวบรวมข้อมูลของปัจจัยทุกอย่างที่เกี่ยวข้องกับตัวแปรตามมาได้หมด การทำนายค่าของตัวแปรตามให้ถูกต้องแน่นอน จึงเป็นไปได้ยาก สำหรับในที่นี้ จะสนใจเฉพาะรูปแบบความสัมพันธ์อย่างง่ายคือ มีตัวแปรอิสระตัวเดียวและลักษณะความสัมพันธ์อยู่ในรูปเส้นตรง การจะทำนายค่าตัวแปรตามให้ใกล้เคียงจึงอยู่ที่สหสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระต้องมีค่าสูง

        เพื่อให้สอดคล้องกับแผนภาพการกระจาย ให้ x เป็นตัวแปรอิสระ และ y เป็นตัวแปรตาม ความสัมพันธ์แบบเส้นตรงระหว่างตัวแปร x และ y เขียนเป็นสมการเส้นตรงที่ลักษณะของเส้นกำหนดโดยค่าคงที่ 2 ค่า คือ a และ b ดังนี้

y = a + bx

        ตัวอย่างเช่น ผู้ใช้บริการโทรศัพท์มือถือเสียค่าบริการรายเดือน ๆ ละ 500 บาท และค่าโทรศัพท์นาทีละ 3 บาท ดังนั้น สมการเส้นตรงที่ได้ คือ

ค่าใช้บริการโทรศัพท์มือถือต่อเดือน = 500 + (3 x จำนวนนาทีที่ใช้บริการ)

        นั่นคือ a = 500 และ b = 3

        a คือ y - intercept ซึ่งเป็นความสูงของเส้น (ค่า y) เมื่อ x = 0 และ b คือความชันของเส้นตรงที่บอกอัตราการเปลี่ยนแปลงของค่าตัวแปรตามเมื่อตัวแปรอิสระเปลี่ยนแปลงค่าไป 1 หน่วย กล่าวคือ y จะมีค่าเปลี่ยนไป b หน่วยต่อทุกหน่วยของ x ที่เปลี่ยนค่าไป เครื่องหมายของค่า b สอดคล้องกับค่าสหสัมพันธ์ r โดยจะบอกว่าค่าของตัวแปร x และ y แปรผันตามกันหรือมีทิศทางสวนกัน

        b = 0 แสดงว่า ตามสมการเส้นตรงนั้น x ไม่มีผลทำให้ y เปลี่ยนแปลงค่า

        b > 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะเพิ่มขึ้น และเมื่อค่า x ลดลง ค่า y จะลดลง

        และ b < 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะลดลง และเมื่อค่า x ลดลง ค่า y จะเพิ่มขึ้น

ตัวอย่างลักษณะเส้นตรงที่มีความชันเป็นบวกและลบแสดงในภาพ

ภาพ:ความชันต่างกัน.jpg
ภาพ 1. กราฟ 2 รูปที่มี intercept และความชันต่างกัน


        สมการที่แสดงความสัมพันธ์ระหว่าง x และ y นี้เรียกว่า สมการถดถอย (regression equation) และเส้นตรงที่สร้างขึ้นตามสมการถดถอยเรียกว่า เส้นถดถอย (regression line) คำว่า การถดถอย มีที่มาจาก Sir Francis Galton ซึ่งเป็นบุคคลแรกที่ใช้คำนี้เมื่อเขาศึกษาความสัมพันธ์ระหว่างความสูงของบุตรชายและบิดา เขาสรุปไว้ในปี ค.ศ. 1885 โดยทั่วไปบุตรชายที่มีบิดาสูงกว่าค่าเฉลี่ยจะสูงกว่าคนอื่น ๆ โดยเฉลี่ย แต่อย่างไรก็ตามเขาจะไม่สูงเท่าบิดาของเขา ในทางกลับกัน บุตรชายที่มีบิดามีความสูงต่ำกว่าค่าเฉลี่ยจะสูงน้อยกว่าคนอื่น ๆ โดยเฉลี่ย แต่เขาก็ยังคงสูงกว่าบิดาของเขา อาจมองการสร้างสมการถดถอยว่าเป็นการนำค่าตัวแปร x ไปอธิบายความผันแปรของค่าตัวแปร y เช่น สมมุติว่าสนใจศึกษาน้ำหนักของผู้หญิง ลองพิจารณาสมการที่แสดงความสัมพันธ์ระหว่างน้ำหนักและความสูงของผู้หญิง ต่อไปนี้

น้ำหนัก (กิโลกรัม) = - 110 + ความสูง (เซนติเมตร)


        สมการนี้ได้นำความสูงของผู้หญิงไปช่วยอธิบายว่า เหตุใดผู้หญิงแต่ละคนจึงมีน้ำหนักแตกต่างกัน กล่าวคือ เป็นเพราะแต่ละคนสูงไม่เท่ากัน คนที่สูงมากกว่าคนอื่น 1 เซนติเมตร ควรมีน้ำหนักมากกว่า 1 กิโลกรัม เป็นต้น ทั้งนี้ยังมีปัจจัยอื่นอีกหลายอย่างที่ทำให้ผู้หญิงแต่ละคนมีน้ำหนักไม่เท่ากัน เพราะคนที่สูงเท่ากันก็ยังมีที่น้ำหนักไม่เท่ากัน ดังนั้น หากสามารถหาปัจจัยหรือตัวแปรอิสระต่าง ๆ ไปอธิบายความผันแปรของน้ำหนักได้เพิ่มมากขึ้น ซึ่งหมายถึง หาคำอธิบายของการที่แต่ละคนน้ำหนักแตกต่างกันได้ดีขึ้น การคาดคะเนน้ำหนักก็จะใกล้เคียงขึ้น


การสร้างสมการถดถอย


        แน่นอนว่าโดยปกติเส้นถดถอยไม่สามารถจะลากผ่านค่าข้อมูลทุกค่าในแผนภาพการกระจาย นั่นคือ สมการถดถอยไม่สามารถใช้คาดคะเนค่าตัวแปรตาม y ทุกค่าได้ถูกต้องจากค่าตัวแปรอิสระ x อย่างไรก็ตาม เราต้องการสมการถดถอย หรือค่า a และ b ที่ทำให้คาดคะเนค่าตัวแปรตามได้ดีที่สุดหรือผิดพลาดน้อยที่สุด


        การประมาณค่า a และ b จากข้อมูล (x1 , y1) , (x2 , y2) , … , (xn , yn) เพื่อให้ได้เส้นตรงที่เข้ากับข้อมูลได้ดีที่สุด มีวิธีการที่เป็นที่นิยมใช้คือ วิธีกำลังสองน้อยที่สุด (least squares method) วิธีนี้จะให้ค่าประมาณ a และ b ที่ทำให้ความแตกต่างของค่าตัวแปรตามกับค่าที่คาดคะเนได้จากสมการถดถอยมีค่าน้อยที่สุด ดังนั้น ถ้าใช้สัญลักษณ์ (อ่านว่า y hat) แทนค่าคาดคะเนของตัวแปรตาม สมการถดถอยที่จะประมาณขึ้นคือ

ภาพ:สมการ.jpg

        และต้องการให้ค่า y ต่างจาก น้อยที่สุดที่ทุกจุดของค่าข้อมูล ในภาพ 2 แสดงให้เห็นแผนภาพการกระจายและเส้นถดถอยที่ดี และเส้นที่ไม่ดี พร้อมทั้งความแตกต่างของค่า y และค่า ที่จุดต่าง ๆ

ภาพ:การกระจาย.jpg
ภาพ 2. แผนภาพการกระจายของจุดรอบเส้นถดถอย

        ค่า intercept และความชันของเส้นถดถอยที่ประมาณด้วยวิธีกำลังสองน้อยที่สุด มีสูตรดังนี้

ภาพ:การคาดคะเน.jpg

        การประมาณสมการถดถอยหรือคำนวณค่า a และ b จะใช้เครื่องคิดเลขที่มีฟังก์ชันเฉพาะ หรือใช้คำสั่ง Regression ในโปรแกรม EXCEL ก็ได้ การใช้คอมพิวเตอร์จะสะดวกมากกว่า เพราะสามารถสร้างกราฟของแผนภาพการกระจายของข้อมูลขึ้นมาก่อน เพื่อดูว่าสมการเส้นตรงเหมาะสมกับข้อมูลหรือไม่

ตัวอย่าง

        ในปัจจุบัน คอมพิวเตอร์เข้ามามีบทบาทในชีวิตเรามากขึ้น นิสิตทุกคนต้องเรียนรู้การประยุกต์ใช้งานคอมพิวเตอร์ในด้านต่าง ๆ ดังนั้นจึงมีผู้สนใจศึกษาว่า ความถนัดทางคอมพิวเตอร์ขึ้นอยู่กับความสามารถทางคณิตศาสตร์หรือไม่ ในการศึกษาเรื่องนี้ได้ให้นิสิตจำนวน 20 คน ทดลองทำแบบทดสอบ 2 ชุด ชุดหนึ่งวัดความสามารถทางคณิตศาสตร์ และอีกชุดวัดความถนัดทางคอมพิวเตอร์ คะแนนจากการทดสอบมีดังนี้

ภาพ:แผนภาพการกระจาย.jpg
แผนภาพการกระจายและเส้นถดถอยของข้อมูลคะแนนทดสอบ

        แผนภาพการกระจายของคะแนนของนิสิตทั้ง 20 คนในภาพ 3 (ซ้าย) ชี้ว่าความถนัดทางคอมพิวเตอร์มีความสัมพันธ์ในทางบวกกับความสามารถทางคณิตศาสตร์ ผู้ที่เก่งคณิตศาสตร์ก็มักจะถนัดในเรื่องคอมพิวเตอร์ด้วย ลักษณะความสัมพันธ์ของคะแนนทดสอบทั้งสองด้านเป็นเส้นตรง ค่าสัมประสิทธิ์สหสัมพันธ์จากโปรแกรม EXCEL คือ 0.9102 ซึ่งเป็นความสัมพันธ์เชิงเส้นตรงในระดับสูง ฉะนั้น จึงประมาณสมการถดถอยต่อไปได้เป็น

        เมื่อ x เป็นคะแนนทดสอบด้านคณิตศาสตร์ และเป็นค่าประมาณของคะแนนทดสอบด้านคอมพิวเตอร์ ภาพ 3 (ขวา) แสดงเส้นถดถอยจากสมการนี้ จะเห็นจุดเกาะกลุ่มใกล้เส้นตรงพอสมควร แสดงว่า ความสามารถทางคณิตศาสตร์ของนิสิตนำมาช่วยอธิบายได้ค่อนข้างดีว่าทำไมนิสิตจึงมีความถนัดทางคอมพิวเตอร์ต่างกัน

        จากสมการถดถอยทำให้ทราบว่า คะแนนทดสอบด้านคอมพิวเตอร์เพิ่มขึ้น (ลดลง) 0.96 คะแนน ต่อแต่ละคะแนนที่เพิ่มขึ้น (ลดลง) ของการทดสอบด้านคณิตศาสตร์ และจะประมาณคะแนนทดสอบด้านคอมพิวเตอร์จากคะแนนทดสอบด้านคณิตศาสตร์ได้ เช่น นิสิตที่ทำคะแนนคณิตศาสตร์ได้ 36 คะแนน คาดว่านิสิตผู้นั้นจะได้คะแนนคอมพิวเตอร์เป็น 13.41 คะแนน (สามารถคำนวณจาก [- 21.15 + 0.96 (36) ] )

การถดถอยและการคาดคะเนค่า - สมการถดถอยกับขอบเขตการใช้งาน

ภาพ:เส้นถดถอย.jpg

        ในขณะที่สัมประสิทธิ์สหสัมพันธ์ที่ใช้วัดระดับความสัมพันธ์ระหว่างตัวแ ปรมีค่าไม่ขึ้นกับการกำหนดว่าตัวแปรใดเป็น x และตัวแปรใดเป็น y กล่าวคือ ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง x และ y จะเท่ากับค่าสัมประสิทธิ์สหสัมพันธ์ระหว่าง y และ x แต่ในเรื่องการถดถอยจะมีการแยกตัวแปรเป็นตัวแปรอิสระ x และตัวแปรตาม y ทั้งนี้ในบางเรื่องจะมีความชัดเจนว่าตัวแปรใดเป็นตัวแปรตาม และตัวแปรใดเป็นตัวแปรอิสระ เช่น ค่าบำรุงรักษารถยนต์แปรตามอายุการใช้งานของรถ แต่อายุการใช้งานไม่แปรตามค่าบำรุงรักษา เป็นต้น แต่ก็มีบางเรื่องที่ตัวแปรสองตัวสลับบทบาทการเป็นตัวแปรตามและตัวแปรอิสระได้ เช่น อายุของสามีและอายุของภรรยา อย่างไรก็ตาม การกำหนดตัวแปร x หรือ y สลับกัน ทำให้สมการถดถอยต่างไป สมการถดถอยที่มี y เป็นตัวแปรตามใช้คาดคะเนค่า y เมื่อกำหนดค่า x แต่จะใช้สมการเดียวกันนี้คาดคะเนค่า x เมื่อกำหนดค่า y ไม่ได้ จำเป็นต้องสร้างสมการคาดคะเนขึ้นใหม่

การคาดคะเน

        หมายถึง การประมาณค่าที่ใกล้เคียง ไม่ว่าจะเป็นการคาดคะเน ระยะทาง ขนาด จำนวน และส่วนสูงโดยมีค่าผิดพลาด ไม่เกินร้อยละ 10

ประโยชน์ของการคาดคะเน

  1. สามารถกะประมาณสิ่งต่างๆ ได้โดยใกล้เคียง เพื่อจะแก้ไขเหตุการณ์บางประการ ในกรณีที่มีเหตุฉุกเฉิน
  2. เป็นการฝึกหัดไหวพริบ เพื่อการหลบเลี่ยงอันตราย
  3. ทำให้การดำเนินงานเป็นไปด้วยดี ถูกต้องใกล้ความเป็นจริง

ขอขอบคุณข้อมูลจาก

 
 
 
   Hosted by kapook.com