Share via


ภาพรวมของการวิเคราะห์สาเหตุหลัก

การวิเคราะห์สาเหตุหลัก (RCA) ช่วยให้คุณค้นหาการเชื่อมต่อที่ซ่อนอยู่ในข้อมูลของคุณ ตัวอย่างเช่น ช่วยให้คุณเข้าใจว่าเหตุใดบางกรณีจึงใช้เวลาในการดำเนินการนานกว่ากรณีอื่นๆ หรือเหตุใดบางกรณีจึงติดขัดในการทำงานซ้ำในขณะที่บางกรณีทำงานได้อย่างราบรื่น RCA จะแสดงให้คุณเห็นความแตกต่างที่สำคัญระหว่างกรณีดังกล่าว

ข้อมูลที่จําเป็น

RCA สามารถใช้แอตทริบิวต์ระดับกรณี เมตริก และเมตริกแบบกำหนดเองทั้งหมดของคุณเพื่อค้นหาความเชื่อมโยงระหว่างพวกเขา และเมตริกที่คุณเลือก

ตัวอย่างที่ดีที่สุดคือการรวมข้อมูลทั้งหมดที่คุณสามารถทำได้เป็นแอตทริบิวต์ระดับกรณี และปล่อยให้ RCA เลือกว่าแอตทริบิวต์ใดที่มีอิทธิพลต่อเมตริกจริงๆ และที่ไม่ส่งผลต่อเมตริก

RCA ทำงานอย่างไร

อัลกอริทึม RCA จะคำนวณโครงสร้างแบบทรี โดยแต่ละโหนดจะแบ่งชุดข้อมูลออกเป็นสองส่วนย่อยๆ ซึ่งอิงตามตัวแปรหนึ่งตัวที่ค้นหาความสัมพันธ์ที่ดีที่สุดระหว่างการแยกตัวแปรกับเมตริกเป้าหมาย จากนี้ คุณจะเห็นการเชื่อมต่อที่ซ่อนอยู่ในข้อมูล นี่คือที่ที่จะบอกคุณว่าการรวมกันของแอตทริบิวต์ใดที่จะส่งผลต่อกรณีในทางใด

RCA ค้นหาการแยกส่วนที่ดีที่สุดได้อย่างไร

ขั้นแรก เราสร้างชุดค่าผสมที่เป็นไปได้หลายร้อยถึงพันชุด จากนั้นเราจะลองแยกแต่ละส่วนเพื่อดูว่าจะแบ่งชุดข้อมูลออกเป็นสองส่วนได้ดีเพียงใด เราคำนวณความแปรปรวนของเมตริกหลักในแต่ละส่วนของการแยก และคำนวณคะแนนสำหรับแต่ละการแยกด้วยการคำนวณต่อไปนี้:

scoresplit_x = varianceleft * number of casesleft + varianceright * number of casesright

จากนั้น เราจะจัดเรียงการแบ่งทั้งหมดตามคะแนนนี้ และการแบ่งที่ดีที่สุดจะถูกเลือกจากจุดเริ่มต้น ด้วยคะแนนต่ำสุด สำหรับเมตริกหลักตามประเภท (สตริง) เราคำนวณความไม่บริสุทธิ์ของ Gini แทนผลต่าง

ตัวอย่าง RCA

ในตัวอย่างนี้ เราต้องการดูสาเหตุหลักเบื้องหลังระยะเวลาของกรณี ในข้อมูล เรามีแอตทริบิวต์ระดับกรณี ประเทศของผู้จัดหาเมืองของผู้จัดหาร์วัสดุยอดรวม และ ศูนย์ต้นทุน ระยะเวลาเฉลี่ยของกรณีคือ 46 ชั่วโมง

เมื่อดูแต่ละค่าของแอตทริบิวต์แต่ละรายการแยกกัน เราจะเห็นว่าผู้มีอิทธิพลสูงสุดของระยะเวลากรณีคือเมื่อ เมืองของผู้จัดหา คือ ของผู้จัดหา ซึ่งโดยเฉลี่ยแล้วจะเพิ่มระยะเวลาของกรณีอีก 15 ชั่วโมง จากการวิเคราะห์เบื้องต้นนี้ เราจะเห็นว่าค่าแอตทริบิวต์อื่นๆ มีอิทธิพลต่อเมตริกเป้าหมายน้อยกว่ามาก อย่างไรก็ตาม เมื่อเราคำนวณโมเดลทรี เราจะเห็นว่าการคำนวณข้างต้นนั้นทำให้เข้าใจผิด (ดังภาพหน้าจอต่อไปนี้)

ภาพหน้าจอของผู้มีอิทธิพลต่อระยะเวลาของกรณี

โครงสร้างทรีมีลักษณะดังนี้:

  • การแบ่งส่วนแรกคือข้อมูลตามตัวแปร วัสดุ ข้อมูลที่มี อลูมิเนียม อยู่ด้านหนึ่ง และวัสดุ อื่นๆ ทั้งหมดอยู่อีกด้านหนึ่ง

  • สาขา อะลูมิเนียม ถูกแบ่งเพิ่มเติมโดย ประเทศของผู้จัดหา เป็น เยอรมนี และ ออสเตรีย

  • สาขา ออสเตรีย ยังคงแบ่งตาม เมืองของผู้จัดหา ที่มี กราซ ด้านหนึ่ง และ เวียนนา ในอีกด้านหนึ่ง

  • ในโหนด กราซ กรณีเฉลี่ยของคือ 36 ชั่วโมง ช้ากว่าระยะเวลาเฉลี่ยโดยรวม 46 ชั่วโมง

ในแผนภูมิเดียวกัน เราจะเห็นว่าถ้าเรามีวัสดุอื่นที่ไม่ใช่อะลูมิเนียม ซึ่งก็แบ่งตามตัวแปร เมืองของผู้จัดหา เช่นเดียวกัน โดยที่ด้านใดด้านหนึ่งคือ กราซ และอีกด้านหนึ่งคือเวียนนา มิวนิก หรือแฟรงก์เฟิร์ต แต่ที่นี่ ค่าจะตรงกันข้าม กราซ มีสถิติที่ดีกว่าเวียนนาหรือเมืองอื่นๆ ในเยอรมัน โดยกรณีเฉลี่ยในกราซเร็วกว่าค่าเฉลี่ยโดยรวมสำหรับทุกกรณี 15 ชั่วโมง

จากนี้ เราจะเห็นว่าสถิติเริ่มต้นนั้นทำให้เข้าใจผิด เนื่องจากกราซทำงานได้ไม่ดีเมื่อวัสดุเป็นอะลูมิเนียม อย่างไรก็ตาม จะมีประสิทธิภาพสูงกว่าค่าเฉลี่ยเมื่อวัสดุไม่ใช่อะลูมิเนียม และตรงข้ามกับเมืองอื่นๆ อย่างสิ้นเชิง

สถิติ การมีผลต่อระยะเวลาของกรณี พิจารณาเพียงค่าเดียว และบางครั้งอาจทำให้เข้าใจผิดได้ RCA คำนึงถึงการผสมผสานของสิ่งเหล่านี้ เพื่อให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับกระบวนการของคุณ