การผสาน Fuzzy

การผสาน Fuzzy เป็นคุณลักษณะการเตรียมข้อมูลอัจฉริยะที่คุณสามารถใช้เพื่อใช้อัลกอริทึมการจับคู่ที่ไม่น่าสนใจเมื่อเปรียบเทียบคอลัมน์เพื่อพยายามหารายการที่ตรงกันในตารางที่กําลังผสานอยู่

คุณสามารถเปิดใช้งานการจับคู่ Fuzzy ที่ด้านล่างของกล่องโต้ตอบ ผสาน โดยการเลือกปุ่ม ใช้การจับคู่แบบไม่เหมาะสมเพื่อดําเนินการกับปุ่มตัวเลือกการผสาน ข้อมูลเพิ่มเติม: ภาพรวมการดําเนินการผสาน

หมายเหตุ

การจับคู่แบบไม่เป็นทางการรองรับเฉพาะการดําเนินการผสานบนคอลัมน์ข้อความเท่านั้น Power Query ใช้อัลกอริทึมความคล้ายคลึงกันของ Jaccard เพื่อวัดความคล้ายคลึงกันระหว่างคู่ของอินสแตนซ์

สถานการณ์ตัวอย่าง

กรณีการใช้งานทั่วไปสําหรับการจับคู่แบบไม่เป็นทางการคือกับเขตข้อมูลข้อความรูปแบบอิสระ เช่น ในแบบสํารวจ สําหรับบทความนี้ ตารางตัวอย่างถูกนํามาโดยตรงจากแบบสํารวจออนไลน์ที่ส่งไปยังกลุ่มที่มีคําถามเดียวเท่านั้น: ผลไม้ที่คุณชื่นชอบคืออะไร

ผลลัพธ์ของแบบสํารวจนั้นจะแสดงในรูปต่อไปนี้

แบบสํารวจตัวอย่างพร้อมรายการดิบ

ตารางผลลัพธ์ของแบบสํารวจตัวอย่างที่มีกราฟการกระจายคอลัมน์แสดงคําตอบที่แตกต่างกันเก้าคําตอบกับคําตอบที่ไม่ซ้ํากันทั้งหมด และคําตอบของแบบสํารวจด้วยการพิมพ์ผิดพหูพจน์ หรือเอกพจน์ ทั้งหมด และปัญหาเกี่ยวกับกรณี

ระเบียนเก้ารายการสะท้อนถึงการส่งแบบสํารวจ ปัญหาเกี่ยวกับการส่งแบบสํารวจคือบางปัญหามีการพิมพ์ผิด บางอย่างเป็นพหูพจน์ บางส่วนเป็นเอกพจน์ บางส่วนเป็นตัวพิมพ์ใหญ่ และบางส่วนเป็นตัวพิมพ์เล็ก

เพื่อช่วยสร้างมาตรฐานค่าเหล่านี้ ในตัวอย่างนี้คุณมีตารางอ้างอิง ผลไม้

ตารางอ้างอิงผลไม้

ตารางอ้างอิงผลไม้ที่มีกราฟการกระจายคอลัมน์แสดงผลไม้ที่แตกต่างกันสี่ชนิดซึ่งผลไม้ทั้งหมดไม่ซ้ํากัน และรายการของผลไม้: แอปเปิ้ล, สับปะรด, แตงโม และกล้วย

หมายเหตุ

เพื่อความง่าย ตารางอ้างอิงผลไม้นี้จะมีชื่อของผลไม้ที่จําเป็นสําหรับสถานการณ์นี้เท่านั้น ตารางอ้างอิงของคุณสามารถมีแถวได้มากเท่าที่คุณต้องการ

เป้าหมายคือการสร้างตารางดังต่อไปนี้ ซึ่งคุณได้กําหนดมาตรฐานค่าเหล่านี้ทั้งหมดเพื่อให้คุณทําการวิเคราะห์ได้มากขึ้น

ตารางผลลัพธ์ของแบบสํารวจตัวอย่าง

ตารางผลลัพธ์ของแบบสํารวจตัวอย่างที่มีคอลัมน์คําถามที่มีกราฟการแจกแจงคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบพร้อมคําตอบที่ไม่ซ้ํากันและคําตอบของแบบสํารวจที่มีการพิมพ์ผิดทั้งหมด พหูพจน์ หรือเอกพจน์ และปัญหากรณี และยังประกอบด้วยคอลัมน์ผลไม้ที่ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบด้วยคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบและรายการทั้งหมดของผลไม้ที่มีการสะกดอย่างถูกต้อง เอกพจน์ และเคสที่เหมาะสม

การดําเนินการรวม Fuzzy

เมื่อต้องการทําการผสาน fuzzy คุณเริ่มต้นโดยทําการผสาน ในกรณีนี้ คุณจะใช้การรวมภายนอกด้านซ้าย (left outer join) ซึ่งตารางด้านซ้ายคือตารางจากแบบสํารวจ และตารางด้านขวาคือ ตารางอ้างอิงผลไม้ ที่ด้านล่างของกล่องโต้ตอบ เลือกกล่องกาเครื่องหมาย ใช้การจับคู่แบบไม่เป็นทางการเพื่อดําเนินการผสาน

ใช้การจับคู่ fuzzy เพื่อดําเนินการผสานตัวเลือก

หลังจากที่คุณเลือก ตกลง คุณจะเห็นคอลัมน์ใหม่ในตารางของคุณเนื่องจากการผสานนี้ หากคุณขยายคุณจะสังเกตเห็นว่ามีแถวหนึ่งที่ไม่มีค่าใด ๆ อยู่ นั่นคือสิ่งที่กล่องข้อความในรูปภาพก่อนหน้าระบุไว้เมื่อมีข้อความว่า "การเลือกตรงกับ 8 จาก 9 แถวจากตารางแรก"

ผลลัพธ์การจับคู่แบบไม่เป็นทางการในคอลัมน์ผลไม้

คอลัมน์ Fruit ที่เพิ่มไปยังตารางแบบสํารวจ เมื่อขยายแถวทั้งหมดในคอลัมน์ คําถาม ยกเว้นแถว 9 ที่ไม่สามารถขยายได้และคอลัมน์ ผลไม้ มี null

ตัวเลือกการจับคู่ Fuzzy

คุณสามารถปรับเปลี่ยน ตัวเลือก การจับคู่ Fuzzy เพื่อปรับแต่งวิธีการจับคู่โดยประมาณที่ควรทํา ก่อนอื่น ให้เลือก คําสั่ง ผสานคิวรี จากนั้น ในกล่องโต้ตอบ ผสาน ให้ขยาย ตัวเลือกการจับคู่ที่ไม่น่าสงสัย

ตัวเลือกการจับคู่ Fuzzy

ตัวเลือกที่ใช้ได้คือ:

  • ค่าเกณฑ์ความคล้ายคลึงกัน (ไม่บังคับ): ค่าระหว่าง 0.00 และ 1.00 ที่มีความสามารถในการจับคู่เรกคอร์ดเหนือคะแนนความคล้ายคลึงกันที่กําหนด ค่าเกณฑ์ 1.00 จะเหมือนกับการระบุเกณฑ์การจับคู่ที่ตรงกัน ตัวอย่างเช่น Grapes ตรงกับ Graes (ตัวอักษร p หายไป) เฉพาะเมื่อค่าเกณฑ์ถูกตั้งค่าน้อยกว่า 0.90 ตามค่าเริ่มต้น ค่านี้จะถูกตั้งค่าเป็น 0.80
  • ละเว้นกรณี: อนุญาตให้มีการจับคู่ระเบียนไม่ว่าตัวพิมพ์เล็กของข้อความจะเป็นอะไรก็ตาม
  • จับคู่โดยการรวมส่วนของข้อความ: อนุญาตให้รวมส่วนของข้อความเพื่อค้นหารายการที่ตรงกัน ตัวอย่างเช่น Micro soft จะจับคู่กับ Microsoft หากเปิดใช้งานตัวเลือกนี้
  • แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างอินพุตและค่าที่ตรงกันหลังจากการจับคู่แบบไม่ชัดเจน
  • จํานวนของรายการที่ตรงกัน (ไม่บังคับ): ระบุจํานวนแถวที่ตรงกันสูงสุดที่สามารถแสดงได้สําหรับแถวอินพุตทั้งหมด
  • ตารางการแปลง (ไม่บังคับ): อนุญาตให้มีเรกคอร์ดที่ตรงกันตามการแมปค่าที่กําหนดเอง ตัวอย่างเช่น Grapes จับคู่กับ Raisins ถ้ามีตารางการแปลงให้ที่คอลัมน์ จาก มี Grapes และคอลัมน์ ถึง มี Raisins

ตารางการแปลง

สําหรับตัวอย่างในบทความนี้ คุณสามารถใช้ตารางการแปลงเพื่อแมปค่าที่มีคู่ที่ขาดหายไป ค่าดังกล่าวคือ apls ซึ่งจําเป็นต้องแมปกับ Apple ตารางการแปลงของคุณมีสองคอลัมน์:

  • จาก มีค่าต่างๆ เพื่อค้นหา
  • เพื่อประกอบด้วยค่าที่จะใช้เพื่อแทนที่ค่าที่พบโดยใช้คอลัมน์ From

สําหรับบทความนี้ ตารางการแปลงจะมีลักษณะดังต่อไปนี้:

จาก ถึง
apls Apple

คุณสามารถย้อนกลับไปยังกล่องโต้ตอบ ผสาน และในตัวเลือกการจับคู่แบบไม่เป็นทางการภายใต้ จํานวนรายการที่ตรงกัน ให้ใส่ 1 เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน จากนั้นภายใต้ ตารางการแปลง ให้เลือก แปลงข้อมูลตาราง จากเมนูดรอปดาวน์

ผสานกล่องโต้ตอบที่มีจํานวนรายการที่ตรงกันซึ่งตั้งค่าเป็น 1 และตารางการแปลงถูกตั้งค่าเป็นตารางแปลง

หลังจากที่คุณเลือก ตกลง คุณสามารถไปที่ขั้นตอนการผสาน เมื่อคุณขยายคอลัมน์ที่มีค่าตาราง คุณจะสังเกตเห็นว่านอกเหนือจาก เขตข้อมูล Fruit คุณยังจะเห็น เขตข้อมูลคะแนนความคล้ายคลึงกัน เลือกทั้งสองและขยายโดยไม่เพิ่มคํานําหน้า

กล่องโต้ตอบขยายตารางสําหรับคอลัมน์ Fruits ที่มีเขตข้อมูลผลไม้และคะแนนความคล้ายคลึงกันที่เลือก

หลังจากขยายสองเขตข้อมูลเหล่านี้แล้ว เขตข้อมูลเหล่านั้นจะถูกเพิ่มลงในตารางของคุณ สังเกตค่าที่คุณได้รับสําหรับคะแนนความคล้ายคลึงกันของแต่ละค่า คะแนนเหล่านี้สามารถช่วยให้คุณทําการแปลงเพิ่มเติมได้หากจําเป็นเพื่อตรวจสอบว่าคุณควรลดหรือเพิ่มค่าเกณฑ์ความคล้ายคลึงกันหรือไม่

ผลลัพธ์ของตารางหลังจากกระบวนการผสานแบบไม่ชัดเจนเกิดขึ้นโดยแสดงทั้งเขตข้อมูล ผลไม้ และ คะแนนความคล้ายคลึงกัน ใหม่สําหรับแต่ละค่าจากคิวรีเดิม

สําหรับตัวอย่าง นี้ คะแนน ความคล้ายคลึงกันทําหน้าที่เป็นข้อมูลเพิ่มเติมเท่านั้น และไม่จําเป็นในผลลัพธ์ของคิวรีนี้ ดังนั้นคุณสามารถเอาออกได้ โปรดทราบว่าตัวอย่างเริ่มต้นด้วยค่าที่แตกต่างกันเก้าค่า แต่หลังจากการผสานแบบไม่ชัดแจ้ง จะมีเพียงสี่ค่าที่แตกต่างกันเท่านั้น

ตารางผลลัพธ์ของแบบสํารวจแบบสํารวจแบบไม่เลือน

ตารางผลลัพธ์ของแบบสํารวจที่แปลกตากับคอลัมน์คําถามที่ประกอบด้วยกราฟการกระจายคอลัมน์ที่แสดงคําตอบที่แตกต่างกันเก้าคําตอบกับคําตอบทั้งหมดที่ไม่ซ้ํากันและคําตอบไปยังแบบสํารวจที่มีการพิมพ์ผิดพหูพจน์หรือเอกพจน์ทั้งหมด และปัญหาเกี่ยวกับกรณี นอกจากนี้ ประกอบด้วยคอลัมน์ Fruit ที่มีกราฟการกระจายคอลัมน์ ที่แสดงคําตอบที่แตกต่างกันสี่คําตอบพร้อมคําตอบที่ไม่ซ้ํากันหนึ่งคําตอบ และแสดงรายการผลไม้ทั้งหมดที่สะกดเป็นเอกพจน์ และกรณีที่เหมาะสมอย่างเหมาะสม