ค่าคลัสเตอร์

ค่าคลัสเตอร์จะสร้างกลุ่มที่มีค่าคล้ายกันโดยอัตโนมัติโดยใช้อัลกอริทึมการจับคู่ที่ไม่น่าเบื่อ แล้วแมปค่าของแต่ละคอลัมน์ไปยังกลุ่มที่ตรงกันที่สุด การแปลงนี้จะมีประโยชน์มากเมื่อคุณกําลังทํางานกับข้อมูลที่มีความแตกต่างมากมายเกี่ยวกับค่าเดียวกัน และคุณจําเป็นต้องรวมค่าต่างๆ ลงในกลุ่มที่สอดคล้องกัน

พิจารณาตารางตัวอย่างที่มี คอลัมน์ id ที่มีชุดของ ID และ คอลัมน์บุคคล ที่มีชุดชื่อชื่อ Miguel, Mike, William และ Bill ซึ่งสะกดคําต่างกันและเป็นตัวพิมพ์ใหญ่

ตารางที่มีเก้าแถวของรายการที่มีการสะกดและ captilizations ต่าง ๆ ของชื่อ Miguel และ William

ในตัวอย่างนี้ ผลลัพธ์ที่คุณกําลังค้นหาคือตารางที่มีคอลัมน์ใหม่ที่แสดงกลุ่มค่าที่ถูกต้องจาก คอลัมน์ บุคคล และไม่ใช่การเปลี่ยนแปลงที่แตกต่างกันทั้งหมดของคําเดียวกัน

ค่ากลุ่มเป็นคอลัมน์ใหม่ที่เรียกว่าคลัสเตอร์ในตารางเริ่มต้น

หมายเหตุ

คุณลักษณะค่าคลัสเตอร์จะพร้อมใช้งานสําหรับ Power Query Online เท่านั้น

สร้างคอลัมน์คลัสเตอร์

หากต้องการรวมค่าคลัสเตอร์ ก่อนอื่นให้เลือก คอลัมน์ Person ไปที่ แท็บ เพิ่มคอลัมน์ ใน ribbon จากนั้น เลือกตัวเลือกค่า คลัสเตอร์

ไอคอนค่าคลัสเตอร์ภายในแท็บเพิ่มคอลัมน์ในริบบอนออนไลน์ของ Power Query

ในกล่องโต้ตอบค่าคลัสเตอร์ ยืนยันคอลัมน์ที่คุณต้องการใช้เพื่อสร้างคลัสเตอร์จาก และป้อนชื่อใหม่ของคอลัมน์ สําหรับกรณีนี้ ตั้งชื่อคอลัมน์ คลัสเตอร์ใหม่นี้

หน้าต่างค่าคลัสเตอร์ที่มีคอลัมน์ Person ที่เลือกและคอลัมน์ใหม่ชื่อเป็น Cluster

ผลลัพธ์ของการดําเนินการดังกล่าวจะให้ผลลัพธ์ที่แสดงในภาพถัดไป

ค่ากลุ่มเป็นคอลัมน์ใหม่ที่เรียกว่าคลัสเตอร์ในตารางเริ่มต้น

หมายเหตุ

สําหรับแต่ละคลัสเตอร์ของค่า Power Query จะเลือกอินสแตนซ์ที่ใช้บ่อยที่สุดจากคอลัมน์ที่เลือกเป็นอินสแตนซ์ "มาตรฐาน" ถ้าหลายอินสแตนซ์เกิดขึ้นด้วยความถี่เดียวกัน Power Query จะเลือกอินสแตนซ์แรก

การใช้ตัวเลือกคลัสเตอร์ fuzzy

ตัวเลือกต่อไปนี้จะพร้อมใช้งานสําหรับการคลัสเตอร์ค่าในคอลัมน์ใหม่:

  • ค่าเกณฑ์ความคล้ายคลึงกัน (ไม่บังคับ): ตัวเลือกนี้แสดงให้เห็นว่าค่าสองค่าที่คล้ายกันจะต้องถูกจัดกลุ่มเข้าด้วยกันอย่างไร การตั้งค่าต่ําสุดของ 0 ทําให้ค่าทั้งหมดถูกจัดกลุ่มเข้าด้วยกัน การตั้งค่าสูงสุดของ 1 อนุญาตให้รวมค่าที่ตรงกับการจัดกลุ่มเข้าด้วยกันเท่านั้น ค่าเริ่มต้นคือ 0.8
  • ละเว้นตัวพิมพ์: เมื่อเปรียบเทียบสตริงข้อความ ตัวพิมพ์เล็กจะถูกละเว้น ตัวเลือกนี้จะถูกเปิดใช้งานโดยค่าเริ่มต้น
  • จัดกลุ่มตามการรวมส่วนของข้อความ: อัลกอริทึมจะพยายามรวมส่วนของข้อความ (เช่น การรวม Micro และ soft ลงใน Microsoft) เพื่อจัดกลุ่มค่าต่างๆ
  • แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างค่าอินพุตและค่าตัวแทนที่คํานวณหลังจากการคลัสเตอร์แบบไม่ชัดเจน
  • ตารางการแปลง (ไม่บังคับ): คุณสามารถเลือกตารางการแปลงที่แมปค่า (เช่น การแมป MSFT ไปยัง Microsoft) เพื่อจัดกลุ่มเข้าด้วยกัน

สําหรับตัวอย่างนี้ ตารางการแปลงใหม่ที่มีชื่อ ตาราง การแปลงของฉัน ถูกใช้เพื่อแสดงให้เห็นว่าสามารถแมปค่าได้อย่างไร ตารางการแปลงนี้มีสองคอลัมน์:

  • จาก: สตริงข้อความที่จะค้นหาในตารางของคุณ
  • ไปยัง: สตริงข้อความที่จะใช้เพื่อแทนที่สตริงข้อความในคอลัมน์ From

ตารางแสดงจากค่าของไมค์และวิลเลียม และค่า To ของ Miguel และ Bill

สำคัญ

สิ่งสําคัญคือตารางการแปลงมีคอลัมน์และชื่อคอลัมน์เดียวกันตามที่แสดงในรูปภาพก่อนหน้า (ต้องมีชื่อว่า "จาก" และ "ถึง") มิฉะนั้น Power Query จะไม่รู้จักตารางนี้เป็นตารางการแปลง และจะไม่มีการแปลงเกิดขึ้น

ใช้คิวรีที่สร้างขึ้นก่อนหน้านี้ ดับเบิลคลิกที่ ขั้นตอน ค่า กลุ่ม จากนั้นในกล่องโต้ตอบ ค่า คลัสเตอร์ ขยาย ตัวเลือกคลัสเตอร์ Fuzzy ภายใต้ ตัวเลือกคลัสเตอร์ Fuzzy เปิดใช้งาน ตัวเลือกแสดงคะแนน ความคล้ายคลึงกัน สําหรับ ตารางการแปลง (ไม่บังคับ) ให้เลือกคิวรีที่มีตารางการแปลง

คอลัมน์คลัสเตอร์ Fuzzy ที่มีเมนูดรอปดาวน์ตารางการแปลงตัวอย่าง

หลังจากเลือกตัวเลือก แสดงคะแนนความคล้ายคลึงกัน หลังจากเลือกตารางการแปลงของคุณและเปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน เลือก ตกลง ผลลัพธ์ของการดําเนินการดังกล่าวจะให้ตารางที่ประกอบด้วยคอลัมน์ id และ Person เดียวกันกับตารางเดิม แต่ยังมีสองคอลัมน์ใหม่ทางด้านขวาที่เรียกว่า Cluster และ Person_Cluster_Similarity คอลัมน์ คลัสเตอร์ ประกอบด้วยชื่อ Miguel เวอร์ชันที่สะกดและเป็นตัวพิมพ์ใหญ่อย่างถูกต้องสําหรับเวอร์ชันของ Miguel และ Mike และ William สําหรับเวอร์ชันของ Bill, Billy และ William คอลัมน์ Person_Cluster_Similarity ประกอบด้วยคะแนนความคล้ายคลึงกันสําหรับแต่ละชื่อ

ตารางที่มีคลัสเตอร์ใหม่และคอลัมน์ Person_Cluster_Similarity