ค่าคลัสเตอร์

ค่าคลัสเตอร์สร้างกลุ่มที่มีค่าที่คล้ายกันโดยอัตโนมัติโดยใช้อัลกอริทึมที่ตรงกันและแมปค่าของแต่ละคอลัมน์ไปยังกลุ่มที่ดีที่สุดที่ตรงกัน การแปลงนี้มีประโยชน์มากเมื่อคุณใช้งานข้อมูลที่มีรูปแบบที่แตกต่างกันหลายค่าเดียวกัน และคุณต้องรวมค่าลงในกลุ่มที่สอดคล้องกัน

พิจารณาตารางตัวอย่างที่มีคอลัมน์ id ที่ประกอบด้วยชุดของรหัสและคอลัมน์ Person ที่มีชุดของชื่อ Miguel, William และ Bill ในชื่อที่สะกดและพิมพ์ใหญ่ต่าง ๆ

ตารางที่มีรายการเก้าแถวที่ประกอบด้วยการสะกดและ captilizations ต่าง ๆ ของชื่อ Miguel และ William

ในตัวอย่างนี้ ผลลัพธ์ที่คุณค้นหาคือตารางที่มีคอลัมน์ใหม่ที่แสดงกลุ่มค่าที่ถูกต้องจากคอลัมน์ บุคคล และไม่ใช่การเปลี่ยนแปลงที่แตกต่างกันทั้งหมดของข้อความเดียวกัน

ค่าคลัสเตอร์เป็นคอลัมน์ใหม่ที่เรียกว่าคลัสเตอร์ในตารางเริ่มต้น

หมายเหตุ

คุณลักษณะค่าคลัสเตอร์พร้อมใช้งานเฉพาะPower Query Online เท่านั้น

สร้างคอลัมน์คลัสเตอร์

เมื่อต้องการค่าคลัสเตอร์ ก่อน อื่นให้เลือก คอลัมน์ บุคคล ไปที่แท็บ เพิ่มคอลัมน์ ใน ribbon จากนั้นเลือกตัวเลือก ค่า คลัสเตอร์

ไอคอนค่าคลัสเตอร์ภายในแท็บเพิ่มคอลัมน์ในPower Queryออนไลน์ของคุณ

ในกล่องโต้ตอบ ค่า คลัสเตอร์ ให้ยืนยันคอลัมน์ที่คุณต้องการใช้ในการสร้างคลัสเตอร์และป้อนชื่อใหม่ของคอลัมน์ ในกรณีนี้ ให้ตั้งชื่อคอลัมน์กลุ่ม ใหม่ นี้

หน้าต่างค่าคลัสเตอร์พร้อมคอลัมน์ Person (บุคคล) ที่เลือกและคอลัมน์ใหม่ที่ชื่อว่าคลัสเตอร์

ผลลัพธ์ของการดําเนินการจะให้ผลลัพธ์ที่แสดงในรูปภาพถัดไป

ค่าคลัสเตอร์เป็นคอลัมน์ใหม่ที่เรียกว่าคลัสเตอร์ในตารางเริ่มต้น

หมายเหตุ

ในคลัสเตอร์ของค่าแต่ละPower Queryจะเลือกอินสแตนซ์ที่ใช้บ่อยที่สุดจากคอลัมน์ที่เลือกเป็นอินสแตนซ์ "มาตรฐาน" หากหลายอินสแตนซ์เกิดขึ้นด้วยความถี่Power Query จะเลือกอินสแตนซ์แรก

การใช้ตัวเลือกคลัสเตอร์ Fuzzy

ตัวเลือกต่อไปนี้พร้อมให้ใช้งานกับค่าการคลัสเตอร์ในคอลัมน์ใหม่:

  • ค่าเกณฑ์ความคล้ายคลึงกัน ( ไม่บังคับ) : ตัวเลือกนี้แสดงให้เห็นว่าต้องมีการจัดกลุ่มค่าสองค่าที่คล้ายกันเข้าด้วยกันอย่างไร การตั้งค่าต่สุดของ 0 จะส่งผลให้มีการจัดกลุ่มค่าทั้งหมดเข้าด้วยกัน การตั้งค่าสูงสุด 1 จะอนุญาตให้จัดกลุ่มค่าที่ตรงกันเท่านั้น ค่าเริ่มต้นคือ 0.8
  • กรณี ละเว้น: เมื่อเปรียบเทียบสตริงข้อความ ตัวพิมพ์จะถูกละเว้น ตัวเลือกนี้จะเปิดใช้งานตามค่าเริ่มต้น
  • จัดกลุ่มตามการรวมส่วนของข้อความ: อัลกอริทึมพยายามรวมส่วนของข้อความ (เช่น การรวม Micro และ soft ลงใน Microsoft) เพื่อจัดกลุ่มค่า
  • แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างค่าอินพุตและค่าตัวแทนที่ประมวลผลหลังจากคลัสเตอร์แบบไม่เต็มประสิทธิภาพ
  • ตารางการแปลงข้อมูล (ไม่บังคับ): คุณสามารถเลือกตารางการแปลงที่แมปค่า (เช่น การแมป MSFT ไปยัง Microsoft) เพื่อจัดกลุ่มเข้าด้วยกัน

ในตัวอย่างนี้ ตารางการแปลงใหม่ที่มีชื่อ ตาราง การแปลงของฉัน ถูกใช้เพื่อแสดงให้เห็นว่าสามารถแมปค่าได้อย่างไร ตารางการแปลงนี้มีสองคอลัมน์:

  • จาก: สตริงข้อความที่จะค้นหาในตารางของคุณ
  • ไปยัง: สตริงข้อความที่จะใช้ในการแทนที่สตริงข้อความ ในคอลัมน์ จาก

ตารางที่แสดง ค่าจาก mike และ William และค่า To ของ Miguel และ Bill

ข้อสำคัญ

สิ่งสําคัญคือตารางการแปลงมีคอลัมน์และชื่อคอลัมน์เดียวกันดังที่แสดงในรูปภาพก่อนหน้า (ต้องตั้งชื่อว่า "จาก" และ "ถึง") มิฉะนั้น Power Query จะไม่รู้จักตารางนี้เป็นตารางการแปลง และจะไม่มีการแปลงขึ้น

ใช้คิวรีที่สร้างไว้ก่อนหน้านี้ ให้ดับเบิลคลิกที่ ขั้นตอน ค่ากลุ่ม จากนั้นในกล่องโต้ตอบ ค่า คลัสเตอร์ ให้ขยาย ตัวเลือกคลัสเตอร์ Fuzzy ภายใต้ ตัวเลือกคลัสเตอร์แบบไม่เต็ม ตัว ให้เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึง กัน เลือก คิวรี ที่มีตารางการแปลง

คอลัมน์คลัสเตอร์ Fuzzy ที่มีเมนูดรอปดาวน์ของตารางการแปลงตัวอย่าง

หลังจากเลือกตารางการแปลงของคุณและเปิดใช้งาน ตัวเลือก แสดงคะแนนความ คล้ายคลึงกัน แล้ว ให้เลือก ตกลง ผลลัพธ์ของการดําเนินการนั้นจะให้ตารางที่มีคอลัมน์ id และ Person เดียวกันกับตารางต้นฉบับ แต่ยังมีสองคอลัมน์ใหม่ทางด้านขวา เรียกว่าคลัสเตอร์****Person_Cluster_Similarity คอลัมน์ Cluster มีชื่อ Miguel และ Mike เวอร์ชันที่สะกดถูกต้องและพิมพ์ใหญ่ คอลัมน์ Person_Cluster_Similarity ประกอบด้วยคะแนนความคล้ายคลึงกันของชื่อแต่ละชื่อ

ตารางที่มีคลัสเตอร์และตารางPerson_Cluster_Similarityคอลัมน์ใหม่