การจับคู่แบบไม่ตรงกันPower Queryได้อย่างไร

Power Queryประกอบด้วยการรวมแบบไม่ตรงกันค่าคลัสเตอร์และการจัดกลุ่มแบบไม่เหมือนกับการใช้งานกลไกเดียวกันเพื่อใช้งานเป็นการจับคู่แบบไม่ตรงกัน

บทความนี้มีสถานการณ์หลายอย่างที่จะแสดงให้คุณเห็นถึงวิธีการใช้ประโยชน์จากตัวเลือกที่การจับคู่แบบไม่ชัดเจนโดยมีเป้าหมายในการ 'ไม่ชัดเจน'

ปรับค่าเกณฑ์ความคล้ายคลึงกัน

สถานการณ์ที่ดีที่สุดคือการใช้อัลกอริทึมการจับคู่ที่ไม่ตรงกันคือเมื่อสตริงข้อความทั้งหมดในคอลัมน์มีเพียงสตริงที่ต้องใช้เท่านั้นและไม่ได้เปรียบเทียบคอมโพเนนต์เพิ่มเติม ตัวอย่างเช่น เมื่อเปรียบเทียบกับ Apples ผล 4ppl3s คะแนนความคล้ายคลึงกันที่สูงกว่า Apples My favorite fruit, by far, is Apples. I simply love them! เมื่อเทียบกับ

เนื่องจาก word ใน Apples สตริงที่สองเป็นเพียงส่วนเล็ก ๆ ของสตริงข้อความทั้งหมดที่ให้คะแนนความคล้ายคลึงกันที่ต่กว่า

ลองดูชุดข้อมูลต่อไปนี้ที่ประกอบด้วยการตอบสนองจากแบบสํารวจที่มีคําถามเดียว "ผลไม้โปรดของคุณคืออะไร"

ผลไม้
บลูเบอร์รี่
สีพื้นหลังเป็นสีดรอเบอรี่ที่ดีที่สุด
สตรอเบอร์รี่
สตรอเบอรี่ = <3
แอปเปิ้ล
'sples
4ppl3s
กล้วย
ผลไม้ fav เป็นกล้วย
แบนดาส
ผลไม้โปรดของฉันคือ Apples ฉันเพียงรักพวกเขา!

แบบสํารวจมีกล่องข้อความเดียวหนึ่งกล่องเพื่อป้อนค่าและไม่มีการตรวจสอบ

ตอนนี้คุณได้รับมอบหมายให้คลัสเตอร์ค่า ในการกระนั้น คุณโหลดตารางผลไม้ก่อนหน้านี้ลงใน Power Query เลือกคอลัมน์จากนั้นเลือกตัวเลือกที่อ่าน ค่า คลัสเตอร์ ภายในเมนู เพิ่มคอลัมน์ใน ribbon

ไอคอนค่าคลัสเตอร์ภายในเมนูเพิ่มคอลัมน์ใน Ribbon ที่พร้อมใช้งานหลังจากเลือกคอลัมน์ผลไม้จากตาราง

กล่องโต้ตอบค่า คลัสเตอร์จะปรากฏขึ้น ซึ่งคุณสามารถระบุชื่อของคอลัมน์ใหม่ได้ ตั้งชื่อคอลัมน์ใหม่ นี้ กลุ่ม และเลือก ตกลง

กล่องโต้ตอบค่าคลัสเตอร์หลังจากเลือกคอลัมน์ Fruit เขตข้อมูลชื่อคอลัมน์ใหม่ได้รับการตั้งค่าเป็น 'คลัสเตอร์'

ตามค่าเริ่มต้น Power Queryค่าเกณฑ์ความคล้ายคลึงกันของ 0.8 (หรือ 80%) และผลลัพธ์ของการดําเนินการก่อนหน้านี้จะให้ผลลัพธ์ตารางต่อไปนี้กับคอลัมน์ คลัสเตอร์ ใหม่:

ผลลัพธ์ค่าเริ่มต้นหลังจากดําเนินการการค่าของคลัสเตอร์บนคอลัมน์ Fruit ด้วยค่าเริ่มต้น

ในขณะที่การคลัสเตอร์เสร็จสิ้น แล้ว ระบบจะไม่ให้ผลลัพธ์ที่คาดหวังกับแถวทั้งหมด แถวหมายเลขสอง (2) ยังคงมีค่า แต่ควรคลัสเตอร์ Blue berries are simply the best เป็น และมีบางอย่าง Blueberries คล้ายกับสตริงข้อความ Strawberries = <3 , fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! และ

คุณต้องการหาว่าอะไรทําให้คลัสเตอร์นี้ เมื่อต้องการตั้งค่านี้ คุณสามารถดับเบิลคลิกที่ขั้นตอน ค่า กลุ่ม เพื่อย้อนกลับหน้าต่าง ค่า คลัสเตอร์ ภายในหน้าต่างนี้ ขยายข้อความที่อ่านตัวเลือกคลัสเตอร์ Fuzzy และเปิดใช้งานตัวเลือกที่อ่าน แสดงคะแนน ความ คล้ายคลึงกันตามที่แสดงในรูปภาพด้านล่าง และกดปุ่มตกลง:

หน้าต่างค่าคลัสเตอร์ที่มีตัวเลือกคลัสเตอร์แบบไม่เต็มตัวแสดงและเลือกตัวเลือกแสดงคะแนนความคล้ายคลึงกัน

การเปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึง กัน จะรวมคอลัมน์ใหม่ลงในตารางของคุณซึ่งแสดงคะแนนความคล้ายคลึงกันระหว่างคลัสเตอร์ที่กําหนดไว้กับค่าเดิม

ตารางที่มีคอลัมน์คะแนนความคล้ายคลึงกันใหม่ที่มีชื่อFruit_Cluster_Similarityใหม่

เมื่อมีการตรวจสอบที่มากขึ้น คุณจะเห็นว่าPower Queryไม่พบค่าอื่นภายในเกณฑ์ความคล้ายคลึงกันของสตริงข้อความ Blue berries are simply the best Strawberries = <3 , , fav fruit is bananas My favorite fruit, by far, is Apples. I simply love them! และ

คุณสามารถกลับไปยังกล่องโต้ตอบ ค่า คลัสเตอร์ อีกครั้งหนึ่งโดยดับเบิลคลิกที่ขั้นตอน ค่ากลุ่ม และเปลี่ยนค่าเกณฑ์ความคล้ายคลึงกันจาก 0.8 เป็น 0.6 ดังแสดงในภาพด้านล่าง:

กล่องโต้ตอบค่าคลัสเตอร์ที่มีตัวเลือกคลัสเตอร์แบบไม่เต็มจอแสดงค่าเกณฑ์ความคล้ายคลึงกันที่ 0.6 และตัวเลือกแสดงคะแนนความคล้ายคลึงกันที่เลือก

การเปลี่ยนแปลงนี้จะส่งผลให้คุณใกล้ผลลัพธ์ที่คุณค้นหามากขึ้น ยกเว้นสตริง My favorite fruit, by far, is Apples. I simply love them! ข้อความ เนื่องจากโดยการเปลี่ยนค่า เกณฑ์ความ คล้ายคลึงกันจาก 0.8 เป็น 0.6 Power Query ตอนนี้สามารถใช้ค่าที่มีคะแนนความคล้ายคลึงกันที่เริ่มต้นจาก 0.6 จนถึง 1 ได้ทั้งหมด

ตารางหลังจากนิยามค่าเกณฑ์ความคล้ายคลึงกันที่ 0.6 ด้วยค่าใหม่ที่มอบหมายในคอลัมน์คลัสเตอร์

หมายเหตุ

Power Queryค่าที่ใกล้เคียงขีดสุดเพื่อกําหนดคลัสเตอร์เสมอ ค่าเกณฑ์กําหนดขีดจํากัดต่สุดของคะแนนความคล้ายคลึงกันที่ยอมรับได้ในการสร้างการกําหนดค่าไปยังคลัสเตอร์

คุณสามารถลองอีกครั้งโดยการเปลี่ยนคะแนน ความคล้ายคลึงกัน จาก 0.6 เป็นตัวเลขที่ต่กว่าจนกว่าคุณจะได้รับผลลัพธ์ที่คุณคาดหวัง ในกรณีนี้ เปลี่ยน คะแนนความ คล้ายคลึงกัน เป็น 0.5 ซึ่งจะให้ผลลัพธ์ที่แน่นอนที่คุณคาดว่าจะมีสตริงข้อความซึ่ง My favorite fruit, by far, is Apples. I simply love them! ตอนนี้ถูกมอบหมายไปยังคลัสเตอร์ Apples ดังที่แสดงในรูปภาพถัดไป:

ตารางที่มีค่าที่ถูกต้องในคอลัมน์คลัสเตอร์ที่สตริง 'ผลไม้โปรดของฉันถึงตอนนี้คือ Apples ฉันเพียงแค่รักพวกเขา!' ตอนนี้ถูกมอบหมายให้กับคลัสเตอร์ 'Apples'

หมายเหตุ

ในขณะนี้ เฉพาะ คุณลักษณะค่าคลัสเตอร์ ใน Power Query Online เท่านั้นที่จะมอบคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกัน