แชร์ผ่าน


คู่มือการตัดสินใจของ Microsoft Fabric: คัดลอกกิจกรรม กระแสข้อมูล หรือ Spark

ใช้คู่มืออ้างอิงนี้และสถานการณ์ตัวอย่างเพื่อช่วยให้คุณตัดสินใจว่าคุณต้องการกิจกรรมการคัดลอก กระแสข้อมูล หรือ Spark สําหรับปริมาณงาน Microsoft Fabric ของคุณหรือไม่

คัดลอกคุณสมบัติกิจกรรม กระแสข้อมูล และ Spark

กิจกรรมการคัดลอกไปป์ไลน์ กระแสข้อมูลรุ่น 2 ประกาย
กรณีการใช้งาน การโยกย้ายคลังข้อมูลและที่จัดเก็บข้อมูล
การนําเข้าข้อมูล
การแปลงข้อมูลด้วยน้ําหนักเบา
การนําเข้าข้อมูล
การแปลงข้อมูล
การจัดเรียงข้อมูล
การสร้างโพรไฟล์ข้อมูล
การนําเข้าข้อมูล
การแปลงข้อมูล
การประมวลผลข้อมูล
การสร้างโพรไฟล์ข้อมูล
บุคลลสําหรับนักพัฒนาหลัก วิศวกรข้อมูล
data integrator (ผู้รวมข้อมูล)
วิศวกรข้อมูล
data integrator (ผู้รวมข้อมูล)
นักวิเคราะห์ธุรกิจ
วิศวกรข้อมูล
นักวิทยาศาสตร์ข้อมูล
นักพัฒนาข้อมูล
ชุดทักษะนักพัฒนาหลัก ETL
Sql
JSON
ETL
เมตร
SQL
Spark (Scala, Python, Spark SQL, R)
เขียนรหัส ไม่มีรหัส,
รหัสต่ํา
ไม่มีรหัส,
รหัสต่ํา
รหัส
ปริมาณข้อมูล ต่ําไปสูง ต่ําไปสูง ต่ําไปสูง
อินเทอร์เฟซการพัฒนา วิ ซาร์ ด
ผืน ผ้า ใบ
Power query โน๊ต บุ๊ค
ข้อกําหนดงาน Spark
แหล่ง ตัวเชื่อมต่อมากกว่า 30 ตัว ตัวเชื่อมต่อมากกว่า 150 ตัว ไลบรารี Spark หลายร้อยรายการ
จุดหมาย ปลาย ทาง ตัวเชื่อมต่อมากกว่า 18 ตัว เลคเฮ้าส์
ฐานข้อมูล Azure SQL
Azure Data explorer
Azure Synapse analytics
ไลบรารี Spark หลายร้อยรายการ
ความซับซ้อนในการแปลง ต่ำ:
น้ําหนักเบา - การแปลงประเภท การแมปคอลัมน์ การผสาน/แยกไฟล์ ลําดับชั้นลดรูปแบบโครงสร้าง
ต่ําไปสูง:
ฟังก์ชันการแปลงมากกว่า 300+
ต่ําไปสูง:
การสนับสนุนสําหรับ Spark แบบเนทีฟและไลบรารีโอเพนซอร์ส

ตรวจทานสามสถานการณ์ต่อไปนี้สําหรับความช่วยเหลือเกี่ยวกับการเลือกวิธีการทํางานกับข้อมูลของคุณใน Fabric

สถานการณ์ที่ 1

Leo วิศวกรข้อมูลจําเป็นต้องนําเข้าข้อมูลจํานวนมากจากระบบภายนอก ทั้งภายในองค์กรและระบบคลาวด์ ระบบภายนอกเหล่านี้ประกอบด้วยฐานข้อมูล ระบบไฟล์ และ API Leo ไม่ต้องการเขียนและรักษาโค้ดสําหรับแต่ละตัวเชื่อมต่อหรือการดําเนินการย้ายข้อมูล เขาต้องการปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดสําหรับเลเยอร์เหรียญรางวัลด้วยทองแดงเงินและทอง Leo ไม่มีประสบการณ์ใด ๆ กับ Spark ดังนั้นเขาจึงชอบการลากและวาง UI มากที่สุดเท่าที่เป็นไปได้โดยใช้การเข้ารหัสที่น้อยที่สุด และเขายังต้องการประมวลผลข้อมูลตามกําหนดการด้วย

ขั้นตอนแรกคือการรับข้อมูลดิบลงในเลคเฮ้าส์ชั้นทองแดงจากแหล่งข้อมูล Azure และแหล่งข้อมูลของบุคคลที่สามต่าง ๆ (เช่น Snowflake Web, REST, AWS S3, GCS และอื่น ๆ) เขาต้องการเลคเฮ้าส์รวม เพื่อให้ข้อมูลทั้งหมดจาก LOB, ภายในองค์กร และแหล่งข้อมูลระบบคลาวด์ทั้งหมดอยู่ในที่เดียว Leo ตรวจทานตัวเลือกและเลือกกิจกรรมการ คัดลอก ไปป์ไลน์เป็นตัวเลือกที่เหมาะสมสําหรับสําเนาไบนารีดิบของเขา รูปแบบนี้ใช้กับการรีเฟรชข้อมูลทั้งในอดีตและแบบเพิ่มหน่วย ด้วยกิจกรรมการคัดลอก Leo สามารถโหลดข้อมูลทองคําไปยังคลังข้อมูลที่ไม่มีรหัสหากมีความจําเป็นและไปป์ไลน์ให้การนําเข้าข้อมูลในระดับสูงที่สามารถย้ายข้อมูลระดับเพตะไบต์ได้ กิจกรรมการคัดลอกเป็นตัวเลือกที่ดีที่สุดสําหรับโค้ดที่ต่ําและไม่มีรหัสในการย้ายข้อมูลเพตะไบต์ไปยังเลคเฮ้าส์และคลังสินค้าจากแหล่งที่มาที่หลากหลายไม่ว่าจะเป็นแบบเฉพาะกิจหรือผ่านตารางเวลา

สถานการณ์สมมติ 2

Mary เป็นวิศวกรข้อมูลที่มีความรู้ลึกเกี่ยวกับข้อกําหนดการรายงานการวิเคราะห์ LOB หลายรายการ ทีมอัพสตรีมได้ใช้โซลูชันในการโยกย้ายข้อมูลในอดีตและเพิ่มหน่วยของ LOB หลายรายการลงในเลคเฮ้าส์ทั่วไปเรียบร้อยแล้ว แมรี่ได้รับมอบหมายให้ทําความสะอาดข้อมูล ใช้ตรรกะทางธุรกิจ และโหลดลงในหลายปลายทาง (เช่น Azure SQL DB, ADX และเลคเฮ้าส์) ในการเตรียมการสําหรับทีมรายงานที่เกี่ยวข้อง

Mary คือผู้ใช้ Power Query ที่มีประสบการณ์ และปริมาณข้อมูลอยู่ในช่วงต่ําถึงปานกลางเพื่อให้ได้ประสิทธิภาพที่ต้องการ กระแสข้อมูลมีอินเทอร์เฟซที่ไม่มีรหัสหรือมีรหัสต่ําสําหรับการนําเข้าข้อมูลจากแหล่งข้อมูลหลายร้อยแหล่ง ด้วยกระแสข้อมูล คุณสามารถแปลงข้อมูลโดยใช้ตัวเลือกการแปลงข้อมูลมากกว่า 300 ตัวเลือก และเขียนผลลัพธ์ลงในหลายปลายทางด้วยส่วนติดต่อผู้ใช้ที่ใช้งานง่ายและมีการแสดงผลด้วยภาพสูง Mary ตรวจทานตัวเลือกและตัดสินใจว่าเหมาะสมที่จะใช้ Dataflow Gen 2 เป็นตัวเลือกการแปลงที่เธอต้องการ

สถานการณ์ที่ 3

Adam เป็นวิศวกรข้อมูลที่ทํางานให้กับบริษัทค้าปลีกรายใหญ่ที่ใช้เลคเฮ้าส์เพื่อจัดเก็บและวิเคราะห์ข้อมูลของลูกค้า Adam มีหน้าที่รับผิดชอบในการสร้างและบํารุงรักษาไปป์ไลน์ข้อมูลที่แยก แปลง และโหลดข้อมูลลงในเลคเฮ้าส์ หนึ่งในข้อกําหนดทางธุรกิจของบริษัทคือการทําการวิเคราะห์รีวิวของลูกค้าเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับประสบการณ์ของลูกค้าและปรับปรุงบริการของพวกเขา

Adam ตัดสินใจว่าตัวเลือกที่ดีที่สุดคือใช้ Spark เพื่อสร้างตรรกะการแยกและการแปลง Spark มีแพลตฟอร์มการคํานวณแบบกระจายที่สามารถประมวลผลข้อมูลจํานวนมากพร้อมกันได้ เขาเขียนแอปพลิเคชัน Spark โดยใช้ Python หรือ Scala ซึ่งอ่านข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจาก OneLake สําหรับความคิดเห็นของลูกค้าและคําติชม แอปพลิเคชันจะทําความสะอาด แปลง และเขียนข้อมูลไปยังตาราง Delta ในเลคเฮ้าส์ จากนั้นข้อมูลจะพร้อมใช้สําหรับการวิเคราะห์ปลายทาง