Share via


วิทยาศาสตร์ข้อมูลใน Microsoft Fabric คืออะไร

Microsoft Fabric มอบประสบการณ์ด้านวิทยาศาสตร์ข้อมูลเพื่อสนับสนุนให้ผู้ใช้ดําเนินการเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลแบบ end-to-end ให้เสร็จสมบูรณ์เพื่อวัตถุประสงค์เพื่อการเสริมสร้างข้อมูลและข้อมูลเชิงลึกทางธุรกิจ คุณสามารถทํากิจกรรมที่หลากหลายได้ตลอดกระบวนการวิทยาศาสตร์ข้อมูลทั้งหมดตั้งแต่การสํารวจข้อมูล การเตรียมการและทําความสะอาดไปจนถึงการทดลอง การวางรูปแบบ การให้คะแนนแบบจําลอง และการให้บริการข้อมูลเชิงลึกเชิงทํานายไปยังรายงาน BI

ผู้ใช้ Microsoft Fabric สามารถเข้าถึงหน้าแรกของวิทยาศาสตร์ข้อมูลได้ จากจุดนั้น พวกเขาสามารถค้นหาและเข้าถึงแหล่งข้อมูลต่าง ๆ ที่เกี่ยวข้อง ตัวอย่างเช่น พวกเขาสามารถสร้างการทดลองการเรียนรู้ของเครื่อง แบบจําลอง และสมุดบันทึกได้ นอกจากนี้ พวกเขายังสามารถนําเข้าสมุดบันทึกที่มีอยู่ในหน้าแรกของวิทยาศาสตร์ข้อมูลได้อีกด้วย

สกรีนช็อตของโฮมเพจวิทยาศาสตร์ข้อมูล

คุณอาจทราบวิธีการทํางานของกระบวนการวิทยาศาสตร์ข้อมูลทั่วไป เช่นเดียวกับกระบวนการที่เป็นที่รู้จักกันดี โครงการการเรียนรู้ของเครื่องส่วนใหญ่จะติดตามไปด้วย

ในระดับสูง กระบวนการเกี่ยวข้องกับขั้นตอนเหล่านี้:

  • สูตรและความคิดที่มีปัญหา
  • การค้นพบข้อมูลและการประมวลผลล่วงหน้า
  • การทดลองและการวางรูปแบบ
  • เสริมสร้างและดําเนินการ
  • รับข้อมูลเชิงลึก

แผนภาพของกระบวนการวิทยาศาสตร์ข้อมูล

บทความนี้อธิบายความสามารถของ Microsoft Fabric Data Science จากมุมมองของกระบวนการวิทยาศาสตร์ข้อมูล สําหรับแต่ละขั้นตอนในกระบวนการวิทยาศาสตร์ข้อมูล บทความนี้สรุปความสามารถของ Microsoft Fabric ที่สามารถช่วยได้

สูตรและความคิดที่มีปัญหา

ผู้ใช้วิทยาศาสตร์ข้อมูลใน Microsoft Fabric ทํางานบนแพลตฟอร์มเดียวกันกับผู้ใช้ทางธุรกิจและนักวิเคราะห์ ดังนั้นการแชร์ข้อมูลและการทํางานร่วมกันจะราบรื่นมากขึ้นในบทบาทต่าง ๆ นักวิเคราะห์สามารถแชร์รายงาน Power BI และชุดข้อมูลกับผู้ฝึกสอนด้านวิทยาศาสตร์ข้อมูลได้อย่างง่ายดาย ความสะดวกในการทํางานร่วมกันข้ามบทบาทใน Microsoft Fabric ทําให้การแฮนด์ออฟในระหว่างขั้นตอนการกําหนดปัญหาง่ายขึ้นมาก

การค้นพบข้อมูลและการประมวลผลล่วงหน้า

ผู้ใช้ Microsoft Fabric สามารถโต้ตอบกับข้อมูลใน OneLake ได้โดยใช้รายการ Lakehouse Lakehouse แนบไปกับสมุดบันทึกเพื่อเรียกดูและโต้ตอบกับข้อมูลได้อย่างง่ายดาย

ผู้ใช้สามารถอ่านข้อมูลจากเลคเฮ้าส์ลงในกรอบข้อมูล Pandas ได้โดยตรง สําหรับการสํารวจ ทําให้สามารถอ่านข้อมูลจาก OneLake ได้อย่างราบรื่น

มีชุดเครื่องมือที่มีประสิทธิภาพสําหรับการนําเข้าข้อมูลและไปป์ไลน์การเรียงลําดับข้อมูลด้วยไปป์ไลน์การรวมข้อมูล - ส่วนรวมแบบเนทีฟของ Microsoft Fabric ไปป์ไลน์ข้อมูลที่ง่ายต่อการสร้างสามารถเข้าถึงและแปลงข้อมูลเป็นรูปแบบที่การเรียนรู้ของเครื่องสามารถใช้ได้

การสํารวจข้อมูล

ส่วนสําคัญของกระบวนการเรียนรู้ของเครื่องคือการทําความเข้าใจข้อมูลผ่านการสํารวจและการแสดงภาพ

Microsoft Fabric มีชุดเครื่องมือต่าง ๆ เพื่อสํารวจและเตรียมข้อมูลสําหรับการวิเคราะห์และการเรียนรู้ของเครื่อง ทั้งนี้ขึ้นอยู่กับตําแหน่งที่เก็บข้อมูล สมุดบันทึกกลายเป็นหนึ่งในวิธีที่รวดเร็วที่สุดในการเริ่มต้นใช้งานการสํารวจข้อมูล

Apache Spark และ Python สําหรับการเตรียมข้อมูล

Microsoft Fabric มีความสามารถในการแปลง เตรียมพร้อม และสํารวจข้อมูลของคุณตามขนาด ด้วย Spark ผู้ใช้สามารถใช้ประโยชน์จากเครื่องมือ PySpark/Python, Scala และ SparkR/SparklyR สําหรับการประมวลผลข้อมูลล่วงหน้าในระดับมาตราส่วนได้ ไลบรารีการแสดงภาพข้อมูลโอเพนซอร์สที่มีประสิทธิภาพสามารถปรับปรุงประสบการณ์การสํารวจข้อมูลเพื่อช่วยให้เข้าใจข้อมูลได้ดียิ่งขึ้น

Data Wrangler สําหรับการทําความสะอาดข้อมูลที่ราบรื่น

ประสบการณ์การใช้งาน Microsoft Fabric Notebook เพิ่มคุณลักษณะในการใช้ Data Wrangler ซึ่งเป็นเครื่องมือโค้ดที่เตรียมข้อมูลและสร้างรหัส Python ประสบการณ์นี้ทําให้ง่ายต่อการเร่งงานที่น่าเบื่อและยุ่งยาก เช่น การล้างข้อมูล และสร้างความสามารถในการทําซ้ําและระบบอัตโนมัติผ่านโค้ดที่สร้างขึ้น เรียนรู้เพิ่มเติมเกี่ยวกับ Data Wrangler ในส่วน Data Wrangler ของเอกสารนี้

การทดลองและการสร้างแบบจําลอง ML

ด้วยเครื่องมือเช่น PySpark/Python, SparklyR/R ทําให้สมุดบันทึกสามารถจัดการการฝึกแบบจําลองการเรียนรู้ของเครื่องได้

อัลกอริทึมและไลบรารี ML สามารถช่วยฝึกแบบจําลองการเรียนรู้ของเครื่อง เครื่องมือการจัดการไลบรารีสามารถติดตั้งไลบรารีและอัลกอริทึมเหล่านี้ได้ ดังนั้นผู้ใช้จึงมีตัวเลือกในการใช้ประโยชน์จากไลบรารีการเรียนรู้ของเครื่องที่ได้รับความนิยมจํานวนมากเพื่อเสร็จสิ้นการฝึกอบรมแบบจําลอง ML ใน Microsoft Fabric

นอกจากนี้ไลบรารียอดนิยมเช่น Scikit Learn ยังสามารถพัฒนาแบบจําลองได้

การทดลองและการทํางาน MLflow สามารถติดตามการฝึกแบบจําลอง ML ได้ Microsoft Fabric มอบประสบการณ์ MLflow ในตัวที่ผู้ใช้สามารถโต้ตอบได้เพื่อบันทึกการทดลองและแบบจําลอง เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ MLflow เพื่อติดตามการทดลองและจัดการแบบจําลองใน Microsoft Fabric

SynapseML

ไลบรารีแบบโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ที่ Microsoft เป็นเจ้าของและบํารุงรักษา ทําให้การสร้างไปป์ไลน์การเรียนรู้ของเครื่องที่ปรับขนาดได้กว้างขวางง่ายขึ้น ในฐานะที่เป็นระบบนิเวศของเครื่องมือ การดําเนินการจะขยายเฟรมเวิร์ก Apache Spark ในหลายทิศทางใหม่ SynapseML จะรวมเฟรมเวิร์กการเรียนรู้ของเครื่องที่มีอยู่หลายรายการและอัลกอริทึม Microsoft ใหม่ลงใน API เดียวที่ปรับขนาดได้ ไลบรารี SynapseML แบบโอเพนซอร์สประกอบด้วยระบบนิเวศที่สมบูรณ์ของเครื่องมือ ML สําหรับการพัฒนาแบบจําลองคาดการณ์เช่นเดียวกับการใช้ประโยชน์จากแบบจําลอง AI ที่ได้รับการฝึกไว้ล่วงหน้าจากบริการ Azure AI เรียนรู้เพิ่มเติมเกี่ยวกับ SynapseML

เสริมสร้างและดําเนินการ

สมุดบันทึกสามารถจัดการการให้คะแนนชุดแบบจําลองการเรียนรู้ของเครื่องด้วยไลบรารีโอเพนซอร์สสําหรับการคาดการณ์หรือฟังก์ชัน Microsoft Fabric ที่ปรับขนาดได้สําหรับ Spark Predict สากลซึ่งสนับสนุนแบบจําลองแพคเกจ MLflow ในรีจิสทรีแบบจําลอง Microsoft Fabric

รับข้อมูลเชิงลึก

ใน Microsoft Fabric สามารถเขียนค่าที่คาดการณ์ไปยัง OneLake และใช้งานอย่างราบรื่นจากรายงาน Power BI ด้วยโหมด Power BI Direct Lake ซึ่งทําให้ง่ายมากสําหรับผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลในการแชร์ผลลัพธ์จากงานของพวกเขากับผู้เกี่ยวข้อง และยังลดความยุ่งยากในการดําเนินงานอีกด้วย

สมุดบันทึกที่มีการให้คะแนนเป็นกลุ่มสามารถจัดกําหนดการให้ทํางานโดยใช้ความสามารถในการจัดกําหนดการสมุดบันทึก การให้คะแนนเป็นกลุ่มยังสามารถกําหนดเวลาเป็นส่วนหนึ่งของกิจกรรมไปป์ไลน์ข้อมูลหรืองาน Spark Power BI รับการคาดการณ์ล่าสุดโดยอัตโนมัติโดยไม่จําเป็นต้องโหลดหรือรีเฟรชข้อมูล ด้วยโหมด Direct lake ใน Microsoft Fabric

สำคัญ

คุณลักษณะนี้อยู่ในตัวอย่าง

นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้เวลาจํานวนมากในการพยายามทําความเข้าใจ ทําความสะอาด และแปลงข้อมูลก่อนที่จะสามารถเริ่มการวิเคราะห์ที่มีความหมาย โดยทั่วไปนักวิเคราะห์ธุรกิจจะทํางานกับแบบจําลองความหมายและเข้ารหัสความรู้โดเมนและตรรกะทางธุรกิจเป็นหน่วยวัด Power BI ในทางกลับกัน นักวิทยาศาสตร์ข้อมูลสามารถทํางานกับข้อมูลเดียวกันได้ แต่โดยทั่วไปแล้วจะอยู่ในสภาพแวดล้อมหรือภาษาของโค้ดที่แตกต่างกัน

การเชื่อมโยงเชิงความหมาย (ตัวอย่าง) ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถสร้างการเชื่อมต่อระหว่างแบบจําลองความหมายของ Power BI และประสบการณ์ Synapse Data Science ใน Microsoft Fabric ผ่าน ไลบรารี SemPy Python SemPy ทําให้การวิเคราะห์ข้อมูลง่ายขึ้นโดยการจับและใช้ประโยชน์จากความหมายข้อมูลเนื่องจากผู้ใช้ดําเนินการแปลงต่าง ๆ บนแบบจําลองความหมาย นักวิทยาศาสตร์ข้อมูลสามารถ:

  • หลีกเลี่ยงความจําเป็นในการใช้ตรรกะทางธุรกิจและความรู้โดเมนในโค้ดของพวกเขาอีกครั้ง
  • เข้าถึงและใช้หน่วยวัด Power BI ในโค้ดได้อย่างง่ายดาย
  • ใช้ตรรกะเพื่อเสริมสร้างประสบการณ์การใช้งานใหม่ เช่น ฟังก์ชันความหมาย
  • สํารวจและตรวจสอบการขึ้นต่อกันของฟังก์ชันการทํางานและความสัมพันธ์ระหว่างข้อมูล

ด้วยการใช้ SemPy องค์กรสามารถคาดหวังที่จะเห็น:

  • ผลผลิตที่เพิ่มขึ้นและการทํางานร่วมกันได้เร็วขึ้นทั่วทั้งทีมที่ทํางานบนชุดข้อมูลเดียวกัน
  • การทํางานร่วมกันข้ามระหว่างทีมข่าวกรองธุรกิจและทีม AI เพิ่มขึ้น
  • ลดความกํากวมและเส้นโค้งการเรียนรู้ที่ง่ายขึ้นเมื่อเข้าร่วมกับแบบจําลองหรือชุดข้อมูลใหม่

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับลิงก์ความหมาย ให้ดู ลิงก์ความหมาย (ตัวอย่าง) คืออะไร