แชร์ผ่าน


ใช้ R สําหรับ Apache Spark

Microsoft Fabric ให้การสนับสนุน R ในตัวสําหรับ Apache Spark ซึ่งรวมถึงการสนับสนุนสําหรับ SparkR และ sparklyr ซึ่งช่วยให้ผู้ใช้สามารถโต้ตอบกับ Spark โดยใช้อินเทอร์เฟซ Spark หรือ R ที่คุ้นเคย คุณสามารถวิเคราะห์ข้อมูลโดยใช้ R ผ่านข้อกําหนดงานแบบชุดงานของ Spark หรือด้วยสมุดบันทึก Microsoft Fabric แบบโต้ตอบได้

เอกสารนี้ให้ภาพรวมของการพัฒนาแอปพลิเคชัน Spark ใน Synapse โดยใช้ภาษา R

ข้อกำหนดเบื้องต้น

สร้างและเรียกใช้เซสชันของสมุดบันทึก

Microsoft Fabric notebook เป็นอินเทอร์เฟซเว็บสําหรับคุณในการสร้างไฟล์ที่ประกอบด้วยโค้ดสด การแสดงภาพ และข้อความคําบรรยาย สมุดบันทึกเป็นจุดที่ดีในการตรวจสอบแนวคิดและใช้การทดลองด่วนเพื่อรับข้อมูลเชิงลึกจากข้อมูลของคุณ นอกจากนี้ยังมีการใช้สมุดบันทึกอย่างแพร่หลายในการเตรียมข้อมูล การจัดรูปแบบข้อมูล การเรียนรู้ของเครื่อง และสถานการณ์ข้อมูลขนาดใหญ่อื่นๆ

เมื่อต้องการเริ่มต้นใช้งานด้วย R ในสมุดบันทึก Microsoft Fabric ให้เปลี่ยนภาษาหลักที่ด้านบนของสมุดบันทึกของคุณโดยการตั้งค่าตัวเลือกภาษาเป็น SparkR (R)

นอกจากนี้ คุณยังสามารถใช้หลายภาษาในสมุดบันทึกเล่มเดียวได้โดยการระบุคําสั่งเวทมนตร์ของภาษาที่จุดเริ่มต้นของเซลล์

%%sparkr
# Enter your R code here

เมื่อต้องการเรียนรู้เพิ่มเติมเกี่ยวกับสมุดบันทึกภายใน Microsoft Fabric Analytics ดูวิธีการใช้สมุดบันทึก

ติดตั้งแพคเกจ

ไลบรารีมีโค้ดที่สามารถนํากลับมาใช้ใหม่ได้ซึ่งคุณอาจต้องการรวมไว้ในโปรแกรมหรือโครงการของคุณ เมื่อต้องการให้บุคคลที่สามหรือรหัสที่สร้างขึ้นภายในเครื่องพร้อมใช้งานสําหรับแอปพลิเคชันของคุณ คุณสามารถติดตั้งไลบรารีลงในหนึ่งในเซสชันพื้นที่ทํางานหรือสมุดบันทึกของคุณได้

เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการจัดการไลบรารี R ดู การจัดการไลบรารี R

อรรถประโยชน์สมุดบันทึก

Microsoft Spark Utilities (MSSparkUtils) เป็นแพคเกจที่มีอยู่แล้วภายใน เพื่อช่วยให้คุณทํางานทั่วไปได้อย่างง่ายดาย คุณสามารถใช้ MSSparkUtils เพื่อทํางานกับระบบไฟล์ รับตัวแปรสภาพแวดล้อม เพื่อเกี่ยวโยงสมุดบันทึกเข้าด้วยกัน และทํางานกับข้อมูลลับ MSSparkUtils ได้รับการสนับสนุนสําหรับสมุดบันทึก R

เมื่อต้องเริ่มต้นใช้งาน คุณสามารถเรียกใช้คําสั่งต่อไปนี้:

library(notebookutils)
mssparkutils.fs.help()

เรียนรู้เพิ่มเติมเกี่ยวกับคําสั่ง MSSparkUtils ที่ได้รับการสนับสนุนที่ ใช้ Microsoft Spark Utilities

ใช้ Sparkr

SparkR เป็นแพ็คเกจ R ที่มี frontend น้ําหนักเบาเพื่อใช้ Apache Spark จาก R SparkR มีการใช้งานเฟรมข้อมูลที่กระจายที่รองรับการทํางานเช่น การเลือก การกรอง การรวม ฯลฯ SparkR ยังสนับสนุนการเรียนรู้ของเครื่องแบบกระจายโดยใช้ MLlib

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ SparkR ได้โดยไปที่ วิธีการใช้ SparkR

ใช้ sparklyr

Sparklyr คืออินเทอร์เฟซ R สําหรับ Apache Spark ซึ่งมีกลไกในการโต้ตอบกับ Spark โดยใช้อินเทอร์เฟซ R ที่คุ้นเคย คุณสามารถใช้ sparklyr ผ่านข้อกําหนดงานแบบชุดงานของ Spark หรือด้วยสมุดบันทึก Microsoft Fabric แบบโต้ตอบ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ sparklyr โปรดไปที่ วิธีใช้ sparklyr

ใช้ Tidyverse

Tidyverse คือคอลเลกชันของแพคเกจ R ที่นักวิทยาศาสตร์ข้อมูลมักใช้ในการวิเคราะห์ข้อมูลประจําวัน ซึ่งรวมถึงแพคเกจสําหรับการนําเข้าข้อมูล (readr), การแสดงภาพข้อมูล (ggplot2), การจัดการข้อมูล (dplyr, tidyr), การเขียนโปรแกรมการทํางาน (purrr), และการสร้างแบบจําลอง (tidymodels) ฯลฯ แพ็คเกจใน tidyverse ได้รับการออกแบบให้ทํางานร่วมกันได้อย่างราบรื่นและปฏิบัติตามชุดหลักการการออกแบบที่สอดคล้องกัน Microsoft Fabric จะกระจายเวอร์ชันล่าสุดที่เสถียรของ tidyverse กับทุกรุ่นที่มีการเผยแพร่รันไทม์

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ Tidyverse โปรดไปที่ วิธีใช้ Tidyverse

การแสดงภาพ R

ระบบนิเวศ R มีไลบรารีกราฟหลายรายการที่มาพร้อมกับคุณสมบัติที่แตกต่างกันมากมาย ตามค่าเริ่มต้น ทุกอินสแตนซ์ Spark ใน Microsoft Fabric มีชุดของไลบรารีโอเพนซอร์สที่รวบรวมและได้รับความนิยม คุณยังสามารถเพิ่มหรือจัดการไลบรารีเพิ่มเติมหรือเวอร์ชันได้โดยใช้ความสามารถในการจัดการไลบรารี Microsoft Fabric

เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการสร้างการแสดงภาพ R โดย ไปที่การแสดงภาพ R