Plataformas de datos admitidas en Data Science Virtual Machine

Con Data Science Virtual Machine (DSVM), puede crear los recursos de análisis en una amplia gama de plataformas de datos. Además de interfaces para plataformas de datos remotos, DSVM proporciona una instancia local para el desarrollo rápido y la creación de prototipos.

DSVM admite estas herramientas de plataforma de datos:

SQL Server Developer Edition

Category Value
¿Qué es? Una instancia de base de datos relacional local
Ediciones de DSVM admitidas Windows 2019, Linux (SQL Server 2019)
Usos típicos
  • Desarrollo local rápido, con un conjunto de datos más pequeño
  • Ejecución de R en base de datos
Vínculos a ejemplos
  • Una pequeña muestra del conjunto de datos de la ciudad de Nueva York se carga en la instancia de SQL Database:
    nyctaxi
  • Busque un ejemplo de Jupyter que muestre Microsoft Machine Learning Server y análisis en base de datos en:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Herramientas relacionadas en DSVM
  • SQL Server Management Studio
  • Controladores ODBC/JDBC
  • pyodbc, RODBC

Nota

SQL Server Developer Edition solo puede utilizarse para fines de desarrollo y prueba. Se necesita una licencia o una de las máquinas virtuales de SQL Server para ejecutarlo en producción.

Nota:

La compatibilidad con Machine Learning Server independiente finalizó el 1 de julio de 2021. Lo quitaremos de las imágenes de DSVM después del 30 de junio. Las implementaciones existentes seguirán teniendo acceso al software, pero debido a la fecha de finalización del soporte técnico alcanzado, la compatibilidad con ella finalizó después del 1 de julio de 2021.

Nota:

Quitaremos SQL Server Developer Edition de las imágenes de DSVM a finales de noviembre de 2021. Las implementaciones existentes seguirán teniendo SQL Server Developer Edition instalado. En las nuevas implementaciones, si desea tener acceso a SQL Server Developer Edition, puede instalar y usar SQL Server Developer Edition a través de la compatibilidad con Docker. Visite Inicio rápido: Ejecución de imágenes de contenedor de SQL Server con Docker para obtener más información.

Windows

Configurar

El servidor de bases de datos ya está preconfigurado y los servicios de Windows relacionados con SQL Server (por ejemplo, SQL Server (MSSQLSERVER)) están configurados para ejecutarse automáticamente. El único paso manual implica habilitar el análisis en base de datos mediante el uso de Microsoft Machine Learning Server. Ejecute el siguiente comando para habilitar el análisis como una acción única en SQL Server Management Studio (SSMS). Ejecute este comando después de iniciar sesión como administrador de la máquina, abra una nueva consulta en SSMS y seleccione la base de datos master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Reemplace %COMPUTERNAME% por el nombre de la máquina virtual).

Para ejecutar SQL Server Management Studio, puede buscar "SQL Server Management Studio" en la lista de programas o usar la búsqueda de Windows para buscarlo y ejecutarlo. Cuando se le pidan credenciales, seleccione Autenticación de Windows y use el nombre del equipo o localhost en el campo Nombre de SQL Server.

Cómo usarla y ejecutarla

De manera predeterminada, el servidor de bases de datos con la instancia de base de datos predeterminada se ejecuta automáticamente. Puede usar herramientas como SQL Server Management Studio en la máquina virtual para tener acceso a la base de datos de SQL Server de forma local. Las cuentas locales de administradores tienen acceso de administrador en la base de datos.

Además, DSVM incluye controladores ODBC y JDBC para comunicarse con

  • SQL Server
  • Bases de datos de Azure SQL
  • Recursos de Azure Synapse Analytics de aplicaciones escritas en varios lenguajes, incluido Python y Machine Learning Server.

¿Cómo se configura e instala en DSVM?

El servidor SQL Server está instalado de manera estándar. Puede encontrarlo en C:\Program Files\Microsoft SQL Server. Puede encontrar la instancia de Machine Learning Server en base de datos en C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. DSVM también tiene una instancia independiente de Machine Learning Server, instalada en C:\Program Files\Microsoft\R Server\R_SERVER. Estas dos instancias de Machine Learning Server no comparten bibliotecas.

Ubuntu

Primero debe instalar SQL Server Developer Edition en una DSVM de Ubuntu antes de usarlo. Visite Inicio rápido: Instalación de SQL Server y creación de una base de datos en Ubuntu para obtener más información.

Apache Spark 2.x (independiente)

Category Value
¿Qué es? Una instancia independiente (nodo único In-Process) de la popular plataforma Apache Spark, un sistema de procesamiento de datos y aprendizaje automático rápido y a gran escala.
Ediciones de DSVM admitidas Linux
Usos típicos
  • Desarrollo rápido de aplicaciones de Spark/PySpark localmente con un conjunto de datos más pequeño y más adelante implementación en clústeres Spark grandes, como Azure HDInsight
  • Prueba del contexto de Spark en Microsoft Machine Learning Server
  • Uso de SparkML o la biblioteca de MMLSpark de código abierto de Microsoft para compilar aplicaciones de ML
Vínculos a ejemplos Ejemplo de Jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (contexto de Spark): /dsvm/samples/MRS/MRSSparkContextSample.R

Herramientas relacionadas en DSVM
  • PySpark, Scala
  • Jupyter (Kernels Spark/PySpark)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Cómo usarlo

Puede ejecutar el comando spark-submit o pyspark para enviar trabajos de Spark en la línea de comandos. También puede crear un cuaderno con el kernel de Spark para crear un Jupyter Notebook.

Para usar Spark desde R, use bibliotecas como SparkR, Sparklyr y Microsoft Machine Learning Server, que están disponibles en DSVM. Vea vínculos a ejemplos en la tabla anterior.

Configurar

Antes de ejecutar en un contexto de Spark en Microsoft Machine Learning Server en Ubuntu Linux DSVM Edition, debe completar un paso de configuración único para habilitar una instancia local de HDFS y Yarn de Hadoop. De manera predeterminada, los servicios de Hadoop están instalados pero deshabilitados en la DSVM. Para habilitarlos, ejecute estos comandos como raíz la primera vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para detener los servicios relacionados con Hadoop cuando ya no los necesite, ejecute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

En el directorio /dsvm/samples/MRS se proporciona un ejemplo en el que se muestra cómo desarrollar y probar MRS en el contexto de Spark remoto (la instancia independiente de Spark en DSVM).

¿Cómo se configura e instala en DSVM?

Plataforma Ubicación de instalación ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Las bibliotecas para acceder a datos de Azure Blob Storage o Azure Data Lake Storage, utilizando las bibliotecas de aprendizaje automático de MMLSpark de Microsoft, están preinstaladas en $SPARK_HOME/jars. Estos JAR se cargan automáticamente cuando se inicia Spark. De forma predeterminada, Spark usa datos ubicados en el disco local.

La instancia de Spark en DSVM puede acceder a los datos almacenados en Blob Storage o Azure Data Lake Storage. Primero debe crear y configurar el archivo core-site.xml, en función de la plantilla que se encuentra en $SPARK_HOME/conf/core-site.xml.template. También debe tener las credenciales adecuadas para tener acceso a Blob Storage y Azure Data Lake Storage. Los archivos de plantilla usan marcadores de posición para las configuraciones de Blob Storage y Azure Data Lake Storage.

Para más información sobre la creación de credenciales de servicio de Azure Data Lake Storage, visite Autenticación con Azure Data Lake Storage Gen1. Después de escribir las credenciales de Blob Storage o Azure Data Lake Storage en el archivo core-site.xml, puede hacer referencia a los datos almacenados en esos orígenes mediante el prefijo URI de wasb:// o adl://.