Share via


Proceso de ciencia de datos en equipo para científicos de datos

En este artículo se proporciona una guía para los objetivos que define al implementar soluciones de ciencia de datos completas con tecnologías de Azure. Se cubrirán los siguientes aspectos:

  • Descripción de una carga de trabajo de análisis.
  • Uso del Proceso de ciencia de datos en equipo.
  • Uso de Azure Machine Learning.
  • Información sobre los aspectos básicos de la transferencia y el almacenamiento de datos.
  • Entrega de documentación del origen de datos.
  • Uso de herramientas para el procesamiento de análisis.

Estos materiales de aprendizaje están relacionados con el Proceso de ciencia de los datos en equipos (TDSP) y software y kits de herramientas de Microsoft y de código abierto, que son útiles para imaginar, ejecutar y entregar soluciones de ciencia de datos.

Ruta de aprendizaje

Puede usar los elementos de la tabla siguiente para que le guíen en su aprendizaje. Lea la Descripción para seguir la ruta, seleccione el Tema para ver las referencias de estudio y compruebe sus conocimientos con la Prueba de conocimientos.

Objetivo Tema Descripción Prueba de conocimientos
Descripción de los procesos para desarrollar proyectos de análisis Una introducción al Proceso de ciencia de datos en equipo Comenzaremos con una visión general del TDSP. Este proceso le guía en cada paso de un proyecto de análisis. Lea cada una de estas secciones para aprender más sobre el proceso y cómo implementarlo. Revise y descargue los artefactos de estructura de proyecto de TDSP relativos a su proyecto en su máquina local.
Desarrollo ágil El TDSP funciona bien con muchas metodologías de programación diferentes. En esta ruta de aprendizaje, usaremos Agile Software Development. Lea los artículos sobre qué es Agile Development y la creación de una cultura ágil, que tratan los aspectos básicos de trabajar con la metodología Agile. También existen otras referencias en este sitio donde puede obtener más información. Explique la integración continua y la entrega continua a un compañero.
DevOps para ciencia de datos Las operaciones del desarrollador (DevOps) abarcan personas, procesos y plataformas que se pueden usar para trabajar en un proyecto e integrar la solución en la TI estándar de la organización. Esta integración es esencial de cara a la adopción y la seguridad. En este curso en línea, conocerá prácticas de DevOps y comprenderá algunas de las opciones de cadena de herramientas de las que dispone. Prepare una presentación de 30 minutos dirigida a un público técnico y exponga de qué manera DevOps es esencial para los proyectos de análisis.
Descripción de las tecnologías para el almacenamiento y procesamiento de los datos Microsoft Business Analytics y AI Nos centramos en algunas tecnologías, de las muchas que tiene Microsoft, de esta ruta de aprendizaje que puede usar para crear una solución de análisis. Para conocer las opciones que tiene, es importante examinar las plataformas y características disponibles en Microsoft Azure, Azure Stack y las opciones locales. Examine este recurso para conocer las diversas herramientas que tiene a su disposición para responder a las preguntas de análisis. Descargue y revise los materiales de presentación de este taller.
Instalación y configuración de los entornos de aprendizaje, desarrollo y producción Microsoft Azure Ahora vamos a crear en Microsoft Azure una cuenta para el entrenamiento y a aprender a crear entornos de desarrollo y pruebas. Estos recursos de aprendizaje gratuitos le ayudan a comenzar. Complete las rutas para los niveles de principiante e intermedio. Si no tiene una cuenta de Azure, cree una. Inicie sesión en Azure Portal y cree un grupo de recursos para el aprendizaje.
La Interfaz de la línea de comandos (CLI) de Azure. Existen varias maneras de trabajar con Azure: se pueden usar herramientas gráficas como Visual Studio Code y Visual Studio, interfaces web, como Azure Portal, o la línea de comandos, como los comandos y las funciones de Azure PowerShell. En este artículo, trataremos la CLI, que se puede usar localmente en la estación de trabajo, en Windows y otros sistemas operativos, así como en Azure Portal. Establezca la suscripción predeterminada con la CLI de Azure.
Almacenamiento de Azure Necesitará un lugar para almacenar los datos. En este artículo, obtendrá información sobre las opciones de almacenamiento de Azure, así como a crear una cuenta de almacenamiento y a copiar o mover datos a la nube. Lea esta introducción para más información. Cree una cuenta de almacenamiento en el grupo de recursos de aprendizaje, cree un contenedor para un objeto de blob y cargue y descargue datos.
Microsoft Entra ID Microsoft Entra ID forma la base de proteger la aplicación. En este artículo, aprenderá más acerca de cuentas, derechos y permisos. Active Directory y la seguridad son temas complejos, así que lea este recurso para comprender los conceptos básicos. Agregar un usuario a Microsoft Entra ID. Nota: puede que no tenga permisos para esta acción si no es administrador de la suscripción. En ese caso, consulte este tutorial para más información.
Azure Data Science Virtual Machine para PyTorch Puede instalar las herramientas para trabajar con ciencia de datos de forma local en varios sistemas operativos. Pero Data Science Virtual Machine para PyTorch contiene todas las herramientas que necesita, así como multitud de ejemplos con los que trabajar. En este artículo, obtendrá más información sobre Data Science Virtual Machine para PyTorch y cómo trabajar con sus ejemplos. En este recurso se explica Data Science Virtual Machine para PyTorch, cómo puede crear una y algunas opciones para desarrollar código con ella. También contiene todo el software que necesita para completar esta ruta de aprendizaje; así que asegúrese de realizar la ruta de conocimientos de este tema. Cree una Data Science Virtual Machine para PyTorch y trabaje en al menos un laboratorio.
Instalación y descripción de las herramientas y las tecnologías para trabajar con soluciones de ciencia de datos Trabajar con GIT Para seguir el proceso de DevOps con el TDSP, es necesario tener un sistema de control de versiones. Machine Learning usa Git, un conocido sistema de repositorio distribuido de código abierto. En este artículo, aprenderá más sobre cómo instalar, configurar y trabajar con Git y un repositorio central: GitHub. Clone este proyecto de GitHub para la estructura de proyecto de su ruta de aprendizaje.
Visual Studio Code Visual Studio Code es un entorno de desarrollo integrado multiplataforma (IDE) que puede usar con varios lenguajes y herramientas de Azure. Puede usar este entorno único para crear la solución entera. Para comenzar, consulte estos vídeos de introducción. Instale Visual Studio Code y trabaje en las características de Visual Studio Code en el área de juegos de edición interactiva.
Programación con Python En esta solución se usa Python, uno de los lenguajes más conocidos de ciencia de datos. En este artículo se tratan los conceptos básicos de la escritura de código de análisis con Python y se incluyen recursos para aprender más. Trabaje en las secciones 1-9 de esta referencia y luego compruebe sus conocimientos. Agregue una entidad a una tabla de Azure con Python.
Trabajo con Jupyter Notebook Los cuadernos son una manera de introducir texto y código en el mismo documento. Machine Learning funciona con cuadernos, por lo que es conveniente comprender cómo usarlos. Lea este tutorial y compruebe lo que sabe en la sección de prueba de conocimientos. Abra la página web de Jupyter y seleccione Bienvenido a Python.ipynb. Trabaje en los ejemplos de esa página.
Aprendizaje automático Crear soluciones de análisis avanzadas supone trabajar con datos, mediante Machine Learning, que también constituye la base para trabajar con inteligencia artificial y aprendizaje profundo. Este curso se centra más en Machine Learning. Si está interesado en un curso completo de ciencia de datos, consulte esta certificación. Busque un recurso en los algoritmos de Machine Learning. (Sugerencia: busque en la hoja de referencia rápida de algoritmos de aprendizaje automático)
scikit-learn El conjunto de herramientas scikit-learn le permite realizar tareas de ciencia de datos en Python. En nuestra solución usamos este marco de trabajo. En este artículo se tratan los aspectos básicos y se explica dónde se puede conseguir más información. Con el conjunto de datos de Iris, conserve un modelo SVM mediante Pickle.
Uso de Docker Docker es una plataforma distribuida que se usa para compilar, enviar y ejecutar aplicaciones, y con frecuencia se utiliza en Machine Learning. En este artículo se tratan los conceptos básicos de esta tecnología y se explica dónde puede acudir para obtener más información. Abra Visual Studio Code e instale la extensión de Docker. Cree un contenedor de Docker de nodo simple.
HDInsight de Azure HDInsight es una infraestructura de código abierto de Hadoop, que se encuentra disponible como servicio en Azure. Los algoritmos de Machine Learning pueden implicar grandes conjuntos de datos, y puede usar HDInsight para almacenar, transferir y procesar datos a gran escala. En este artículo se explica cómo trabajar con HDInsight. Cree un clúster de HDInsight pequeño. Use instrucciones de HiveQL para proyectar las columnas en un archivo /example/data/sample.log. O bien, puede realizar esta comprobación de conocimientos en su sistema local.
Creación de un flujo de procesamiento de datos a partir de requisitos empresariales Determinación de la pregunta, a continuación del TDSP Una vez que se haya instalado y configurado el entorno de desarrollo, y se conozcan las tecnologías y los procesos instaurados, es hora de juntar todo mediante el TDSP para realizar un análisis. Para comenzar, es necesario definir la pregunta y seleccionar los orígenes de datos y el resto de los pasos del TDSP. Tenga en cuenta el proceso de DevOps mientras se trabaja en este proceso. En este artículo, aprenderá a considerar los requisitos de su organización y a crear un mapa de flujo de datos mediante su aplicación para definir la solución con el TDSP. Busque un recurso en "Las cinco preguntas a las que responde la ciencia de datos" y describa alguna pregunta que pueda tener su organización en estos ámbitos. ¿En qué algoritmos debería centrarse para responder a esa pregunta?
Uso de Machine Learning para crear una solución de predicción Machine Learning Machine Learning usa IA para la limpieza y transformación de datos y la ingeniería de características, administra experimentos y realiza un seguimiento de las ejecuciones del modelo. Utiliza un único entorno y la mayoría de las funciones se pueden ejecutar localmente o en Azure. Puede usar el marco de PyTorch, el marco de TensorFlow u otros marcos de trabajo para crear sus experimentos. Este artículo se centra en un ejemplo completo de este proceso, y en él se usa todo lo aprendido hasta ahora.
Uso de Power BI para visualizar los resultados Power BI Power BI es una herramienta de visualización de datos. Está disponible en varias plataformas, como dispositivos web, dispositivos móviles y equipos de escritorio. En este artículo aprenderá a trabajar con la salida de la solución que ha creado, para lo cual accederá a los resultados desde Azure Storage y creará visualizaciones mediante Power BI. Realice este tutorial en Power BI. A continuación, conecte Power BI al archivo CSV de blob durante la ejecución de un experimento.
Supervisión de la solución Application Insights Existen varias herramientas que puede usar para supervisar la solución final. Application Insights facilita la integración de la supervisión en la solución. Configure Application Insights para supervisar una aplicación.
Registros de Azure Monitor Otro método para supervisar la aplicación consiste en integrarla en el proceso de DevOps. Azure Monitor Logs proporciona un amplio conjunto de características que le ayudan a supervisar sus soluciones de análisis después de implementarlas. Realice este tutorial sobre el uso de Azure Monitor Logs.
Realización de esta ruta de aprendizaje Felicidades. Ha completado esta ruta de aprendizaje.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Continúe con el recorrido de IA en el Centro de aprendizaje de IA.