Naslaginformatie: Ubuntu (Linux) Datawetenschap virtuele machine

Dit document bevat een lijst met beschikbare hulpprogramma's op uw Ubuntu Datawetenschap Virtual Machine (DSVM).

Deep Learning-bibliotheken

PyTorch

PyTorch is een populair wetenschappelijk computingframework, met brede ondersteuning voor machine learning-algoritmen. Als uw computer een ingebouwde GPU heeft, kan deze gebruikmaken van die GPU om de deep learning te versnellen. PyTorch is beschikbaar in de py38_pytorch omgeving.

H2O

H2O is een snel, in-memory, gedistribueerd machine learning- en predictive analytics-platform. Er wordt een Python-pakket geïnstalleerd in zowel de hoofd- als py35 Anaconda-omgevingen. Er is ook een R-pakket geïnstalleerd.

Voer java -jar /dsvm/tools/h2o/current/h2o.jarH2O uit vanaf de opdrachtregel om H2O te openen. U kunt verschillende beschikbareopdrachtregelopties configureren. Blader naar de webinterface van Flow om aan de slag te http://localhost:54321 gaan. JupyterHub biedt voorbeeldnotebooks.

TensorFlow

TensorFlow is de Google Deep Learning-bibliotheek. Het is een opensource-softwarebibliotheek voor numerieke berekeningen met behulp van gegevensstroomgrafieken. Als uw computer een GPU heeft ingebouwd, kan deze GPU gebruiken om de deep learning te versnellen. TensorFlow is beschikbaar in de py38_tensorflow Conda-omgeving.

Python

De Datawetenschap Virtual Machine (DSVM) heeft meerdere vooraf geïnstalleerde Python-omgevingen, met Python versie 3.8 of Python versie 3.6. Voer conda env list deze opdracht uit in een terminalvenster om de volledige lijst met geïnstalleerde omgevingen weer te geven.

Jupyter

De DSVM wordt ook geleverd met Jupyter, een omgeving voor het delen van code en codeanalyse. Jupyter is geïnstalleerd op de DSVM in deze smaken:

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Als u Jupyter Lab wilt starten, opent u Jupyter in het toepassingsmenu of selecteert u het bureaubladpictogram. U kunt ook uitvoeren jupyter lab vanaf een opdrachtregel om Jupyter Lab te openen.

Als u Jupyter Notebook wilt openen, opent u een opdrachtregel en voert u deze uit jupyter notebook.

Als u Jupyter Hub wilt openen, opent u https://< VM DNS-naam of IP-adres>:8000/ in een browser. U moet uw lokale Linux-gebruikersnaam en -wachtwoord opgeven.

Notitie

U kunt certificaatwaarschuwingen negeren.

Notitie

Voor de Ubuntu-installatiekopieën wordt firewallpoort 8000 standaard geopend wanneer de VIRTUELE machine wordt ingericht.

Zelfstandige Apache Spark-versie

Een zelfstandig exemplaar van Apache Spark is vooraf geïnstalleerd op de Linux-DSVM, zodat u Spark-toepassingen lokaal kunt ontwikkelen voordat u deze toepassingen test en implementeert op grote clusters.

U kunt PySpark-programma's uitvoeren via de Jupyter-kernel. Wanneer Jupyter wordt gestart, selecteert u de knop Nieuw . Een lijst met beschikbare kernels moet zichtbaar worden. U kunt Spark-toepassingen bouwen met de Python-taal als u de Spark - Python-kernel kiest. U kunt ook een Python IDE gebruiken, bijvoorbeeld VS. Code of PyCharm: om uw Spark-programma te bouwen.

In dit zelfstandige exemplaar wordt de Spark-stack uitgevoerd in het aanroepende clientprogramma. Deze functie maakt het sneller en eenvoudiger om problemen op te lossen, vergeleken met de ontwikkeling in een Spark-cluster.

IDE's en editors

U hebt een keuze uit verschillende code-editors, waaronder VS. Code, PyCharm, IntelliJ, vi/Vim of Emacs.

VS. Code, PyCharm en IntelliJ zijn grafische editors. Als u ze wilt gebruiken, moet u zijn aangemeld bij een grafisch bureaublad. U opent ze met behulp van snelkoppelingen in het bureaublad- en toepassingsmenu.

Vim en Emacs zijn teksteditors. Op Emacs maakt het ESS-invoegtoepassingspakket het gemakkelijker om met R te werken in de Emacs-editor. Ga naar de WEBSITE van ESS voor meer informatie.

Databases

Grafische SQL-client

SQuirrel SQL, een grafische SQL-client, kan verbinding maken met verschillende databases, bijvoorbeeld Microsoft SQL Server of MySQL, en SQL-query's uitvoeren. De snelste manier om SQuirrel SQL te openen, is door het toepassingsmenu te gebruiken vanuit een grafische bureaubladsessie (bijvoorbeeld via de X2Go-client)

Voordat u in eerste instantie gaat gebruiken, moet u uw stuurprogramma's en databasealiassen instellen. U vindt de JDBC-stuurprogramma's op /usr/share/java/jdbcdrivers.

Ga naar de SQuirrel SQL-resource voor meer informatie.

Opdrachtregelprogramma's voor toegang tot Microsoft SQL Server

Het ODBC-stuurprogrammapakket voor SQL Server bevat ook twee opdrachtregelprogramma's:

  • bcp: Het bcp-hulpprogramma kopieert gegevens bulksgewijs tussen een exemplaar van Microsoft SQL Server en een gegevensbestand, in een door de gebruiker opgegeven indeling. U kunt het hulpprogramma bcp gebruiken om grote aantallen nieuwe rijen te importeren in SQL Server-tabellen of om gegevens uit tabellen te exporteren naar gegevensbestanden. Als u gegevens in een tabel wilt importeren, moet u een indelingsbestand gebruiken dat voor die tabel is gemaakt. U moet de structuur van de tabel en de typen gegevens begrijpen die geldig zijn voor de kolommen.

Ga naar Verbinding maken ing met bcp voor meer informatie.

  • sqlcmd: U kunt Transact-SQL-instructies invoeren met het hulpprogramma sqlcmd. U kunt ook systeemprocedures en scriptbestanden invoeren bij de opdrachtprompt. Dit hulpprogramma maakt gebruik van ODBC om Transact-SQL-batches uit te voeren.

    Ga naar Verbinding maken ing met sqlcmd voor meer informatie.

    Notitie

    Er zijn enkele verschillen in dit hulpprogramma tussen de linux- en Windows-platformversies. Raadpleeg de documentatie voor meer informatie.

Databasetoegangsbibliotheken

R- en Python-bibliotheken zijn beschikbaar voor databasetoegang:

  • In R kunt u de RODBC dplyr-pakketten gebruiken om SQL-instructies op de databaseserver op te vragen of uit te voeren
  • In Python biedt de pyodbc-bibliotheek databasetoegang met ODBC als onderliggende laag

Azure-hulpprogramma's

Deze Azure-hulpprogramma's worden geïnstalleerd op de VM:

  • Azure CLI: U kunt de opdrachtregelinterface in Azure gebruiken om Azure-resources te maken en te beheren via shellopdrachten. Als u de Azure-hulpprogramma's wilt openen, voert u Azure Help in. Ga naar de documentatiepagina van Azure CLI voor meer informatie.

  • Azure Storage Explorer: Azure Storage Explorer is een grafisch hulpprogramma dat u kunt gebruiken om door de objecten te bladeren die u hebt opgeslagen in uw Azure-opslagaccount en om gegevens te uploaden en te downloaden van en naar Azure-blobs. U kunt Storage Explorer openen via het snelkoppelingspictogram op het bureaublad. U kunt deze ook openen vanuit een shellprompt als u StorageExplorer invoert. U moet zijn aangemeld vanaf een X2Go-client of doorsturen met X11 hebben ingesteld.

  • Azure-bibliotheken: dit zijn enkele van de vooraf geïnstalleerde bibliotheken:

    • Python: Python biedt de azure-, azureml-, pydocumentdb- en pyodbc Azure-gerelateerde bibliotheken. Met de eerste drie bibliotheken hebt u toegang tot Azure Storage-services, Azure Machine Learning en Azure Cosmos DB (een NoSQL-database in Azure). De vierde bibliotheek, pyodbc (samen met het Microsoft ODBC-stuurprogramma voor SQL Server), biedt toegang tot SQL Server, Azure SQL Database en Azure Synapse Analytics vanuit Python via een ODBC-interface. Voer pip-lijst in om alle vermelde bibliotheken weer te geven. Zorg ervoor dat u deze opdracht uitvoert in de Python 2.7- en 3.5-omgevingen.
    • R: Azure Machine Learning en RODBC zijn de Azure-gerelateerde bibliotheken in R.
    • Java: Directory /dsvm/sdk/AzureSDKJava bevat de lijst met Azure Java-bibliotheken in de map /dsvm/sdk/AzureSDKJava op de VM. De sleutelbibliotheken zijn Azure Storage- en beheer-API's, Azure Cosmos DB en JDBC-stuurprogramma's voor SQL Server.

Azure Machine Learning

Met de volledig beheerde Azure Machine Learning-cloudservice kunt u predictive analytics-oplossingen bouwen, implementeren en delen. U kunt uw experimenten en modellen bouwen in Azure Machine Learning-studio. Ga naar Microsoft Azure Machine Learning voor toegang vanuit een webbrowser op de Datawetenschap virtuele machine.

Nadat u zich hebt aangemeld bij Azure Machine Learning-studio, kunt u een experimenteercanvas gebruiken om een logische stroom te bouwen voor de machine learning-algoritmen. U hebt ook toegang tot een Jupyter-notebook die wordt gehost op Azure Machine Learning. Dit notebook kan naadloos werken met de experimenten in Azure Machine Learning-studio.

Als u de machine learning-modellen wilt operationeel maken die u hebt gemaakt, verpakt u deze in een webservice-interface. Met machine learning-model operationalisatie kunnen clients die in elke taal zijn geschreven voorspellingen van deze modellen aanroepen. Raadpleeg de Documentatie voor Machine Learning voor meer informatie.

U kunt uw modellen ook bouwen in R of Python op de virtuele machine en deze vervolgens implementeren in productie in Azure Machine Learning. We hebben bibliotheken geïnstalleerd in R (AzureML) en Python (azureml) om deze functionaliteit in te schakelen.

Notitie

We hebben deze instructies geschreven voor de windows-versie van Datawetenschap Virtual Machine. De instructies hebben echter betrekking op azure Machine Learning-modelimplementaties op de Virtuele Linux-machine.

Machine learning-hulpprogramma's

De VIRTUELE machine wordt geleverd met vooraf gecompileerde machine learning-hulpprogramma's en -algoritmes, die allemaal lokaal zijn geïnstalleerd. Deze omvatten:

  • Vowpal Wabbit: Een snel online leeralgoritme

  • xgboost: dit hulpprogramma biedt geoptimaliseerde, versterkte structuuralgoritmen

  • Rattle: een grafische tool op basis van R voor eenvoudige gegevensverkenning en modellering

  • Python: Anaconda Python wordt geleverd met machine learning-algoritmen met bibliotheken zoals Scikit-learn. U kunt andere bibliotheken installeren met de pip install opdracht

  • LightGBM: Een snel, gedistribueerd, high-performance gradiëntverhogingsframework op basis van beslissingsstructuuralgoritmen

  • R: Er is een uitgebreide bibliotheek met machine learning-functies beschikbaar voor R. Vooraf geïnstalleerde bibliotheken zijn lm, glm, randomForest en rpart. U kunt andere bibliotheken installeren met deze opdracht:

    install.packages(<lib name>)
    

Hier vindt u meer informatie over de eerste drie machine learning-hulpprogramma's in de lijst.

Vowpal Wabbit

Vowpal Wabbit is een machine learning-systeem dat gebruikmaakt van

  • actief
  • allreduce
  • Hashing
  • interactief leren
  • learning2search
  • Online
  • Kortingen

Technieken.

Gebruik deze opdrachten om het hulpprogramma uit te voeren op een basisvoorbeeld:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Die map biedt andere, grotere demo's. Bezoek deze sectie van GitHub en de Vowpal Wabbit-wiki voor meer informatie over Vowpal Wabbit.

xgboost

De xgboost-bibliotheek is ontworpen en geoptimaliseerd voor boosted (tree)-algoritmen. De xgboost-bibliotheek pusht de rekenlimieten van machines tot de extremen die nodig zijn voor nauwkeurige, draagbare en schaalbare grootschalige boomverbetering.

De xgboost-bibliotheek wordt geleverd als een opdrachtregelresource en een R-bibliotheek. Als u deze bibliotheek in R wilt gebruiken, kunt u R in de shell invoeren om een interactieve R-sessie te starten en de bibliotheek te laden.

In dit eenvoudige voorbeeld ziet u hoe u xgboost uitvoert in een R-prompt:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Als u de xgboost-opdrachtregel wilt uitvoeren, voert u deze opdrachten uit in de shell:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Ga naar de pagina met xgboost-documentatie en de Bijbehorende GitHub-opslagplaats voor meer informatie over xgboost.

Rattle

Rattle (de RAnalytical T ool To Lverdien Easily) maakt gebruik van op GUI gebaseerde gegevensverkenning en modellering. IT

  • geeft statistische en visuele samenvattingen van gegevens weer
  • transformeert gegevens die gemakkelijk kunnen worden gemodelleerd
  • bouwt zowel modellen zonder supervisie als onder supervisie op basis van de gegevens
  • geeft de prestaties van modellen grafisch weer
  • nieuwe gegevenssets scoren

Er wordt ook R-code gegenereerd, waarmee Rattle-bewerkingen in de gebruikersinterface worden gerepliceerd. U kunt die code rechtstreeks in R uitvoeren of deze gebruiken als uitgangspunt voor verdere analyse.

Als u Rattle wilt uitvoeren, moet u werken in een grafische bureaublad-aanmeldingssessie. Voer in de terminal R in om de R-omgeving te openen. Voer bij de R-prompt deze opdracht in:

library(rattle)
rattle()

Een grafische interface, met een set tabbladen, wordt geopend. Deze quickstartstappen in Rattle maken gebruik van een voorbeeldgegevensset voor het bouwen van een model. In sommige stappen ontvangt u prompts om specifieke, vereiste R-pakketten die nog niet op het systeem staan, automatisch te installeren en te laden.

Notitie

Als u geen toegangsmachtigingen hebt om het pakket te installeren in de systeemmap (de standaardinstelling), ziet u mogelijk een prompt in het R-consolevenster om pakketten te installeren in uw persoonlijke bibliotheek. Antwoord y als u deze prompts tegenkomt.

  1. Selecteer Uitvoeren
  2. Er wordt een dialoogvenster weergegeven waarin u wordt gevraagd of u de voorbeeldgegevensset wilt gebruiken. Selecteer Ja om het voorbeeld te laden
  3. Selecteer het tabblad Model
  4. Selecteer Uitvoeren om een beslissingsstructuur te bouwen
  5. Selecteer Tekenen om de beslissingsstructuur weer te geven
  6. Selecteer de optie Forest en selecteer Uitvoeren om een willekeurig forest te bouwen
  7. Het tabblad Evalueren selecteren
  8. Selecteer de optie Risico en selecteer Uitvoeren om twee prestatieplots (cumulatief) weer te geven
  9. Selecteer het tabblad Logboek om de gegenereerde R-code voor de voorgaande bewerkingen weer te geven
    • Vanwege een bug in de huidige versie van Rattle moet u een # teken invoegen vóór Dit logboek exporteren in de tekst van het logboek
  10. Selecteer de knop Exporteren om het R-scriptbestand op te slaan met de naam weather_script. R, naar de basismap

U kunt Rattle en R afsluiten. U kunt nu het gegenereerde R-script wijzigen. U kunt het script ook als zodanig gebruiken en op elk gewenst moment uitvoeren om alles te herhalen dat is uitgevoerd in de Rattle-gebruikersinterface. Voor beginners in R, met name, is dit geschikt voor snelle analyse en machine learning in een eenvoudige grafische interface, terwijl automatisch code wordt gegenereerd in R voor aanpassing of leren.

Volgende stappen

Voor meer vragen kunt u overwegen een ondersteuningsticket te maken