Referens: Ubuntu (Linux) Datavetenskap virtuell dator

Det här dokumentet visar en lista över tillgängliga verktyg på din Ubuntu Datavetenskap Virtual Machine (DSVM).

Djupinlärningsbibliotek

PyTorch

PyTorch är ett populärt ramverk för vetenskaplig databehandling med brett stöd för maskininlärningsalgoritmer. Om din dator har en inbyggd GPU kan den använda den GPU:n för att påskynda djupinlärningen. PyTorch är tillgängligt i py38_pytorch miljön.

H2O

H2O är en snabb, minnesintern, distribuerad maskininlärnings- och förutsägelseanalysplattform. Ett Python-paket installeras i både rot- och py35 Anaconda-miljöer. Ett R-paket installeras också.

Om du vill öppna H2O från kommandoraden kör du java -jar /dsvm/tools/h2o/current/h2o.jar. Du kan konfigurera olika tillgängligakommandoradsalternativ. Bläddra till Flow-webbgränssnittet för att http://localhost:54321 komma igång. JupyterHub erbjuder exempelanteckningsböcker.

TensorFlow

TensorFlow är Googles djupinlärningsbibliotek. Det är ett programvarubibliotek med öppen källkod för numerisk beräkning med hjälp av dataflödesdiagram. Om din dator har en inbyggd GPU kan den använda den GPU:n för att påskynda djupinlärningen. TensorFlow är tillgängligt i conda-miljön py38_tensorflow .

Python

Den Datavetenskap virtuella datorn (DSVM) har flera förinstallerade Python-miljöer, med antingen Python version 3.8 eller Python version 3.6. Kör conda env list i ett terminalfönster för att se den fullständiga listan över installerade miljöer.

Jupyter

DSVM levereras också med Jupyter, en miljö för koddelning och kodanalys. Jupyter installeras på DSVM i följande varianter:

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Starta Jupyter Lab genom att öppna Jupyter på programmenyn eller välja skrivbordsikonen. Du kan också köra jupyter lab från en kommandorad för att öppna Jupyter Lab.

Öppna Jupyter Notebook genom att öppna en kommandorad och köra jupyter notebook.

Öppna Jupyter Hub genom att öppna https://< VM DNS-namn eller IP-adress>:8000/ i en webbläsare. Du måste ange ditt lokala Användarnamn och lösenord för Linux.

Kommentar

Du kan ignorera eventuella certifikatvarningar.

Kommentar

För Ubuntu-avbildningarna öppnas brandväggsport 8000 som standard när den virtuella datorn etableras.

Fristående Apache Spark

En fristående instans av Apache Spark är förinstallerad på Linux DSVM för att hjälpa dig att utveckla Spark-program lokalt innan du testar och distribuerar dessa program i stora kluster.

Du kan köra PySpark-program via Jupyter-kerneln. När Jupyter startas väljer du knappen Nytt . En lista över tillgängliga kernels bör visas. Du kan skapa Spark-program med Python-språket om du väljer Spark – Python-kerneln . Du kan också använda en Python IDE – till exempel VS. Kod eller PyCharm – för att skapa ditt Spark-program.

I den här fristående instansen körs Spark-stacken i det anropande klientprogrammet. Den här funktionen gör det snabbare och enklare att felsöka problem jämfört med utveckling i ett Spark-kluster.

ID:er och redigerare

Du kan välja mellan flera kodredigerare, inklusive VS. Kod, PyCharm, IntelliJ, vi/Vim eller Emacs.

VS. Kod, PyCharm och IntelliJ är grafiska redigeringsprogram. Om du vill använda dem måste du vara inloggad på ett grafiskt skrivbord. Du öppnar dem med hjälp av genvägar på skrivbords- och programmenyn.

Vim och Emacs är textbaserade redigerare. På Emacs gör ESS-tilläggspaketet det enklare att arbeta med R i Emacs-redigeraren. Mer information finns på ESS-webbplatsen.

Databaser

Grafisk SQL-klient

SQuirrel SQL, en grafisk SQL-klient, kan ansluta till olika databaser – till exempel Microsoft SQL Server eller MySQL – och köra SQL-frågor. Det snabbaste sättet att öppna SQuirrel SQL är att använda programmenyn från en grafisk skrivbordssession (till exempel via X2Go-klienten)

Konfigurera drivrutiner och databasalias före den första användningen. Du hittar JDBC-drivrutinerna på /usr/share/java/jdbcdrivers.

Mer information finns i SQuirrel SQL-resursen.

Kommandoradsverktyg för åtkomst till Microsoft SQL Server

ODBC-drivrutinspaketet för SQL Server innehåller också två kommandoradsverktyg:

  • bcp: Bcp-verktyget masskopierar data mellan en instans av Microsoft SQL Server och en datafil i ett användardefinieringsformat. Du kan använda bcp-verktyget för att importera ett stort antal nya rader till SQL Server-tabeller eller för att exportera data från tabeller till datafiler. Om du vill importera data till en tabell måste du använda en formatfil som skapats för tabellen. Du måste förstå tabellens struktur och vilka typer av data som är giltiga för dess kolumner.

Mer information finns i Anslut ing med bcp.

  • sqlcmd: Du kan ange Transact-SQL-uttryck med sqlcmd-verktyget. Du kan också ange systemprocedurer och skriptfiler i kommandotolken. Det här verktyget använder ODBC för att köra Transact-SQL-batchar.

    Mer information finns i Anslut ing med sqlcmd.

    Kommentar

    Det finns vissa skillnader i det här verktyget mellan dess Linux- och Windows-plattformsversioner. Mer information finns i dokumentationen.

Databasåtkomstbibliotek

R- och Python-bibliotek är tillgängliga för databasåtkomst:

  • I R kan du använda RODBC dplyr-paketen för att fråga eller köra SQL-instruktioner på databasservern
  • I Python ger pyodbc-biblioteket databasåtkomst med ODBC som underliggande lager

Azure-verktyg

Dessa Azure-verktyg är installerade på den virtuella datorn:

  • Azure CLI: Du kan använda kommandoradsgränssnittet i Azure för att skapa och hantera Azure-resurser via gränssnittskommandon. Om du vill öppna Azure-verktygen anger du Azure-hjälpen. Mer information finns på dokumentationssidan för Azure CLI.

  • Azure Storage Explorer: Azure Storage Explorer är ett grafiskt verktyg som du kan använda för att bläddra igenom de objekt som du lagrade i ditt Azure Storage-konto och för att ladda upp och ladda ned data till och från Azure-blobbar. Du kan komma åt Storage Explorer från genvägsikonen för skrivbordet. Du kan också öppna den från en kommandotolk om du anger StorageExplorer. Du måste vara inloggad från en X2Go-klient eller ha konfigurerat X11-vidarebefordran.

  • Azure-bibliotek: Det här är några av de förinstallerade biblioteken:

    • Python: Python erbjuder azure-, azureml-, pydocumentdb- och pyodbc Azure-relaterade bibliotek. Med de tre första biblioteken kan du komma åt Azure Storage-tjänster, Azure Machine Learning och Azure Cosmos DB (en NoSQL-databas i Azure). Det fjärde biblioteket, pyodbc (tillsammans med Microsoft ODBC-drivrutinen för SQL Server), ger åtkomst till SQL Server, Azure SQL Database och Azure Synapse Analytics från Python via ett ODBC-gränssnitt. Ange pip-listan om du vill se alla bibliotek i listan. Se till att köra det här kommandot i python 2.7- och 3.5-miljöerna.
    • R: Azure Machine Learning och RODBC är De Azure-relaterade biblioteken i R.
    • Java: Katalogen /dsvm/sdk/AzureSDKJava innehåller listan över Azure Java-bibliotek som finns i katalogen /dsvm/sdk/AzureSDKJava på den virtuella datorn. Nyckelbiblioteken är Azure Storage- och hanterings-API:er, Azure Cosmos DB- och JDBC-drivrutiner för SQL Server.

Azure Machine Learning

Med den fullständigt hanterade Azure Machine Learning-molntjänsten kan du skapa, distribuera och dela lösningar för förutsägelseanalys. Du kan skapa experiment och modeller i Azure Machine Learning-studio. Besök Microsoft Azure Machine Learning för att komma åt det från en webbläsare på den Datavetenskap virtuella datorn.

När du har loggat in på Azure Machine Learning-studio kan du använda en experimenteringsarbetsyta för att skapa ett logiskt flöde för maskininlärningsalgoritmerna. Du har också åtkomst till en Jupyter-notebook-fil som finns i Azure Machine Learning. Den här notebook-filen kan fungera sömlöst med experimenten i Azure Machine Learning-studio.

Om du vill operationalisera de maskininlärningsmodeller som du har skapat omsluter du dem i ett webbtjänstgränssnitt. Med maskininlärningsmodellens operationalisering kan klienter som skrivits på valfritt språk anropa förutsägelser från dessa modeller. Mer information finns i Machine Learning-dokumentationen .

Du kan också skapa dina modeller i R eller Python på den virtuella datorn och sedan distribuera dem i produktion i Azure Machine Learning. Vi installerade bibliotek i R (AzureML) och Python (azureml) för att aktivera den här funktionen.

Kommentar

Vi skrev de här anvisningarna för Windows-versionen Datavetenskap virtuell dator. Instruktionerna omfattar dock distributioner av Azure Machine Learning-modell till den virtuella Linux-datorn.

Maskininlärningsverktyg

Den virtuella datorn levereras med förkompilerade maskininlärningsverktyg och algoritmer, alla förinstallerade lokalt. Dessa kan vara:

  • Vowpal Wabbit: En snabb onlineinlärningsalgoritm

  • xgboost: Det här verktyget ger optimerade, förstärkta trädalgoritmer

  • Rattle: Ett R-baserat grafiskt verktyg för enkel datautforskning och modellering

  • Python: Anaconda Python levereras med maskininlärningsalgoritmer med bibliotek som Scikit-learn. Du kan installera andra bibliotek med pip install kommandot

  • LightGBM: Ett snabbt, distribuerat, högpresterande gradient-ramverk baserat på beslutsträdsalgoritmer

  • R: Ett omfattande bibliotek med maskininlärningsfunktioner är tillgängligt för R. Förinstallerade bibliotek omfattar lm, glm, randomForest och rpart. Du kan installera andra bibliotek med det här kommandot:

    install.packages(<lib name>)
    

Här är mer information om de tre första maskininlärningsverktygen i listan.

Vowpal Wabbit

Vowpal Wabbit är ett maskininlärningssystem som använder

  • aktiv
  • allreduce
  • Hashing
  • interaktiv inlärning
  • learning2search
  • Online
  • Minskningar

Tekniker.

Använd dessa kommandon för att köra verktyget i ett grundläggande exempel:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Den katalogen erbjuder andra, större demonstrationer. Besök det här avsnittet av GitHub och Vowpal Wabbit wiki för mer information om Vowpal Wabbit.

xgboost

Xgboost-biblioteket är utformat och optimerat för boostade (träd)-algoritmer. Xgboost-biblioteket överför beräkningsgränserna för datorer till de ytterligheter som behövs för korrekt, bärbar och skalbar storskalig trädförstärkning.

Xgboost-biblioteket tillhandahålls som både en kommandoradsresurs och ett R-bibliotek. Om du vill använda det här biblioteket i R kan du ange R i gränssnittet för att starta en interaktiv R-session och läsa in biblioteket.

Det här enkla exemplet visar hur du kör xgboost i en R-prompt:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Kör följande kommandon i gränssnittet för att köra xgboost-kommandoraden:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Mer information om xgboost finns på sidan med xgboost-dokumentation och dess GitHub-lagringsplats.

Rattle

Rattle ( RAnalytical Tool To Learn Easily) använder GUI-baserad datautforskning och modellering. Det

  • presenterar statistiska och visuella sammanfattningar av data
  • transformerar data som enkelt kan modelleras
  • bygger både oövervakade och övervakade modeller från data
  • presenterar prestanda för modeller grafiskt
  • poängsätter nya datauppsättningar

Den genererar också R-kod, som replikerar Rattle-åtgärder i användargränssnittet. Du kan köra koden direkt i R eller använda den som utgångspunkt för ytterligare analys.

Om du vill köra Rattle måste du arbeta i en grafisk skrivbordsinloggningssession. I terminalen anger du R för att öppna R-miljön. I R-kommandotolken anger du följande kommando:

library(rattle)
rattle()

Ett grafiskt gränssnitt, med en uppsättning flikar, öppnas sedan. De här snabbstartsstegen i Rattle använder en exempeldatauppsättning för väder för att skapa en modell. I vissa av stegen får du uppmaningar om att automatiskt installera och läsa in specifika, obligatoriska R-paket som inte redan finns i systemet.

Kommentar

Om du inte har åtkomstbehörighet för att installera paketet i systemkatalogen (standard) kanske du ser en uppmaning i R-konsolfönstret om att installera paket i ditt personliga bibliotek. Svar y om du stöter på dessa frågor.

  1. Välj Execute (Kör)
  2. En dialogruta visas som frågar om du vill använda exempeldatauppsättningen för väder. Välj Ja för att läsa in exemplet
  3. Välj fliken Modell
  4. Välj Kör för att skapa ett beslutsträd
  5. Välj Rita för att visa beslutsträdet
  6. Välj alternativet Skog och välj Kör för att skapa en slumpmässig skog
  7. Välj fliken Utvärdera
  8. Välj alternativet Risk och välj Kör för att visa två prestandadiagram för risk (kumulativ)
  9. Välj fliken Logg för att visa den genererade R-koden för föregående åtgärder
    • På grund av en bugg i den aktuella versionen av Rattle måste du infoga ett # tecken framför Exportera loggen i loggtexten
  10. Välj knappen Exportera för att spara R-skriptfilen med namnet weather_script. R, till hemmappen

Du kan avsluta Rattle och R. Nu kan du ändra det genererade R-skriptet. Du kan också använda skriptet som det är och köra det när som helst för att upprepa allt som gjordes i Rattle-användargränssnittet. Särskilt för nybörjare i R lämpar sig detta för snabb analys och maskininlärning i ett enkelt grafiskt gränssnitt, samtidigt som kod genereras automatiskt i R för ändring eller inlärning.

Nästa steg

Om du vill ha fler frågor kan du överväga att skapa ett supportärende