Importálás Azure Cosmos DB

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a Machine Learning Studio (klasszikus) alkalmazásában adatok importálására Azure Cosmos DB gépi tanulási kísérletben való használatra.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Azure Cosmos DB támogatja a NoSQL-adatbázistárolást egy rugalmas adatmodell használatával. Az adattárban található SQL API-k gépi tanuláshoz való használatának előnyei közé tartozik a gyors és kiszámítható teljesítmény, az automatikus skálázás, a globális terjesztés és a gazdag lekérdezési képességek.

Ez a Azure SQL Database lehetővé teszi a bejövő adatkészletek dinamikus szűrését.

A működése: További információ a Azure Cosmos DB

  • Ahhoz, hogy a gépi tanulást a Azure Cosmos DB-adatokkal elkezdeni, hozzá kell férnie egy meglévő Azure Cosmos DB-fiókhoz, amely kapcsolódó dokumentumok gyűjteményét tartalmazza.

Megjegyzés

A Machine Learning Studio (klasszikus) felhasználói felülete sok helyen továbbra is DocumentDB nevet használ. Ezért előfordulhat, hogy továbbra is referenciákat lát a DocumentDB-re, annak ellenére, hogy az API be van építve a Azure Cosmos DB.

Adatok importálása a Azure Cosmos DB

Határozottan javasoljuk, hogy az importálás előtt készítse el az adatok profilját, hogy a séma biztosan a várt módon legyen. Az importálási folyamat átvizsgál néhány fő sort a séma meghatározásához, de a későbbi sorok további oszlopokat vagy hibákat okozhatnak.

Adatok importálása a varázslóval

A modul tartalmaz egy új varázslót, amely segít kiválasztani a tárolási lehetőségeket, választani a meglévő előfizetések és fiókok közül, és gyorsan konfigurálni az összes beállítást.

  1. Adja hozzá az Adatok importálása modult a kísérlethez. A modult az Adatbemenet és -kimenet alatt találja.

  2. Kattintson az Adatok importálása varázsló indítása elemre , és kövesse az utasításokat.

  3. Ha a konfigurálás befejeződött, az adatok a kísérletbe való másoláshoz kattintson a jobb gombbal a modulra, és válassza a Kijelölt futtatása lehetőséget.

Tipp

Ha egy meglévő adatkapcsolatot kell szerkesztenie, a varázsló betölti az összes korábbi konfigurációs adatot. Nem kell elölről kezdenie.

Tulajdonságok manuális beállítása az Adatok importálása modulban

A következő lépések ismertetik, hogyan konfigurálhatja manuálisan az importálási forrást.

  1. Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult az Adatbemenet és -kimenet kategóriában találja .

  2. Az Adatforrás mezőben válassza az Azure DocumentDB lehetőséget.

    Előfordulhat, hogy meg kell adnia a dokumentum-adatbázis kapcsolati adatait.

    Tipp

    Keresse meg a Machine Learning Studio (klasszikus) beállításának nevét, amely később megváltozik. A névváltozás nem befolyásolta az importálási funkciót.

  3. A Végpont URL-címe mezőben az Azure Portalon kattintson a Kulcsok elemre, és másolja az oldal tetején található URI mező tartalmát.

  4. Az Adatbázis-azonosító szövegbe illessze be a használni használt adatbázis nevét.

    Az adatbázis nevének az Azure Portalról való lekért nevéhez kattintson a Dokumentumkezelő elemre. Ezen a panelen megtekintheti az adatbázisok és gyűjtemények listáját.

  5. A DocumentDB-kulcshoz illessze be a fiók hozzáférési kulcsát.

    A kulcsok megkereséhez kattintson a Kulcsok elemre, majd másolja ki az ELSŐDLEGES KULCS vagy a MÁSODLAGOS KULCS mezők tartalmát.

  6. A Gyűjtemény azonosítója mezőbe írja be a gyűjtemény nevét a megadott CosmosDB-adatbázisban látható módon.

  7. Definiálhat SQL lekérdezési és szűrési feltételt az adatokra a lekérdezési és SQL lekérdezési SQL beállításokkal.

    A SQL lekérdezéshez írjon be egy lekérdezést, amely meghatározza a gyűjteményből lekérni szükséges adatokat. Javasoljuk, hogy a Lekérdezéskezelővel előre hozza létre és tesztelje a CosmosDB-lekérdezéseket.

    A SQL lekérdezési paraméterekhez adjon meg egy JSON formátumú kifejezést, amely dinamikusan szűrheti a visszaadott adatokat. Általában a paraméterérték tényleges értékét kell megadva, amikor egy webszolgáltatás részeként futtatja a kísérletet.

    Ha paramétert használ, a szűrőváltozó nevét a lekérdezési szövegmezőben megadott WHERE záradék SQL meg.

    Ha nem ad meg szűrőkifejezést, a rendszer alapértelmezés szerint a "{}" értéket adja vissza, és minden rekordot visszaad.

    A CosmosDB-lekérdezésekkel kapcsolatos példákat, ismert problémákat és további tanácsokat SQL a Műszaki megjegyzések szakaszban.

  8. Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha újra fel szeretné használni a meglévő eredményeket.

    Ha nem választja ki ezt a beállítást, a rendszer a kísérlet minden futtatásakor beolvassa az adatokat a forrásból, függetlenül attól, hogy az adatok azonosak-e vagy sem.

    Machine Learning nem tudja összehasonlítani a gyorsítótárazott adatokat a CosmosDB-fiókban lévő adatokkal. Ezért nem lehet növekményes frissítéseket végrehajtani a Machine Learning.

    Ha csak az adatok módosulása esetén szeretne újraimportációt, ezt a logikát egy másik alkalmazásban kell meghatároznia, például a Azure Data Factory. További információ: Adatok áthelyezése a Azure Cosmos DB a Azure Data Factory.

  9. Futtassa a kísérletet, vagy csak az Adatok importálása modult , és kattintson a Futtatás kiválasztva lehetőségre.

Results (Eredmények)

A modul vagy kísérlet futtatása után a jobb gombbal a modul kimenetére kattintva táblázatos formában vizualizálhatja az eredményeket.

Ha pillanatképet készít az adatokról a Machine Learning munkaterületén adatkészletként, kattintson a jobb gombbal a modul kimenetére, és válassza a Save As Dataset (Mentés adatkészletként) lehetőséget. Ez azonban csak az importáláskor elérhető adatokat rögzíti. Ha az adatok várhatóan gyakran változnak, szükség szerint futtassa újra az Adatok importálása adatokat.

Példák

A gépi tanulás adatforrásként való használatának részletes Azure Cosmos DB lásd a Azure AI Gallery.

Technikai megjegyzések

Ez a szakasz speciális konfigurációs beállításokat és válaszokat tartalmaz a gyakori kérdésekre.

Példák egyszerű és paraméteres lekérdezésekre

Tegyük fel, hogy csak az 10000 lábnál nem magasabb szintekkel található adatokat szeretné használni.

Egyszerű lekérdezés

Illessze be a következő lekérdezést SQL lekérdezés szövegmezőbe:Select * from volcanodb where volcanodb.Elevation < 10000

Ebben az esetben a szűrőkifejezés értéke "{}" értékre van állítva, és a rendszer minden rekordot visszaad.

Paraméteres lekérdezés

Ha csak az egy adott országhoz kapcsolódó adatokat kell lekérdezni, megadhatja az ország értékét a lekérdezésnek futásidőben átadott paraméterként. Ehhez a következő módosításokra van szükség:

  1. A SQL mező szövegmezőben határozzon meg egy változót, amely a Country mezőre lesz alkalmazva a lekérdezés SQL részeként:

    Select * from volcanodb where volcanodb.Country = @param1

  2. A lekérdezési SQL mezőben adja meg a paraméter nevét és értékét JSON formátumban, a következő formátumban:

    {"@param1":"Turkey"}

Források

Ha még nem létezik dokumentumtár, az első lépésekhez tekintse meg ezeket a cikkeket.

Segítség az adatáttelepítéshez és a lekérdezési szintaxishoz

A JSON-adattárak lekérdezési mintáiért töltse le a Azure Cosmos DB-adatlapot.

Ha tartalmat kell feltöltenie a Azure Cosmos DB, javasoljuk, hogy Azure Cosmos DB migrálási eszközt. Ellenőrzi, feltölti és indexeli az adatokat. Az eszköz több forrást is támogat, például a MongoDB-t, az Amazon DynamoDB-t, a HBase-t, SQL Server adatbázisokat és CSV-fájlokat.

Sémalekérdezések használata

Ha az adatok konzisztensek és kiszámíthatók, egyszerű, SQL hasonló szintaxist használhat, például: SELECT * FROM <document collection>. Ezt sémalekérdezésnek nevezzük , mert nem adott meg pontos visszaadni attribútumokat. Az ilyen lekérdezések a megadott gyűjtemény összes mezőjét és sorát visszaadják.

A séma megadása azonban váratlan eredményekhez vagy futásidő-hibákhoz vezethet, ha a dokumentumokban inkonzisztens sémák vannak. Ennek az az oka, hogy az Adatok importálása modul a következőképpen kísérl meg előre meghatározott számú sor alapján kiveszni a sémát:

  1. Ha nincs megadva attribútum, a modul megvizsgálja a CosmosDB-adatbázis első sorát.
  2. A modul attribútumok alapján hoz létre oszlopneveket, és kitalálja, hogy az oszlop adattípusainak milyennek kell lennie a példasor alapján.
  3. Ha a későbbi sorok új vagy eltérő attribútumokat tartalmaznak, futásidő-hiba keletkezik.

Ezért javasoljuk, hogy mindig adja meg a CosmosDB-adattárból visszaadni kívánt attribútumokat és értékeket. A szintaxis használata SELECT * helyett például azt javasoljuk, hogy a lekérdezés által lekért összes attribútumnak a következő nevet nevezze el:

SELECT MyTable.Gender, MyTable.Age, MyTable.Name FROM <document collection>

Modulparaméterek

A következő táblázat csak az Adatok importálása modulnak azokat a paramétereit tartalmazza, amelyek a Azure Cosmos DB vonatkoznak.

Name Tartomány Típus Kötelező Alapértelmezett Description
Adatforrás list HTTP kötelező Nincs Az adatforrás lehet HTTP, FTP, névtelen HTTPS vagy FTPS, azure blobtárolóban lévő fájl, Azure-tábla, Azure SQL Database, Hive-tábla, OData-végpont vagy Azure Cosmos dB.
Végpont URL-címe bármelyik sztring kötelező Nincs Adja meg a Azure Cosmos DB URI-ját
Adatbázis-azonosító bármelyik sztring kötelező Nincs Adja meg a Azure Cosmos DB nevét
DocumentDB-kulcs bármelyik SecureString (Biztonságos karakterlánc) kötelező Nincs Adjon meg egy érvényes API-kulcsot a Azure Cosmos DB fiókhoz
Gyűjtemény azonosítója bármelyik sztring kötelező Nincs Adja meg a gyűjtemény nevét a Azure Cosmos DB adatbázisban
SQL Lekérdezés bármelyik sztring kötelező Nincs Egy SQL lekérdezés, amely rekordokat ad vissza a Azure Cosmos DB adattárból

Kimenetek

Név Típus Description
Eredményadatkészlet Adattábla Adatkészlet letöltött adatokkal

Kivételek

Kivétel Description
0003-as hiba Kivétel történik, ha egy vagy több bemenet null vagy üres.
0029-es hiba Kivétel történik, ha érvénytelen URI-t ad át.
0002-es hiba Kivétel történik, ha egy vagy több paramétert nem lehetett a megadott típusból a cél metódus által megkövetelt típusra átalakítani.
0048-as hiba Kivétel akkor fordul elő, ha nem lehet megnyitni egy fájlt.
0049-es hiba Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Adatok importálása
Adatok exportálása
Importálás webes URL-ről HTTP-kapcsolaton keresztül
Importálás Hive-lekérdezésből
Importálás Azure SQL Database-ből
Importálás Azure Blob Storage
Importálás adatcsatorna-szolgáltatóktól
Importálás helyszíni adatbázisból SQL Server adatbázisból