Hatékony adattárolási lehetőségek

5 perc

Mivel számos gépi tanulási modell nagy mennyiségű adatot használ, a nagy adatkészletet hatékonyan tárolhatja a feldolgozási idő csökkentése érdekében.

Ne feledje, hogy nagy adathalmazt kapott az elemzési csapattól. Tudja, hogy hatékonyan kell tárolnia a feldolgozási idő optimalizálásához. Legyen szó a repülési adatok előkészítéséről és feltárásáról, vagy egy gépi vagy mélytanulási modell betanításáról az adatokon.

Megismerhet néhány ajánlott eljárást a nagy mennyiségű adat tárolásához.

Azure Data Lake Storage Gen2 kiválasztása

Az elemzési csapattal együtt úgy döntött, hogy az Azure Machine Tanulás minden feldolgozási és modellbetanítást elvégez. Az Azure Machine Tanulás-munkaterületről származó adatok egyszerű és biztonságos eléréséhez az adatokat az Azure-ban szeretné tárolni.

Bár az Azure-ban számos lehetőség van az adatok tárolására, az Azure Machine Tanulás használatakor a legjobb megoldás az adatok tárolása egy Azure Data Lake Storage Gen2-ben, függetlenül az adatok méretétől.

Használja ki a hierarchikus névteret

Az Azure Blob Storage-hoz képest az Azure Data Lake Gen2 hierarchikus névteret biztosít a fájlok tárolásához.

A hierarchikus névtérrel beágyazott mappastruktúrával optimalizálhatja a listázási műveleteket. A jobb méretezhetőség és teljesítmény mellett az ilyen fájlok strukturálása lehetővé teszi a részletes hozzáférést is.

Tipp.

További információ az Azure Data Lake Storage Gen2 képességeiről.

Beágyazott mappastruktúra használata

Ennek az az oka, hogy a data lake használata hatékonyabb egy lapos objektumtároló helyett, az az, hogy a legjobb elkerülni, hogy az összes fájlt egy mappába helyezze.

Ha az összes fájlt egy mappában tárolja, függetlenül attól, hogy melyik tárolási megoldást választja, a fájlok olvasása a számításhoz szükséges lesz.

A kapott repülési adatok olyan CSV-fájlok nagy gyűjteményei, amelyek az egyes hónapok repülési adatait jelenítik meg. Ezen javaslatok alapján úgy dönt, hogy migrálja az adatokat egy Azure Data Lake Storage-ba, és dátum alapján létrehoz egy beágyazott mappastruktúrát. Ha így tesz, egyszerűen kiválaszthatja, hogy melyik időszakra szeretné betölteni a repülési adatokat.

Kis méretű fájlok elkerülése

Végül pedig a fájlok tárolásakor el kell kerülnie, hogy sok kis fájl legyen. Egy 1000 kisméretű fájl olvasása sokkal lassabb, mint egy 1000-szer nagyobb méretű fájl olvasása.

Adatok elérése az Azure Machine Tanulás

Miután migrálta az adatokat, és engedélyezte, hogy az Azure Machine Tanulás csatlakozzon az Azure Data Lake-hez, a repülési adatokat bemenetként szeretné használni egy feladat futtatásakor.

Az Azure Machine Tanulás adatainak használatakor letöltheti vagy csatlakoztathatja az adatokat a feladat futtatásához hozzárendelt számítási fürthöz:

Töltse le az adatokat, ha becslése szerint az adathalmaz elfér a virtuális gép lemezén.
Csatlakoztassa az adatokat, ha azt szeretné, hogy az adathalmaz túl nagy legyen ahhoz, hogy letöltse a lemezre.