Hatékony adattárolási lehetőségek
Mivel számos gépi tanulási modell nagy mennyiségű adatot használ, a nagy adatkészletet hatékonyan tárolhatja a feldolgozási idő csökkentése érdekében.
Ne feledje, hogy nagy adathalmazt kapott az elemzési csapattól. Tudja, hogy hatékonyan kell tárolnia a feldolgozási idő optimalizálásához. Legyen szó a repülési adatok előkészítéséről és feltárásáról, vagy egy gépi vagy mélytanulási modell betanításáról az adatokon.
Megismerhet néhány ajánlott eljárást a nagy mennyiségű adat tárolásához.
Azure Data Lake Storage Gen2 kiválasztása
Az elemzési csapattal együtt úgy döntött, hogy az Azure Machine Tanulás minden feldolgozási és modellbetanítást elvégez. Az Azure Machine Tanulás-munkaterületről származó adatok egyszerű és biztonságos eléréséhez az adatokat az Azure-ban szeretné tárolni.
Bár az Azure-ban számos lehetőség van az adatok tárolására, az Azure Machine Tanulás használatakor a legjobb megoldás az adatok tárolása egy Azure Data Lake Storage Gen2-ben, függetlenül az adatok méretétől.
Használja ki a hierarchikus névteret
Az Azure Blob Storage-hoz képest az Azure Data Lake Gen2 hierarchikus névteret biztosít a fájlok tárolásához.
A hierarchikus névtérrel beágyazott mappastruktúrával optimalizálhatja a listázási műveleteket. A jobb méretezhetőség és teljesítmény mellett az ilyen fájlok strukturálása lehetővé teszi a részletes hozzáférést is.
Tipp.
További információ az Azure Data Lake Storage Gen2 képességeiről.
Beágyazott mappastruktúra használata
Ennek az az oka, hogy a data lake használata hatékonyabb egy lapos objektumtároló helyett, az az, hogy a legjobb elkerülni, hogy az összes fájlt egy mappába helyezze.
Ha az összes fájlt egy mappában tárolja, függetlenül attól, hogy melyik tárolási megoldást választja, a fájlok olvasása a számításhoz szükséges lesz.
A kapott repülési adatok olyan CSV-fájlok nagy gyűjteményei, amelyek az egyes hónapok repülési adatait jelenítik meg. Ezen javaslatok alapján úgy dönt, hogy migrálja az adatokat egy Azure Data Lake Storage-ba, és dátum alapján létrehoz egy beágyazott mappastruktúrát. Ha így tesz, egyszerűen kiválaszthatja, hogy melyik időszakra szeretné betölteni a repülési adatokat.
Kis méretű fájlok elkerülése
Végül pedig a fájlok tárolásakor el kell kerülnie, hogy sok kis fájl legyen. Egy 1000 kisméretű fájl olvasása sokkal lassabb, mint egy 1000-szer nagyobb méretű fájl olvasása.
Adatok elérése az Azure Machine Tanulás
Miután migrálta az adatokat, és engedélyezte, hogy az Azure Machine Tanulás csatlakozzon az Azure Data Lake-hez, a repülési adatokat bemenetként szeretné használni egy feladat futtatásakor.
Az Azure Machine Tanulás adatainak használatakor letöltheti vagy csatlakoztathatja az adatokat a feladat futtatásához hozzárendelt számítási fürthöz:
- Töltse le az adatokat, ha becslése szerint az adathalmaz elfér a virtuális gép lemezén.
- Csatlakoztassa az adatokat, ha azt szeretné, hogy az adathalmaz túl nagy legyen ahhoz, hogy letöltse a lemezre.
Tipp.
További információ az Azure Machine Tanulás adatkészletek használatáról.