AI en Machine Learning in Databricks
In dit artikel worden de hulpprogramma's beschreven die Azure Databricks biedt voor het bouwen en bewaken van AI- en ML-werkstromen. In het diagram ziet u hoe deze onderdelen samenwerken om u te helpen bij het implementeren van uw modelontwikkelings- en implementatieproces.
Waarom Databricks gebruiken voor machine learning en deep learning?
Met Azure Databricks kunt u de volledige ML-levenscyclus implementeren op één platform met end-to-end-governance in de ML-pijplijn. Azure Databricks bevat de volgende ingebouwde hulpprogramma's ter ondersteuning van ML-werkstromen:
- Unity Catalog voor governance, detectie, versiebeheer en toegangsbeheer voor gegevens, functies, modellen en functies.
- Lakehouse Monitoring voor gegevensbewaking.
- Functie-engineering en -dienst.
- Ondersteuning voor de levenscyclus van het model:
- Databricks AutoML voor geautomatiseerde modeltraining.
- MLflow voor het bijhouden van modelontwikkeling.
- Unity Catalog voor modelbeheer.
- Databricks Model Serving voor het leveren van modellen met hoge beschikbaarheid en lage latentie. Dit omvat het implementeren van LLM's met behulp van:
- Foundation Model-API's waarmee u open modellen kunt openen en er query's op kunt uitvoeren vanuit een dienend eindpunt.
- Externe modellen waarmee u toegang hebt tot modellen die buiten Databricks worden gehost.
- Lakehouse Monitoring om de voorspellingskwaliteit en drift van het model bij te houden.
- Databricks-werkstromen voor geautomatiseerde werkstromen en ETL-pijplijnen die gereed zijn voor productie.
- Databricks Git-mappen voor codebeheer en Git-integratie.
Deep Learning op Databricks
Het configureren van infrastructuur voor Deep Learning-toepassingen kan lastig zijn.
Databricks Runtime voor Machine Learning zorgt hiervoor voor u, met clusters met ingebouwde compatibele versies van de meest voorkomende Deep Learning-bibliotheken zoals TensorFlow, PyTorch en Keras, en ondersteunende bibliotheken zoals Petastorm, Hyperopt en Horovod. Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Het ondersteunt ook bibliotheken zoals Ray om rekenverwerking te parallelliseren voor het schalen van ML-werkstromen en AI-toepassingen.
Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Databricks Model Serving maakt het mogelijk om schaalbare GPU-eindpunten te maken voor deep learning-modellen zonder extra configuratie.
Voor machine learning-toepassingen raadt Databricks aan om een cluster met Databricks Runtime voor Machine Learning te gebruiken. Zie Een cluster maken met Databricks Runtime ML.
Als u aan de slag wilt gaan met Deep Learning op Databricks, raadpleegt u:
- Best practices voor deep learning in Azure Databricks
- Deep Learning op Databricks
- Referentieoplossingen voor Deep Learning
Grote taalmodellen (LLM's) en generatieve AI op Databricks
Databricks Runtime voor Machine Learning bevat bibliotheken zoals Hugging Face Transformers en LangChain waarmee u bestaande vooraf getrainde modellen of andere opensourcebibliotheken in uw werkstroom kunt integreren. De Integratie van Databricks MLflow maakt het eenvoudig om de MLflow-traceringsservice te gebruiken met transformatorpijplijnen, modellen en verwerkingsonderdelen. Daarnaast kunt u OpenAI-modellen of -oplossingen integreren van partners zoals John Snow Labs in uw Azure Databricks-werkstromen.
Met Azure Databricks kunt u een LLM op uw gegevens aanpassen voor uw specifieke taak. Met de ondersteuning van opensource-hulpprogramma's, zoals Hugging Face en DeepSpeed, kunt u efficiënt een basis-LLM nemen en trainen met uw eigen gegevens om de nauwkeurigheid voor uw specifieke domein en workload te verbeteren. U kunt vervolgens gebruikmaken van de aangepaste LLM in uw generatieve AI-toepassingen.
Daarnaast biedt Databricks Foundation Model-API's en externe modellen waarmee u open modellen kunt openen en er query's op kunt uitvoeren vanuit een service-eindpunt. Met behulp van Foundation Model-API's kunnen ontwikkelaars snel en eenvoudig toepassingen bouwen die gebruikmaken van een generatief AI-model van hoge kwaliteit zonder hun eigen modelimplementatie te onderhouden.
Voor SQL-gebruikers biedt Databricks AI-functies die SQL-gegevensanalisten kunnen gebruiken voor toegang tot LLM-modellen, waaronder vanuit OpenAI, rechtstreeks in hun gegevenspijplijnen en -werkstromen. Zie AI-functies in Azure Databricks.
Databricks Runtime voor Machine Learning
Databricks Runtime voor Machine Learning (Databricks Runtime ML) automatiseert het maken van een cluster met vooraf gebouwde machine learning- en deep learning-infrastructuur, waaronder de meest voorkomende ML- en DL-bibliotheken. Zie de releaseopmerkingen voor de volledige lijst met bibliotheken in elke versie van Databricks Runtime ML.
Voor toegang tot gegevens in Unity Catalog voor machine learning-werkstromen moet de toegangsmodus voor het cluster één gebruiker zijn (toegewezen). Gedeelde clusters zijn niet compatibel met Databricks Runtime voor Machine Learning. Daarnaast wordt Databricks Runtime ML niet ondersteund op TableACLs-clusters of -clusters met spark.databricks.pyspark.enableProcessIsolation config
de set .true
Een cluster maken met Databricks Runtime ML
Wanneer u een cluster maakt, selecteert u een Databricks Runtime ML-versie in het vervolgkeuzemenu van de Databricks-runtimeversie . Zowel CPU- als GPU-runtimes voor ML zijn beschikbaar.
Als u een cluster selecteert in de vervolgkeuzelijst in het notebook, wordt de Databricks Runtime-versie rechts van de clusternaam weergegeven:
Als u een ML-runtime met GPU selecteert, wordt u gevraagd een compatibel stuurprogrammatype en werkroltype te selecteren. Incompatibele exemplaartypen worden grijs weergegeven in de vervolgkeuzelijst. Exemplaartypen met GPU worden vermeld onder het versnelde GPU-label.
Notitie
Voor toegang tot gegevens in Unity Catalog voor machine learning-werkstromen moet de toegangsmodus voor het cluster één gebruiker zijn (toegewezen). Gedeelde clusters zijn niet compatibel met Databricks Runtime voor Machine Learning.
Bibliotheken die zijn opgenomen in Databricks Runtime ML
Databricks Runtime ML bevat een verscheidenheid aan populaire ML-bibliotheken. De bibliotheken worden bijgewerkt met elke release om nieuwe functies en oplossingen op te nemen.
Databricks heeft een subset van de ondersteunde bibliotheken aangewezen als bibliotheken met de hoogste laag. Voor deze bibliotheken biedt Databricks een snellere updatefrequentie, waarbij wordt bijgewerkt naar de nieuwste pakketreleases met elke runtimerelease (afhankelijkheidsconflicten). Databricks biedt ook geavanceerde ondersteuning, tests en ingesloten optimalisaties voor bibliotheken met de hoogste laag.
Zie de releaseopmerkingen voor Databricks Runtime ML voor een volledige lijst met toplaag en andere opgegeven bibliotheken.
Volgende stappen
Om aan de slag te gaan, raadpleegt u:
Zie voor een aanbevolen MLOps-werkstroom in Databricks Machine Learning:
Zie voor meer informatie over de belangrijkste Functies van Databricks Machine Learning:
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor