Inzicht in Apache Spark voor U-SQL-ontwikkelaars
Micro soft ondersteunt diverse analyse Services, zoals Azure Databricks en Azure HDInsight , evenals Azure data Lake Analytics. We horen van ontwikkel aars dat ze een duidelijke voor keur hebben voor open-source-oplossingen als ze analytische pijp lijnen bouwen. Om U-SQL-ontwikkel aars te helpen begrijpen Apache Spark en hoe u uw U-SQL-scripts kunt transformeren naar Apache Spark, hebben we deze richt lijnen gemaakt.
Het bevat een aantal stappen die u kunt uitvoeren en verschillende alternatieven.
Stappen om U-SQL te transformeren naar Apache Spark
Transformeer pijp lijnen van uw taak.
Als u Azure Data Factory gebruikt om uw Azure data Lake Analytics-scripts te organiseren, moet u deze aanpassen om de nieuwe Spark-Program ma's te organiseren.
Meer informatie over de verschillen tussen hoe U-SQL en Spark gegevens beheert
Als u uw gegevens van Azure data Lake Storage gen1 naar Azure data Lake Storage Gen2wilt verplaatsen, moet u zowel de bestands gegevens als de gegevens van de catalogus die worden bijgehouden kopiƫren. Houd er rekening mee dat Azure Data Lake Analytics alleen Azure Data Lake Storage Gen1 ondersteunt. Zie informatie over Spark-gegevens indelingen
Uw U-SQL-scripts transformeren naar Spark
Voordat u uw U-SQL-scripts transformeert, moet u een analyse service kiezen. Enkele van de beschik bare berekenings Services zijn:
- Azure Data Factory gegevensstroom Het toewijzen van gegevens stromen zijn visueel ontworpen gegevens transformaties waarmee data Engineers een grafische logica voor gegevens transformatie kunnen ontwikkelen zonder code te hoeven schrijven. Hoewel ze niet geschikt zijn voor het uitvoeren van complexe gebruikers code, kunnen ze eenvoudig traditionele trans formaties van een SQL-achtige gegevensstroom weer geven
- Azure HDInsight-Hive Apache Hive op HDInsight is geschikt voor het extra heren, transformeren en laden (ETL)-bewerkingen. Dit betekent dat u uw U-SQL-scripts gaat vertalen naar Apache Hive.
- Apache Spark engines als Azure HDInsight Spark of Azure Databricks dit betekent dat u uw U-SQL-scripts gaat vertalen naar Spark. Zie informatie over Spark- gegevens indelingen begrijpen voor meer informatie.
Waarschuwing
Zowel Azure Databricks als Azure HDInsight Spark zijn Cluster Services en geen serverloze taken zoals Azure data Lake Analytics. U moet rekening houden met het inrichten van de clusters om de juiste kosten/prestatie verhouding te verkrijgen en hun levens duur te beheren om uw kosten te beperken. Deze services hebben verschillende prestatie kenmerken met gebruikers code die is geschreven in .NET. Daarom moet u wrappers schrijven of uw code herschrijven in een ondersteunde taal. Zie informatie over Spark- gegevens indelingenbegrijpen Apache Spark code concepten voor U-SQL-ontwikkel aars, .net voor Apache Spark
Volgende stappen
- Informatie over Spark-gegevens indelingen voor U-SQL-ontwikkel aars
- Informatie over Spark-code concepten voor U-SQL-ontwikkel aars
- Upgrade uw big data Analytics-oplossingen van Azure Data Lake Storage Gen1 naar Azure Data Lake Storage Gen2
- .NET voor Apache Spark
- Gegevens transformeren met behulp van Hadoop Hive-activiteit in Azure Data Factory
- Gegevens transformeren met behulp van Spark-activiteit in Azure Data Factory
- Wat is Apache Spark in Azure HDInsight?