Gebeurtenisberichten schrijven naar Azure Data Lake Storage Gen2 met Apache Flink® DataStream-API
Belangrijk
Deze functie is momenteel beschikbaar in preview. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews bevatten meer juridische voorwaarden die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet beschikbaar zijn in algemene beschikbaarheid. Zie Azure HDInsight op AKS Preview-informatie voor meer informatie over deze specifieke preview. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight met de details en volgt u ons voor meer updates in de Azure HDInsight-community.
Apache Flink gebruikt bestandssystemen om gegevens te gebruiken en permanent op te slaan, zowel voor de resultaten van toepassingen als voor fouttolerantie en herstel. In dit artikel leert u hoe u gebeurtenisberichten schrijft naar Azure Data Lake Storage Gen2 met datastream-API.
Vereisten
- Apache Flink-cluster in HDInsight op AKS
- Apache Kafka-cluster in HDInsight
- U moet ervoor zorgen dat de netwerkinstellingen zorgvuldig worden uitgevoerd, zoals beschreven in Het gebruik van Apache Kafka in HDInsight. Zorg ervoor dat HDInsight op AKS- en HDInsight-clusters zich in hetzelfde virtuele netwerk bevinden.
- MSI gebruiken voor toegang tot ADLS Gen2
- IntelliJ voor ontwikkeling op een Virtuele Azure-machine in HDInsight in AKS Virtual Network
Apache Flink FileSystem-connector
Deze bestandssysteemconnector biedt dezelfde garanties voor zowel BATCH als STREAMING en is ontworpen om precies één keer semantiek te bieden voor streaming-uitvoering. Zie Flink DataStream Filesystem voor meer informatie.
Apache Kafka-Verbinding maken or
Flink biedt een Apache Kafka-connector voor het lezen van gegevens uit en het schrijven van gegevens naar Kafka-onderwerpen met precies eenmaal gegarandeerde garanties. Zie Apache Kafka Verbinding maken or voor meer informatie.
Het project bouwen voor Apache Flink
pom.xml op IntelliJ IDEA
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<flink.version>1.17.0</flink.version>
<java.version>1.8</java.version>
<scala.binary.version>2.12</scala.binary.version>
<kafka.version>3.2.0</kafka.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-streaming-java -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-clients -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-clients</artifactId>
<version>${flink.version}</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-connector-files -->
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-files</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka</artifactId>
<version>${flink.version}</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-assembly-plugin</artifactId>
<version>3.0.0</version>
<configuration>
<appendAssemblyId>false</appendAssemblyId>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
Programma voor ADLS Gen2 Sink
abfsGen2.java
Notitie
Apache Kafka in HDInsight-cluster bootStrapServers vervangen door uw eigen brokers voor Kafka 3.2
package contoso.example;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.configuration.MemorySize;
import org.apache.flink.connector.file.sink.FileSink;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.filesystem.rollingpolicies.DefaultRollingPolicy;
import java.time.Duration;
public class KafkaSinkToGen2 {
public static void main(String[] args) throws Exception {
// 1. get stream execution env
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Configuration flinkConfig = new Configuration();
flinkConfig.setString("classloader.resolve-order", "parent-first");
env.getConfig().setGlobalJobParameters(flinkConfig);
// 2. read kafka message as stream input, update your broker ip's
String brokers = "<update-broker-ip>:9092,<update-broker-ip>:9092,<update-broker-ip>:9092";
KafkaSource<String> source = KafkaSource.<String>builder()
.setBootstrapServers(brokers)
.setTopics("click_events")
.setGroupId("my-group")
.setStartingOffsets(OffsetsInitializer.earliest())
.setValueOnlyDeserializer(new SimpleStringSchema())
.build();
DataStream<String> stream = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
stream.print();
// 3. sink to gen2, update container name and storage path
String outputPath = "abfs://<container-name>@<storage-path>.dfs.core.windows.net/flink/data/click_events";
final FileSink<String> sink = FileSink
.forRowFormat(new Path(outputPath), new SimpleStringEncoder<String>("UTF-8"))
.withRollingPolicy(
DefaultRollingPolicy.builder()
.withRolloverInterval(Duration.ofMinutes(2))
.withInactivityInterval(Duration.ofMinutes(3))
.withMaxPartSize(MemorySize.ofMebiBytes(5))
.build())
.build();
stream.sinkTo(sink);
// 4. run stream
env.execute("Kafka Sink To Gen2");
}
}
Pakket-JAR en dien deze in bij Apache Flink.
Upload het jar-bestand naar ABFS.
Geef de taak-JAR-gegevens door bij
AppMode
het maken van het cluster.Notitie
Zorg ervoor dat u classloader.resolve-order toevoegt als 'parent-first' en hadoop.classpath.enable als
true
Selecteer Taaklogboekaggregatie om taaklogboeken naar het opslagaccount te pushen.
U kunt zien dat de taak wordt uitgevoerd.
Streaminggegevens valideren in ADLS Gen2
We zien de click_events
streaming naar ADLS Gen2.
U kunt een rollend beleid opgeven waarmee het bestand in uitvoering wordt meegerold op een van de volgende drie voorwaarden:
.withRollingPolicy(
DefaultRollingPolicy.builder()
.withRolloverInterval(Duration.ofMinutes(5))
.withInactivityInterval(Duration.ofMinutes(3))
.withMaxPartSize(MemorySize.ofMebiBytes(5))
.build())
Verwijzing
- Apache Kafka-Verbinding maken or
- Flink DataStream Filesystem
- Apache Flink Website
- Apache, Apache Kafka, Kafka, Apache Flink, Flink en bijbehorende opensource-projectnamen zijn handelsmerken van de Apache Software Foundation (ASF).
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor