데이터 프레임를 TFRecord 파일에 Apache Spark 저장 하 고 TensorFlow를 사용 하 여 로드 합니다.

TFRecord 파일 형식은 ML 학습 데이터에 대 한 간단한 레코드 지향 이진 형식입니다. TFRecordDataset 클래스를 사용 하면 하나 이상의 TFRecord 파일 콘텐츠를 입력 파이프라인의 일부로 스트리밍할 수 있습니다.

참고

이 가이드는 TensorFlow으로 데이터를 가져오는 방법에 대 한 포괄적인 가이드가 아닙니다. TENSORFLOW API 가이드를 참조 하세요.

TFRecord 파일에 데이터 프레임 Apache Spark 저장

Tensorflow-커넥터 를 사용 하 여 TFRecord 파일에 Apache Spark 데이터 프레임을 저장할 수 있습니다.

tensorflow 커넥터 는 spark 데이터 프레임와 TFRecords (tensorflow에 대 한 데이터를 저장 하는 데 널리 사용 되는 형식) 간에 변환을 가능 하 게 하는 tensorflow 에코 시스템 내의 라이브러리입니다. Tensorflow 커넥터를 사용 하면 Spark 데이터 프레임 Api를 사용 하 여 TFRecords 파일을 데이터 프레임에 읽고 데이터 프레임를 TFRecords로 쓸 수 있습니다.

참고

tensorflow 커넥터 라이브러리는 기계 학습 및 데이터 과학을 위한 준비 된 환경을 제공 하는 machine learning Runtime Machine Learning에 대 한 Databricks Runtime에 포함 되어 있습니다. 다음 지침을 사용 하 여 라이브러리를 설치 하는 대신 Machine Learning에 대 한 Databricks Runtime를 사용 하 여 클러스터를 간단히 만들 수 있습니다. Databricks Runtime에서 tensorflow 커넥터를 사용 하려면 Maven에서 라이브러리를 설치 해야 합니다. 자세한 내용은 Maven 또는 Spark 패키지 를 참조 하세요.

TensorFlow를 사용 하 여 TFRecord 파일에서 데이터 로드

클래스를 사용 하 여 TFRecord 파일을 로드할 수 있습니다 tf.data.TFRecordDataset . 자세한 내용은 TensorFlow에서 TFRecord 파일 읽기 를 참조 하세요.

다음 예제 노트북에서는 Apache Spark 데이터 프레임에서 TFRecord files로 데이터를 저장 하 고 ML 교육용으로 TFRecord 파일을 로드 하는 방법을 보여 줍니다.

분산 DL에 대 한 이미지 데이터 준비

Notebook 가져오기