TabularDatasetFactory 클래스

Azure Machine Learning에 대 한 테이블 형식 데이터 집합을 만드는 메서드를 포함 합니다.

TabularDataset from_* 이 클래스의 메서드 (예: 메서드)를 사용 하 여 만듭니다 from_delimited_files .

테이블 형식 데이터 집합 작업에 대 한 자세한 내용은 노트북을 참조 하십시오 https://aka.ms/tabulardataset-samplenotebook .

상속
builtins.object
TabularDatasetFactory

생성자

TabularDatasetFactory()

메서드

from_delimited_files

TabularDataset를 만들어 테이블 형식 데이터를 구분 된 파일 (예: CSV 및 TSV)에 표시 합니다.

from_json_lines_files

JSON 줄 파일 ()에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다 http://jsonlines.org/ .

from_parquet_files

Parquet 파일에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다.

from_sql_query

SQL 데이터베이스에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다.

register_dask_dataframe

참고

이는 실험적 방법 이며 언제 든 지 변경 될 수 있습니다. https://aka.ms/azuremlexperimental자세한 내용은를 참조 하십시오.

6ask 데이터 프레임에서 데이터 집합을 만듭니다.

register_pandas_dataframe

Pandas 데이터 프레임에서 데이터 집합을 만듭니다.

register_spark_dataframe

참고

이는 실험적 방법 이며 언제 든 지 변경 될 수 있습니다. https://aka.ms/azuremlexperimental자세한 내용은를 참조 하십시오.

Spark 데이터 프레임에서 데이터 집합을 만듭니다.

from_delimited_files

TabularDataset를 만들어 테이블 형식 데이터를 구분 된 파일 (예: CSV 및 TSV)에 표시 합니다.

from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

매개 변수

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]
필수

소스 파일에 대 한 경로입니다 .이 경로는 단일 값 또는 http url 문자열, DataPath 개체 또는의 튜플 Datastore 및 상대 경로 목록 일 수 있습니다.

validate
<xref:bool>
필수

반환 된 데이터 집합에서 데이터를 로드할 수 있는지 유효성을 검사 하는 부울입니다. 기본값은 True입니다. 유효성 검사를 수행 하려면 현재 계산에서 데이터 소스에 액세스할 수 있어야 합니다. 유효성 검사를 사용 하지 않도록 설정 하려면 "infer_column_types"도 False로 설정 해야 합니다.

include_path
<xref:bool>
필수

경로 정보를 데이터 집합의 열로 유지 하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽을 때, 특정 레코드가 발생 한 파일을 확인 하거나, 파일 경로에 유용한 정보를 유지 하려는 경우에 유용 합니다.

infer_column_types
<xref:bool>
필수

열 데이터 형식을 유추 하는 부울입니다. 기본값은 True입니다. 형식을 유추 하려면 현재 계산에서 데이터 소스에 액세스할 수 있어야 합니다. 현재 형식 유추는 처음 200 개 행만 가져옵니다. 데이터에 여러 형식의 값이 포함 된 경우 set_column_types 인수를 통해 재정의로 원하는 형식을 제공 하는 것이 좋습니다. Set_column_types에 대 한 코드 샘플은 설명 섹션을 참조 하세요.

set_column_types
<xref:dict>[<xref:str>, DataType]
필수

열 데이터 형식을 설정 하는 사전입니다. 여기서 key는 열 이름이 고 값은 DataType 입니다.

separator
<xref:str>
필수

열을 분할 하는 데 사용 되는 구분 기호입니다.

header
<xref:bool> 또는 PromoteHeadersBehavior
필수

파일에서 읽을 때 열 머리글을 승격 하는 방법을 제어 합니다. 헤더가 동일한 모든 파일의 경우 기본값은 True입니다. 헤더를 False로 설정 하면 파일을 읽을 수 없습니다. 열거 값을 사용 하 여 더 많은 옵션을 지정할 수 있습니다 PromoteHeadersBehavior .

partition_format
<xref:str>
필수

경로의 파티션 형식을 지정 합니다. 기본값은 없음입니다. 각 경로의 파티션 정보는 지정 된 형식에 따라 열로 추출 됩니다. 서식 지정 파트 ' {column_name} '은 (는) 문자열 열을 만들며 ' {column_name: yyyy/MM/dd/HH/MM/ss} '는 datetime 열을 만듭니다. 여기에서 ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' 및 ' ss '는 datetime 형식에 대해 연도, 월 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '.. 경로를 지정 합니다. /Accounts/2019/01/01/data.csv ' 파티션이 부서 이름 및 시간을 기준으로 하는 경우 partition_format = '/{Department}/{PartitionDate: yyyy/MM/dd}/data.csv '는 ' Accounts ' 값과 ' 2019-01-01 ' 값이 포함 된 datetime 열 ' e x d '를 사용 하 여 ' 부서 ' 문자열 열을 만듭니다.

support_multi_line
<xref:bool>
필수

기본적으로 (support_multi_line = False) 따옴표로 묶인 필드 값을 포함 하 여 모든 줄 바꿈이 레코드 나누기로 해석 됩니다. 이러한 방식으로 데이터를 읽으면 더 빨리 읽을 수 있으며, 여러 CPU 코어에서 병렬 실행에 더욱 최적화됩니다. 그러나 이로 인해 잘못 정렬된 필드 값이 있는 레코드가 더 많이 자동으로 생성될 수 있습니다. 구분 기호로 분리 된 파일이 따옴표 붙은 줄 바꿈 문자를 포함 하는 것으로 알려진 경우이를 True로 설정 해야 합니다.

이 csv 파일을 예로 지정 하면 support_multi_line에 따라 데이터를 다르게 읽습니다.

A, B, C A1, B1, C1 A2, "B 2", C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
<xref:bool>
필수

빈 필드 값을 빈 문자열로 로드할지 여부를 지정 합니다. 기본값 (False)은 빈 필드 값을 null로 읽습니다. 이 값을 True로 전달 하면 빈 필드 값을 빈 문자열로 읽습니다. 값이 숫자 또는 날짜/시간으로 변환 되는 경우 빈 값은 null로 변환 되기 때문에이는 아무런 영향을 주지 않습니다.

encoding
<xref:str>
필수

파일 인코딩을 지정 합니다. 지원 되는 인코딩은 ' utf8 ', ' iso88591 ', ' latin1 ', ' ascii ', ' utf16 ', ' utf32 ', ' utf8bom ' 및 ' windows1252 '입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

설명

from_delimited_filesTabularDataset 구분 된 파일의 데이터를 테이블 형식으로 로드 하는 작업을 정의 하는 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 경로 에 의해 지정 된 구분 된 파일은 공용 웹 url에 있거나 그 뒤에 위치 해야 합니다 Datastore .

Blob의 url, ADLS Gen1 및 ADLS Gen2에서 데이터 집합을 만들 수 있습니다. (미리 보기) 사용자의 AAD 토큰은이 기능 중 하나를 직접 호출 하는 경우에는 노트북 또는 로컬 python 프로그램에서 사용 됩니다. 파일 데이터 집합 탑재 filedataset. 다운로드 FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files 계산 대상의 id가 작업에 사용 됩니다. 실험에서 제출 했습니다. 데이터 액세스 인증을 위해 제출 합니다. 자세한 정보: https://aka.ms/data-access

열 데이터 형식은 기본적으로 구분 된 파일의 데이터에서 유추 됩니다. Set_column_types 제공 하면 반환 된 TabularDataset의 지정 된 열에 대 한 데이터 형식이 재정의 됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

JSON 줄 파일 ()에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다 http://jsonlines.org/ .

from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

매개 변수

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]
필수

소스 파일에 대 한 경로입니다 .이 경로는 단일 값 또는 http url 문자열, DataPath 개체 또는의 튜플 Datastore 및 상대 경로 목록 일 수 있습니다.

validate
<xref:bool>
필수

반환 된 데이터 집합에서 데이터를 로드할 수 있는지 유효성을 검사 하는 부울입니다. 기본값은 True입니다. 유효성 검사를 수행 하려면 현재 계산에서 데이터 소스에 액세스할 수 있어야 합니다.

include_path
<xref:bool>
필수

경로 정보를 데이터 집합의 열로 유지 하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽을 때, 특정 레코드가 발생 한 파일을 확인 하거나, 파일 경로에 유용한 정보를 유지 하려는 경우에 유용 합니다.

set_column_types
<xref:dict>[<xref:str>, DataType]
필수

열 데이터 형식을 설정 하는 사전입니다. 여기서 key는 열 이름이 고 값은입니다. DataType

partition_format
<xref:str>
필수

경로의 파티션 형식을 지정 합니다. 기본값은 없음입니다. 각 경로의 파티션 정보는 지정 된 형식에 따라 열로 추출 됩니다. 서식 지정 파트 ' {column_name} '은 (는) 문자열 열을 만들며 ' {column_name: yyyy/MM/dd/HH/MM/ss} '는 datetime 열을 만듭니다. 여기에서 ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' 및 ' ss '는 datetime 형식에 대해 연도, 월 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '.. 경로를 지정 합니다. /Accounts/2019/01/01/data.jsonl ' 파티션은 부서 이름 및 시간별로, partition_format = '/{Department}/{PartitionDate: yyyy/MM/dd}/jsonl '는 ' Accounts ' 값과 ' 2019-01-01 ' 값을 사용 하는 datetime 열 ' e x d '를 사용 하 여 문자열 열 ' 부서 '를 만듭니다.

invalid_lines
<xref:str>
필수

잘못 된 JSON 줄을 처리 하는 방법입니다. 지원 되는 값은 ' error ' 및 ' drop '입니다.

encoding
<xref:str>
필수

파일 인코딩을 지정 합니다. 지원 되는 인코딩은 ' utf8 ', ' iso88591 ', ' latin1 ', ' ascii ', ' utf16 ', ' utf32 ', ' utf8bom ' 및 ' windows1252 '입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

설명

FROM_JSON_LINES_FILES TabularDataset json 줄 파일의 데이터를 테이블 형식으로 로드 하는 작업을 정의 하는 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 경로 에 의해 지정 된 JSON 줄 파일은 Datastore 공용 웹 url에 있거나 그 뒤에 위치 해야 합니다.

Blob의 url, ADLS Gen1 및 ADLS Gen2에서 데이터 집합을 만들 수 있습니다. (미리 보기) 사용자의 AAD 토큰은이 기능 중 하나를 직접 호출 하는 경우에는 노트북 또는 로컬 python 프로그램에서 사용 됩니다. 파일 데이터 집합 탑재 filedataset. 다운로드 FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files 계산 대상의 id가 작업에 사용 됩니다. 실험에서 제출 했습니다. 데이터 액세스 인증을 위해 제출 합니다. 자세한 정보: https://aka.ms/data-access

JSON 줄 파일에 저장 된 데이터 형식에서 열 데이터 형식을 읽습니다. Set_column_types 제공 하면 반환 된 TabularDataset의 지정 된 열에 대 한 데이터 형식이 재정의 됩니다.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Parquet 파일에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다.

from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

매개 변수

path
<xref:typing.Union>[<xref:str>, list[<xref:str>], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, <xref:str>)<xref:,builtin.list>[(Datastore, <xref:str>)]]
필수

소스 파일에 대 한 경로입니다 .이 경로는 단일 값 또는 http url 문자열, DataPath 개체 또는의 튜플 Datastore 및 상대 경로 목록 일 수 있습니다.

validate
<xref:bool>
필수

반환 된 데이터 집합에서 데이터를 로드할 수 있는지 유효성을 검사 하는 부울입니다. 기본값은 True입니다. 유효성 검사를 수행 하려면 현재 계산에서 데이터 소스에 액세스할 수 있어야 합니다.

include_path
<xref:bool>
필수

경로 정보를 데이터 집합의 열로 유지 하는 부울입니다. 기본값은 False입니다. 이는 여러 파일을 읽을 때, 특정 레코드가 발생 한 파일을 확인 하거나, 파일 경로에 유용한 정보를 유지 하려는 경우에 유용 합니다.

set_column_types
<xref:dict>[<xref:str>, DataType]
필수

열 데이터 형식을 설정 하는 사전입니다. 여기서 key는 열 이름이 고 값은 DataType 입니다.

partition_format
<xref:str>
필수

경로의 파티션 형식을 지정 합니다. 기본값은 없음입니다. 각 경로의 파티션 정보는 지정 된 형식에 따라 열로 추출 됩니다. 서식 지정 파트 ' {column_name} '은 (는) 문자열 열을 만들며 ' {column_name: yyyy/MM/dd/HH/MM/ss} '는 datetime 열을 만듭니다. 여기에서 ' yyyy ', ' MM ', ' dd ', ' HH ', ' mm ' 및 ' ss '는 datetime 형식에 대해 연도, 월 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '.. 경로를 지정 합니다. /Accounts/2019/01/01/data.parquet ' 파티션은 부서 이름 및 시간별로, partition_format = '/{Department}/{PartitionDate: yyyy/MM/dd}/parquet '는 ' Accounts ' 값과 ' 2019-01-01 ' 값을 사용 하는 datetime 열 ' e x d '를 사용 하 여 문자열 열 ' 부서 '를 만듭니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

설명

From_parquet_files TabularDataset parquet 파일의 데이터를 테이블 형식으로 로드 하는 작업을 정의 하는 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 경로 에 의해 지정 된 Parquet 파일이 Datastore 공용 웹 url에 있거나 그 뒤에 위치 해야 합니다.

Blob의 url, ADLS Gen1 및 ADLS Gen2에서 데이터 집합을 만들 수 있습니다. (미리 보기) 사용자의 AAD 토큰은이 기능 중 하나를 직접 호출 하는 경우에는 노트북 또는 로컬 python 프로그램에서 사용 됩니다. 파일 데이터 집합 탑재 filedataset. 다운로드 FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files 계산 대상의 id가 작업에 사용 됩니다. 실험에서 제출 했습니다. 데이터 액세스 인증을 위해 제출 합니다. 자세한 정보: https://aka.ms/data-access

Parquet 파일에 저장 된 데이터 형식에서 열 데이터 형식을 읽습니다. Set_column_types 제공 하면 반환 된 TabularDataset의 지정 된 열에 대 한 데이터 형식이 재정의 됩니다.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

SQL 데이터베이스에서 테이블 형식 데이터를 나타내는 TabularDataset를 만듭니다.

from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

매개 변수

query
<xref:typing.Union>[DataPath, (Datastore, <xref:str>)]
필수

SQL 종류의 데이터 저장소 및 쿼리입니다.

validate
<xref:bool>
필수

반환 된 데이터 집합에서 데이터를 로드할 수 있는지 유효성을 검사 하는 부울입니다. 기본값은 True입니다. 유효성 검사를 수행 하려면 현재 계산에서 데이터 소스에 액세스할 수 있어야 합니다.

set_column_types
<xref:dict>[<xref:str>, DataType]
필수

열 데이터 형식을 설정 하는 사전입니다. 여기서 key는 열 이름이 고 값은 DataType 입니다.

query_timeout
필수

명령 실행 시도를 종료 하 고 오류를 생성 하기 전 대기 시간 (초)을 설정 합니다. 기본값은 30초입니다.

반환

TabularDataset 개체를 반환합니다.

반환 형식

설명

from_sql_query TabularDataset SQL 데이터베이스에서 테이블 형식으로 데이터를 로드 하는 작업을 정의 하는 클래스의 개체를 만듭니다. 현재는 MSSQLDataSource만 지원 합니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록에 지정 된 SQL 데이터베이스는 query 에 있어야 하 고 데이터 Datastore 저장소 형식은 SQL 종류 여야 합니다.

열 데이터 형식은 SQL 쿼리 결과의 데이터 형식에서 읽습니다. set_column_types를 제공 하면 반환 된 TabularDataset의 지정 된 열에 대 한 데이터 형식이 재정의 됩니다.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

참고

이는 실험적 방법 이며 언제 든 지 변경 될 수 있습니다. https://aka.ms/azuremlexperimental자세한 내용은를 참조 하십시오.

6ask 데이터 프레임에서 데이터 집합을 만듭니다.

register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

dataframe
<xref:dask.dataframe.core.DataFrame>
필수

필수 항목입니다. 데이터 프레임를 업로드 해야 합니다.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]
필수

데이터 프레임 parquet 데이터를 업로드할 데이터 저장소 경로를 입력 해야 합니다. 충돌을 방지 하기 위해 guid 폴더가 대상 경로 아래에 생성 됩니다.

name
<xref:str>
필수

필수, 등록 된 데이터 집합의 이름입니다.

description
<xref:str>
필수

선택 사항입니다. 데이터 집합에 대 한 텍스트 설명입니다. 기본값은 없음입니다.

tags
<xref:dict>[<xref:str>, <xref:str>]
필수

선택 사항입니다. 데이터 집합을 제공 하는 키 값 태그의 사전입니다. 기본값은 없음입니다.

show_progress
<xref:bool>
필수

선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록 된 데이터 집합입니다.

반환 형식

register_pandas_dataframe

Pandas 데이터 프레임에서 데이터 집합을 만듭니다.

register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

dataframe
DataFrame
필수

메모리 데이터 프레임를 업로드 해야 합니다.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]
필수

데이터 프레임 parquet 데이터를 업로드할 데이터 저장소 경로를 입력 해야 합니다. 충돌을 방지 하기 위해 guid 폴더가 대상 경로 아래에 생성 됩니다.

name
<xref:str>
필수

필수, 등록 된 데이터 집합의 이름입니다.

description
<xref:str>
필수

선택 사항입니다. 데이터 집합에 대 한 텍스트 설명입니다. 기본값은 없음입니다.

tags
<xref:dict>[<xref:str>, <xref:str>]
필수

선택 사항입니다. 데이터 집합을 제공 하는 키 값 태그의 사전입니다. 기본값은 없음입니다.

show_progress
<xref:bool>
필수

선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록 된 데이터 집합입니다.

반환 형식

register_spark_dataframe

참고

이는 실험적 방법 이며 언제 든 지 변경 될 수 있습니다. https://aka.ms/azuremlexperimental자세한 내용은를 참조 하십시오.

Spark 데이터 프레임에서 데이터 집합을 만듭니다.

register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

매개 변수

dataframe
DataFrame
필수

메모리 데이터 프레임를 업로드 해야 합니다.

target
<xref:typing.Union>[DataPath, <xref:azureml.core.datastore.Datastore,tuple>(Datastore, <xref:str>)]
필수

데이터 프레임 parquet 데이터를 업로드할 데이터 저장소 경로를 입력 해야 합니다. 충돌을 방지 하기 위해 guid 폴더가 대상 경로 아래에 생성 됩니다.

name
<xref:str>
필수

필수, 등록 된 데이터 집합의 이름입니다.

description
<xref:str>
필수

선택 사항입니다. 데이터 집합에 대 한 텍스트 설명입니다. 기본값은 없음입니다.

tags
<xref:dict>[<xref:str>, <xref:str>]
필수

선택 사항입니다. 데이터 집합을 제공 하는 키 값 태그의 사전입니다. 기본값은 없음입니다.

show_progress
<xref:bool>
필수

선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록 된 데이터 집합입니다.

반환 형식