Azure Data Factory veya Synapse Analytics kullanarak HDFS sunucusundan veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede Hadoop Dağıtılmış Dosya Sistemi (HDFS) sunucusundan verilerin nasıl kopyalandığı özetlenmiştir. Daha fazla bilgi edinmek için Azure Data Factory ve Synapse Analytics'e yönelik giriş makalelerini okuyun.

Desteklenen özellikler

Bu HDFS bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/-) ① ②
Arama etkinliği ① ②
Silme etkinliği ① ②

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Özellikle, HDFS bağlayıcısı şunları destekler:

  • Windows (Kerberos) veya Anonim kimlik doğrulaması kullanarak dosyaları kopyalama.
  • Webhdfs protokolunu veya yerleşik DistCp desteğini kullanarak dosyaları kopyalama.
  • Dosyaları olduğu gibi kopyalama veya desteklenen dosya biçimleri ve sıkıştırma codec bileşenleriyle dosyaları ayrıştırma veya oluşturma.

Önkoşullar

Veri deponuz bir şirket içi ağ, Azure sanal ağı veya Amazon Sanal Özel Bulut içinde bulunuyorsa, şirket içinde barındırılan tümleştirme çalışma zamanını buna bağlanmak için yapılandırmanız gerekir.

Veri deponuz yönetilen bir bulut veri hizmetiyse Azure Integration Runtime'ı kullanabilirsiniz. Erişim, güvenlik duvarı kurallarında onaylanan IP'ler ile sınırlıysa Azure Integration Runtime IP'lerini izin verme listesine ekleyebilirsiniz.

Şirket içinde barındırılan tümleştirme çalışma zamanı yüklemeden ve yapılandırmadan şirket içi ağa erişmek için Azure Data Factory'deki yönetilen sanal ağ tümleştirme çalışma zamanı özelliğini de kullanabilirsiniz.

Data Factory tarafından desteklenen ağ güvenlik mekanizmaları ve seçenekleri hakkında daha fazla bilgi için bkz . Veri erişim stratejileri.

Dekont

Tümleştirme çalışma zamanının Hadoop kümesinin tüm [ad düğümü sunucusu]:[ad düğümü bağlantı noktası] ve [veri düğümü sunucuları]:[veri düğümü bağlantı noktası] öğesine erişebildiğinden emin olun. Varsayılan [ad düğümü bağlantı noktası] 50070 ve varsayılan [veri düğümü bağlantı noktası] 50075'tir.

Başlarken

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak HDFS'ye bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde HDFS'ye bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. HDFS'yi arayın ve HDFS bağlayıcısını seçin.

    Select the HDFS connector.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Configure a linked service to HDFS.

Bağlan veya yapılandırma ayrıntıları

Aşağıdaki bölümlerde, HDFS'ye özgü Data Factory varlıklarını tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

HDFS bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type tür özelliği Hdfs olarak ayarlanmalıdır. Evet
url HDFS URL'si Evet
authenticationType İzin verilen değerler Anonim veya Windows'lardır.

Şirket içi ortamınızı ayarlamak için HDFS bağlayıcısı için Kerberos kimlik doğrulamasını kullanma bölümüne bakın.
Evet
userName Windows kimlik doğrulaması için kullanıcı adı. Kerberos kimlik doğrulaması için username@domain.com> adresini belirtin<.<> Evet (Windows kimlik doğrulaması için)
password Windows kimlik doğrulamasının parolası. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure anahtar kasasında depolanan bir gizli diziye başvurun. Evet (Windows Kimlik Doğrulaması için)
connectVia Veri deposuna bağlanmak için kullanılacak tümleştirme çalışma zamanı . Daha fazla bilgi edinmek için Önkoşullar bölümüne bakın. Tümleştirme çalışma zamanı belirtilmezse, hizmet varsayılan Azure Integration Runtime'ı kullanır. No

Örnek: Anonim kimlik doğrulaması kullanma

{
    "name": "HDFSLinkedService",
    "properties": {
        "type": "Hdfs",
        "typeProperties": {
            "url" : "http://<machine>:50070/webhdfs/v1/",
            "authenticationType": "Anonymous",
            "userName": "hadoop"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Örnek: Windows kimlik doğrulaması kullanma

{
    "name": "HDFSLinkedService",
    "properties": {
        "type": "Hdfs",
        "typeProperties": {
            "url" : "http://<machine>:50070/webhdfs/v1/",
            "authenticationType": "Windows",
            "userName": "<username>@<domain>.com (for Kerberos auth)",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için bkz . Veri kümeleri.

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Aşağıdaki özellikler, biçim tabanlı veri kümesindeki ayarlar altında location HDFS için desteklenir:

Özellik Açıklama Gerekli
type veri kümesinde altındaki location type özelliği HdfsLocation olarak ayarlanmalıdır. Evet
folderPath Klasörün yolu. Klasörü filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında yolu belirtin. No
fileName Belirtilen folderPath altındaki dosya adı. Dosyaları filtrelemek için joker karakter kullanmak istiyorsanız, bu ayarı atlayın ve etkinlik kaynağı ayarlarında dosya adını belirtin. No

Örnek:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<HDFS linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "HdfsLocation",
                "folderPath": "root/folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için bkz . İşlem hatları ve etkinlikler. Bu bölümde, HDFS kaynağı tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak olarak HDFS

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Aşağıdaki özellikler, biçim tabanlı Kopyalama kaynağındaki ayarlar altında storeSettings HDFS için desteklenir:

Özellik Açıklama Gerekli
type altındaki storeSettings tür özelliği HdfsRead Ayarlar olarak ayarlanmalıdır. Evet
Kopyalanacak dosyaları bulma
SEÇENEK 1: statik yol
Veri kümesinde belirtilen klasörden veya dosya yolundan kopyalayın. Bir klasörden tüm dosyaları kopyalamak istiyorsanız, ek olarak olarak *belirtinwildcardFileName.
SEÇENEK 2: joker karakter
- wildcardFolderPath
Kaynak klasörleri filtrelemek için joker karakterler içeren klasör yolu.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir). Gerçek klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ .
Daha fazla örnek için bkz . Klasör ve dosya filtresi örnekleri.
No
SEÇENEK 2: joker karakter
- wildcardFileName
Kaynak dosyaları filtrelemek için belirtilen folderPath/wildcardFolderPath altında joker karakterler içeren dosya adı.
İzin verilen joker karakterler şunlardır: * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir); gerçek dosya adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış için kullanın ^ . Daha fazla örnek için bkz . Klasör ve dosya filtresi örnekleri.
Evet
SEÇENEK 3: dosyaların listesi
- fileListPath
Belirtilen dosya kümesinin kopyalandığını gösterir. Kopyalamak istediğiniz dosyaların listesini içeren bir metin dosyasının üzerine gelin (satır başına bir dosya, veri kümesinde yapılandırılmış yolun göreli yolu).
Bu seçeneği kullandığınızda, veri kümesinde dosya adı belirtmeyin. Daha fazla örnek için bkz . Dosya listesi örnekleri.
No
Ek ayarlar
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. recursive true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanır veya oluşturulmaz.
İzin verilen değerler true (varsayılan) ve false değerleridir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
No
deleteFilesAfterCompletion hedef depoya başarıyla taşındıktan sonra ikili dosyaların kaynak depodan silinip silinmeyeceğini gösterir. Dosya silme işlemi dosya başınadır, bu nedenle kopyalama etkinliği başarısız olduğunda bazı dosyaların hedefe kopyalandığını ve kaynaktan silindiğini, diğerleri ise kaynak depoda kaldığını görürsünüz.
Bu özellik yalnızca ikili dosya kopyalama senaryosunda geçerlidir. Varsayılan değer: false.
No
modifiedDatetimeStart Dosyalar, Son Değiştirme Tarihi özniteliğine göre filtrelenir.
Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine 2018-12-01T05:00:00Z biçiminde uygulanır.
Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Bir datetime değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya buna eşit olan dosyaların seçildiği anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçili olduğu anlamına gelir.
Yapılandırdığınızda fileListPathbu özellik geçerli değildir.
No
modifiedDatetimeEnd Yukarıdakiyle aynıdır.
enablePartitionDiscovery Bölümlenmiş dosyalar için, bölümlerin dosya yolundan ayrıştırılıp ayrıştırılmayacağını belirtin ve bunları ek kaynak sütunlar olarak ekleyin.
İzin verilen değerler false (varsayılan) ve true değerleridir.
No
partitionRootPath Bölüm bulma etkinleştirildiğinde, bölümlenmiş klasörleri veri sütunları olarak okumak için mutlak kök yolu belirtin.

Belirtilmezse, varsayılan olarak,
- Veri kümesinde dosya yolunu veya kaynaktaki dosyaların listesini kullandığınızda, bölüm kök yolu veri kümesinde yapılandırılan yoldur.
- Joker karakter klasör filtresi kullandığınızda, bölüm kök yolu ilk joker karakterden önceki alt yoldur.

Örneğin, veri kümesindeki yolu "root/folder/year=2020/month=08/day=27" olarak yapılandırdığınız varsayılır:
- Bölüm kök yolunu "root/folder/year=2020" olarak belirtirseniz kopyalama etkinliği, dosyaların içindeki sütunlara ek olarak sırasıyla "08" ve "27" değerine sahip iki sütun monthday daha oluşturur.
- Bölüm kök yolu belirtilmezse, ek sütun oluşturulmaz.
No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No
DistCp ayarları
distcp Ayarlar HDFS DistCp kullanırken kullanılacak özellik grubu. No
resourceManagerEndpoint YARN (Ancak başka bir Kaynak Anlaşmacisi) uç noktası Evet, DistCp kullanılıyorsa
tempScriptPath Temp DistCp komut betiğini depolamak için kullanılan klasör yolu. Betik dosyası oluşturulur ve Kopyalama işi tamamlandıktan sonra kaldırılır. Evet, DistCp kullanılıyorsa
distcpOptions DistCp komutuna sağlanan ek seçenekler. No

Örnek:

"activities":[
    {
        "name": "CopyFromHDFS",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "HdfsReadSettings",
                    "recursive": true,
                    "distcpSettings": {
                        "resourceManagerEndpoint": "resourcemanagerendpoint:8088",
                        "tempScriptPath": "/usr/hadoop/tempscript",
                        "distcpOptions": "-m 100"
                    }
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Klasör ve dosya filtresi örnekleri

Bu bölümde, klasör yolu ve dosya adıyla joker karakter filtresi kullanıyorsanız ortaya çıkan davranış açıklanmaktadır.

folderPath fileName Özyinelemeli Kaynak klasör yapısı ve filtre sonucu (kalın yazılmış dosyalar alınır)
Folder* (boş, varsayılanı kullan) yanlış KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* (boş, varsayılanı kullan) true KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* *.csv yanlış KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv
Folder* *.csv true KlasörA
    Dosya1.csv
    Dosya2.json
    Alt Klasör1
        Dosya3.csv
        File4.json
        Dosya5.csv
AnotherFolderB
    Dosya6.csv

Dosya listesi örnekleri

Bu bölümde, Kopyalama etkinliği kaynağında dosya listesi yolunun kullanılmasından kaynaklanan davranış açıklanmaktadır. Aşağıdaki kaynak klasör yapısına sahip olduğunuzu ve kalın yazı tipindeki dosyaları kopyalamak istediğinizi varsayar:

Örnek kaynak yapısı FileListToCopy.txt dosyasındaki içerik Yapılandırma
kök
    KlasörA
        Dosya1.csv
        Dosya2.json
        Alt Klasör1
            Dosya3.csv
            File4.json
            Dosya5.csv
    Meta veri
        FileListToCopy.txt
Dosya1.csv
Alt Klasör1/Dosya3.csv
Alt Klasör1/File5.csv
Veri kümesinde:
- Klasör yolu: root/FolderA

Kopyalama etkinliği kaynağında:
- Dosya listesi yolu: root/Metadata/FileListToCopy.txt

Dosya listesi yolu, kopyalamak istediğiniz dosyaların listesini içeren aynı veri deposundaki bir metin dosyasını gösterir (veri kümesinde yapılandırılmış yolun göreli yolu ile her satırda bir dosya).

HDFS'den veri kopyalamak için DistCp kullanma

DistCp , Hadoop kümesinde dağıtılmış bir kopya yapmaya yönelik bir Hadoop yerel komut satırı aracıdır. DistCp'de bir komut çalıştırdığınızda, önce kopyalanacak tüm dosyaları listeler ve ardından Hadoop kümesinde birkaç Eşleme işi oluşturur. Her Eşleme işi kaynaktan havuza ikili bir kopya yapar.

Kopyalama etkinliği, dosyaları Azure Blob depolamaya (aşamalı kopyalama dahil) veya azure data lake deposuna kopyalamak için DistCp kullanmayı destekler. Bu durumda DistCp, şirket içinde barındırılan tümleştirme çalışma zamanında çalışmak yerine kümenizin gücünden yararlanabilir. DistCp kullanmak, özellikle kümeniz çok güçlüyse daha iyi kopyalama aktarım hızı sağlar. yapılandırmaya bağlı olarak, Kopyalama etkinliği otomatik olarak bir DistCp komutu oluşturur, bunu Hadoop kümenize gönderir ve kopyalama durumunu izler.

Önkoşullar

DOSYALARı HDFS'den Azure Blob depolamaya (aşamalı kopya dahil) veya Azure data lake store'a kopyalamak için DistCp kullanmak için Hadoop kümenizin aşağıdaki gereksinimleri karşıladığından emin olun:

  • MapReduce ve YARN hizmetleri etkinleştirilir.

  • YARN sürümü 2.5 veya üzeridir.

  • HDFS sunucusu hedef veri deponuzla tümleşiktir: Azure Blob depolama veya Azure Data Lake Store (ADLS 1. Nesil):

    • Azure Blob FileSystem, Hadoop 2.7'den bu yana yerel olarak desteklenir. Yalnızca Hadoop ortam yapılandırmasında JAR yolunu belirtmeniz gerekir.
    • Azure Data Lake Store FileSystem, Hadoop 3.0.0-alpha1'den başlayarak paketlenmiş durumdadır. Hadoop küme sürümünüz bu sürümden daha eskiyse Azure Data Lake Store ile ilgili JAR paketlerini (azure-datalake-store.jar) buradan kümeye el ile içeri aktarmanız ve Hadoop ortam yapılandırmasında JAR dosya yolunu belirtmeniz gerekir.
  • HDFS'de geçici klasör hazırlama. Bu geçici klasör bir DistCp kabuk betiğini depolamak için kullanıldığından KB düzeyinde alan kaplar.

  • HDFS bağlı hizmetinde sağlanan kullanıcı hesabının şu izinlere sahip olduğundan emin olun:

    • YARN'da bir uygulama gönderin.
    • Geçici klasör altında bir alt klasör oluşturun ve dosyaları okuyun/yazın.

Yapılandırmalar

DistCp ile ilgili yapılandırmalar ve örnekler için KAYNAK olarak HDFS bölümüne gidin.

HDFS bağlayıcısı için Kerberos kimlik doğrulamasını kullanma

HDFS bağlayıcısı için Kerberos kimlik doğrulamasını kullanmak üzere şirket içi ortamı ayarlamak için iki seçenek vardır. Durumunuz için daha uygun olanı seçebilirsiniz.

Her iki seçenek için de Hadoop kümesi için webhdfs'yi açtığınızdan emin olun:

  1. Webhdfs için HTTP sorumlusunu ve anahtar sekmesini oluşturun.

    Önemli

    HTTP Kerberos sorumlusu, Kerberos HTTP SPNEGO belirtimine göre "HTTP/" ile başlamalıdır. Buradan daha fazla bilgi edinin.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS yapılandırma seçenekleri: içine hdfs-site.xmlaşağıdaki üç özelliği ekleyin.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Seçenek 1: Kerberos alanında şirket içinde barındırılan tümleştirme çalışma zamanı makinesine katılma

Gereksinimler

  • Şirket içinde barındırılan tümleştirme çalışma zamanı makinesinin Kerberos alanına katılması gerekir ve hiçbir Windows etki alanına katılamaz.

Yapılandırma

KDC sunucusunda:

Bir sorumlu oluşturun ve parolayı belirtin.

Önemli

Kullanıcı adı ana bilgisayar adını içermemelidir.

Kadmin> addprinc <username>@<REALM.COM>

Şirket içinde barındırılan tümleştirme çalışma zamanı makinesinde:

  1. Kerberos Anahtar Dağıtım Merkezi (KDC) sunucusunu ve bölgesi yapılandırmak için Ksetup yardımcı programını çalıştırın.

    Kerberos bölgesi bir Windows etki alanından farklı olduğundan makinenin bir çalışma grubunun üyesi olarak yapılandırılması gerekir. Aşağıdaki komutları çalıştırarak Kerberos bölgesi ayarlayıp bir KDC sunucusu ekleyerek bu yapılandırmayı gerçekleştirebilirsiniz. REALM.COM kendi bölge adınızla değiştirin.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Bu komutları çalıştırdıktan sonra makineyi yeniden başlatın.

  2. komutuyla yapılandırmayı Ksetup doğrulayın. Çıkış şöyle olmalıdır:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Veri fabrikanızda veya Synapse çalışma alanınızda:

  • HDFS veri kaynağına bağlanmak için Windows kimlik doğrulamasını Kerberos asıl adınız ve parolanızla birlikte kullanarak HDFS bağlayıcısını yapılandırın. Yapılandırma ayrıntıları için HDFS bağlı hizmet özellikleri bölümüne bakın.

2. Seçenek: Windows etki alanı ile Kerberos bölgesi arasında karşılıklı güveni etkinleştirme

Gereksinimler

  • Şirket içinde barındırılan tümleştirme çalışma zamanı makinesinin bir Windows etki alanına katılması gerekir.
  • Etki alanı denetleyicisinin ayarlarını güncelleştirmek için izniniz olmalıdır.

Yapılandırma

Dekont

Aşağıdaki öğreticideki REALM.COM ve AD.COM kendi bölge adınız ve etki alanı denetleyicinizle değiştirin.

KDC sunucusunda:

  1. Aşağıdaki yapılandırma şablonuna başvurarak KDC'nin Windows etki alanına güvenmesine izin vermek için krb5.conf dosyasındaki KDC yapılandırmasını düzenleyin. Varsayılan olarak, yapılandırma /etc/krb5.conf konumunda bulunur.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Dosyayı yapılandırdıktan sonra KDC hizmetini yeniden başlatın.

  2. Aşağıdaki komutla KDC sunucusunda krbtgt/REALM.COM@AD.COM adlı bir sorumlu hazırlayın:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. hadoop.security.auth_to_local HDFS hizmeti yapılandırma dosyasına ekleyinRULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

Etki alanı denetleyicisinde:

  1. Bölge girdisi eklemek için aşağıdaki Ksetup komutları çalıştırın:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Windows etki alanından Kerberos alanına güven oluşturun. [password], asıl krbtgt/REALM.COM@AD.COM parolasıdır.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Kerberos'ta kullanılan şifreleme algoritmasını seçin.

    a. Sunucu Yöneticisi> Grup İlkesi Yönetimi>Etki Alanı>Grup İlkesi Nesneleri>Varsayılan veya Etkin Etki Alanı İlkesi'ni ve ardından Düzenle'yi seçin.

    b. Grup İlkesi Yönetimi Düzenleyicisi bölmesinde Bilgisayar Yapılandırma>İlkeleri>Windows Ayarlar Güvenlik Ayarlar>> Güvenlik İlkeleri>Güvenlik Seçenekleri'ni seçin ve ardından Ağ güvenliğini yapılandırın: Kerberos için izin verilen Şifreleme türlerini yapılandırın.

    c. KDC sunucusuna bağlanırken kullanmak istediğiniz şifreleme algoritmasını seçin. Tüm seçenekleri belirleyebilirsiniz.

    Screenshot of the "Network security: Configure encryption types allowed for Kerberos" pane

    d. Ksetup Belirtilen bölge üzerinde kullanılacak şifreleme algoritmasını belirtmek için komutunu kullanın.

    C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
    
  4. Windows etki alanında Kerberos sorumlusunu kullanabilmek için etki alanı hesabı ile Kerberos sorumlusu arasındaki eşlemeyi oluşturun.

    a. Yönetici istrative tools> Active Directory Kullanıcıları ve Bilgisayarları öğesini seçin.

    b. Gelişmiş Özellikleri Görüntüle'yi seçerek gelişmiş özellikleri yapılandırın.>

    c. Gelişmiş Özellikler bölmesinde, eşleme oluşturmak istediğiniz hesaba sağ tıklayın ve Ad Eşlemeleri bölmesinde Kerberos Adları sekmesini seçin.

    d. Bölge'den bir sorumlu ekleyin.

    Screenshot of the "Security Identity Mapping" pane

Şirket içinde barındırılan tümleştirme çalışma zamanı makinesinde:

  • Bir bölge girdisi eklemek için aşağıdaki Ksetup komutları çalıştırın.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Veri fabrikanızda veya Synapse çalışma alanınızda:

  • HDFS veri kaynağına bağlanmak için etki alanı hesabınız veya Kerberos sorumlunuzla birlikte Windows kimlik doğrulamasını kullanarak HDFS bağlayıcısını yapılandırın. Yapılandırma ayrıntıları için HDFS bağlı hizmet özellikleri bölümüne bakın.

Arama etkinliği özellikleri

Arama etkinliği özellikleri hakkında bilgi için bkz . Arama etkinliği.

Etkinlik özelliklerini silme

Etkinlik özelliklerini silme hakkında bilgi için bkz . Silme etkinliği.

Eski modeller

Dekont

Aşağıdaki modeller geriye dönük uyumluluk için olduğu gibi hala desteklenmektedir. Yazma kullanıcı arabirimi yeni modeli oluşturmaya geçtiğinden, daha önce tartışılan yeni modeli kullanmanızı öneririz.

Eski veri kümesi modeli

Özellik Açıklama Gerekli
type Veri kümesinin type özelliği FileShare olarak ayarlanmalıdır Evet
folderPath Klasörün yolu. Joker karakter filtresi desteklenir. İzin verilen joker karakterler şunlardır * (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek karakterle eşleşir); gerçek dosya adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış karakteri kullanın ^ .

Örnekler: kök klasör/alt klasör/, Klasör ve dosya filtresi örnekleri'ndeki diğer örneklere bakın.
Evet
fileName Belirtilen "folderPath" altındaki dosyalar için ad veya joker karakter filtresi. Bu özellik için bir değer belirtmezseniz, veri kümesi klasördeki tüm dosyaları gösterir.

Filtre için, izin verilen joker karakterler (sıfır veya daha fazla karakterle eşleşir) ve ? (sıfır veya tek bir karakterle eşleşir) şeklindedir * .
- Örnek 1: "fileName": "*.csv"
- Örnek 2: "fileName": "???20180427.txt"
Gerçek klasör adınızın içinde joker karakter veya bu kaçış karakteri varsa kaçış yapmak için kullanın ^ .
No
modifiedDatetimeStart Dosyalar, Son Değiştirme Tarihi özniteliğine göre filtrelenir. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine 2018-12-01T05:00:00Z biçiminde uygulanır.

Çok sayıda dosyaya dosya filtresi uygulamak istediğinizde bu ayarın etkinleştirilmesi, veri taşımanın genel performansının etkileneceğini unutmayın.

Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Bir datetime değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya buna eşit olan dosyaların seçildiği anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçili olduğu anlamına gelir.
No
modifiedDatetimeEnd Dosyalar, Son Değiştirme Tarihi özniteliğine göre filtrelenir. Dosyalar, son değiştirme süreleri değerinden büyük veya buna eşit modifiedDatetimeStart ve değerinden modifiedDatetimeEndküçükse seçilir. Saat UTC saat dilimine 2018-12-01T05:00:00Z biçiminde uygulanır.

Çok sayıda dosyaya dosya filtresi uygulamak istediğinizde bu ayarın etkinleştirilmesi, veri taşımanın genel performansının etkileneceğini unutmayın.

Özellikler NULL olabilir; başka bir deyişle veri kümesine hiçbir dosya özniteliği filtresi uygulanmaz. Bir datetime değeri olduğunda modifiedDatetimeStart ancak modifiedDatetimeEnd NULL olduğunda, son değiştirilen özniteliği datetime değerinden büyük veya buna eşit olan dosyaların seçildiği anlamına gelir. Tarih saat değeri olduğunda modifiedDatetimeEnd ancak modifiedDatetimeStart NULL olduğunda, son değiştirilen özniteliği datetime değerinden küçük olan dosyaların seçili olduğu anlamına gelir.
No
format Dosyaları dosya tabanlı depolar (ikili kopya) arasında olduğu gibi kopyalamak istiyorsanız, hem giriş hem de çıkış veri kümesi tanımlarında biçim bölümünü atlayın.

Dosyaları belirli bir biçimde ayrıştırmak istiyorsanız, şu dosya biçimi türleri desteklenir: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. biçim altındaki type özelliğini bu değerlerden birine ayarlayın. Daha fazla bilgi için Metin biçimi, JSON biçimi, Avro biçimi, ORC biçimi ve Parquet biçimi bölümlerine bakın.
Hayır (yalnızca ikili kopyalama senaryosu için)
sıkıştırma Verilerin sıkıştırma türünü ve düzeyini belirtin. Daha fazla bilgi için bkz . Desteklenen dosya biçimleri ve sıkıştırma codec'leri.
Desteklenen türler şunlardır: Gzip, Deflate, Bzip2 ve ZipDeflate.
Desteklenen düzeyler şunlardır: En uygun ve en hızlı.
No

Bahşiş

Bir klasörün altındaki tüm dosyaları kopyalamak için yalnızca folderPath değerini belirtin.
Belirtilen ada sahip tek bir dosyayı kopyalamak için klasör bölümü ile folderPath ve dosya adıyla fileName belirtin.
Bir klasörün altındaki dosyaların bir alt kümesini kopyalamak için klasör bölümü ile folderPath ve joker karakter filtresiyle fileName belirtin.

Örnek:

{
    "name": "HDFSDataset",
    "properties": {
        "type": "FileShare",
        "linkedServiceName":{
            "referenceName": "<HDFS linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "folder/subfolder/",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Eski Kopyalama etkinliği kaynak modeli

Özellik Açıklama Gerekli
type Kopyalama etkinliği kaynağının type özelliği HdfsSource olarak ayarlanmalıdır. Evet
Özyinelemeli Verilerin alt klasörlerden veya yalnızca belirtilen klasörden özyinelemeli olarak okunup okunmadığını gösterir. Özyineleme true olarak ayarlandığında ve havuz dosya tabanlı bir depo olduğunda, havuza boş bir klasör veya alt klasör kopyalanmaz veya oluşturulmaz.
İzin verilen değerler true (varsayılan) ve false değerleridir.
No
distcp Ayarlar HDFS DistCp kullanırken özellik grubu. No
resourceManagerEndpoint YARN Resource Manager uç noktası Evet, DistCp kullanılıyorsa
tempScriptPath Temp DistCp komut betiğini depolamak için kullanılan klasör yolu. Betik dosyası oluşturulur ve Kopyalama işi tamamlandıktan sonra kaldırılır. Evet, DistCp kullanılıyorsa
distcpOptions DistCp komutuna ek seçenekler sağlanır. No
maxConcurrent Bağlan ions Etkinlik çalıştırması sırasında veri deposuna kurulan eş zamanlı bağlantıların üst sınırı. Yalnızca eşzamanlı bağlantıları sınırlamak istediğinizde bir değer belirtin. No

Örnek: DistCp kullanarak Kopyalama etkinliği'da HDFS kaynağı

"source": {
    "type": "HdfsSource",
    "distcpSettings": {
        "resourceManagerEndpoint": "resourcemanagerendpoint:8088",
        "tempScriptPath": "/usr/hadoop/tempscript",
        "distcpOptions": "-m 100"
    }
}

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz. desteklenen veri depoları.