Datasets - Create

上傳並建立新的數據集,方法是從指定的URL取得數據,或開始等候數據區塊上傳。

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

支援的認知服務端點 (通訊協定和主機名,例如: https://westus.api.cognitive.microsoft.com) 。

要求本文

名稱 必要 類型 Description
displayName True

string

對象的顯示名稱。

kind True

DatasetKind

DatasetKind
數據匯入的類型。

locale True

string

自主數據的地區設定。

contentUrl

string

數據集數據的 URL。

customProperties

object

此實體的自定義屬性。 允許的金鑰長度上限為 64 個字元,允許的最大值長度為 256 個字元,允許的項目計數為 10。

description

string

物件的描述。

project

EntityReference

EntityReference

properties

DatasetProperties

DatasetProperties

回應

名稱 類型 Description
201 Created

Dataset

回應包含實體作為承載的資訊,以及其位置做為標頭的資訊。

Headers

Location: string

Other Status Codes

Error

發生錯誤。

安全性

Ocp-Apim-Subscription-Key

在這裡提供認知服務帳戶金鑰。

Type: apiKey
In: header

Authorization

從此區域的 STS 傳回的 JWT 提供存取令牌。 請務必將下列查詢字串新增至 STS URL,將管理範圍新增至令牌:?scope=speechservicesmanagement

Type: apiKey
In: header

範例

Create a dataset with content url
Create dataset from data blocks

Create a dataset with content url

Sample Request

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

{
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/location",
  "locale": "en-US",
  "displayName": "My speech dataset name",
  "description": "My speech dataset description"
}

Sample Response

Location: https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1
{
  "self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1",
  "kind": "Acoustic",
  "contentUrl": "https://www.contoso.com/acousticdata/sourcelocation",
  "links": {
    "files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/files"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 11,
    "rejectedLineCount": 2,
    "duration": "PT4M12S"
  },
  "lastActionDateTime": "2019-01-07T11:36:07Z",
  "status": "Succeeded",
  "createdDateTime": "2019-01-07T11:34:12Z",
  "locale": "en-US",
  "displayName": "Acoustic dataset"
}

Create dataset from data blocks

Sample Request

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

{
  "kind": "Acoustic",
  "locale": "en-US",
  "displayName": "My speech dataset name",
  "description": "My speech dataset description"
}

Sample Response

{
  "self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1",
  "kind": "Acoustic",
  "links": {
    "files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/files",
    "commitBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks:commit",
    "listBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks",
    "uploadBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks"
  },
  "lastActionDateTime": "2019-01-07T11:36:07Z",
  "status": "NotStarted",
  "createdDateTime": "2019-01-07T11:34:12Z",
  "locale": "en-US",
  "displayName": "Acoustic dataset"
}

定義

名稱 Description
Dataset

資料集

DatasetKind

DatasetKind

DatasetLinks

DatasetLinks

DatasetProperties

DatasetProperties

DetailedErrorCode

DetailedErrorCode

EntityError

EntityError

EntityReference

EntityReference

Error

錯誤

ErrorCode

ErrorCode

InnerError

InnerError

Status

狀態

TextNormalizationKind

TextNormalizationKind

Dataset

資料集

名稱 類型 Description
contentUrl

string

數據集數據的 URL。

createdDateTime

string

建立物件時的時間戳。 時間戳會編碼為 ISO 8601 日期和時間格式, (“YYYY-MM-DDThh:mm:ssZ”,請參閱 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。

customProperties

object

此實體的自定義屬性。 允許的金鑰長度上限為 64 個字元,允許的最大值長度為 256 個字元,允許的項目計數為 10。

description

string

物件的描述。

displayName

string

對象的顯示名稱。

kind

DatasetKind

DatasetKind
數據匯入的類型。

lastActionDateTime

string

輸入目前狀態時的時間戳。 時間戳會編碼為 ISO 8601 日期和時間格式, (“YYYY-MM-DDThh:mm:ssZ”,請參閱 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。

links

DatasetLinks

DatasetLinks

locale

string

自主數據的地區設定。

project

EntityReference

EntityReference

properties

DatasetProperties

DatasetProperties

self

string

此實體的位置。

status

Status

狀態
描述 API 的目前狀態

DatasetKind

DatasetKind

名稱 類型 Description
Acoustic

string

原音數據集。

AudioFiles

string

音訊檔案數據集。

Language

string

語言數據集。

LanguageMarkdown

string

語言 Markdown 數據集。

OutputFormatting

string

包含規則的數據集,可自定義反向文字正規化、大寫、重新設定、粗話,以及定義數據集驗證的測試

Pronunciation

string

發音數據集。

DatasetLinks

名稱 類型 Description
commitBlocks

string

使用區塊上傳數據集時,要認可區塊清單的位置。 如需詳細資訊,請參閱作業「Datasets_CommitBlocks」。

files

string

取得此實體所有檔案的位置。 如需詳細資訊,請參閱作業「Datasets_ListFiles」。

listBlocks

string

使用區塊上傳數據集時,要列出此實體已上傳區塊的位置。 如需詳細資訊,請參閱作業「Datasets_GetBlocks」。

uploadBlocks

string

使用區塊上傳數據集時要上傳區塊的位置。 如需詳細資訊,請參閱作業「Datasets_UploadBlock」。

DatasetProperties

DatasetProperties

名稱 類型 Description
acceptedLineCount

integer

此數據集所接受的行數。

duration

string

如果數據集包含音訊檔案,數據集的總持續時間。 持續時間會編碼為 ISO 8601 持續時間 (“PnYnMnDTnHnMnS”,請參閱 https://en.wikipedia.org/wiki/ISO_8601#Durations) 。

email

string

在作業完成時,傳送電子郵件通知的電子郵件位址。 成功傳送電子郵件之後,將會移除此值。

error

EntityError

EntityError

rejectedLineCount

integer

此數據集拒絕的行數。

textNormalizationKind

TextNormalizationKind

TextNormalizationKind
文字正規化的類型。

DetailedErrorCode

DetailedErrorCode

名稱 類型 Description
DataImportFailed

string

數據匯入失敗。

DeleteNotAllowed

string

不允許刪除。

DeployNotAllowed

string

不允許部署。

DeployingFailedModel

string

部署失敗的模型。

EmptyRequest

string

空白要求。

EndpointCannotBeDefault

string

端點不可為預設值。

EndpointNotUpdatable

string

端點無法更新。

EndpointWithoutLogging

string

沒有記錄的端點。

ExceededNumberOfRecordingsUris

string

超過錄製 URI 的數目。

FailedDataset

string

失敗的數據集。

Forbidden

string

禁止。

InUseViolation

string

在使用違規中。

InaccessibleCustomerStorage

string

無法存取的客戶記憶體。

InvalidAdaptationMapping

string

調整對應無效。

InvalidBaseModel

string

基底模型無效。

InvalidCallbackUri

string

無效的回呼 URI。

InvalidCollection

string

無效的集合。

InvalidDataset

string

無效的數據集。

InvalidDocument

string

無效的檔。

InvalidDocumentBatch

string

檔批次無效。

InvalidLocale

string

無效的地區設定。

InvalidLogDate

string

無效的記錄日期。

InvalidLogEndTime

string

無效的記錄結束時間。

InvalidLogId

string

無效的記錄標識碼。

InvalidLogStartTime

string

無效的記錄開始時間。

InvalidModel

string

無效的模型。

InvalidModelUri

string

無效的模型 URI。

InvalidParameter

string

無效的參數。

InvalidParameterValue

string

無效的參數值。

InvalidPayload

string

承載無效。

InvalidPermissions

string

無效的許可權。

InvalidPrerequisite

string

無效的必要條件。

InvalidProductId

string

無效的產品標識碼。

InvalidProject

string

無效的專案。

InvalidProjectKind

string

無效的項目種類。

InvalidRecordingsUri

string

無效的錄製 URI。

InvalidRequestBodyFormat

string

要求本文格式無效。

InvalidSasValidityDuration

string

無效的 sas 有效性持續時間。

InvalidSkipTokenForLogs

string

記錄的略過令牌無效。

InvalidSourceAzureResourceId

string

無效的來源 Azure 資源識別碼。

InvalidSubscription

string

無效的訂用帳戶。

InvalidTest

string

測試無效。

InvalidTimeToLive

string

存留時間無效。

InvalidTopForLogs

string

記錄的頂端無效。

InvalidTranscription

string

無效的轉譯。

InvalidWebHookEventKind

string

無效的 Web 攔截事件種類。

MissingInputRecords

string

遺漏輸入記錄。

ModelCopyOperationExists

string

模型複製作業存在。

ModelDeploymentNotCompleteState

string

模型部署未完成狀態。

ModelDeprecated

string

模型已被取代。

ModelExists

string

模型存在。

ModelMismatch

string

模型不符。

ModelNotDeployable

string

模型無法部署。

ModelVersionIncorrect

string

模型版本不正確。

NoUtf8WithBom

string

沒有 bom 的 utf8。

OnlyOneOfUrlsOrContainerOrDataset

string

只有其中一個 URL 或容器或數據集。

ProjectGenderMismatch

string

專案性別不符。

QuotaViolation

string

配額違規。

SingleDefaultEndpoint

string

單一預設端點。

SkuLimitsExist

string

Sku 限制存在。

SubscriptionNotFound

string

找不到訂用帳戶。

UnexpectedError

string

非預期的錯誤。

UnsupportedClassBasedAdaptation

string

不支援的類別型調整。

UnsupportedDelta

string

不支持的差異。

UnsupportedDynamicConfiguration

string

不支援的動態設定。

UnsupportedFilter

string

不支援的篩選。

UnsupportedLanguageCode

string

不支援的語言代碼。

UnsupportedOrderBy

string

不支援的順序。

UnsupportedPagination

string

不支援的分頁。

UnsupportedTimeRange

string

不支援的時間範圍。

EntityError

EntityError

名稱 類型 Description
code

string

此錯誤的程序代碼。

message

string

此錯誤的訊息。

EntityReference

EntityReference

名稱 類型 Description
self

string

參考實體的位置。

Error

錯誤

名稱 類型 Description
code

ErrorCode

ErrorCode
高階錯誤碼。

details

Error[]

關於錯誤和/或預期原則的其他支持詳細數據。

innerError

InnerError

InnerError
符合認知服務 API 指導方針的新內部錯誤格式,可在 取得 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow。 這包含必要屬性 ErrorCode、訊息和選用屬性目標、詳細資訊 (機碼值組)、內部錯誤 (可為巢狀)。

message

string

高階錯誤訊息。

target

string

錯誤的來源。 例如,如果文件無效,則會是「documents」或「document id」。

ErrorCode

ErrorCode

名稱 類型 Description
Conflict

string

表示衝突錯誤碼。

Forbidden

string

表示禁止的錯誤碼。

InternalCommunicationFailed

string

表示內部通訊失敗的錯誤碼。

InternalServerError

string

表示內部伺服器錯誤碼。

InvalidArgument

string

表示無效的自變數錯誤碼。

InvalidRequest

string

表示無效的要求錯誤碼。

NotAllowed

string

表示不允許的錯誤碼。

NotFound

string

表示找不到的錯誤碼。

PipelineError

string

表示管線錯誤碼。

ServiceUnavailable

string

表示服務無法使用的錯誤碼。

TooManyRequests

string

表示太多要求錯誤碼。

Unauthorized

string

表示未經授權的錯誤碼。

UnprocessableEntity

string

表示無法處理的實體錯誤碼。

UnsupportedMediaType

string

表示不支援的媒體類型錯誤碼。

InnerError

InnerError

名稱 類型 Description
code

DetailedErrorCode

DetailedErrorCode
詳細的錯誤碼列舉。

details

object

關於錯誤和/或預期原則的其他支持詳細數據。

innerError

InnerError

InnerError
符合認知服務 API 指導方針的新內部錯誤格式,可在 取得 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow。 這包含必要屬性 ErrorCode、訊息和選用屬性目標、詳細資訊 (機碼值組)、內部錯誤 (可為巢狀)。

message

string

高階錯誤訊息。

target

string

錯誤的來源。 例如,如果文件無效,則會是「documents」或「document id」。

Status

狀態

名稱 類型 Description
Failed

string

長時間執行的作業失敗。

NotStarted

string

長時間執行的作業尚未啟動。

Running

string

長時間執行的作業目前正在處理。

Succeeded

string

長時間執行的作業已順利完成。

TextNormalizationKind

TextNormalizationKind

名稱 類型 Description
Default

string

默認文字正規化 (例如 『2 到 3』 會取代為 en-US) 中的 'two to three'。

None

string

不會將文字正規化套用至輸入文字。 這是覆寫選項,只有在上傳前將文字正規化時,才應該使用此選項。