OJ Sales Simulated

Den här datamängden härleds från Datasetk:s DATASET och innehåller extra simulerade data för att samtidigt träna tusentals modeller på Azure Machine Learning.

Anteckning

Microsoft tillhandahåller Azure Open Datasets på "i sin"-basis. Microsoft ger inga garantier, uttryckliga eller underförstådda, avseende din användning av datamängderna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkta skador, följdskador, särskilda, indirekta, oförutsedda eller oförutsedda skador, till följd av din användning av datamängderna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Data innehåller veckovis försäljning av apelsinjuice över 121 veckor. Det finns 3 991 butiker och tre apelsinjuicemärken per butik så att 11 973 modeller kan tränas.

Visa den ursprungliga datauppsättningsbeskrivningen eller ladda ned datauppsättningen.

Kolumner

Name Datatyp Unik Värden (exempel) Beskrivning
Annons int 1 Värde som anger om det fanns annonser för apelsinjuicen under veckan 0: Inga annonser 1: Annonser
Bilmärke sträng ks tropicana Apelsinjuicens varumärke
Pris double 2.6 2.09 Pris på apelsinjuice (i USD)
Kvantitet int 10939 11638 Kvantitet apelsinjuice som såldes den veckan
Intäkter double 38438.4 36036.0 Intäkter från försäljning av apelsinjuice under veckan (i USD)
Lagringsplats int 2658 1396 Butiksnummer för butik där apelsinjuicen såldes
WeekStarting timestamp 1990-08-09 00:00:00 1992-02-20 00:00:00 Datum som indikerar försäljningsvecka

Förhandsgranskning

WeekStarting Lagringsplats Bilmärke Kvantitet Annons Pris Intäkter
10/1/1992 12:00:00 3571 minute.pig 13247 1 2.42 32057.74
10/1/1992 12:00:00 2999 minute.pig 18461 1 2.69 49660.09
10/1/1992 12:00:00 1198 minute.pig 13222 1 2.64 34906.08
10/1/1992 12:00:00 3916 minute.pig 12923 1 2.45 31661.35
10/1/1992 12:00:00 1688 minute.pig 9380 1 2.46 23074.8
10/1/1992 12:00:00 1040 minute.pig 18841 1 2.31 43522.71
10/1/1992 12:00:00 1938 minute.pig 14202 1 2.19 31102.38
10/1/1992 12:00:00 2405 minute.pig 16326 1 2.05 33468.3
10/1/1992 12:00:00 1972 minute.pig 16380 1 2.12 34725.6

Dataåtkomst

Azure Notebooks

from azureml.core.workspace import Workspace
ws = Workspace.from_config()
datastore = ws.get_default_config()
from azureml.opendatasets import OjSalesSimulated

Läsa data från Azure Open Datasets

# Create a Data Directory in local path
import os

oj_sales_path = "oj_sales_data"

if not os.path.exists(oj_sales_path):
    os.mkdir(oj_sales_path)
# Pull all of the data
oj_sales_files = OjSalesSimulated.get_file_dataset()

# or pull a subset of the data
oj_sales_files = OjSalesSimulated.get_file_dataset(num_files=10)
oj_sales_files.download(oj_sales_path, overwrite=True)

Ladda upp enskilda datauppsättningar till Blob Storage

Vi laddar upp data till Blob och skapar FileDataset från den här mappen med CSV-filer.

target_path = 'oj_sales_data'

datastore.upload(src_dir = oj_sales_path,
                target_path = target_path,
                overwrite = True, 
                show_progress = True)

Skapa fildatauppsättningen

Vi måste definiera sökvägen till data för att skapa FileDataset.

from azureml.core.dataset import Dataset

ds_name = 'oj_data'
path_on_datastore = datastore.path(target_path + '/')

input_ds = Dataset.File.from_files(path=path_on_datastore, validate=False)

Registrera fildatauppsättningen på arbetsytan

Vi vill registrera datauppsättningen på vår arbetsyta så att vi kan anropa den som indata i vår pipeline för prognostiserade data.

registered_ds = input_ds.register(ws, ds_name, create_new_version=True)
named_ds = registered_ds.as_named_input(ds_name)

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
# Download or mount OJ Sales raw files Azure Machine Learning file datasets.
# This works only for Linux based compute. See https://docs.microsoft.com/en-us/azure/machine-learning/service/how-to-create-register-datasets to learn more about datasets.

from azureml.opendatasets import OjSalesSimulated

ojss_file = OjSalesSimulated.get_file_dataset()
ojss_file
ojss_file.to_path()
# Download files to local storage
import os
import tempfile

mount_point = tempfile.mkdtemp()
ojss_file.download(mount_point, overwrite=True)
# Mount files. Useful when training job will run on a remote compute.
import gzip
import struct
import pandas as pd
import numpy as np

# load compressed OJ Sales Simulated gz files and return numpy arrays
def load_data(filename, label=False):
    with gzip.open(filename) as gz:
        gz.read(4)
        n_items = struct.unpack('>I', gz.read(4))
        if not label:
            n_rows = struct.unpack('>I', gz.read(4))[0]
            n_cols = struct.unpack('>I', gz.read(4))[0]
            res = np.frombuffer(gz.read(n_items[0] * n_rows * n_cols), dtype=np.uint8)
            res = res.reshape(n_items[0], n_rows * n_cols)
        else:
            res = np.frombuffer(gz.read(n_items[0]), dtype=np.uint8)
            res = res.reshape(n_items[0], 1)
    return pd.DataFrame(res)
import sys
mount_point = tempfile.mkdtemp()
print(mount_point)
print(os.path.exists(mount_point))
print(os.listdir(mount_point))

if sys.platform == 'linux':
  print("start mounting....")
  with ojss_file.mount(mount_point):
    print(os.listdir(mount_point))  
    train_images_df = load_data(os.path.join(mount_point, 'train-tabular-oj-ubyte.gz'))
    print(train_images_df.info())

Nästa steg

Visa resten av datauppsättningarna i Open Datasets katalogen.