Открытые наборы данных Azure

Повысьте точность моделей машинного обучения с помощью общедоступных наборов данных. Экономьте время на обнаружении и подготовке данных с помощью курированных наборов данных, готовых к использованию в проектах машинного обучения.

Транспортировка

Набор данных Описание
TartanAir: набор данных моделирования AirSim Данные автономных транспортных средств AirSim, созданные для одновременной локализации и построения карты (SLAM).
Комиссия по такси и лимузинам Нью-Йорка — желтые записи о поездках на такси Записи поездок в такси, отмеченные желтым, включают такие данные, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.
Комиссия по такси и лимузинам Нью-Йорка — зеленые записи о поездках на такси Записи поездок в такси, отмеченные зеленым, включают такие данные, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.
Комиссия по такси и лимузинам Нью-Йорка — записи о поездках на прокатном транспорте (служба FHV) Записи о поездках на прокатном транспорте, которые содержат поля с номером лицензии в диспетчерском центре, дату и время посадки пассажиров, а также идентификатор местоположения такси.

Здравоохранение и геномика

Набор данных Описание
Озеро данных по COVID-19 COVID-19 Data Lake — это коллекция наборов данных о COVID-19, полученных из разных источников. Это данные системы отслеживания результатов тестирования и лечения, а также сведения о соблюдении правил социального дистанцирования, вместимости больниц, перемещениях и т. д.
Открытый набор данных исследований по COVID-19 Машиночитаемый набор данных, состоящий из метаданных и полнотекстовых научных статей, посвященных COVID-19 и семейству коронавирусов. Набор доступен для мирового исследовательского сообщества.
Озеро данных по геномике Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.

Труд и экономика

Набор данных Описание
US Labor Force Statistics (Статистика по занятому населению США) Набор данных US Labor Force Statistics предоставляет сведения Бюро трудовой статистики США о трудовых ресурсах, уровне экономической активности населения, а также о гражданском неинституциональном населении с классификацией по возрасту, полу, расовой и этнической принадлежности. в США.
US National Employment Hours and Earnings (Время занятости и заработная плата граждан США) Программа статистики текущей занятости (CES) предоставляет подробную оценку отрасли в плане занятости несельскохозяйственного персонала, рабочем времени и окладах в Соединенных Штатах.
US State Employment Hours and Earnings (Время занятости и заработная плата в штатах США) Программа статистики текущей занятости (CES) предоставляет подробную оценку отрасли в плане занятости несельскохозяйственного персонала, рабочем времени и окладах в Соединенных Штатах.
US Local Area Unemployment Statistics (Статистика безработицы в США по географическим областям) Наборы данных US Local Area Unemployment Statistics предоставляют данные о трудоустройстве, безработице и занятости населения по регионам, округам, штатам, крупным городам с пригородами и многим городам США за месяц и за год.
Индекс потребительских цен США Индекс розничных цен (CPI) — это измерение среднего изменения цен на потребительскую корзину, выплачиваемых городскими потребителями, в динамике.
Индекс цен производителей США: промышленность Индекс цен производителей (PPI) — это показатель среднего изменения отпускных цен, выплаченных отечественным производителям за их продукцию, с течением времени.
Индекс цен производителей США: товары Индекс цен производителей (PPI) — это показатель среднего изменения отпускных цен, выплаченных отечественным производителям за их товары, с течением времени.

Население и безопасность

Набор данных Описание
Население США по странам Данные о населении каждого округа США по полу и расе, полученные в результате переписи населения за 2000–2010 гг. Источник данных — Бюро переписи населения США.
Данные о населении США по почтовому индексу Население США с классификацией по полу и расовой принадлежности для каждого почтового индекса США. Источник — перепись, проводящаяся каждые 10 лет, за 2010 год. Источник данных — Бюро переписи населения США.
Boston Safety Data (Данные о безопасности в Бостоне) Данные для чтения о вызовах 311 в Бостоне. Этот набор данных хранится в формате Parquet и обновляется ежедневно.
Chicago Safety Data (Данные о безопасности в Чикаго) Данные для чтения о вызовах 311 в Чикаго. Этот набор данных хранится в формате Parquet и обновляется ежедневно.
New York City Safety Data (Данные о безопасности в Нью-Йорке) Этот набор данных содержит все запросы в службу 311 города Нью-Йорка с 2010 г. до текущего момента. Он хранится в формате Parquet и обновляется ежедневно.
San Francisco Safety Data (Данные о безопасности в Сан Франциско) Вызовы пожарной службы и обращения в службу 311 в Сан-Франциско. Этот набор данных содержит архивные записи, собранные с 2015 года по сегодняшний день.
Данные по безопасности в Сиэтле Отправка по вызовам 911 в управлении пожарной охраны Сиэтла. Этот набор данных обновляется ежедневно и содержит архивные записи, собранные с 2010 года по сегодняшний день.

Дополнительные и общие наборы данных

Набор данных Описание
Diabetes (Диабет) Набор данных Diabetes (Диабет) содержит 442 образца с 10 признаками. Он идеально подходит для начала работы с алгоритмами машинного обучения.
OJ Sales Simulated Data (Смоделированные данные по продажам апельсинового сока) Этот набор данных, который является производным от набора данных Dominick’s Orange Juice и содержит дополнительные смоделированные данные, был создан для простого одновременного обучения тысяч моделей в службе "Машинное обучение Azure".
База данных MNIST с рукописными цифрами База данных образцов рукописного написания цифр MNIST содержит 60 000 образцов наборов данных для обучения и тестовый набор из 10 000 образцов. Цифры были нормализованы по размеру и расположены в центре изображения фиксированного размера.
Набор данных рекомендаций новостей от Майкрософт MIcrosoft News Dataset (MIND) — это крупномасштабный набор данных для исследования рекомендаций новостей. Он служит эталонным набором данных для рекомендаций по новостям и содействует исследованиям в сфере рекомендаций новостей и систем рекомендаций.
Государственные праздники Данные о государственных праздниках 38 стран или регионов с 1970 по 2099 гг. из Википедии и пакета данных PyPI.
Открытый набор данных по преобразованию речи в текст для русского языка Russian Open STT — это крупномасштабный открытый набор данных преобразования речи в текст для русского языка.