Обнаружение информации с помощью глубокого обучения и NLPInformation discovery with deep learning and NLP

Концепция решения Solution Idea

Если вы хотите ознакомиться с этой статьей, дополнительные сведения (сведения о реализации, рекомендации по ценам, примеры кода и т. д.), сообщите нам о отзывах в GitHub!If you'd like to see us expand this article with more information (implementation details, pricing guidance, code examples, etc), let us know with GitHub Feedback!

Социальные веб-сайты, форумы и другие трудные вопросы в Q&службы сильно полагаются на теги, что обеспечивает индексирование и поиск пользователей.Social sites, forums, and other text-heavy Q&A services rely heavily on tagging, which enables indexing and user search. Без подходящих тегов эти сайты гораздо менее эффективны.Without appropriate tagging, these sites are far less effective. Тем не менее часто при добавлении тегов в теги остается право на его усмотрение.Often, however, tagging is left to the users' discretion. А так как у пользователей нет списков часто встречающихся терминов или глубокого понимания классификации или информационной архитектуры сайта, сообщения часто являются неподписанными.And since users don't have lists of commonly searched terms or a deep understanding of the categorization or information architecture of a site, posts are frequently mislabeled. Это затрудняет или невозможно найти содержимое, когда оно понадобится позже.This makes it difficult or impossible to find that content when it's needed later.

Благодаря сочетанию глубокого обучения и обработки естественного языка (NLP) с данными об условиях поиска для конкретного сайта это решение помогает значительно улучшить точность тегов на вашем сайте.By combining deep learning and natural language processing (NLP) with data on site-specific search terms, this solution helps greatly improve tagging accuracy on your site. По мере того как пользователь вводит свою запись, он предлагает наиболее часто используемые термины в качестве предлагаемых тегов, что упрощает поиск предоставленной информации другими пользователями.As your user types their post, it offers highly used terms as suggested tags, making it easier for others to find the information they're providing.

ArchitectureArchitecture

Схема архитектуры . Скачайте SVG этой архитектуры.Architecture Diagram Download an SVG of this architecture.

КомпонентыComponents

  • Microsoft SQL Server: данные хранятся, структурированы и индексируются с помощью Microsoft SQL Server.Microsoft SQL Server: Data is stored, structured, and indexed using Microsoft SQL Server.
  • Виртуальная машина Azure для обработки и анализа данных на основе GPU. основная среда разработки — это Microsoft Windows Server 2016 GPU DSVM NC24.GPU based Azure Data Science Virtual Machine: The core development environment is the Microsoft Windows Server 2016 GPU DSVM NC24.
  • Azure Machine Learning Workbench: Workbench используется для очистки и преобразования данных и служит основным интерфейсом для экспериментов и Управление моделями служб.Azure Machine Learning Workbench: The Workbench is used for data cleaning and transformation, and it serves as the primary interface to the Experimentation and Model Management services.
  • Служба Экспериментирование в Машинном обучении Azure. Служба "экспериментирование" используется для обучения модели, включая настройку параметров.Azure Machine Learning Experimentation Service: The Experimentation Service is used for model training, including hyperparameter tuning.
  • Служба Машинное обучение Azure Управление моделями. Служба Управление моделями используется для развертывания окончательной модели, включая масштабирование в кластер Azure, управляемый Kubernetes.Azure Machine Learning Model Management Service: The Model Management service is used for deployment of the final model, including scaling out to a Kubernetes-managed Azure cluster.
  • Записные книжки Jupyter на виртуальной машине для обработки и анализа данных Azure. записные книжки Jupyter используются в качестве базовой интегрированной среды разработки для модели, разработанной на языке Python.Jupyter Notebooks on Azure Data Science VM: Jupyter Notebooks is used as the base IDE for the model, which was developed in Python.
  • Реестр контейнеров Azure. Служба Управление моделями создает и упаковывает веб-службы в режиме реального времени в виде контейнеров DOCKER.Azure Container Registry: The Model Management Service creates and packages real-time web services as Docker containers. Эти контейнеры передаются и регистрируются с помощью реестра контейнеров Azure.These containers are uploaded and registered via Azure Container Registry.
  • Служба Kubernetes Azure (AKS). для развертывания этого решения используется служба Kubernetes Azure, выполняющая Kubernetes управляемый кластер.Azure Kubernetes Service (AKS): Deployment for this solution uses Azure Kubernetes Service running a Kubernetes-managed cluster. Контейнеры развертываются из образов, хранящихся в реестре контейнеров Azure.The containers are deployed from images stored in Azure Container Registry.

Дальнейшие действияNext steps