Obtenga información sobre los clasificadores entrenables
Clasificar y etiquetar el contenido para que pueda protegerse y controlarse correctamente es el punto de partida de la disciplina de protección de la información. Microsoft 365 tres maneras de clasificar el contenido.
Manualmente
Este método requiere juicio y acción humanas. Un administrador puede usar las etiquetas existentes y los tipos de información confidencial o crear las suyas propias y, a continuación, publicarlas. Los usuarios y administradores los aplican al contenido a medida que se encuentran con él. A continuación, puede proteger el contenido y administrar su eliminación.
Coincidencia de patrones automatizada
Esta categoría de mecanismos de clasificación incluye la búsqueda de contenido mediante:
- Palabras clave o valores de metadatos (lenguaje de consulta de palabras clave).
- Usar patrones identificados anteriormente de información confidencial como números de cuenta bancaria, de tarjeta de crédito o de seguridad social (definicionesde entidad de tipo de información confidencial).
- Reconocer un elemento porque es una variación en una plantilla (impresión de dedo del documento).
- Uso de la presencia de cadenas exactas exactas coincidencia de datos.
Las etiquetas de confidencialidad y retención se pueden aplicar automáticamente para que el contenido esté disponible para su uso en Learn about data loss prevention) y aplicar automáticamente directivas para etiquetas de retención.
Clasificadores
Este método de clasificación es especialmente adecuado para el contenido que no se identifica fácilmente con los métodos de coincidencia de patrones manuales o automatizados. Este método de clasificación consiste más en entrenar un clasificador para que identifique un elemento basándose en qué es el elemento y no en cuál es su contenido (coincidencia de patrones). Un clasificador aprende a identificar un tipo de contenido al ver cientos de ejemplos del contenido que le interesa clasificar. Empieza por darle ejemplos que definitivamente están en la categoría. Una vez que procesa esos ejemplos, se prueba al darle una combinación de ejemplos que coincidan y que no coincidan. A continuación, el clasificador realiza previsiones sobre si algún elemento determinado entra en la categoría que está creando. A continuación, confirme sus resultados, ordenando los verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos para ayudar a aumentar la precisión de sus previsiones.
Al publicar el clasificador, ordena los elementos en ubicaciones como SharePoint Online, Exchange y OneDrive, y clasifica el contenido. Después de publicar el clasificador, puede seguir entrenando con un proceso de comentarios similar al proceso de aprendizaje inicial.
Dónde puede usar clasificadores entrenables
Tanto los clasificadores integrados como los clasificadores entrenables están disponibles como condición para el etiquetado automático de Officecon etiquetas de confidencialidad, aplicar automáticamente la directiva de etiquetas de retención según una condición y en el cumplimiento de las comunicaciones.
Las etiquetas de confidencialidad pueden usar clasificadores como condiciones, vea Apply a sensitivity label to content automatically.
Importante
Los clasificadores solo funcionan con elementos que no están cifrados.
Tipos de clasificadores
- clasificadores previamente formados: Microsoft ha creado y formado previamente varios clasificadores que puede empezar a usar sin entrenarlos. Estos clasificadores aparecerán con el estado de
Ready to use. - clasificadores personalizados: si tiene necesidades de clasificación que se extienden más allá de lo que cubren los clasificadores previamente formados, puede crear y entrenar a sus propios clasificadores.
Clasificadores previamente formados
Microsoft 365 viene con varios clasificadores previamente formados:
Precaución
Estamos desaprobando el clasificador preentrenado de Lenguaje ofensivo porque ha estado produciendo un alto número de falsos positivos. No lo use y, si lo está usando actualmente, debe quitar los procesos empresariales de él. Se recomienda usar los clasificadores de amenazas, profanidad y acoso previamente formados en su lugar.
- Resumes: detecta elementos que son cuentas textuales de las cualificaciones personales, educativas, profesionales, experiencia laboral y otra información de identificación personal de un solicitante
- Código fuente: detecta elementos que contienen un conjunto de instrucciones y instrucciones escritas en los 25 principales lenguajes de programación de equipos usados en GitHub
- ActionScript
- C
- C#
- C++
- Clojure
- CoffeeScript
- Ir
- Haskell
- Java
- JavaScript
- Lua
- MATLAB
- Objective-C
- Perl
- PHP
- Python
- R
- Ruby
- Scala
- Consola
- Swift
- TeX
- Vim Script
Nota
El código fuente está formado para detectar cuándo la mayor parte del texto es código fuente. No detecta texto de código fuente intercalado con texto sin formato.
- Acuerdos: detecta contenido relacionado con acuerdos legales como contratos de no divulgación, declaraciones de trabajo, contratos de préstamo y arrendamiento, contratos de trabajo y no competencia
- Discriminación: detecta un lenguaje discriminatorio explícito y es especialmente sensible al lenguaje discriminatorio frente a las comunidades afroestadounides/negras en comparación con otras comunidades.
- Finanzas: detecta contenido en las categorías de finanzas corporativas, contabilidad, economía, banca e inversión
- Acoso: detecta una categoría específica de elementos de texto de lenguaje ofensivo relacionados con conductas ofensivas dirigidas a una o varias personas en función de los siguientes rasgos: raza, origen étnico, religión, origen nacional, género, orientación sexual, edad, discapacidad
- Salud: detecta contenido en aspectos de administración médica y sanitaria, como servicios médicos, diagnósticos, tratamiento, notificaciones, etc.
- HR: detecta contenido en categorías relacionadas con recursos humanos de contratación, entrevista, contratación, formación, evaluación, advertencia y terminación
- IP: detecta contenido en categorías relacionadas con la propiedad intelectual, como secretos comerciales e información confidencial similar
- IT: detecta contenido en categorías de tecnología de la información y ciberseguridad, como la configuración de red, la seguridad de la información, el hardware y el software
- Asuntos legales: detecta contenido en categorías relacionadas con asuntos legales como litigio, proceso legal, obligación legal, terminología legal, ley y legislación
- Adquisiciones: detecta contenido en categorías de ofertas, cotización, compra y pago de suministro de bienes y servicios
- Profanidad: detecta una categoría específica de elementos de texto de lenguaje ofensivo que contienen expresiones que ensoñan a la mayoría de las personas
- Impuestos: detecta contenido de relación fiscal como planeación fiscal, formularios fiscales, declaración de impuestos, reglamentos fiscales
- Amenaza: detecta una categoría específica de elementos de texto de lenguaje ofensivo relacionados con amenazas para cometer violencia o hacer daño físico o daño a una persona o propiedad
Aparecen en la vista clasificadores Centro de cumplimiento de Microsoft 365 clasificación de datos > > trainable con el estado de Ready to use .

Importante
Tenga en cuenta que el lenguaje ofensivo, el acoso, la profanación, la discriminación y los clasificadores de amenazas solo funcionan con texto que admite búsquedas y no son una lista exhaustiva o completa de términos o idiomas en estas áreas. Además, los estándares lingüísticos y culturales cambian continuamente y, a la luz de estas realidades, Microsoft se reserva el derecho de actualizar estos clasificadores a su discreción. Aunque los clasificadores pueden ayudar a su organización a detectar estas áreas, los clasificadores no están diseñados para proporcionar el único medio de su organización para detectar o abordar el uso de dicho idioma. Su organización, no Microsoft ni sus subsidiarias, sigue siendo responsable de todas las decisiones relacionadas con la supervisión, el examen, el bloqueo, la eliminación y la retención de cualquier contenido identificado por un clasificador previamente formado, incluido el cumplimiento de la privacidad local y otras leyes aplicables. Microsoft anima a consultar con abogados antes de la implementación y el uso.
Los clasificadores previamente formados pueden examinar el contenido en estos idiomas:
• Chino (simplificado) • Inglés • Francés • Alemán • Italiano • Japonés • Portugués • Español
Clasificadores personalizados
Cuando los clasificadores previamente formados no satisfacen sus necesidades, puede crear y entrenar a sus propios clasificadores. Hay mucho más trabajo implicado en la creación de los suyos, pero estarán mucho mejor adaptados a las necesidades de las organizaciones.
Por ejemplo, podría crear clasificadores que se puedan entrenar para:
- Documentos legales, como privilegios de cliente de abogado, conjuntos de cierre, declaración de trabajo
- Documentos de negocio estratégicos: como comunicados de prensa, fusiones y adquisiciones, acuerdos, planes de negocio o marketing, propiedad intelectual, patentes, documentos de diseño
- Información de precios: como facturas, cotizaciones de precios, pedidos de trabajo, documentos de ofertas
- Información financiera, como inversiones organizativas, resultados trimestrales o anuales
Flujo de proceso para crear clasificadores personalizados
La creación y publicación de un clasificador para su uso en soluciones de cumplimiento, como directivas de retención y supervisión de comunicaciones, sigue este flujo. Para obtener más información sobre cómo crear un clasificador personalizado, vea Creating a custom classifier.

Reentrenamiento de clasificadores
Puede ayudar a mejorar la precisión de todos los clasificadores personalizados y algunos clasificadores previamente formados al proporcionarles comentarios sobre la precisión de la clasificación que realizan. Esto se denomina reentrenamiento y se sigue a este flujo de trabajo.

Vea también
- Etiquetas de retención
- Obtenga más información acerca de la prevención contra la pérdida de datos
- Etiquetas de confidencialidad
- Definiciones de entidad de tipos de información confidencial
- Impresión de dedo de documento
- Obtener información sobre los tipos de información confidencial basados en coincidencias exactas de datos