Vision in Microsoft 365 Copilot le permite compartir la pantalla de escritorio o la cámara móvil y preguntar a Copilot sobre lo que está viendo, con respuestas fundamentadas tanto en el contenido compartido como en los datos de trabajo. Para empezar a usarlo, consulta Introducción a la visión en Microsoft 365 Copilot.
¿Cómo funciona la visión?
Vision convierte lo que compartes en información que Copilot puede razonar y, a continuación, la combina con tus datos de trabajo para responderte en voz alta.
- Puede compartir la entrada visual durante una conversación de voz: la pantalla del escritorio (en Windows o en la web) o la cámara móvil.
- Copilot convierte el contenido de la cámara o la pantalla compartida en datos que puede analizar, incluidos texto, imágenes, gráficos e interfaces en pantalla.
- Copilot fundamenta su respuesta combinando lo que ve con los datos de trabajo de Microsoft 365, como documentos, correos electrónicos y discusiones anteriores.
- Copilot responde por voz en tiempo real, para que pueda hacer preguntas de seguimiento en la misma conversación.
¿Qué puede hacer la visión?
Estas son algunas de las cosas más útiles que puedes hacer con la visión:
- Analice y explique lo que está mirando. Pida a Copilot que interprete gráficos, tablas, diapositivas o texto denso. Por ejemplo, "Resuma este panel y resalte las anomalías".
- Convierta los comentarios en pasos siguientes. Comparta una página de un documento, correo electrónico o chat y pregunte: "¿Qué comentarios recibí sobre esto y cuáles son mis pasos siguientes?".
- Obtener una actualización del estado del proyecto. Comparte un rastreador o elemento de trabajo y pregunta: "Dame un estado rápido de este elemento, el propietario actual y el siguiente hito".
- Obtenga ayuda en contexto y paso a paso. Apunta la cámara del teléfono hacia un error del dispositivo y pregunta: "¿Cómo corregir este error?".
¿Cuáles son las limitaciones de visión?
- Vision solo está disponible en estos momentos mediante chats de voz con Copilot.
- El uso diario se basa en la capacidad disponible y cuenta para el uso diario de la voz. Se le notificará en la aplicación Copilot a medida que se acerque a su uso disponible.
- La visión no puede leer vídeos ni GIF animados.
- Cambiar entre ventanas demasiado rápido mientras se hace una pregunta puede hacer que Copilot responda en función del contenido de la pantalla incorrecto.
- La visión no puede tomar medidas ni manipular directamente elementos en la pantalla.
- La visión no tiene recuerdos a largo plazo. No reutiliza pantallas ni la entrada de cámara de sesiones anteriores.
Nota
Estas son las capacidades en el inicio. Las mejoras continuas pueden abordar algunas de estas limitaciones a lo largo del tiempo.
¿A qué tiene acceso la visión?
Durante una sesión activa, Copilot procesa el contenido de la pantalla o de la cámara que elige compartir, junto con los datos de trabajo de Microsoft 365 para fundamentar sus respuestas, como documentos, correos electrónicos, reuniones y discusiones previas.
- La entrada visual se inicia por el usuario y está enlazada a sesión, por lo que Copilot solo funciona con el contenido compartido durante la sesión activa.
- El contenido compartido de la pantalla o la cámara se procesa como una serie de imágenes. Los datos de audio y vídeo se almacenan temporalmente para que pueda proporcionar comentarios a Microsoft y se eliminan después de 48 horas.
- Las transcripciones de texto de las conversaciones de voz se almacenan y administran del mismo modo que las conversaciones de texto en la aplicación Microsoft 365 Copilot.
- Vision se adhiere a los compromisos de nivel empresarial de Microsoft con respecto a la seguridad y privacidad de los datos, y no deduce atributos personales sensibles, como la raza o las emociones.
Para obtener más información, consulte Datos, privacidad y seguridad para Microsoft 365 Copilot.
¿Qué tipos de contenido se admiten?
Vision puede comprender una amplia gama de contenido en pantalla y en el mundo real, entre los que se incluyen:
- Texto, imágenes, gráficos, tablas y paneles.
- Interfaces de aplicaciones y flujos de trabajo con varias ventanas en el escritorio.
- Objetos físicos vistos a través de la cámara móvil.
¿Qué idiomas son compatibles?
Vision está disponible en todos los idiomas admitidos por Microsoft 365 Copilot. Algunos idiomas pueden ser más propensos a diferencias de pronunciación o reconocimiento. Para obtener la lista completa, consulte Idiomas admitidos para Microsoft 365 Copilot.
¿Cómo se evaluaron las conversaciones de visión? ¿Qué métricas se usan para medir el rendimiento?
Para garantizar la calidad, Copilot recibe preguntas de prueba y sus respuestas se evalúan en función de criterios como relevancia, exactitud, integridad, tono y cumplimiento de instrucciones. Para medir mejor el rendimiento, también revisamos el uso de características, la tasa de interés general, la tasa de participación y los comentarios de los usuarios. También realizamos una amplia gama de evaluaciones de seguridad que garantizan que la visión responda de forma responsable a las consultas perjudiciales.
Cómo proporcionar comentarios sobre la visión en Copilot?
Puedes proporcionar comentarios cuando finalices un chat de voz. Debería aparecer un pulgar hacia arriba o hacia abajo en el historial de chats compartido con Microsoft para mejoras de características. No usamos estos comentarios para entrenar los modelos de base usados por Copilot.