Nota: Le descrizioni delle immagini comprimete nell'Assistente vocale sono disponibili in anteprima tramite il Programma Windows Insider.
Le descrizioni delle immagini nell'Assistente vocale forniscono descrizioni dettagliate del contenuto visivo, ad esempio immagini, grafici, diagrammi, pulsanti senza etichetta e altro ancora. Le descrizioni di immagini complesse consentono agli utenti non vedenti di comprendere il contenuto visivo attraverso un contesto dettagliato. Questa funzionalità è attualmente disponibile nei PC Copilot+ basati su Snapdragon nel Programma Windows Insider. Altri dispositivi Windows continueranno a usare l'esperienza di descrizione delle immagini standard, che si basa esclusivamente su Servizi online.
L'Assistente vocale usa i modelli di intelligenza artificiale per fornire descrizioni testuali dettagliate di immagini, grafici e grafici. Quando l'Assistente vocale è attivato, puoi premere il tasto Assistente vocale+CTRL+D per ottenere una descrizione dell'immagine o dell'elemento su cui sei concentrato.
Ad esempio, la descrizione di un'immagine di un vivaio sarebbe:
L'immagine raffigura una grande disposizione organizzata di piccole piante a foglia verde che sono probabilmente germogli o piantine disposte in un pulito schema di griglia densa. Ogni pianta è contenuta all'interno di un piccolo contenitore nero poco profondo che suggerisce un vivaio o una piantatura. Le piante sono uniformemente di spaziatura creando un aspetto uniforme e ordinato che può simboleggiare l'organizzazione di crescita o una raccolta. I contenitori neri offrono un netto contrasto con i germogli verdi che evidenziano l'attenzione sulle piante.
Le descrizioni delle immagini nell'Assistente vocale sono progettate per fornire descrizioni testuali del contenuto visivo per le persone non vedenti o ipovedenti. Le descrizioni hanno lo scopo di migliorare la comprensione di immagini, grafici e grafici e supportano l'accessibilità. È possibile rigenerare la descrizione dell'immagine e copiare la descrizione per riferimento futuro.
Per garantire la qualità delle descrizioni generate dall'Assistente vocale, è stato creato un set di dati che include vari tipi di immagini. Queste immagini includevano fotografie naturali, grafici, screenshot e interfacce utente delle app. Le descrizioni generate sono state valutate per accuratezza, completezza, pertinenza e utilità. Diversi metodi di valutazione, tra cui valutazioni di esperti umani e punteggio assistito da LLM, sono stati utilizzati per trovare aree per migliorare la qualità delle descrizioni generate.
Microsoft si impegna a creare un'intelligenza artificiale responsabile da progettazione. Il nostro lavoro è guidato da una serie di principi fondamentali: correttezza, affidabilità e sicurezza, privacy e sicurezza, inclusività, trasparenza e responsabilità. Ricerca per categorie fornire feedback sulle descrizioni delle immagini nell'Assistente vocale?
L'Assistente vocale può fornire descrizioni di immagini imprecise, dati in grafici o inferenze emotive. Ciò può portare a ipotesi errate su un'immagine o all'intento del contenuto visivo in base alla descrizione generata. Continuiamo a lavorare sui modelli usati dall'Assistente vocale per migliorare la qualità delle descrizioni delle immagini fornite. Puoi inviare feedback usando uno dei metodi descritti inQuesta funzionalità non deve essere usata per:
-
generare descrizioni per immagini mediche o relative alla salute che potrebbero essere interpretate erroneamente come consigli medici. Descrizioni errate potrebbero portare a disinformazione e decisioni potenzialmente dannose da parte degli utenti.
-
generare descrizioni per le immagini nei documenti legali o finanziari in cui l'accuratezza è fondamentale. Un'interpretazione errata di tali immagini potrebbe portare a controversie legali o perdite finanziarie
-
generare descrizioni per immagini contenenti simboli culturali o religiosi senza contesto appropriato. Un'interpretazione errata potrebbe portare a insensibilità culturale o ritorsibilità.
-
generare descrizioni per le immagini contenenti mappe, contrassegni o globo. Un'interpretazione errata di queste immagini potrebbe portare alla disinformazione e al coinvolgimento negli affari internazionali.
Per ottenere una descrizione dell'immagine quando l'Assistente vocale è attivato, premi il tasto Assistente vocale+CTRL+D mentre ti concentri sul contenuto visivo. Per disattivare le descrizioni delle immagini nell'Assistente vocale, vai a Impostazioni > Accessibilità > Assistente vocale > Ottieni descrizioni delle immagini, titoli di pagina e collegamenti popolari e seleziona l'interruttore.
Potrebbero esserci imprecisioni nelle descrizioni fornite dall'Assistente vocale. Per migliorare la qualità delle descrizioni, è possibile fornire feedback:
-
Selezione dell'icona pollice in su o pollice in giù nella descrizione di un'immagine nell'interfaccia utente dell'Assistente vocale.
-
Risposta a richieste occasionali di Windows che ti chiedono di valutare o fornire un feedback scritto sul prodotto o sui servizi che usi.
-
Apertura di Hub di Feedback per trovare feedback simile da esprimere a favore o fornire nuovo feedback compilando il modulo.
L'impegno di Microsoft nei confronti dell'intelligenza artificiale responsabile e della privacy
Microsoft lavora per far progredire l'intelligenza artificiale responsabile in modo responsabile dal 2017, quando ha definito per la prima volta i suoi principi in materia di IA e ha successivamente reso operativo il suo approccio attraverso il suo Standard di intelligenza artificiale responsabile. La privacy e la sicurezza sono principi fondamentali nello sviluppo e la distribuzione dei sistemi di intelligenza artificiale. Il nostro lavoro è aiutare i clienti a utilizzare i nostri prodotti di intelligenza artificiale in modo responsabile, condividendo i nostri insegnamenti e creando partnership basate sulla fiducia. Per ulteriori informazioni sull'impegno per un'intelligenza artificiale responsabile, sui principi chiave, sugli strumenti e le capacità sviluppate per garantire uno sviluppo responsabile della tecnologia basata sull'intelligenza artificiale, vedere Intelligenza artificiale responsabile.
Una descrizione dettagliata delle immagini nell'Assistente vocale è progettata per migliorare l'accessibilità per gli utenti non vedenti e ipovedenti e non è destinata a un pubblico più ampio. I modelli di intelligenza artificiale per questa funzionalità usano segnali contestuali nell'intera immagine, incluse le persone o le entità sullo sfondo, che è il modo in cui i modelli possono ancora associare l'immagine a un individuo o descrivere le emozioni. Descrizioni di immagini complesse nell'Assistente vocale consentono inferenze emotive, ma non usano dati biometrici. Qualsiasi elaborazione che restituisca risultati che identificano un individuo o deduceno l'emozione di un individuo non è il risultato dell'elaborazione del volto, come il riconoscimento facciale, la generazione e il confronto dei modelli facciali. Ad esempio, se un'immagine contiene una foto di un atleta popolare che indossa la maglia della sua squadra e il suo numero specifico, i modelli potrebbero comunque restituire un risultato che potrebbe identificare l'individuo in base a questi segnali contestuali.
Questa caratteristica non deve essere utilizzata per dedurre o dedurre le emozioni delle persone fisiche sul posto di lavoro o negli istituti di istruzione (ad esempio dipendenti o studenti). La descrizione dell'immagine nell'Assistente vocale può fornire descrizioni testuali dettagliate relative alle emozioni percepite delle persone nelle immagini. I processi alla base delle emozioni umane sono complessi e ci sono differenze culturali, geografiche e individuali che influenzano il modo in cui possiamo percepire, sperimentare ed esprimere emozioni. Le risposte relative alle emozioni delle persone nelle immagini si basano su come appaiono e potrebbero non indicare necessariamente in modo accurato lo stato interno delle singole persone.
Data di pubblicazione: 11 febbraio 2025
Ultimo aggiornamento: 11 febbraio 2025