Hinweis: Umfangreiche Bildbeschreibungen in der Sprachausgabe sind in der Vorschau über das Windows-Insider-Programm verfügbar.

Bildbeschreibungen in der Sprachausgabe enthalten detaillierte Beschreibungen visueller Inhalte wie Bilder, Diagramme, Diagramme, Diagramme, Schaltflächen ohne Bezeichnung und vieles mehr. Umfassende Bildbeschreibungen ermöglichen es blinden Benutzern, visuelle Inhalte durch detaillierten Kontext zu verstehen. Dieses Feature ist derzeit auf Snapdragon-betriebenen Copilot+-PCs im Windows-Insider-Programm verfügbar. Andere Windows-Geräte verwenden weiterhin die Standardmäßige Bildbeschreibungsoberfläche, die ausschließlich auf Onlinedienste basiert. 

Die Sprachausgabe verwendet KI-Modelle, um detaillierte Textbeschreibungen von Bildern, Diagrammen und Diagrammen bereitzustellen. Wenn die Sprachausgabe aktiviert ist, können Sie sprachausgabe+STRG+D drücken, um eine Beschreibung des Bilds oder Elements zu erhalten, auf das Sie sich konzentrieren. 

Die Beschreibung eines Bilds einer Kindertagesstätte lautet z. B.:

Das Bild zeigt eine große organisierte Anordnung von kleinen grünen Blattpflanzen, bei denen es sich wahrscheinlich um Sprossen oder Sämlinge handelt, die in einem ordentlichen dichten Gittermuster angeordnet sind. Jede Pflanze ist in einem kleinen flachen schwarzen Behälter enthalten, der eine Gärtnerei oder eine Pflanzungseinrichtung vorschlägt. Die Pflanzen sind gleichmäßig angeordnet und schaffen ein einheitliches und geordnetes Aussehen, das das Wachstum organization oder einer Sammlung symbolisieren kann. Die schwarzen Behälter bilden einen starken Kontrast zu den grünen Sprossen, die den Fokus auf die Pflanzen hervorheben.

Bildbeschreibungen in der Sprachausgabe dienen dazu, Textbeschreibungen visueller Inhalte für blinde oder sehbehinderte Personen bereitzustellen. Die Beschreibungen sollen Ihr Verständnis von Bildern, Diagrammen und Diagrammen verbessern und die Barrierefreiheit unterstützen. Sie können die Bildbeschreibung erneut generieren und die Beschreibung zur späteren Referenz kopieren.

Um die Qualität der von der Sprachausgabe generierten Beschreibungen sicherzustellen, wurde ein Dataset mit verschiedenen Arten von Bildern erstellt. Diese Bilder enthielten natürliche Fotos, Diagramme, Diagramme, Screenshots und App-Benutzeroberflächen. Die generierten Beschreibungen wurden auf Genauigkeit, Vollständigkeit, Relevanz und Nützlichkeit ausgewertet. Verschiedene Bewertungsmethoden, darunter menschliche Expertenurteile und LLM-gestützte Bewertung, wurden verwendet, um Bereiche zur Verbesserung der Qualität der generierten Beschreibungen zu finden.

Microsoft ist bestrebt, verantwortungsvolle KI entwurfsbedingt zu erstellen. Unsere Arbeit wird von einem Kernsatz von Prinzipien geleitet: Fairness, Zuverlässigkeit und Sicherheit, Datenschutz und Sicherheit, Inklusivität, Transparenz und Verantwortlichkeit.   Die Sprachausgabe kann ungenaue Bildbeschreibungen, Daten in Diagrammen oder Diagrammen oder emotionale Rückschlüsse bereitstellen. Dies kann zu falschen Annahmen über ein Bild oder die Absicht visueller Inhalte führen, die auf der generierten Beschreibung basieren. Wir arbeiten weiterhin an den Modellen, die die Sprachausgabe verwendet, um die Qualität der bereitgestellten Bildbeschreibungen zu verbessern. Sie können Feedback mit einer der methoden übermitteln, die in Gewusst wie Feedback zu Bildbeschreibungen in der Sprachausgabe geben? 

Dieses Feature sollte nicht für Folgendes verwendet werden: 

  • Generierung von Beschreibungen für medizinische oder gesundheitsbezogene Bilder, die als medizinische Beratung fehlinterpretiert werden könnten. Falsche Beschreibungen können zu Fehlinformationen und potenziell schädlichen Entscheidungen von Benutzern führen.

  • Beschreibungen für Bilder in juristischen oder finanziellen Dokumenten generieren, bei denen die Genauigkeit von entscheidender Bedeutung ist. Fehlinterpretation solcher Bilder kann zu Rechtsstreitigkeiten oder finanziellen Verlusten führen

  • Beschreibungen für Bilder mit kulturellen oder religiösen Symbolen ohne richtigen Kontext zu generieren. Fehlinterpretation kann zu kultureller Unempfindlichkeit oder Beleidigung führen.

  • Generieren von Beschreibungen für Bilder, die Karten, Flags oder Globen enthalten. Eine Fehlinterpretation dieser Bilder könnte zu Fehlinformationen und beteiligungen an internationalen Angelegenheiten führen.

Um eine Bildbeschreibung zu erhalten, wenn die Sprachausgabe aktiviert ist, drücken Sie sprachausgabe+STRG+D , während Sie sich auf den visuellen Inhalt konzentrieren. Um Bildbeschreibungen in der Sprachausgabe zu deaktivieren, wechseln Sie zu Einstellungen > Barrierefreiheit > Sprachausgabe > Bildbeschreibungen, Seitentitel und beliebte Links abrufen, und wählen Sie den Umschaltschalter aus.   

Die Beschreibungen der Sprachausgabe können ungenau sein. Um die Qualität von Beschreibungen zu verbessern, können Sie Feedback geben, indem Sie: 

  • Auswählen des Daumen-nach-oben- oder Daumen-nach-unten-Symbols in einer Bildbeschreibung auf der Benutzeroberfläche der Sprachausgabe.

  • Reaktion auf gelegentliche Aufforderungen von Windows, die Sie auffordern, das produkt oder die dienste, die Sie verwenden, zu bewerten oder schriftliches Feedback zu geben.

  • Öffnen Sie den Feedback-Hub , um ähnliches Feedback zu finden, um zustimmen oder neues Feedback zu geben, indem Sie das Formular ausfüllen.

Verpflichtung von Microsoft zu verantwortungsvoller KI und Datenschutz

Microsoft arbeitet seit 2017 daran, KI verantwortungsbewusst weiter zu entwickeln, als wir unsere KI-Prinzipien zum ersten Mal definiert und später unseren Ansatz mit unserem Responsible AI Standard operationalisiert haben. Datenschutz und Sicherheit sind grundlegende Prinzipien bei der Entwicklung und Bereitstellung von KI-Systemen. Wir bemühen uns unseren Kunden zu helfen, unsere KI-Produkte verantwortungsvoll zu nutzen, unsere Erkenntnisse zu teilen und vertrauensbasierte Partnerschaften aufzubauen. Weitere Informationen zu unseren verantwortungsvollen KI-Bemühungen, den Grundsätzen, die uns leiten, und den Tools und Fähigkeiten, die wir geschaffen haben, um sicherzustellen, dass wir KI-Technologie verantwortungsvoll entwickeln, finden Sie unter Verantwortungsvolle KI

Eine umfassende Bildbeschreibung in der Sprachausgabe wurde entwickelt, um die Barrierefreiheit für blinde und sehbehinderte Benutzer zu verbessern und ist nicht für ein breiteres Publikum gedacht. Die KI-Modelle für dieses Feature verwenden kontextbezogene Hinweise im gesamten Bild, einschließlich Personen oder Entitäten im Hintergrund. Dies ist die Möglichkeit, wie die Modelle das Bild trotzdem einer Person zuordnen oder Emotionen beschreiben können. Umfangreiche Bildbeschreibungen in der Sprachausgabe ermöglichen emotionale Rückschlüsse, verwenden jedoch keine biometrischen Daten. Jede Verarbeitung, die Ergebnisse zurückgibt, die eine Person identifizieren oder die Emotionen einer Person ableiten, ist nicht das Ergebnis der Verarbeitung des Gesichts, z. B. Gesichtserkennung, Generierung und Vergleich von Gesichtsvorlagen. Wenn ein Bild beispielsweise ein Foto eines beliebten Sportlers enthält, der das Trikot seines Teams und seine spezifische Nummer trägt, geben die Modelle möglicherweise trotzdem ein Ergebnis zurück, das die Person anhand dieser kontextbezogenen Hinweise identifizieren könnte. 

Dieses Merkmal sollte nicht verwendet werden, um die Emotionen natürlicher Personen am Arbeitsplatz oder in Bildungseinrichtungen (z. B. Arbeitnehmer oder Studenten) abzuleiten oder abzuleiten. Die Bildbeschreibung in der Sprachausgabe kann detaillierte Textbeschreibungen im Zusammenhang mit den gefühlten Emotionen von Personen in Bildern bereitstellen. Die Prozesse, die menschlichen Emotionen zugrunde liegen, sind komplex, und es gibt kulturelle, geografische und individuelle Unterschiede, die beeinflussen, wie wir Emotionen wahrnehmen, erleben und ausdrücken können. Reaktionen im Zusammenhang mit den Emotionen von Menschen in Bildern basieren auf ihrer Erscheinung und geben möglicherweise nicht unbedingt genau den inneren Zustand einzelner Personen an. 

Veröffentlicht: 11. Februar 2025

Letzte Aktualisierung: 11. Februar 2025

Benötigen Sie weitere Hilfe?

Möchten Sie weitere Optionen?

Erkunden Sie die Abonnementvorteile, durchsuchen Sie Trainingskurse, erfahren Sie, wie Sie Ihr Gerät schützen und vieles mehr.