Als ich Joe Dolsons jüngsten Artikel über die Schnittstelle von KI und Barrierefreiheit las, schätzte ich die Skepsis, die er gegenüber KI im Allgemeinen und gegenüber der Art und Weise, wie viele sie nutzen, sehr. Tatsächlich bin ich selbst sehr skeptisch gegenüber KI, obwohl ich bei Microsoft als Stratege für Barrierefreiheitsinnovationen tätig bin und bei der Durchführung des Förderprogramms „AI for Accessibility“ mitgewirkt habe. Wie jedes Werkzeug kann KI auf sehr konstruktive, integrative und zugängliche Weise eingesetzt werden; und es kann auch in destruktiver, exklusiver und schädlicher Weise eingesetzt werden. Und es gibt auch jede Menge Verwendungsmöglichkeiten irgendwo im mittelmäßigen Mittelfeld.
Der Artikel wird unten fortgesetzt
Ich möchte, dass Sie dies als einen „Ja… und“-Beitrag betrachten, der Joes Beitrag ergänzt. Ich versuche nicht, irgendetwas von dem zu widerlegen, was er sagt, sondern vielmehr Projekte und Möglichkeiten sichtbar zu machen, bei denen KI für Menschen mit Behinderungen bedeutende Unterschiede bewirken kann. Um es klar auszudrücken: Ich sage nicht, dass es keine echten Risiken oder drängenden Probleme mit der KI gibt, die angegangen werden müssen – das gibt es, und wir mussten uns wie gestern damit befassen –, aber ich möchte mir ein wenig Zeit nehmen, um darüber zu sprechen, was möglich ist, in der Hoffnung, dass wir eines Tages dorthin gelangen.
In Joes Artikel wird viel Zeit darauf verwendet, über Computer-Vision-Modelle zu sprechen, die alternativen Text erzeugen. Er hebt eine Menge berechtigter Probleme mit dem aktuellen Stand der Dinge hervor. Und obwohl die Qualität und der Detailreichtum von Computer-Vision-Modellen in ihren Beschreibungen immer besser werden, sind ihre Ergebnisse nicht großartig. Wie er richtig darauf hinweist, ist der aktuelle Stand der Bildanalyse ziemlich schlecht – insbesondere für bestimmte Bildtypen –, was zum großen Teil darauf zurückzuführen ist, dass aktuelle KI-Systeme Bilder isoliert und nicht in den Kontexten untersuchen, in denen sie sich befinden (was eine Folge der getrennten „Grundmodelle“ für Textanalyse und Bildanalyse ist). Heutige Modelle sind auch nicht darauf trainiert, zwischen kontextrelevanten Bildern (die wahrscheinlich eine Beschreibung haben sollten) und rein dekorativen Bildern (die möglicherweise keiner Beschreibung bedürfen) zu unterscheiden. Dennoch glaube ich immer noch, dass in diesem Bereich Potenzial steckt.
Wie Joe erwähnt, sollte das Human-in-the-Loop-Authoring von Alternativtexten unbedingt eine Sache sein. Und wenn KI einspringen kann, um einen Ausgangspunkt für Alternativtext zu bieten – selbst wenn dieser Ausgangspunkt ein prompter Spruch sein könnte Was ist das für ein Blödsinn? Das ist überhaupt nicht richtig … Lassen Sie mich versuchen, einen Ausgangspunkt zu bieten– Ich denke, das ist ein Sieg.
Wenn wir noch einen Schritt weitergehen: Wenn wir ein Modell speziell darauf trainieren können, die Bildnutzung im Kontext zu analysieren, könnte uns das dabei helfen, schneller zu erkennen, welche Bilder wahrscheinlich dekorativ sind und welche wahrscheinlich einer Beschreibung bedürfen. Dies wird dazu beitragen, zu verdeutlichen, in welchen Kontexten Bildbeschreibungen erforderlich sind Und Dadurch wird die Effizienz der Autoren bei der Verbesserung der Zugänglichkeit ihrer Seiten verbessert.
Während es schwierig ist, komplexe Bilder – wie Grafiken und Diagramme – prägnant zu beschreiben (selbst für Menschen), weist das in der GPT4-Ankündigung geteilte Bildbeispiel auch auf eine interessante Gelegenheit hin. Nehmen wir an, Sie sind auf ein Diagramm gestoßen, dessen Beschreibung lediglich aus dem Titel des Diagramms und der Art der Visualisierung besteht, z. B.: Kreisdiagramm zum Vergleich der Smartphone-Nutzung mit der Feature-Phone-Nutzung bei US-Haushalten, die weniger als 30.000 US-Dollar pro Jahr verdienen. (Das wäre ein ziemlich schrecklicher Alternativtext für ein Diagramm, da dadurch viele Fragen zu den Daten unbeantwortet bleiben würden, aber nehmen wir andererseits an, dass dies die Beschreibung war, die vorhanden war.) Wenn Ihr Browser wüsste, dass es sich bei dem Bild um ein Kreisdiagramm handelt (weil ein integriertes Modell daraus geschlossen hat), stellen Sie sich eine Welt vor, in der Benutzer Fragen wie diese zur Grafik stellen könnten:
- Nutzen mehr Menschen Smartphones oder Feature-Phones?
- Wie viele noch?
- Gibt es eine Gruppe von Menschen, die in keinen dieser Bereiche fällt?
- Wie viele sind das?
Abgesehen von der Realität der Halluzinationen großer Sprachmodelle (LLM), bei denen ein Modell lediglich plausibel klingende „Fakten“ erfindet, könnte die Möglichkeit, auf diese Weise mehr über Bilder und Daten zu erfahren, für blinde und sehbehinderte Menschen sowie für Menschen mit verschiedenen Formen von Farbenblindheit, kognitiven Behinderungen usw. revolutionär sein. Es könnte auch im Bildungskontext nützlich sein, um Menschen zu helfen, die dürfen Sehen Sie sich diese Diagramme so an, wie sie sind, um die Daten in den Diagrammen zu verstehen.
Gehen Sie noch einen Schritt weiter: Was wäre, wenn Sie Ihren Browser bitten könnten, ein komplexes Diagramm zu vereinfachen? Was wäre, wenn Sie es bitten könnten, eine einzelne Linie in einem Liniendiagramm zu isolieren? Was wäre, wenn Sie Ihren Browser bitten könnten, die Farben der verschiedenen Linien zu vertauschen, um besser gegen eine Form Ihrer Farbenblindheit vorzugehen? Was wäre, wenn Sie es bitten könnten, Farben gegen Muster auszutauschen? Angesichts der chatbasierten Benutzeroberflächen dieser Tools und unserer vorhandenen Fähigkeit, Bilder in den heutigen KI-Tools zu manipulieren, scheint dies eine Möglichkeit zu sein.
Stellen Sie sich nun ein speziell entwickeltes Modell vor, das die Informationen aus diesem Diagramm extrahieren und in ein anderes Format konvertieren könnte. Beispielsweise könnte es dieses Kreisdiagramm (oder besser noch eine Reihe von Kreisdiagrammen) möglicherweise in zugänglichere (und nützlichere) Formate wie Tabellenkalkulationen umwandeln. Das wäre großartig!
Passende Algorithmen#Abschnitt3
Safiya Umoja Noble hat es mit dem Titel ihres Buches absolut auf den Punkt gebracht Algorithmen der Unterdrückung. Während sich ihr Buch auf die Art und Weise konzentrierte, wie Suchmaschinen Rassismus verstärken, denke ich, dass es ebenso wahr ist, dass alle Computermodelle das Potenzial haben, Konflikte, Voreingenommenheit und Intoleranz zu verstärken. Egal, ob Twitter Ihnen immer den neuesten Tweet eines gelangweilten Milliardärs zeigt, YouTube uns in ein Q-Loch schickt oder Instagram unsere Vorstellungen davon, wie natürliche Körper aussehen, verzerrt: Wir wissen, dass schlecht erstellte und gewartete Algorithmen unglaublich schädlich sind. Ein großer Teil davon ist auf einen Mangel an Diversität unter den Menschen zurückzuführen, die sie gestalten und aufbauen. Wenn diese Plattformen jedoch mit integrierter Integration aufgebaut werden, besteht ein echtes Potenzial für die Entwicklung von Algorithmen, um Menschen mit Behinderungen zu helfen.
Nehmen wir zum Beispiel Mentra. Sie sind ein Beschäftigungsnetzwerk für neurodivergente Menschen. Sie verwenden einen Algorithmus, um Arbeitssuchende anhand von über 75 Datenpunkten mit potenziellen Arbeitgebern zusammenzubringen. Auf der Seite der Arbeitssuchenden berücksichtigt es die Stärken jedes Kandidaten, seine notwendigen und bevorzugten Arbeitsplatzunterkünfte, Umweltsensibilitäten usw. Auf Arbeitgeberseite berücksichtigt es jedes Arbeitsumfeld, Kommunikationsfaktoren im Zusammenhang mit jedem Job und dergleichen. Als Unternehmen, das von neurodivergenten Leuten geführt wird, hat Mentra die Entscheidung getroffen, das Drehbuch umzudrehen, wenn es um typische Stellenangebote geht. Mithilfe ihres Algorithmus schlagen sie Unternehmen verfügbare Kandidaten vor, die dann mit Arbeitssuchenden in Kontakt treten können, an denen sie interessiert sind. Reduzierung der emotionalen und körperlichen Arbeit auf der Seite der Arbeitssuchenden.
Wenn mehr Menschen mit Behinderungen an der Entwicklung von Algorithmen beteiligt sind, kann dies die Wahrscheinlichkeit verringern, dass diese Algorithmen ihren Gemeinschaften Schaden zufügen. Deshalb sind vielfältige Teams so wichtig.
Stellen Sie sich vor, dass die Empfehlungsmaschine eines Social-Media-Unternehmens so eingestellt ist, dass sie analysiert, wem Sie folgen, und dass sie Follow-Empfehlungen für Personen priorisiert, die über ähnliche Dinge gesprochen haben, sich aber in einigen wesentlichen Punkten von Ihrem bestehenden Einflussbereich unterscheiden. Wenn Sie beispielsweise einer Gruppe nichtbehinderter weißer männlicher Akademiker folgen würden, die über KI sprechen, könnte das bedeuten, dass Sie Akademikern folgen, die behindert oder nicht weiß oder nicht männlich sind und ebenfalls über KI sprechen. Wenn Sie die Empfehlungen beherzigen würden, könnten Sie möglicherweise ein ganzheitlicheres und differenzierteres Verständnis davon erhalten, was im KI-Bereich geschieht. Dieselben Systeme sollten auch ihr Verständnis für Vorurteile gegenüber bestimmten Gemeinschaften nutzen – einschließlich beispielsweise der Behindertengemeinschaft –, um sicherzustellen, dass sie keinem ihrer Benutzer empfehlen, Konten zu folgen, die Vorurteile gegenüber diesen Gruppen aufrechterhalten (oder, schlimmer noch, Hass gegen sie verbreiten).
Andere Möglichkeiten, wie KI Menschen mit Behinderungen helfen kann#Abschnitt4
Wenn ich nicht versuchen würde, dies mit anderen Aufgaben zusammenzufassen, könnte ich sicher noch weitermachen und alle möglichen Beispiele dafür liefern, wie KI eingesetzt werden könnte, um Menschen mit Behinderungen zu helfen, aber ich werde diesen letzten Abschnitt zu einer Art Blitzrunde machen. In keiner bestimmten Reihenfolge:
- Stimmerhalt. Möglicherweise haben Sie das VALL-E-Papier oder die Ankündigung zum Global Accessibility Awareness Day von Apple gesehen oder sind mit den Voice-Preservation-Angeboten von Microsoft, Acapela oder anderen vertraut. Es ist möglich, ein KI-Modell so zu trainieren, dass es Ihre Stimme nachbildet, was ein enormer Segen für Menschen sein kann, die an ALS (Lou-Gehrig-Krankheit) oder Motoneuron-Erkrankung oder anderen Erkrankungen leiden, die zu einer Sprechunfähigkeit führen können. Das ist natürlich die gleiche Technologie, die auch zur Erstellung von Audio-Deepfakes verwendet werden kann, also ist es etwas, dem wir uns nähern müssen verantwortungsbewusstaber die Technologie hat wirklich transformatives Potenzial.
- Spracherkennung. Forscher wie die des Speech Accessibility Project bezahlen Menschen mit Behinderungen für ihre Hilfe beim Sammeln von Aufnahmen von Menschen mit atypischer Sprache. Während ich schreibe, rekrutieren sie aktiv Menschen mit Parkinson und verwandten Erkrankungen und haben Pläne, dies im Laufe des Projekts auf andere Erkrankungen auszuweiten. Diese Forschung wird zu umfassenderen Datensätzen führen, die es mehr Menschen mit Behinderungen ermöglichen werden, Sprachassistenten, Diktiersoftware und Sprachantwortdienste zu nutzen und ihre Computer und andere Geräte einfacher nur mit ihrer Stimme zu steuern.
- Texttransformation. Die aktuelle Generation von LLMs ist durchaus in der Lage, bestehende Textinhalte anzupassen, ohne Halluzinationen einzuschleusen. Dies ist eine enorme Erleichterung für Menschen mit kognitiven Behinderungen, die von Textzusammenfassungen oder vereinfachten Textversionen oder sogar Texten, die für das bionische Lesen vorbereitet sind, profitieren können.
Die Bedeutung vielfältiger Teams und Daten#Abschnitt5
Wir müssen erkennen, dass unsere Unterschiede wichtig sind. Unsere gelebten Erfahrungen werden durch die Schnittmengen der Identitäten, in denen wir leben, beeinflusst. Diese gelebten Erfahrungen – mit all ihrer Komplexität (sowie Freude und Schmerz) – sind wertvolle Inputs für die Software, Dienste und Gesellschaften, die wir gestalten. Unsere Unterschiede müssen in den Daten dargestellt werden, die wir zum Trainieren neuer Modelle verwenden, und die Leute, die diese wertvollen Informationen beisteuern, müssen dafür entschädigt werden, dass sie sie mit uns teilen. Inklusive Datensätze führen zu robusteren Modellen, die gerechtere Ergebnisse fördern.
Möchten Sie ein Modell, das Menschen mit Behinderungen nicht erniedrigt, bevormundet oder objektiviert? Stellen Sie sicher, dass Sie über Inhalte zu Behinderungen verfügen, die von Menschen mit unterschiedlichen Behinderungen verfasst wurden, und stellen Sie sicher, dass diese in den Trainingsdaten gut dargestellt werden.
Möchten Sie ein Modell, das keine Behindertensprache verwendet? Möglicherweise können Sie vorhandene Datensätze verwenden, um einen Filter zu erstellen, der Behindertensprache abfängt und behebt, bevor sie die Leser erreicht. Allerdings werden KI-Modelle beim Sensitivitätslesen in absehbarer Zeit menschliche Lektoren nicht ersetzen.
Möchten Sie einen Programmier-Copiloten, der Ihnen von Anfang an verständliche Empfehlungen gibt? Trainieren Sie es mit Code, von dem Sie wissen, dass er zugänglich ist.
Ich habe keinen Zweifel daran, dass KI den Menschen schaden kann und wird – heute, morgen und auch in der Zukunft. Aber ich glaube auch, dass wir dies anerkennen und mit Blick auf Zugänglichkeit (und allgemeiner auf Inklusion) durchdachte, rücksichtsvolle und absichtliche Änderungen an unseren Ansätzen zur KI vornehmen können, die mit der Zeit auch den Schaden verringern. Heute, morgen und bis weit in die Zukunft hinein.
Vielen Dank an Kartik Sawhney für die Unterstützung bei der Entwicklung dieses Artikels, an Ashley Bischoff für ihre unschätzbare redaktionelle Unterstützung und natürlich an Joe Dolson für die Anregung.
Credit Post By: by