SPEAKER

Sprachassistenzplattform Made in Germany

Sie heißen Alexa, Siri, Bixby oder Cortana: Sprachassistenten regeln vieles im Alltag automatisiert auf Zuruf. Doch dem Einsatz im lauten Großraumbüro oder gar in der Produktion sind sie nicht gewachsen. Das Projekt SPEAKER entwickelt eine Sprachassistenzplattform auf Basis Künstlicher Intelligenz (KI) für Business-to-Business-Anwendungen (B2B). Ziel des Projekts ist, Infrastruktur, Technologiebausteine und Standards für B2B-Sprachassistenten in einem umfassenden Ökosystem bereitzustellen. Der Datenschutz und die Sicherheit personenbezogener und unternehmensrelevanter Informationen haben dabei oberste Priorität.

Partner

Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. (Konsortialführer), Deutsche Bahn AG, IAV GmbH Ingenieurgesellschaft Auto und Verkehr, SAP SE, Siemens AG, DATEV eG, audEERING GmbH, Comma Soft AG, GRUNDIG Business Systems GmbH, ONSEI GmbH, Retresco GmbH, Scopevisio AG, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Ludwig-Maximilians-Universität München, Technische Universität Carolo-Wilhelmina zu Braunschweig, Universität Paderborn, International Data Spaces e. V., CLOUD & HEAT Technologies GmbH.

Herausforderung

Der Bedarf nach Sprachassistenzlösungen in der Wirtschaft ist enorm, ihre Anwendungsmöglichkeiten erstrecken sich auf nahezu jede Branche. Die bereits existierenden, vornehmlich am Endkundenorientierten Sprachplattformen erfüllen die Ansprüche vieler deutscher Unternehmen aus mehreren Gründen jedoch nicht: Die aufgenommenen, mitunter sehr sensiblen Unternehmensinformationen werden auf Plattformen von außereuropäischen Unternehmen übertragen und verarbeitet, was geltenden Datenschutzvorschriften meistens widerspricht. Gleichzeitig scheitern aktuelle Lösungen auf der technischen Ebene daran, auch in Umgebungen mit hohen Störgeräuschpegeln den Sprecher zu verstehen, verschiedene Personen zu identifizieren oder Fachvokabular zu verstehen. Durch seine Sprachassistenzplattform „Made in Germany“ will das SPEAKER-Projekt diese Herausforderungen lösen.

Umsetzung

Herzstück des Ökosystems ist eine skalierbare, mehrsprachige Plattform, auf der maßgeschneiderte KI-Technologien und Dienste für viele verschiedene Anwendungsbereiche zur Verfügung gestellt werden. Unternehmen erhalten Zugriff auf die neuen Technologien inklusive der Möglichkeit, diese auf ihren Bedarf hin anzupassen.

So werden auf der Plattform Technologien aus den Bereichen Sprachsignalverarbeitung, Sprachverstehen sowie Künstliche Intelligenz (KI) entwickelt und bereitgestellt. Beispiele dafür sind eine Lösung für die Spracherkennung (Automatic Speech Recognition), Sprachverstehen (Natural Language Understanding) und Sprachsynthese (Text-to-Speech Synthesis). Damit werden in der Industrie beispielsweise Mitarbeiteend durch sprachgestützte Inspektionen und Qualitätssicherungen von Maschinen, Fahrzeugen oder Infrastrukturen entlastet sowie Service- und Verwaltungsprozesse effizienter gestaltet.

Die Technologie und Datensouveränität wird bei allen Anwendungen optimal in Einklang gebracht, um sie insbesondere deutschen Unternehmen mit hohen Datenschutzanforderungen gezielt und sicher anzubieten. Unternehmen erhalten zudem die Option, die Sprachassistentzlösungen in unternehmenseigenen Rechenzentren zu hosten.

Schon im bisherigen Projektverlauf konnten diverse Technologiekomponenten den Verbundpartnern in einer herausragenden Qualität bereitgestellt werden. So konnten die Partner bereits ausgiebig die wichtigen Ein- und Ausgabekomponenten, Spracherkennung und Sprachsynthese testen und sich von deren Leistungsfähigkeit überzeugen. Neben stetigen Verbesserungen konnten auch Partner-spezifische Anpassungen realisiert werden. Durch das Nachtrainieren auf domänenspezifisches Vokabular, so zum Beispiel firmenspezifische Begriffe wie Produkt- und Firmennamen oder technische Fachbegriffe, konnte eine wesentliche Verbesserung der Erkennungsrate realisiert werden, welche die Grundlage für die Verwendbarkeit des Sprachassistenten darstellt.

Der intuitiv zu bedienende Dialogeditor, welcher mittlerweile in einer zweiten Version vorliegt, ermöglicht es den Partnern deterministische Dialoge umzusetzen, um diese anschließend im Dialogmanager verwenden zu können. Auch hier konnten erste Dialoge in der Praxis erprobt werden und die Qualität der Technologiekomponenten demonstriert werden.

Dieses Zusammenspiel eines intuitiv zu bedienenden Dialogeditors, den anpassbaren Technologiekomponenten, sowie den kompromisslosen Datenschutz ermöglicht es den Projektpartnern ihre Pilotanwendungen umzusetzen und frühzeitig zu erproben.

Anwendung und Nutzen

Die SPEAKER-Plattform ermöglicht die Umsetzung spezialisierter Sprachassistenten im B2B-Umfeld unter Einhaltung höchster Datenschutzkriterien. Durch die Erweiterungsmöglichkeit um spezialisierte Technologiekomponenten können sämtliche Branchen von der neu geschaffenen Sprachassistenzplattform profitieren. Im Projekt werden konkrete Lösungen im Gesundheitsbereich, im Kundenservice und im technischen Service entwickelt. Die Plattform soll von einer ausgegründeten Betreibergesellschaft betrieben werden, welche flexible Lizenzmodelle für die Nutzung der Angebote ermöglicht.
Im Laufe der Projektlaufzeit werden verschiedene Use Cases entwickelt und in der Praxis erprobt. Im Folgenden sind exemplarisch drei beschrieben.

Gesundheitslogbuch

Ein Gesundheitslogbuch, in dem Patientinnen und Patienten ihre Beobachtungen per Spracherkennung festhalten, kann den Gesundheitszustand von diesen lückenlos und möglichst barrierefrei dokumentieren. Somit ermöglicht die KI-basierte Lösungen von SPEAKER eine sehr einfache und intuitive Nutzung eines solchen Dokuments. Darauf aufbauend leiten die behandelnden Ärzte Diagnosen und Therapiemöglichkeiten ab.

Digitaler Sprachassistent im Kundenservice

Der digitale Sprachassistent soll rund um die Uhr für Mandanten von Steuerberatungs- und Rechtsanwaltskanzleien für Fragen und Informationen zur Verfügung stehen. Diese Anwendung demonstriert besonders die datenschutzkonforme Verarbeitung höchst sensibler Informationen und den Umgang mit Fachvokabular.

Wartungsunterstützung

Mit Hilfe einer Sprachassistenzlösung wird das Personal bei Wartungsprotokollen unterstützt, indem bereits während der Prüfung oder Reparatur die wesentlichen Informationen per Spracheingabe hinterlegt werden.

Ohne SPEAKER	Mit SPEAKER
US-amerikanische und asiatische Unternehmen beherrschen den Markt der Sprachassistenten.	Eine sichere und DSGVO-konforme Sprachassistenzplattform „Made in Germany“ ist attraktiv für europäische und deutsche Unternehmen.
Viele Sprachassistenz-Lösungen bieten keine Datensouveränität, die Verarbeitung und Speicherung der Daten ist unklar.	Die SPEAKER-Plattform ermöglicht kompromisslose Datensouveränität.
Die domänenspezifische Anpassung der einzelnen Komponenten, wie das Erkennen von Fachvokabular, ist mit vorhandenen Lösungen nur bedingt umsetzbar.	Die SPEAKER-Plattform ermöglicht das Nachtrainieren einzelner Technologiekomponenten, um auch Anwendungen mit domänenspezifischen Fachbegriffen umzusetzen.
Am Markt vorhandene Sprachassistenz-Systeme sind nur eingeschränkt in der Lage, Dialoge zu führen.	Mit SPEAKER werden einfache Question-Answering-Szenarien bis hin zu komplexen, nichtlinearen, sogenannten Multi-turn-Dialogen ermöglicht.
Fachwissen z. B. zum Einsatzgebiet muss mit hohem individuellem Aufwand in die Sprachassistenzlösung eingebunden werden.	Mit Hilfe spezieller Technologiekomponenten von SPEAKER werden Wissensdarstellungen wie Datenbanken oder Wissensgraphen einfach integriert.