20201120_Speaker_Keyvisual_final_Vorlage_Zeichenfläche 1

Eine Sprachassistenzplattform
»Made in Germany«

Werden Sie assoziierter Partner dieses Projekts

Eine Partnerschaft bietet Ihnen die Möglichkeit, Ihre marktspezifischen Anforderungen an ein natürlichsprachliches Assistenzsystem zu realisieren.

Sprachassistenten sind eine Kerntechnologie für die Mensch-Maschine-Kommunikation und bieten einen natürlichsprachlichen Zugang zu Produktangeboten und Dienstleistungen. Der Markt für Sprachassistenzlösungen wird bisher von US-amerikanischen und asiatischen Unternehmen dominiert. Der Bedarf der deutschen Industrie und Wirtschaft an Sprachassistenzlösungen ist enorm, besonders hinsichtlich Datensouveränität besteht die Notwendigkeit, personenbezogene Daten besser zu schützen und sicher auszutauschen. Mit einer deutschen Sprachassistentenlösung ist dies möglich, da europäische Standards der Datensicherheit umgesetzt werden. Gleichzeitig wird ein neuer Grad der Qualität in der Mensch-Maschine-Kommunikation möglich, der weit über die semantischen Fähigkeiten aktueller Systeme hinausgeht und dadurch um einiges nutzerfreundlicher wird.

Hierzu haben sich mit dem Fraunhofer IIS und dem Fraunhofer IAIS institutsübergreifend Experten aus den Bereichen Sprachsignalverarbeitung, Sprachverstehen, künstlicher Intelligenz und Software-Engineering zusammengeschlossen. Das Fraunhofer IIS hat auf dem Gebiet der akustischen Signalverarbeitung bereits eine weltmarkführende Position inne. Die Technologie ist Grundlage für hohe Zuverlässigkeit und Robustheit von Sprachverarbeitung. Das Fraunhofer IAIS hat führende Algorithmen im Bereich der Spracherkennung und der automatisierten Beantwortung von Fragen entwickelt. Ziel ist es, diese technologische Führerschaft weiter auszubauen und in eine skalierbare, mehrsprachige und offene Sprachassistentenplattform zu integrieren. Fraunhofer Technologie kann dann unternehmensspezifisch angepasst werden und die Datensouveränität von Industrie und Wirtschaft unterstützen.

Fraunhofer erarbeitet im Rahmen des Innovationswettbewerbs »Künstliche Intelligenz als Treiber für volkswirtschaftlich relevante Ökosysteme« ein Konzept für das groß angelegte Forschungs- und Entwicklungsprojekt SPEAKER unter Förderung des Bundesministeriums für Wirtschaft und Klimaschutz.

Sprachassistenten in der Instandhaltung

Deutsche Bahn hat ein zentrales Anliegen: mehr Verkehr auf die Schiene verlagern. Damit das gelingt, setzen wir u.a. auf die Digitalisierung unserer Prozesse. In der Instandhaltung sind dabei Sprachassistenten ein wichtiger Hebel. Mit SPEAKER vereinfachen wir die Dokumentation und Abfrage von Informationen für unsere Mitarbeiter.

Sprachassistent für Polizei

Mobiler Sprachassistent für Polizeikräfte bei der Unfall- und Tatortaufnahme. Sowohl das gesprochene Protokoll der Polizeikraft als auch Gespräche mit Personen vor Ort, werden in Echtzeit transkribiert und in Protokollform dargestellt.

Sprachassistent für die Fahrzeugentwicklung

In der Fahrzeugerprobung und -applikation stehen Ingenieur:innen vor der Herausforderung ein Fahrzeug sicher zu führen und zeitgleich komplexe Aufgaben zu erledigen. Dazu gehören Mess- bzw. Applikationssoftware zu steuern, Bug-Tickets zu erzeugen oder einfach nur Notizen zu machen. Unser Assistent für die Fahrzeugerprobung unterstützt den Fahrer dabei diese Aufgaben per Sprache effizient erledigen zu können und schützt dabei persönliche Informationen sowie sensible Kundendaten. Außerdem versteht er fachspezifisches Vokabular, ist lokal lauffähig, individuell anpassbar und lässt sich leicht in eine bestehende Softwareumgebung integrieren.

Hospitality – Smart Speaker in Hotels

Im Zuhause vieler Menschen sind Sprachassistenten bereits zu einer Selbstverständlichkeit geworden. Warum also nicht auch auf Reisen die Vorteile digitaler Assistenz nutzen? Unser Sprachassistent für Hotelzimmer macht es möglich! Er bietet Unterhaltung, Informationsauskunft, Buchung/Reservierung von Hotelservices und viele weitere Funktionen: So wird der Hotelaufenthalt zu einem modernen Erlebnis. Dabei stehen Privatsphäre und Datensicherheit der Gäste natürlich immer im Vordergrund. Der Smart Speaker und seine Funktionalitäten können individuell auf die Angebote, Systeme und Besonderheiten von Hotels angepasst werden und trägt zur Entlastung des Hotelpersonals bei.

Forschungsprojekt SPEAKER – DATEV spricht!

DATEV evaluiert im SPEAKER-Projekt steuerliche und serviceorientierte Anwendungsfälle, die in kundenorientierte Lösungen einfließen werden. In dynamischen Dialogen (QA) werden Fragen von Kunden rund um die Uhr beantwortet.

Cloudbasierter Android-Assistent

Unser cloudbasierter Assistent für Android-Betriebssysteme funktioniert geräteübergreifend und bietet eine exzellente Spracherkennung, sowie eine performante Sprachsynthese. Die Verwendung der Speaker-Plattform in Verbindung mit einer Cloud macht es möglich, dass der Assistent sowohl den hohen Anforderungen an Datensicherheit und Privatsphäre als auch den Erwartungen der Anwender an Featuren und Performance gerecht wird. Ein Highlight bildet hier die Unterstützung einer Sprechererkennung, die ebenfalls ohne eine Verletzung von Datenschutzanforderungen möglich ist, da der Client die alleinige Datenhoheit behält.

Überblick

Ziel des SPEAKER-Projektes ist der Aufbau einer führenden Sprachassistenzplattform „Made in Germany“ für Business-to-Business-Anwendungen (B2B). Die Plattform soll offen, modular und skalierbar sein und Technologien, Dienste und Daten über Serviceschnittstellen bereitstellen. Die SPEAKER-Plattform wird eingebettet in ein umfassendes Ökosystem bestehend aus Großindustrie, mittelständischen Unternehmen, Start-Ups und Forschungspartnern, die eine hohe Innovationsfähigkeit sicherstellen. Der Aufbau der Plattform und des Ökosystems wird durch das Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) und das Fraunhofer Institut für Integrierte Schaltungen (IIS) gewährleistet, die bereits über entsprechende Technologien und Erfahrungen im Bereich Sprachassistenztechnologien, Plattformen (z. B. AI4EU – European AI Plattform on Demand) und weltweite Vermarktungsstrategien für Sprach- und Audiotechnologien (z. B. MP3) verfügen.

Die beiden Fraunhofer Institute IIS und IAIS haben Workshops mit zahlreichen Unternehmen durchgeführt, um Anforderungen, Hemmnisse und Handlungsempfehlungen zu erarbeiten, die als Grundlage für die Konzeption und den Aufbau der Plattform dienen. Die wichtigsten Argumente für eine Sprachassistenzplattform „Made in Germany“ sind Datenschutz, Sicherheit, Privacy und Vertrauen. Besonders durch die kürzlich gemeldeten Vorfälle bei der nicht DSGVO-konformen Gesprächsauswertung bei Google, Alexa und Siri ist dieser Missstand offenkundig geworden. Dies gilt in noch stärkerem Maße für das B2B-Umfeld, in dem unternehmensinterne Daten geschützt werden müssen. Daher adressiert die SPEAKER-Plattform die Themen Daten- und Technologiesouveränität auf diesem wichtigen Zukunftsfeld der Mensch-Maschine-Kommunikation. Darüber hinaus wurden Anforderungen zu den Themen domänenspezifische Anpassbarkeit, Flexibilität bei der Auswahl und Nutzung der Module, offene Schnittstellen zu Datenbanken und Anwendungen, Multilingualität, Paralinguistik (z. B. Erkennung von Emotionen in Stimmlagen) und Beteiligung sowie Aufbau einer Nutzergemeinschaft identifiziert. Parallel zu den Anforderungserhebungen wurden aktuelle Marktstudien ausgewertet, die ein starkes Marktwachstum von Sprachassistenten prognostizieren. Durchschnittlich wird eine 25-prozentige jährliche Zunahme von Geräten mit Sprachassistenzfunktion in den kommenden vier Jahren erwartet.

Ziel der SPEAKER-Plattform ist es, offene, transparente und sichere Sprachassistenzanwendungen bereitzustellen. Dazu gilt es, führende Technologien der Audiovorverarbeitung, Spracherkennung, Natural-Language-Understanding (NLU), Question Answering (QA), Dialogmanagement und Sprachsynthese mittels künstlicher Intelligenz (KI) und Machine Learning zur einfachen und unkomplizierten Nutzung verfügbar zu machen. Aus diesen Schlüsselmodulen werden industrielle Sprachassistenzanwendungen entwickelt, die wiederum über die Plattform in Form von fertigen Skills anderen Marktteilnehmern zur Verfügung gestellt werden können.

Im Vergleich zu bestehenden Sprachassistenzumgebungen (Alexa, Google Assistant) sind folgende wichtigen Eigenschaften gewährleistet und hervorgehoben: Modularität, Datenschutz und Privacy, Offenheit hinsichtlich Technologien, Vernetzung und Verbreitung durch ein offenes Ökosystem und Innovationsfähigkeit. Außerdem wird Datenvielfalt für B2B-Anwendungen durch die Bereitstellung einer Datenplattform und Einbeziehung von Daten- und Anwendungspartnern ermöglicht. Über die Infrastruktur der SPEAKER-Plattform wird ein Austausch von Daten ermöglicht (Community-Ansatz). Außerdem besteht über internationale Netzwerke (MetaNet, European Language Grid) der Zugang zu zahlreichen Sprachkorpora. Die SPEAKER-Plattform wird industrielle Skalierungsmechanismen (z.B. Docker, Kubernetes, Redis) nutzen. Hierzu arbeitet SPEAKER mit dem deutschen Unternehmen Cloud&Heat zusammen. Diese Kooperation ermöglicht uns neben der Gewährleistung von Skalierbarkeit auch Datensicherheit nach DSGVO-Grundsätzen sicherzustellen. Nach Übergabe der Plattform an die Betreibergesellschaft, wird der öffentliche Start der Plattform eine frühzeitige Etablierung der Plattform ermöglichen und so SPEAKER nachhaltig aufstellen. SPEAKER wird zu vergleichbaren Kosten wie etablierte Plattformen angeboten werden und sich vor allem auf B2B-Anwendungen fokussieren.

zurück zum Seitenanfang

Konsortialführer

Verbundpartner

Verbundpartner, auch Konsortialpartner genannt, die sich bereit erklärt haben, einen Anwendungsfall zu definieren und gemeinsam mit dem SPEAKER-Konsortium durchzuführen.

zurück zum Seitenanfang

Assoziierte Partner

Unternehmen, Verbände, Kommunen oder andere Organisationen, die keine Fördermittel beantragen, können als assoziierte Partner in den Projektverbund aufgenommen werden und profitieren dadurch während der Umsetzungsphase von einem kostenfreien Zugang zur SPEAKER-Plattform.

zurück zum Seitenanfang

Veranstaltungen

Aktuelle Events

SPEAKER-Projekt Abschlussveranstaltung

am 28.09 in Berlin

Vergangene Events

Hub.Berlin am 18. und 19.04.2021 in Berlin

Fachseminar „Smart Living – intelligent, vernetzt, energieeffizient“
am 16. und 17.09.2020 in Nürnberg

Hannover Messe 2020 vom 13.07. bis zum 27.07.2020 in Hannover

1st International Workshop on Language Technology Platforms (IWLTP 2020)
am 16.05.2020 in Marseille

Voice Connected Business am 14. und 15.05.2020 in Frankfurt

Start der Umsetzungsphase des SPEAKER Projekts am 01.04.2020

ITG-Fachgruppentreffen „Signalverarbeitung und maschinelles Lernen“
am 06.03.2020 in Sankt Augustin

ITG Workshop Sprachassistenten am 03.03.2020 in Magdeburg

Einreichung der Gesamtvorhabensbeschreibung am 15.10.2019

Eröffnungsfeier Forum Digitale Technologien & Bekanntgabe der Gewinner des
KI-Innovationswettbewerbs am 19.09.2019 in Berlin

Vorlesungsreihe am Fraunhofer IIS zu Natural Language Processing mit Dr. Xin Wang
am 13.09.2019 in Erlangen

Abgabe des Umsetzungskonzepts für die Durchführungsphase am 16.08.2019

Projektinterne Workshops

07.04.2020 Projekt Kick-Off

30.07.2020 Voice UX Workshop

08.10.2020 Erstes Meilensteinmeeting

13.11.2020 Data Annotation Workshop

26.11.2020 Plattform Workshop

09.12.2020 Modell-Workshop Spracherkennung

23.02.2021 Wikispeech-Workshop

04.03.2021 Workshop Dialogmanager, Dialogeditor und NLU

16.03.2021 Multimodality Workshop

18.03.2021 Workshop Text-to-Speech

15.04.2021 Zweites Meilensteinmeeting

24.06.2021 Data Annotation Workshop

20.12.2021 Drittes Meilensteinmeeting

24.02.2022 Question Answering over Knowledge Graphs

Legende:
Fördergeber, Projektträger, Verbundpartner | Verbundpartner & assoziierte Partner | Verbundpartner

zurück zum Seitenanfang

Publikationen

The AudioLabs System for the Blizzard Challenge 2023

F. Zalkow et al.: ISCA Proceedings, 2023

Subjective Evaluation of Text-to-Speech Models: Comparing Absolute Category Rating and Ranking by Elimination Tests

K. Kayyar, C. Dittmar, N. Pia, and E. A. P. Habets: ISCA Proceedings, 2023

Multi-Speaker Text-to-Speech Using ForwardTacotron with Improved Duration Prediction

K. Kayyar, C. Dittmar, N. Pia, and E. A. P. Habets: ITG Conference on Speech Communication Proceedings, 2023

Low-Resource Text-to-Speech Using Specific Data and Noise Augmentation

K. Kayyar, C. Dittmar, N. Pia, and E. A. P. Habets: EUSIPCO Proceedings, 2023

Improving the Naturalness of Synthesized Spectrograms for TTS Using GAN-Based Post-Processing

P. Sani, J. Bauer, F. Zalkow, E. A. P. Habets, and C. Dittmar: ITG Conference on Speech Communication Proceedings, 2023

Evaluating Speech–Phoneme Alignment and its Impact on Neural Text-To-Speech Synthesis

F. Zalkow, P. Govalkar, M. Müller, E. A. P. Habets, and C. Dittmar: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023

Uncertain yet rational - Uncertainty as an Evaluation Measure of Rational Privacy Decision-Making in Conversational AI

A. Leschanowsky, B. Popp, and N. Peters: 25th International Conference On Human-Computer Interaction, 2023

Knowledge Distillation Meets Few-Shot Learning: An Approach for Few-Shot Intent Classification Within and Across Domains

A. Sauer, S. Asaadi, and F. Küch: NLP Proceedings, 2022

WoS - Open Source Wizard of Oz for Speech Systems

B. Brüggemeier & P. Lalone: IUI Proceedings, 2019

A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction

P. Govalkar, J. Fischer, F. Zalkow & C. Dittmar: ISCA SSW Proceedings, 2019

Segmenting multi-intent queries for spoken language understanding

R. Shet, E. Davcheva & C. Uhle: ESSV Proceedings, 2019

Privacy in Speech Interfaces

T. Bäckström, B. Brüggemeier & J. Fischer: ITG News, 2020 (nicht online verfügbar)

User Experience of Alexa, Siri and Google Assistant when controlling music – comparison of four questionnaires

B. Brüggemeier, M. Breiter, M. Kurz & J. Schiwy: HCII 2020 – Late Breaking Papers Springer LNCS Proceedings, Copenhagen, Denmark, 2020 (nicht frei verfügbar)

User Experience of Alexa when controlling music – comparison of face and construct validity of four questionnaires

B. Brüggemeier, M. Breiter, M. Kurz & J. Schiwy: 2nd Conference on Conversational User Interfaces (CUI 2020), Bilbao, Spain, 2020

Aufbau einer führenden Sprachassistenzplattform 'Made in Germany'

B. Brüggemeier, J. Fischer, D. Laqua, C. Möller, R. Usbeck, K. Wagener, H. Wedig, P. Theile, D. Steinigen & C. Dittmar: Schlussbericht zum Vorhaben SPEAKER, 2020 (nicht online verfügbar)

Message Passing for Hyper-Relational Knowledge Graphs

M. Galkin, P. Trivedi, G. Maheshwari, R. Usbeck & J. Lehmann: 2020

Language Model Transformers as Evaluators for Open-domain Dialogues

R. Nedelchev, J. Lehmann & R. Usbeck: Proceedings of the 28th International Conference on Computational Linguistics, pages 6797–6808, Barcelona, Spain (Online), 2020. International Committee on Computational Linguistics

Towards an interoperable ecosystem of AI and LT platforms: A roadmap for the implementation of different levels of interoperability

G. Rehm, D. Galanis, P. Labropoulou, S. Piperidis, M. Welß, R. Usbeck, J. Köhler, M. Deligiannis, K. Gkirtzou, J. Fischer, C. Chiarcos, N. Feldhus, J. Moreno Schneider, F. Kintzel, E. Montiel-Ponsoda, V. Rodríguez-Doncel, J. Philip McCrae, D. Laqua, I. P. Theile, C. Dittmar, K. Bontcheva, I. Roberts, A. Vasiljevs & A. Lagzdins: G. Rehm, K. Bontcheva, K. Choukri, J. Hajic, S. Piperidis, and A. Vasiljevs [editors]: Proceedings of the 1st International Workshop on Language Technology Platforms, IWLTP@LREC 2020, Marseille, France, 2020, pages 96–107. European Language Resources Association, 2020

User Preference and Categories for Error Responses in Conversational User Interfaces

S. Yuan, B. Brüggemeier, S. Hillmann & T. Michael: 2nd Conference on Conversational User Interfaces (CUI 2020), Bilbao, Spain, 2020 (Registrierung notwendig)

Crowdsourcing Ecologically-Valid Dialogue Data for German

Y. Frommherz and A. Zarcone: Frontiers in Computer Science 2021

New Domain, Major Effort? How Much Data is Necessary to Adapt a Temporal Tagger to the Voice Assistant Domain

T. Alam, A. Zarcone and S. Padó: Proceedings of the 14th International Conference on Computational Semantics (IWCS), June 2021, Groningen, The Netherlands (online), Association for Computational Linguistics

Design Implications for Human-Machine Interactions from a Qualitative Pilot Study on Privacy

Leschanowsky, A., Brüggemeier, B., Peters, N. (2021) Design Implications for Human-Machine Interactions from a Qualitative Pilot Study on Privacy. Proc. 2021 ISCA Symposium on Security and Privacy in Speech Communication, 76-79, doi: 10.21437/SPSC.2021-16

Fraunhofer - A Lightweight Neural TTS System for High-quality German Speech Synthesis

Govalkar, A. Mustafa, N. Pia, J. Bauer, M. Yurt, Y. Özer, C. Dittmar: „A Lightweight Neural TTS System for High-quality German Speech Synthesis“. ITG Speech Communication, Kiel, 2021

Not So Fast, Classifier – Accuracy and Entropy Reduction in Incremental Intent Classification

Hrycyk, A. Zarcone, L. Hahn: „Not So Fast, Classifier – Accuracy and Entropy Reduction in Incremental Intent Classification“. Proceedings of the 3rd Workshop on Natural Language Processing for Conversational AI, Punta Cana, 2021

Small Data in NLU: Proposals towards a Data-Centric Approach

Zarcone, J. Lehmann, E. Habets: „Small Data in NLU: Proposals towards a Data-Centric Approach“. Proceedings of the NeurIPS Data-centric AI Workshop, 52-67, 2021

Success is not Final; Failure is not Fatal – Task Success and User Experience in Interactions with Alexa, Google Assistant and Siri

Kurz, M., Brüggemeier, B., & Breiter, M. (2021). Success is not Final; Failure is not Fatal – Task Success and User Experience in Interactions with Alexa, Google Assistant and Siri. HCI.

Perceptions and reactions to conversational privacy initiated by a conversational user interface

Birgit Brüggemeier, Philip Lalone, Perceptions and reactions to conversational privacy initiated by a conversational user interface, Computer Speech & Language, Volume 71, 2022, 101269, ISSN 0885-2308, https://doi.org/10.1016/j.csl.2021.101269

Adapting Debiasing Strategies for Conversational AI

Leschanowsky A., Popp B., Peters N. (2022): Adapting Debiasing Strategies for Conversational AI. In: Proceedings of the International Conference on Privacy-friendly and Trustworthy Technology for Society – COST Action CA19121 – Network on Privacy-Aware Audio- and Video-Based Applications for Active and Assisted Living (nicht online verfügbar)

Predicting Request Success with Objective Features in German Multimodal Speech Assistants

Mareike Weber, Mhd Modar Halimeh, Walter Kellermann, and Birgit Popp, Predicting Request Success with Objective Features in German Multimodal Speech Assistants, Proceedings of Human Computer Interaction International HCII 2022, LNAI 13336, Artificial Intelligence in HCI , volume 35.

Chatbot Language - crowdsource perceptions and reactions to dialogue systems to inform dialogue design decision

Birgit Popp, Philip Lalone, Anna Leschanowsky. Chatbot Language – crowdsource perceptions and reactions to dialogue systems to inform dialogue design decisions. Behavior Research Methods, 2022.

zurück zum Seitenanfang

Möchten Sie assoziierter Partner werden
oder haben Sie Fragen zum Projekt?

Nehmen Sie gerne mit mir direkt per Telefon Kontakt auf
oder nutzen Sie eine der weiteren Kontaktmöglichkeiten:

E-Mail: johannes.fischer@iis.fraunhofer.de oder speaker@iais.fraunhofer.de

Johannes Fischer

Fraunhofer IIS
+49 (0) 9131 / 776 – 6297

Anmeldung am Infomail-Service des SPEAKER Projekts

In losen Abständen möchten wir Sie in unserer Infomail über aktuelle Themen, Hintergründe und Events in Zusammenhang mit dem SPEAKER Projekt informieren. Mit dem Abschicken dieses Formulars erklären Sie sich damit einverstanden, dass die von Ihnen angegebenen Daten von den beiden Konsortialpartnern, Fraunhofer IIS und Fraunhofer IAIS erhoben und ausschließlich für das Verschicken der SPEAKER Infomail verwendet und nicht an Dritte weitergegeben werden.
Der Verwendung Ihrer Daten können Sie jederzeit durch eine E-Mail an amm-info@iis.fraunhofer.de widersprechen.