Skip to content

Pillar — Sprach-KI

Sprach-KI-Interviewer: GAIA

Zuletzt aktualisiert: 30. April 2026

Ein Sprach-KI-Interviewer ist Software, die gesprochene Interviews mit STT, LLM und TTS in einer Echtzeitschleife durchführt, samt Sprecherwechsel und Erkennung von Unterbrechungen. Der Sprach-KI-Interviewer von Intrvio ist GAIA: ein echtes Gespräch, keine asynchronen Videos und keine Chatbots. GAIA hört Bewerbern in Echtzeit zu, wechselt die Sprecherrolle und erstellt belegbasierte Bewertungsbögen.

Was ist ein Sprach-KI-Interviewer?

Ein Sprach-KI-Interviewer ist ein Softwaresystem, das ein natuerliches gesprochenes Gespraech fuehrt: Eine Bewerberin spricht, das System hoert zu, uebernimmt die Sprecherrolle und stellt dann eine Anschlussfrage zu einem definierten Ziel. Anders als Einweg-Video-Tools, die Bewerber lediglich beim Monolog gegen Aufforderungen aufzeichnen, fuehrt ein Sprach-KI-Interviewer ein echtes Wechselgespraech. Der Unterschied zu Chatbot-Vorbereitungstools ist die Modalitaet: Sprache statt Text, Sprecherwechsel statt Datenstrom und der Druck eines echten Interviews statt eines getippten Verlaufs.

Ein wichtiger Vorbehalt: Ein Sprach-KI-Interviewer ist kein Entscheider. Er ist ein Instrument zum Sammeln von Belegen, das die Antworten einer Bewerberin in strukturierte Belege rund um ein Bewertungsraster ueberfuehrt und sie an eine menschliche Pruefperson uebergibt. Die Entscheidung liegt immer bei einem Menschen.

Wie GAIA unter der Haube funktioniert

GAIA baut auf der Standardarchitektur fuer Echtzeit-Sprachagenten mit drei Hauptkomponenten auf: Spracherkennung (Whisper-Modelle), die Audio in ein Transkript ueberfuehrt, ein LLM, das die Auswahl der naechsten Frage und die Bewertung steuert, und ElevenLabs Text to Speech, das die menschenaehnliche gesprochene Antwort erzeugt. Darauf haben wir eine Orchestrierung fuer Sprecherwechsel und Unterbrechungserkennung gesetzt, also eine Logik, die vorhersagt, wann eine Bewerberin fertig ist, bei Denkpausen mitten im Satz innehaelt und das Sprechen sauber abbricht, wenn die Bewerberin dazwischenredet.

Dieser Ansatz ist nicht neu. Apna, eine in Indien ansaessige Karriereplattform, berichtet von ueber 1,5 Millionen KI-Interviews und 7,5 Millionen Sprachminuten auf Basis von ElevenLabs, bei einer Ende-zu-Ende-Antwortzeit von rund 300 ms.[1] Bolna berichtet, dass 90 Prozent der zahlenden Kunden ElevenLabs als Standardanbieter fuer TTS waehlen und dass Bewerber, die laenger als 60 Sekunden im Gespraech bleiben, das Interview in 95 Prozent der Faelle abschliessen.[2] Maki People betreibt dieselbe Architektur fuer grosse Ketten wie TRG Wagamama, PwC und H&M und berichtet von hoeheren Abschlussquoten und einem staerkeren Bewerbersignal.[3]

Zwei Dinge unterscheiden GAIA. Erstens ist unser Anwendungsfall klar fokussiert: Wir sind ein strukturierter Interviewer, kein universeller Outbound-Anrufer. Das erlaubt uns, Prompts, Modus und Rasterbewertung eng zu optimieren. Zweitens ist der Belegspeicher unter der Haube so gebaut, dass er den Pflichten der Betreiber nach der EU-KI-Verordnung entspricht: Jedes Transkript, jede Bewertung und jeder menschliche Pruefschritt wird dauerhaft gespeichert.

Warum Sprache Einweg-Video schlaegt

Bewerber moegen Einweg-Videointerviews nicht. Sie wirken unpersoenlich, die Abbruchquote ist hoch, und eine mit Zeitstempel versehene Aufnahme vermittelt nicht dasselbe Signal wie ein echter Austausch. Sprach-KI-Interviewer schneiden besser ab, weil sie Schritt fuer Schritt die Fluessigkeit eines tatsaechlichen Gespraechs nachbilden.

SignalSprach-KIEinweg-Video
AbschlussquoteHoch (~95 % nach 60 s)[2]Meist niedriger
FairnesssignalGleiche Fragen, gleiches Raster, echte AnschlussfragenGleiche Fragen, aber keine Anschlussfragen
BewerberstimmungWaermer; fuehlt sich wie ein echtes Gespraech an[3]Kalt; Monolog in ein Aufnahmegeraet
Zeit bis zum ErgebnisSofortWartet auf die Pruefung durch Recruiter

Wann Sie Sprach-KI-Interviews NICHT einsetzen sollten

Seien wir ehrlich: Sprach-KI-Interviewer sind nicht in jeder Situation die richtige Wahl. In sensiblen, regulierten Bereichen, etwa bei klinischen Entscheidungen, Zeugenaussagen in Gerichtsverfahren oder Interviews mit Kindern oder schutzbeduerftigen Gruppen, sollten Sie Sprach-KI nicht als alleiniges Werkzeug einsetzen. Zwingen Sie Bewerber, die eine schriftliche Alternative bevorzugen, nicht zur Sprache; nach der EU-KI-Verordnung muessen Sie ihnen einen menschlichen Pruefweg bieten. Fuer Bewerber mit bestimmten Behinderungen, etwa erheblicher Hoer- oder Sprechbeeintraechtigung, ist ein von einer Fachkraft durchgefuehrtes, angepasstes Format die belegreichere Wahl.

Unsere allgemeine Faustregel: Setzen Sie Sprach-KI fuer strukturierte Interviews, Vorauswahlphasen und Bewerbersignale im grossen Massstab ein; leiten Sie hochsensible Faelle mit hohem Risiko an menschliche Panels weiter.

Loslegen

Testen Sie GAIA im Browser ueber die Demo, oder wechseln Sie direkt in den kostenlosen Uebungsmodus fuer Bewerber. Sind Sie Personalverantwortliche? Lesen Sie unsere Preise und die Seite zur Konformitaet mit der EU-KI-Verordnung.


Quellen

  1. [1] ElevenLabs — Apna scales 7.5 million AI interview minutes using ElevenLabs (Nov 2025).
  2. [2] ElevenLabs — Bolna powers recruitment voice agents with ElevenLabs (Jul 2025).
  3. [3] ElevenLabs — Maki People: Building the Future of AI-Driven Recruitment (Feb 2026).
  4. [4] ElevenLabs — Customer Stories.

Interviews mit Sprach-KI durchfuehren

Ein Interview konfigurieren. Alle durchfuehren.

Sprechen Sie im Demomodus fuenf Minuten mit GAIA. Sehen Sie sich danach die Preise an.