Skip to content

Pillar — IA vocale

Intervieweur IA vocal : GAIA

Derniere mise a jour : 30 avril 2026

Un intervieweur IA vocal est un logiciel qui mene des entretiens parles avec STT, LLM et TTS dans une boucle en temps reel, avec gestion des tours de parole et detection des interruptions. L'intervieweur IA vocal d'Intrvio est GAIA : une vraie conversation, pas des videos asynchrones ni des chatbots. GAIA ecoute les candidats en temps reel, prend la parole a son tour et produit des fiches d'evaluation fondees sur des preuves.

Qu'est-ce qu'un intervieweur IA vocal ?

Un intervieweur IA vocal est un systeme logiciel concu pour mener une conversation parlee naturelle : un candidat parle, le systeme ecoute, prend la parole a son tour, puis pose une question de suivi en fonction d'un objectif defini. Contrairement aux outils video a sens unique, qui se contentent d'enregistrer des candidats en monologue face a des consignes, un intervieweur IA vocal repond vraiment. La difference avec les outils de preparation par chatbot tient a la modalite : la voix plutot que le texte, les tours de parole plutot que le flux continu, et la pression d'un vrai entretien plutot qu'un fil de discussion ecrit.

Une precision importante : un intervieweur IA vocal n'est pas un decideur. C'est un instrument de collecte de preuves qui transforme les reponses d'un candidat en preuves structurees autour d'une grille d'evaluation, puis les remet a une personne chargee de l'examen. La decision appartient toujours a un humain.

Comment GAIA fonctionne en coulisses

GAIA repose sur l'architecture standard des agents vocaux en temps reel, avec trois composants principaux : la reconnaissance vocale (modeles de niveau Whisper) pour transformer l'audio en transcription, un LLM pour piloter le choix de la question suivante et l'evaluation, et ElevenLabs Text to Speech pour produire la reponse parlee proche de l'humain. Par-dessus, nous avons ajoute une orchestration de la gestion des tours de parole et de la detection des interruptions : une logique qui anticipe le moment ou un candidat a fini, marque une pause lors des silences de reflexion et s'interrompt proprement au milieu d'une phrase quand le candidat prend la parole.

Cette approche n'est pas nouvelle. Apna, une plateforme de carriere basee en Inde, indique avoir mene plus de 1,5 million d'entretiens IA et 7,5 millions de minutes vocales sur ElevenLabs, avec un temps de reponse de bout en bout d'environ 300 ms.[1] Bolna indique que 90 pour cent de ses clients payants choisissent ElevenLabs comme fournisseur TTS par defaut et que les candidats qui restent en ligne au-dela de 60 secondes terminent l'entretien dans 95 pour cent des cas.[2] Maki People exploite la meme architecture pour de grandes chaines comme TRG Wagamama, PwC et H&M et fait etat de taux d'achevement plus eleves et d'un signal candidat plus fort.[3]

Deux choses distinguent GAIA. Premierement, notre cas d'usage est unique : nous sommes un intervieweur structure, pas un agent d'appels sortants polyvalent. Cela nous permet d'optimiser etroitement les prompts, le mode et l'evaluation par grille. Deuxiemement, la pile de preuves en coulisses est concue pour correspondre aux obligations des deployeurs au titre du reglement europeen sur l'IA (AI Act) : chaque transcription, chaque score et chaque etape d'examen humain est conserve.

Pourquoi la voix surpasse la video a sens unique

Les candidats n'aiment pas les entretiens video a sens unique. Ils paraissent impersonnels, le taux d'abandon est eleve, et un enregistrement horodate ne transmet pas le meme signal qu'un veritable echange. Les intervieweurs IA vocaux font mieux parce qu'ils reproduisent, etape par etape, la fluidite d'une vraie conversation.

SignalIA vocaleVideo a sens unique
Taux d'achevementEleve (~95 % au-dela de 60 s)[2]Generalement plus faible
Signal d'equiteMemes questions, meme grille, vraies relancesMemes questions mais sans relance
Ressenti du candidatPlus chaleureux ; ressemble a une vraie conversation[3]Froid ; monologue face a un enregistreur
Delai d'obtention des resultatsImmediatDepend de l'examen du recruteur

Quand NE PAS utiliser les entretiens IA vocaux

Soyons honnetes : les intervieweurs IA vocaux ne sont pas la bonne reponse dans toutes les situations. Dans les domaines sensibles et reglementes, comme les decisions cliniques, les temoignages dans une procedure judiciaire ou les entretiens impliquant des enfants ou des groupes vulnerables, n'utilisez pas l'IA vocale comme seul outil. N'imposez pas la voix aux candidats qui preferent une alternative ecrite ; vous devez leur offrir un parcours d'examen humain au titre du reglement europeen sur l'IA (AI Act). Pour les candidats presentant certains handicaps, par exemple une deficience auditive ou de la parole importante, un format adapte mene par un specialiste est le choix le plus riche en preuves.

Notre regle generale : utilisez l'IA vocale pour les entretiens structures, les phases de presdelection et le signal candidat a grande echelle ; orientez les cas sensibles et a fort enjeu vers des jurys humains.

Commencer

Essayez GAIA dans le navigateur via la demo, ou passez directement au mode entrainement gratuit pour candidats. Vous etes responsable du recrutement ? Consultez nos tarifs et la page de conformite au reglement europeen sur l'IA (AI Act).


References

  1. [1] ElevenLabs — Apna scales 7.5 million AI interview minutes using ElevenLabs (Nov 2025).
  2. [2] ElevenLabs — Bolna powers recruitment voice agents with ElevenLabs (Jul 2025).
  3. [3] ElevenLabs — Maki People: Building the Future of AI-Driven Recruitment (Feb 2026).
  4. [4] ElevenLabs — Customer Stories.

Menez des entretiens avec l'IA vocale

Configurez un entretien. Menez-les tous.

Parlez a GAIA pendant 5 minutes en mode demo. Consultez ensuite les tarifs.