Skip to main content
AI асистентите в Aiplocalls могат да говорят в три различни режима. Всеки режим определя как се разбира речта на обаждащия се и как се генерира отговорът на асистента:
Избирането на правилния режим може да подобри времето за отговор, естествеността и цялостното изживяване на разговора.

1. Pipeline

Етикет в UIPipeline
Как работиSpeech-to-Text → LLM → Text-to-Speech
Латентност~800 – 1500 ms (зависи от езика и модела)
Най-добър заСложно разсъждение, динамични промпти, отговори от множество изречения
Режимът Pipeline първо транскрибира думите на обаждащия се в текст, прекарва този текст през езиковия модел, след което конвертира отговора обратно в аудио. Това е изпитан подход, който предлага максимална гъвкавост:
  • Поддържа всички гласове в библиотеката (включително персонализирани клонирани гласове).
  • Справя се добре с дълги отговори или отговори в стил параграф.
  • Позволява на LLM да инжектира променливи и да референцира по-ранен контекст чисто.

Кога да изберете Pipeline

  1. Нуждаете се от богати отговори от множество изречения (напр. заявки за поддръжка, подробни обяснения).
  2. Асистентът трябва да разсъждава над структурирани данни или сложни промпти.
  3. Предпочитате абсолютен контрол над говорещия глас (клониран или фирмен глас).

2. Speech-to-Speech (Multimodal)

Етикет в UISpeech-to-speech
Как работиДиректно speech-to-speech генериране (без междинен текст)
Латентност~300 – 600 ms (ултра ниска)
Най-добър заЕстествен диалог, кратки и реактивни отговори
Режимът Speech-to-speech прескача отделната транскрипция и TTS. Вместо това използва мултимодален модел, който слуша и говори директно, създавайки по-разговорен поток:
  • Бързо редуване – обаждащите се изпитват почти мгновени отговори.
  • Генерира по-експресивна прозодия естествено (интонация, запълвачи).
  • В момента поддържа ограничен набор гласове, но редовно се добавят нови.

Кога да изберете Speech-to-Speech

  1. Разговорът трябва да се чувства отзивчив (продажби, потвърждения на резервации).
  2. Отговорите ви са основно кратки изречения или бързи потвърждения.
  3. Доволни сте от предоставените от системата опции за глас за по-бърза интеракция.
Speech-to-speech се развива бързо. Ако се нуждаете от персонализиран клониран глас с ниска латентност, опитайте Dualplex.

3. Dualplex (Beta)

Етикет в UIDualplex
Как работиМултимодален STT + LLM (speech-to-speech) с ElevenLabs TTS изход
ЛатентностНиска (варира според гласа и модела)
Най-добър заБързи, естествени отговори с висококачествени/фирмени гласове (клонирани)
Dualplex комбинира отзивчивостта на speech-to-speech с премиум гласовете и клонирането от ElevenLabs, използвани в Pipeline. Асистентът използва мултимодалния модел за разбиране на обаждащия се и планиране на отговора, след което рендира финалната реч чрез ElevenLabs за последователен, висококачествен изход.
  • Почти мгновено редуване подобно на speech-to-speech.
  • Достъп до библиотеката с гласове на ElevenLabs, включително персонализирани клонирани гласове.
  • Отлично за кратки до средни отговори с експресивна прозодия.
  • Препоръчвана по подразбиране за повечето случаи на употреба днес; в момента в Beta.

Кога да изберете Dualplex

  1. Искате бърз диалог, но се нуждаете от фирмен или клониран глас.
  2. Искате по-експресивно предаване без да се откажете от прецизния избор на глас.
  3. Чувствате се комфортно да използвате нова функция, която все още е в Beta.

Превключване на режими

Можете да изберете режима за всеки асистент в Assistant → Settings → Voice Engine. Тествайте и трите режима, за да видите кой предлага най-добрия баланс между скорост и качество за вашия случай на употреба. Dualplex в момента е обозначен като Beta.

Съвет за напреднали: Запишете две обаждания – по едно във всеки режим – и сравнете възприеманата от обаждащия се латентност и ниво на ангажираност, за да решите кой подхожда на вашия поток.