AI асистентите в Aiplocalls могат да говорят в три различни режима. Всеки режим определя как се разбира речта на обаждащия се и как се генерира отговорът на асистента:
Избирането на правилния режим може да подобри времето за отговор, естествеността и цялостното изживяване на разговора.
1. Pipeline
| |
|---|
| Етикет в UI | Pipeline |
| Как работи | Speech-to-Text → LLM → Text-to-Speech |
| Латентност | ~800 – 1500 ms (зависи от езика и модела) |
| Най-добър за | Сложно разсъждение, динамични промпти, отговори от множество изречения |
Режимът Pipeline първо транскрибира думите на обаждащия се в текст, прекарва този текст през езиковия модел, след което конвертира отговора обратно в аудио. Това е изпитан подход, който предлага максимална гъвкавост:
- Поддържа всички гласове в библиотеката (включително персонализирани клонирани гласове).
- Справя се добре с дълги отговори или отговори в стил параграф.
- Позволява на LLM да инжектира променливи и да референцира по-ранен контекст чисто.
Кога да изберете Pipeline
- Нуждаете се от богати отговори от множество изречения (напр.
заявки за поддръжка, подробни обяснения).
- Асистентът трябва да разсъждава над структурирани данни или сложни промпти.
- Предпочитате абсолютен контрол над говорещия глас (клониран или фирмен глас).
2. Speech-to-Speech (Multimodal)
| |
|---|
| Етикет в UI | Speech-to-speech |
| Как работи | Директно speech-to-speech генериране (без междинен текст) |
| Латентност | ~300 – 600 ms (ултра ниска) |
| Най-добър за | Естествен диалог, кратки и реактивни отговори |
Режимът Speech-to-speech прескача отделната транскрипция и TTS. Вместо това използва мултимодален модел, който слуша и говори директно, създавайки по-разговорен поток:
- Бързо редуване – обаждащите се изпитват почти мгновени отговори.
- Генерира по-експресивна прозодия естествено (интонация, запълвачи).
- В момента поддържа ограничен набор гласове, но редовно се добавят нови.
Кога да изберете Speech-to-Speech
- Разговорът трябва да се чувства отзивчив (продажби, потвърждения на резервации).
- Отговорите ви са основно кратки изречения или бързи потвърждения.
- Доволни сте от предоставените от системата опции за глас за по-бърза интеракция.
Speech-to-speech се развива бързо. Ако се нуждаете от персонализиран клониран глас с ниска латентност, опитайте Dualplex.
3. Dualplex (Beta)
| |
|---|
| Етикет в UI | Dualplex |
| Как работи | Мултимодален STT + LLM (speech-to-speech) с ElevenLabs TTS изход |
| Латентност | Ниска (варира според гласа и модела) |
| Най-добър за | Бързи, естествени отговори с висококачествени/фирмени гласове (клонирани) |
Dualplex комбинира отзивчивостта на speech-to-speech с премиум гласовете и клонирането от ElevenLabs, използвани в Pipeline. Асистентът използва мултимодалния модел за разбиране на обаждащия се и планиране на отговора, след което рендира финалната реч чрез ElevenLabs за последователен, висококачествен изход.
- Почти мгновено редуване подобно на speech-to-speech.
- Достъп до библиотеката с гласове на ElevenLabs, включително персонализирани клонирани гласове.
- Отлично за кратки до средни отговори с експресивна прозодия.
- Препоръчвана по подразбиране за повечето случаи на употреба днес; в момента в Beta.
Кога да изберете Dualplex
- Искате бърз диалог, но се нуждаете от фирмен или клониран глас.
- Искате по-експресивно предаване без да се откажете от прецизния избор на глас.
- Чувствате се комфортно да използвате нова функция, която все още е в Beta.
Превключване на режими
Можете да изберете режима за всеки асистент в Assistant → Settings → Voice Engine. Тествайте и трите режима, за да видите кой предлага най-добрия баланс между скорост и качество за вашия случай на употреба. Dualplex в момента е обозначен като Beta.
Съвет за напреднали: Запишете две обаждания – по едно във всеки режим – и сравнете възприеманата от обаждащия се латентност и ниво на ангажираност, за да решите кой подхожда на вашия поток.