Режими на Асистента

AI асистентите в Aiplocalls могат да говорят в три различни режима. Всеки режим определя как се разбира речта на обаждащия се и как се генерира отговорът на асистента:

Избирането на правилния режим може да подобри времето за отговор, естествеността и цялостното изживяване на разговора.

1. Pipeline


Етикет в UI	`Pipeline`
Как работи	Speech-to-Text → LLM → Text-to-Speech
Латентност	~800 – 1500 ms (зависи от езика и модела)
Най-добър за	Сложно разсъждение, динамични промпти, отговори от множество изречения

Режимът Pipeline първо транскрибира думите на обаждащия се в текст, прекарва този текст през езиковия модел, след което конвертира отговора обратно в аудио. Това е изпитан подход, който предлага максимална гъвкавост:

Поддържа всички гласове в библиотеката (включително персонализирани клонирани гласове).
Справя се добре с дълги отговори или отговори в стил параграф.
Позволява на LLM да инжектира променливи и да референцира по-ранен контекст чисто.

Кога да изберете Pipeline

Нуждаете се от богати отговори от множество изречения (напр. заявки за поддръжка, подробни обяснения).
Асистентът трябва да разсъждава над структурирани данни или сложни промпти.
Предпочитате абсолютен контрол над говорещия глас (клониран или фирмен глас).

2. Speech-to-Speech (Multimodal)


Етикет в UI	`Speech-to-speech`
Как работи	Директно speech-to-speech генериране (без междинен текст)
Латентност	~300 – 600 ms (ултра ниска)
Най-добър за	Естествен диалог, кратки и реактивни отговори

Режимът Speech-to-speech прескача отделната транскрипция и TTS. Вместо това използва мултимодален модел, който слуша и говори директно, създавайки по-разговорен поток:

Бързо редуване – обаждащите се изпитват почти мгновени отговори.
Генерира по-експресивна прозодия естествено (интонация, запълвачи).
В момента поддържа ограничен набор гласове, но редовно се добавят нови.

Кога да изберете Speech-to-Speech

Разговорът трябва да се чувства отзивчив (продажби, потвърждения на резервации).
Отговорите ви са основно кратки изречения или бързи потвърждения.
Доволни сте от предоставените от системата опции за глас за по-бърза интеракция.

Speech-to-speech се развива бързо. Ако се нуждаете от персонализиран клониран глас с ниска латентност, опитайте Dualplex.

3. Dualplex (Beta)


Етикет в UI	`Dualplex`
Как работи	Мултимодален STT + LLM (speech-to-speech) с ElevenLabs TTS изход
Латентност	Ниска (варира според гласа и модела)
Най-добър за	Бързи, естествени отговори с висококачествени/фирмени гласове (клонирани)

Dualplex комбинира отзивчивостта на speech-to-speech с премиум гласовете и клонирането от ElevenLabs, използвани в Pipeline. Асистентът използва мултимодалния модел за разбиране на обаждащия се и планиране на отговора, след което рендира финалната реч чрез ElevenLabs за последователен, висококачествен изход.

Почти мгновено редуване подобно на speech-to-speech.
Достъп до библиотеката с гласове на ElevenLabs, включително персонализирани клонирани гласове.
Отлично за кратки до средни отговори с експресивна прозодия.
Препоръчвана по подразбиране за повечето случаи на употреба днес; в момента в Beta.

Кога да изберете Dualplex

Искате бърз диалог, но се нуждаете от фирмен или клониран глас.
Искате по-експресивно предаване без да се откажете от прецизния избор на глас.
Чувствате се комфортно да използвате нова функция, която все още е в Beta.

Превключване на режими

Можете да изберете режима за всеки асистент в Assistant → Settings → Voice Engine. Тествайте и трите режима, за да видите кой предлага най-добрия баланс между скорост и качество за вашия случай на употреба. Dualplex в момента е обозначен като Beta.

Съвет за напреднали: Запишете две обаждания – по едно във всеки режим – и сравнете възприеманата от обаждащия се латентност и ниво на ангажираност, за да решите кой подхожда на вашия поток.

Действия След Повикване Най-добри практики за асистенти

Documentation Index

​1. Pipeline

​Кога да изберете Pipeline

​2. Speech-to-Speech (Multimodal)

​Кога да изберете Speech-to-Speech

​3. Dualplex (Beta)

​Кога да изберете Dualplex

​Превключване на режими

1. Pipeline

Кога да изберете Pipeline

2. Speech-to-Speech (Multimodal)

Кога да изберете Speech-to-Speech

3. Dualplex (Beta)

Кога да изберете Dualplex

Превключване на режими