Scaling & Performance - eigi.ai Documentation

Overview

eigi.ai is built for enterprise scale. Whether you’re handling hundreds or thousands of concurrent calls, the platform delivers consistent performance and reliability.

Capacity & Scale

Handle Any Volume

Concurrent Calls

Handle thousands of simultaneous conversations

Auto-Scaling

Capacity automatically adjusts to demand

Global Infrastructure

Low latency from anywhere in the world

No Code Changes

Scale without modifying your setup

Concurrency Management

How Concurrency Works

Metric	Description
Concurrent Calls	Number of active calls at the same time
Peak Capacity	Maximum concurrent calls your plan supports
Queue Management	How overflow calls are handled
Burst Handling	Temporary capacity for traffic spikes

Concurrency Tiers

Tier	Concurrent Calls	Use Case
Starter	Up to 10	Small businesses, testing
Growth	Up to 50	Growing operations
Business	Up to 200	Medium enterprises
Enterprise	Unlimited	Large-scale deployments

Queue Management

When Capacity is Full

Configure how to handle calls when at capacity:

Hold & Wait

Caller waits with music/message until agent available

Callback Queue

Collect number and call back automatically

Voicemail

Record message for later follow-up

Overflow Routing

Route to backup agent or human team

Queue Settings

Setting	Description
Max Wait Time	How long callers wait before alternative
Position Announcements	Tell callers their queue position
Estimated Wait	Provide estimated wait time
Music/Message	What plays while waiting

Performance Optimization

Real-Time Processing

Voice AI requires fast processing. eigi.ai is optimized for:

Component	Optimization
Speech Recognition	Stream processing for instant transcription
LLM Processing	Optimized inference with low latency
Voice Synthesis	Word-by-word streaming for natural flow
Tool Execution	Parallel processing when possible

Latency Targets

Metric	Target
First Response	< 800ms after user stops speaking
Turn-Taking	Natural conversation pace
Tool Calls	< 200ms overhead
Audio Quality	HD voice with < 50ms jitter

Reliability

Uptime & Availability

99.9% Uptime

Enterprise SLA available

Redundancy

No single point of failure

Auto Recovery

Automatic failover

What Happens During Outages

Scenario	Handling
Provider Outage	Automatic failover to backup
Partial Degradation	Non-critical features disabled
Maintenance	Zero-downtime deployments
Network Issues	Automatic reconnection

Provider Redundancy

Multi-Provider Fallback

Configure backups for critical services:

LLM Fallback

If primary LLM is slow or unavailable: - Primary: GPT-4o - Fallback 1: Claude 3.5 Sonnet - Fallback 2: Gemini 2.0 Flash

TTS Fallback

If voice synthesis fails: - Primary: ElevenLabs - Fallback: Cartesia - Emergency: OpenAI TTS

STT Fallback

If speech recognition fails: - Primary: Deepgram - Fallback: Azure Speech

Load Balancing

Traffic Distribution

Calls are intelligently distributed:

Strategy	Description
Geographic	Route to nearest server
Load-Based	Route to least busy server
Provider Health	Avoid degraded providers
Cost Optimization	Balance performance and cost

Monitoring

Real-Time Dashboards

Monitor your system health:

Active Calls

Current concurrent calls and capacity

Queue Status

Callers waiting and wait times

Provider Status

Health of all connected services

Error Rates

Track and alert on issues

Key Metrics

Metric	Description	Alert Threshold
Concurrency %	Current vs. max capacity	> 80%
Avg. Latency	Response time	> 1000ms
Error Rate	Failed calls	> 1%
Queue Length	Callers waiting	> 10

Analytics at Scale

Handling Large Data Volumes

Real-Time Analytics

Live metrics even during high volume

Historical Data

Access all historical call data

Data Retention

Configurable retention policies

Export & Backup

Export data for external analysis

Multi-Agent Scaling

Managing Multiple Agents

Scale across many agents:

Feature	Description
Shared Resources	Pool capacity across agents
Agent Prioritization	Allocate more capacity to critical agents
Load Spreading	Distribute traffic across agents
Independent Scaling	Scale specific agents as needed

Enterprise Features

Advanced Capabilities

Dedicated Infrastructure

Isolated resources for your organization

Custom SLAs

Tailored uptime and support agreements

Priority Support

Direct access to engineering team

Compliance

HIPAA, SOC2, GDPR compliance options

Cost Optimization

Scale Efficiently

Right-Size Your Plan

Choose concurrency limits that match your actual usage patterns.

Optimize Call Duration

Well-designed prompts lead to shorter, more efficient calls.

Use Appropriate Providers

Match provider capabilities to task complexity.

Monitor and Adjust

Regularly review usage patterns and optimize.

Traffic Patterns

Handling Variable Load

Configure for your traffic patterns:

Pattern	Strategy
Steady	Consistent capacity allocation
Peak Hours	Scale up during busy times
Campaign Bursts	Reserve capacity for campaigns
Seasonal	Adjust for seasonal variations

Testing at Scale

Load Testing

Before launching high-volume campaigns:

Baseline Test

Measure performance at current volume

Gradual Increase

Slowly increase load to find limits

Stress Test

Test beyond expected maximum

Failure Testing

Verify graceful degradation

Best Practices

Plan for Peak: Size your capacity for peak demand, not average.

Configure Fallbacks: Always have backup providers configured.

Monitor Proactively: Set up alerts before hitting capacity limits.

Test your scaling configuration before running large campaigns. Start small and scale up gradually.

Troubleshooting

Calls being queued unexpectedly

Check current concurrency vs. limit - Review call duration (longer calls use capacity longer) - Consider upgrading your plan - Optimize agent prompts for efficiency

High latency during peak times

Verify you’re not hitting capacity limits - Check provider status for degradation - Review if specific tools are causing delays - Consider geographic distribution

Inconsistent call quality

Check network connectivity - Verify provider health status - Review audio settings - Test with different providers

Getting Started

Platform Features

Configuration

​Overview

​Capacity & Scale

​Handle Any Volume

Concurrent Calls

Auto-Scaling

Global Infrastructure

No Code Changes

​Concurrency Management

​How Concurrency Works

​Concurrency Tiers

​Queue Management

​When Capacity is Full

Hold & Wait

Callback Queue

Voicemail

Overflow Routing

​Queue Settings

​Performance Optimization

​Real-Time Processing

​Latency Targets

​Reliability

​Uptime & Availability

99.9% Uptime

Redundancy

Auto Recovery

​What Happens During Outages

​Provider Redundancy

​Multi-Provider Fallback

​Load Balancing

​Traffic Distribution

​Monitoring

​Real-Time Dashboards

Active Calls

Queue Status

Provider Status

Error Rates

​Key Metrics

​Analytics at Scale

​Handling Large Data Volumes

Real-Time Analytics

Historical Data

Data Retention

Export & Backup

​Multi-Agent Scaling

​Managing Multiple Agents

​Enterprise Features

​Advanced Capabilities

Dedicated Infrastructure

Custom SLAs

Priority Support

Compliance

​Cost Optimization

​Scale Efficiently

​Traffic Patterns

​Handling Variable Load

​Testing at Scale

​Load Testing

​Best Practices

​Troubleshooting

Overview

Capacity & Scale

Handle Any Volume

Concurrency Management

How Concurrency Works

Concurrency Tiers

Queue Management

When Capacity is Full

Queue Settings

Performance Optimization

Real-Time Processing

Latency Targets

Reliability

Uptime & Availability

What Happens During Outages

Provider Redundancy

Multi-Provider Fallback

Load Balancing

Traffic Distribution

Monitoring

Real-Time Dashboards

Key Metrics

Analytics at Scale

Handling Large Data Volumes

Multi-Agent Scaling

Managing Multiple Agents

Enterprise Features

Advanced Capabilities

Cost Optimization

Scale Efficiently

Traffic Patterns

Handling Variable Load

Testing at Scale

Load Testing

Best Practices

Troubleshooting