API Gateway

API Gateway and Lambda APIs are critical components in our Universe ecosystem, serving as the interface for client communications and backend services:

Service	Usage
Integrates	Main API for GraphQL operations and WebSocket
Tracks	API for events and auditing
Fixes	WebSocket API for real-time correction suggestions

Note

Unlike DynamoDB, API Gateway, and Lambda DO generates detailed logs in CloudWatch. Debugging relies on:

API Gateway Access Logs: HTTP/WebSocket requests with performance metrics.
Lambda Execution Logs: Application logs, errors, and execution metrics.
CloudWatch Metrics: Latency, errors, throttling, and throughput.

API Gateway Architecture

Key API Services and Configurations

Integrates API (GraphQL + WebSocket)

Type: HTTP API v2 with WebSocket support
Authentication: JWT tokens
Logging: Detailed access logs in JSON format
Metrics: Detailed metrics enabled

Tracks API (REST)

Type: HTTP API v2
Authentication: AWS IAM
Logging: Access logs with request/response information
Throttling: Rate limit 10,000 req/min, burst 5,000

Fixes API (WebSocket)

Type: WebSocket API
Logging: Connection and message logs
Data tracing: Enabled for debugging

Implementation

API Gateway configurations are defined in Terraform:

resource "aws_apigatewayv2_stage" "tracks" {
  api_id      = aws_apigatewayv2_api.tracks.id
  auto_deploy = true
  name        = "prod"

  access_log_settings {
    destination_arn = aws_cloudwatch_log_group.tracks_access_logs.arn
    format = jsonencode({
      requestId         = "$context.requestId"      
      httpMethod        = "$context.httpMethod"      
      routeKey          = "$context.routeKey"      
      status            = "$context.status"      
      responseLength    = "$context.responseLength"      
      requestTime       = "$context.requestTime"    
    })
  }

  default_route_settings {
    detailed_metrics_enabled = true
    throttling_burst_limit   = 5000    
    throttling_rate_limit    = 10000
  }
}

Log groups for Lambda functions:

resource "aws_cloudwatch_log_group" "tracks_lambda_api" {
  name              = "/aws/lambda/tracks_lambda_api"  
  retention_in_days = 90

  tags = {
    "fluidattacks:comp" = "tracks"    "fluidattacks:line" = "cost"    "Name"              = "tracks_lambda_api_function_log_group"  }
}

Monitoring with CloudWatch

Understanding API Monitoring Sources

API monitoring comes from three main sources:

API Gateway Access Logs:

HTTP/WebSocket requests with full details
Access via: CloudWatch → Logs Insights → /aws/api_gateway/[api-name]
Structured JSON format for analysis

Lambda Execution Logs:

Application logs and runtime errors
Access via: CloudWatch → Logs Insights → /aws/lambda/[function-name]
Includes custom logs and stack traces

CloudWatch Metrics:

API Gateway: Latency, errors, throttling
Lambda: Duration, errors, concurrency
Access via: CloudWatch → Metrics → AWS/ApiGateway or AWS/Lambda

Key Metrics to Monitor

API Gateway Metrics (Namespace AWS/ApiGateway):

Latency - Overall latency of your API
IntegrationLatency - Time between API Gateway and backend
4XX / 5XX - Client and server errors
Count - Number of API calls

Lambda Metrics (Namespace AWS/Lambda):

Duration - Execution time
Errors - Number of errors
Throttles - Number of throttled invocations
ConcurrentExecutions - Number of concurrent executions

Debugging with CloudWatch Logs

Finding API Performance Issues

Access logs:

                                                fields @timestamp, requestId, routeKey, status
| filter status = 200
| sort @timestamp desc

                                            

API Errors:

                                                    fields @timestamp, routeKey, status, errorMessage
| filter status >= 400
| sort @timestamp desc
| limit 20

                                                

Connection events:

fields @timestamp, connectionId, eventType, errorMessage
| filter eventType = "CONNECT" or eventType = "DISCONNECT"
| sort @timestamp desc

Message failures:

fields @timestamp, connectionId, eventType, errorMessage
| filter eventType = "MESSAGE" and status >= 400
| sort @timestamp desc

CloudWatch Alarms for API Gateway

Universe has centralized alarms for APIs defined in runs/vpc/infra/alarms.tf:

resource "aws_cloudwatch_metric_alarm" "lambda_error_alarm" {
  for_each            = toset(var.lambda_names)
  alarm_name          = "${each.value}_Error_Alarm"  
  metric_name         = "Errors"  
  namespace           = "AWS/Lambda"
  period              = 60
  statistic           = "Sum"
  threshold           = 1
  alarm_actions       = [aws_sns_topic.central_alarms.arn]
}

Recommended Alarms

API Gateway Alarms

High Latency:

Metric: Latency
Threshold: > 5000ms
Statistic: Average or p95
Period: 1 minute
Action: SNS notification

High Error Rate:

Metric: 5XXError
Threshold: > 10
Statistic: Sum
Period: 1 minute
Action: SNS notification

Throttling Events:

Metric: 4XXError (filtering for 429)
Threshold: > 0
Statistic: Sum
Period: 1 minute
Action: SNS notification

Lambda API Alarms

Function Errors:

Metric: Errors
Threshold: > 0
Statistic: Sum
Period: 1 minute
Action: SNS notification

High Duration:

Metric: Duration
Threshold: > 30000ms
Statistic: p95
Period: 1 minute
Action: SNS notification

Throttles:

Metric: Throttles
Threshold: > 0
Statistic: Sum
Period: 1 minute
Action: SNS notification