AWS ECS On Fargate 监控可观测最佳实践

概述

Amazon ECS on Fargate 为用户提供了简单、高效且可靠的容器化解决方案,使用户能够专注于应用程序开发和运行,而无需担心基础设施管理的复杂性。与其同时,用户需要实时了解在该环境中应用程序运行的性能、可用性、健康状况和资源使用情况。从而能够及时发现潜在问题并采取措施,帮助用户优化资源使用、感知问题和识别瓶颈等,以提高整体性能和用户体验。

观测云全面支持在 Amazon ECS on Fargate 上的可观测能力,提供包括对基础资源的监控、应用程序链路跟踪和日志监控等。文章将对在该环境上如何实现可观测进行说明和展示。

Amazon ECS On Fargate 简介

Amazon Elastic Container Service (Amazon ECS) 是一种高度可扩展、高性能的容器编排服务,支持 Docker 容器,可以轻松运行和扩展容器化应用程序。Amazon ECS 与Fargate 相结合,提供了一种无需管理基础设施的方式来运行容器。

Fargate 是一种无服务器计算引擎,可以在 Amazon ECS 中运行容器。它允许您在不需要预置或管理服务器的情况下运行容器。Fargate 负责管理底层的计算基础设施,如虚拟机、内核补丁、安全更新等。您只需要关注容器化应用程序的打包和部署。

使用 Amazon ECS 和 Fargate 的主要优势包括:

  • 无服务器:不需要预置或管理基础设施,可以快速启动和扩展容器化应用程序。
  • 简单性:不需要管理底层的操作系统、集群或虚拟机。Fargate 负责管理基础设施。
  • 可扩展性:可以根据应用程序需求自动扩展和缩减容器实例。
  • 高可用性: Fargate 跨多个可用区域运行容器,提供高可用性。
  • 安全性: Fargate 提供了安全的计算环境,并与 AWS 安全服务集成。
  • 集成:与其他亚马逊云服务(如 ALB、CloudWatch、IAM 等)无缝集成。

Amazon ECS 与 AWS Fargate 结合使用,可以帮助您更轻松地部署、管理和扩展容器化应用程序,而无需担心底层基础设施的管理。这种无服务器的方式可以降低运维成本,提高资源利用率,加快应用程序的交付速度。

AWS ECS On Fargate 中的监控数据采集说明

DataKit 是观测云的一款开源、一体式的数据采集 OneAgent,它提供全平台操作系统(Linux/Windows/macOS)的支持,拥有全面数据采集能力,涵盖主机、容器、中间件、Tracing、日志等各种数据采集的能力。

在 ECS 环境中,将通过 DataKit 进行监控数据采集,并上传到观测云。

如上图所示,在 ECS On Fargate 的环境中,在每一个需要接入可观测数据的 ECS 任务中,除了业务容器外,都需要配置一一对应的 DataKit 和 Log-router 容器。DataKit 会负责采集运行任务中容器的运行指标,应用的链路数据等。日志数据通过 Log-router(Amazon Firelens - Fluent-bit )的方式进行采集,并把采集的日志数据通过 logstream 的方式传输给 DataKit,并由 DataKit 进行数据处理后最终上传给观测云进行后续的查询和分析。各类型监控数据采集的进一步说明如下:

指标采集

DataKit 支持通过环境变量参数 “ENV_ECS_FARGATE: on” 的设置开启 AWS ECS Fargate 相关的运行指标。同时,支持通过 DataKit 中的 “statsd” 采集模块来对例如 Java 应用的 JVM 运行指标、NodeJS 应用的 rumetime 运行指标等进行采集和监控分析。

链路采集

在 AWS ECS 环境中,应用容器在启动时,通过加载 ddtrace agent 的方式产生对应的调用链路数据,并发送给 DataKit。DataKit 作为 Sidecar 与应用容器运行在同一个 Amazon ECS 任务中来接收应用产生的链路数据,并上传到观测云中进行查询分析。

日志采集

在 AWS ECS 环境中,通过 AWS FireLens(Fluent-Bit 插件) 作为 Sidecar 与应用容器运行在同一个 Amazon ECS 任务中来采集应用日志数据,并把采集到的日志数据发送给 datakit 的 logstream 采集模块,并最终上传观测云中进行日志的查询和分析。无需修改应用部署脚本,手动安装额外软件或编写其他代码。

AWS ECS 任务配置说明

该部分将对如何在 ECS On Fargate 环境中进行观测数据采集的部署配置进行说明。

前置条件

应用镜像

以 Java 应用为例,如果需要采集 Java 应用的调用链路数据,需要在应用的镜像中提前加入 ddtrace java agent 文件,并预留一个 Java 的定制化启动参数入口,方便后续对启动参数通过环境变量进行灵活调整。如下是这部分在 dockerfile 中的示例:

Bash
COPY dd-java-agent.jar /dd-java-agent.jar
ENTRYPOINT ["sh", "-ec", "exec java ${JAVA_OPTS} -jar ${your_app.jar}"]

观测云提供的最新 Java DDTrace agent 的下载链接地址:

https://static.guance.com/dd-image/dd-java-agent.jar

创建 ECS 任务定义

在同一个 AWS ECS 任务中,将创建三个容器,分别是应用容器、datakit 容器和 log-router 容器。详细的容器配置说明如下:

应用容器

应用容器 Json 格式的配置信息如下:

Bash
        {
            "name": "javatest",
            "image": "registry.cn-xxx.com/test/javatest:v2.0",
            "cpu": 1024,
            "portMappings": [
                {
                    "name": "javservice",
                    "containerPort": 9080,
                    "hostPort": 9080,
                    "protocol": "tcp",
                    "appProtocol": "http"
                }
            ],
            "essential": true,
            "environment": [
                {
                    "name": "DD_SERVICE",
                    "value": "java_service"
                },
                {
                    "name": "DD_ENV",
                    "value": "test"
                },
                {
                    "name": "JAVA_OPTS",
                    "value": "-javaagent:/dd-java-agent.jar"
                },
                {
                    "name": "DD_AGENT_HOST",
                    "value": "localhost"
                },
                {
                    "name": "DD_TRACE_AGENT_PORT",
                    "value": "9529"
                }
            ],
            "mountPoints": [],
            "volumesFrom": [],
            "logConfiguration": {
                "logDriver": "awsfirelens",
                "options": {
                    "Format": "json",
                    "Host": "localhost",
                    "Name": "http",
                    "Port": "9529",
                    "URI": "/v1/write/logstreaming?type=firelens&source=java&service=javatest&tags=project=test,app_name=java_app,cloud=amazon"
                }
            },
            "systemControls": []
        }      

这里有两个主要的配置项,说明如下:

关于在 URI 配置中,logstreaming 支持的参数说明如下:

  • type:数据格式,目前支持 influxdb 和 firelens 类型

    • 当 type 为 inflxudb 时( /v1/write/logsreaming?type=influxdb ),说明数据本身就是行协议格式将只添加内置 Tags 不再做其他操作
    • 当 type 为 firelens 时( /v1/write/logstreaming?type=firelens ),数据格式应是 JSON 格式的多条日志
    • 当此值为空时,会对数据做分行和 Pipeline 等处理
  • source:标识数据来源

  • service:添加 service 标签字段

  • tags:添加自定义 tag,多个 tag 间以英文逗号分割

  • Pipeline:指定数据需要使用的 pipeline 名称

Datakit 容器

Datakit 容器 Json 格式的配置信息如下:

Bash
{
            "name": "datakit",
            "image": "pubrepo.guance.com/datakit/datakit:latest",
            "cpu": 0,
            "portMappings": [],
            "essential": false,
            "environment": [
                {
                    "name": "ENV_DATAKIT_INPUTS",
                    "value": "[[inputs.logstreaming]] \n ignore_url_tags = false"
                },
                {
                    "name": "ENV_DATAWAY",
                    "value": "https://openway.guance.com?token=tkn_098042exxxx"
                },
                {
                    "name": "ENV_HTTP_LISTEN",
                    "value": "0.0.0.0:9529"
                },
                {
                    "name": "ENV_DEFAULT_ENABLED_INPUTS",
                    "value": "dk,container,ddtrace,statsd"
                },
                {
                    "name": "ENV_ECS_FARGATE",
                    "value": "on"
                }
            ],
            "mountPoints": [],
            "volumesFrom": [],
            "systemControls": []
        }

通过 environment 环境变量来对 DataKit 进行对应的配置。部分变量使用说明如下:

  • ENV_DATAKIT_INPUTS:开启 logstreaming 采集模块。主要用来接收通过 AWS Firelens fluent-bit 采集的日志数据
  • ENV_DATAWAY:数据上传路由地址。每个工作空间都会有一一对应的 Token
  • ENV_HTTP_LISTEN:DataKit 默认监听地址和端口
  • ENV_DEFAULT_ENABLED_INPUTS:配置默认开启的数据采集器模块
  • ENV_ECS_FARGATE:是否开启采集 ECS 中容器运行的相关指标

Log-Router 容器

Log-Router 容器 Json 格式的配置信息如下:

Bash
{
            "name": "log_router",
            "image": "public.ecr.aws/aws-observability/aws-for-fluent-bit:stable",
            "cpu": 0,
            "memoryReservation": 50,
            "portMappings": [],
            "essential": true,
            "environment": [],
            "mountPoints": [],
            "volumesFrom": [],
            "user": "0",
            "logConfiguration": {
                "logDriver": "awslogs",
                "options": {
                    "awslogs-create-group": "true",
                    "awslogs-group": "/ecs/ecs-aws-firelens-sidecar-container",
                    "awslogs-region": "cn-northwest-1",
                    "awslogs-stream-prefix": "firelens"
                }
            },
            "systemControls": [],
            "firelensConfiguration": {
                "type": "fluentbit"
            }
        }

该部分可以保持默认配置,不用做额外调整。

运行 AWS ECS Fargate 任务

基于新创建的任务定义创建 ECS Fargate 服务。服务成功启动后,将看到如下的三个在运行状态的容器:

观测云上使用效果展示

当完成上面所述的配置,并在 AWS 上成功启动任务后,我们就可以通过观测云全面监控 AWS ECS 中的服务运行情况。使用效果说明如下:

关于指标

当开启 ECS Fargate 的指标采集后,在观测云默认的基础设施监控中,可以实时监控ECS 容器的运行状态。

同时,也可以通过观测云的场景仪表板能力,自定义 ECS 相关的看板。如下图所示:

关于日志

可以通过观测云的日志查看器快速查看日志信息包括支持信息模糊查询,正则表达式查询等。也可以通过不同的过滤条件来对日志信息进行直接的筛选查看。如下图所示:

同时,在查看日志详情的过程中,如果用户想进一步了解产生该日志的链路信息,观测云也提供日志详细页面直接关联到对应链路的能力。如下图所示:

关于应用链路

当发生服务调用后,在观测云的 “应用性能监测” 中可以通过查看器看到链路相关的信息,如下图所示:

支持点击某一条链路来查看对应的详细信息,包括链路调用火焰图,调用依赖关系等。同时,可以通过关联内置视图来快速实现关联分析的能力。

如下图所示,当关联了ecs fargate的运行指标视图后,用户可以看到这条链路在被调用的时间点上(红色竖线对应的位置),对应ECS中容器的资源使用和运行情况。

如果关联了应用的日志,就能够在链路中直接关联到该服务调用时产生的日志信息来做快速的关联分析。

如果是 Java 应用,也可以快速关联 JVM 的运行指标情况。帮助用户快速了解服务调用时,JVM 的运行情况是否有异常,如下图所示:

上述提到的这些关联分析视图,都是可以根据用户的分析需求来做灵活的自定义配置和添加删除。

至此,我们就完成了对 AWS ECS On Fargate 环境的基本可观测能力的实现。


这是一个从 https://juejin.cn/post/7368419638987063296 下的原始话题分离的讨论话题