手把手教你用Python抓取AWS的日志(CloudTrail)数据

zoukankan html css js c++ java

手把手教你用Python抓取AWS的日志(CloudTrail)数据

数据时代，利用数据做决策是大数据的核心价值。

本文手把手，教你使用python进行AWS的CloudTrail配置，进行日志抓取。进行数据分析，发现数据价值!

如今是云的时代，许多公司都把自己的IT架构部署在基础架构云(IaaS)上。著名的IaaS提供商有亚马逊，微软(Azure)，IBM等，国内也有诸如阿里云等。其中，亚马逊毫无疑问是该市场的领军者。

AWS提供了非常多的服务，领先了竞争对手一大截。并且AWS提供非常丰富的API，其API基于Rest，所以很容易被不同的语言的平台来调用。

在如今的大数据时代，利用数据在做决策是大数据的核心价值。AWS提供了许多服务来获取其运行数据，cloudtrail和cloudwatch是经常被用到的两个。CloudTrail是对AWS的所有API调用的日志，CloudWatch是监控AWS服务的性能数据。(新出的Config服务可用于监控AWS的资源变化)

今天我们来看看如何使用Python(Boto AWS的开源Python SDK)来自动配置ClouTrail的服务并获取日志内容。

相关概念我们先来看看CloudTrail的概念和相关的配置：

S3 Bucket >

在打开CloudTrail的服务时，需要指定一个相关的S3的Bucket，S3是亚马逊提供的存储服务，你可以把它当作一个基于云的文件系统。CloudTrail的API调用日志，会以压缩文件的形式，存储在你指定的Bucket里。

SNS

SNS是亚马逊提供的通知服务，该服务使用的是订阅/发布(Subsrcibe/Publish)的模式。在创建CloudTrail的时候，可以关联一个SNS的Topic(可选)，这样做的好处是当有API调用时，可以第一时间得到通知。可以使用不同的客户端来订阅SNS的通知，例如Email，Mobile的Notification Service，SQS等

SQS

SQS是亚马逊提供的队列服务，在本文中，我们使用SQS订阅SNS的的内容，这样我们的Python程序就可以从SQS的队列中获取相应的通知。

配置CloudTrail只需四步，就可以实现CloudTrail的配置：

1首先，我们需要创建SNS，并指定相应的策略。代码如下：

CloudTrail是和区域(Region)相关的，不同的Region有不同的CloudTrail服务，所以，在创建对应的SNS时，需要保证使用同一个Region。

这里要注意的是我们创建了新的policy来使得CloudTrail拥有向我们创建的SNS发布消息(Action=“SNS：Publish”)的权限。我们的做法是从缺省的策略中拷贝了一份，修改了相应的Action和Sid(随便取一个不重复的名字)，Principal部分是一个缺省的account的列表，这里是硬编码，AWS有可能会修改该列表的值，但在当前环境下，该值是固定的。最后移除Condition的值。把新创建的Policy片段添加到原来的Policy中就好了。

2然后，我们需要创建一个SQS的队列，并订阅我们创建的SNS的Topic。这一步相对比较简单。

3随后，我们需要创建一个S3的Bucket用来存储CloudTrail产生的日志文件。同样的，需要指定响应的策略以保证CloudTrail能够有权限写入对应的日志文件。

这里我们使用一个缺省的Policy文件，替换掉响应的字段就好了。

4最后，我们创建CloudTrail的服务：

好了，现在CloudTrail已经配置好了，并且关联的SNS也被我们创建的SQS队列订阅，接下来我们就可以抓取日志了。

获取日志数据每当有一个API调用，CloudTrail都会把响应的日志文件写入到S3我们创建的Bucket中，同时在我们在创建的SNS的topic中发布一条消息，因为我们使用SQS的队列订阅了该消息，所以我们可以通过读取SQS消息的方式来获得日志数据。

1首先连接到SQS的队列，并从中读取消息。

2然后，我们从消息中获得响应的日志文件在S3中的地址，并利用该地址从S3中获得对应的日志文件：

logjson就是对应的日记内容的JSON格式。这里有一个例子：

你可以使用以上代码来监控所有的cloudtrail的日志，拿到的JSON格式的日志可以放在你的数据库(Mongo不错)中，然后利用你的BI工具做分析。

注意：你也可以不创建SNS和SQS，直接扫描bucket的内容，这样做的好处是配置更简单，缺点是实时性比较差，扫面Bucket需要额外的计算，并且需要在本地保存文件扫描的状态，code会更加复杂。

小结利用CloudTrail的日志，你可以做很多事情，比如看看有没有非法的登陆，各个服务的使用频率，总之，当你有了足够多的数据，你就可以从中发现足够的价值。

End.

查看全文

相关阅读:
机器学习第二次作业
 机器学习上机作业
 机器学习第一次作业
 软工实践个人总结
 第08组 Beta版本演示
 第08组 Beta冲刺（5/5）
第08组 Beta冲刺（4/5）
第08组 Beta冲刺（3/5）
第08组 Beta冲刺（2/5）
第08组 Beta冲刺（1/5）

原文地址：https://www.cnblogs.com/xionggeclub/p/5724878.html