这几天在学大数据的相关技术,老师给了我们一个含有10000条记录的用户浏览日志,日志里面每一行代表一条记录,没条记录包含用户 IP,使用的浏览器,浏览的世界,使用的客户端等等信息,下面是日志的截图。
我们需要做的就是将用户使用的浏览器统计出来,并且统计出来浏览器使用数量。
那么我们需要做的就是将每条数据中的信息提取出来,但是每条数据并不是很规则,我们怎么才能提取呢?经过查资料发现Github上面有开源的代码,我们需要做的就是将这个开源的代码编译成为jar 包,然后在我们的项目中就能直接使用了。
准备:1. 电脑上必须有Git,因为我们需要使用Git去下载Github上面的代码。
2. 电脑上必须有maven,可以将一个项目编译成为JAR包
下面就是步骤:
- 首先进入Github,查看你需要的源代码,找到Clone or Download
- 点击然后将下载的连接复制
- 然后在桌面新建一个文件夹,进入,右击使用GItbase here打开,进入Git的命令界面,然后输入git clone "刚刚复制的下载连接",回车
-
这样我们就将这个开源项目下载到我们本地了,然后运行cmd,cd “刚刚下载的那个目录” 进入刚刚下载的文件目录,(就是刚刚在桌面新建的那个,然后)然后输入mvn clean package,就可以将文件打开成jar,生成的jar 在源文件的target目录下
-
- 之后我们进行输入mvn install将打包的jar安装到我们mavend代码库里面,默认位置在c盘:用户/.m文件下,命令结束后会看到该jar的GroupID,artifactId,
-
那么我们如何使用呢,只需要在我们自己的项目的pom.xml文件下,引用jar包即可。 注意groupID和是aritfactID在执行完 mvn install命令时可以看到