ACG图片站python爬虫LAMP环境

zoukankan html css js c++ java

ACG图片站python爬虫LAMP环境
最近突然对web很感兴趣，碰巧看到阿里云服务器学生价十块钱一个月，果断买了一个自己搭建了一个网站。

网址这里

LAMP环境就搭建了好久，linux+apache2+mysql+php，都是开源的软件，而且都很好用。

每个软件都可以在网上找到博文，一路百度下来，搞了一晚上终于搭好了。

之后自己写了一个提交代码查看代码的html网页，很简单。

看了php，下载了一个图片瀑布流的代码，改来改去，终于是能用了。

最后这个周末把之前的python代码改了改，添加了数据库相关的语句。

爬的是www.pixiv.net，所谓的p站。这里有一个新问题是referer，p站需要referer才能访问图片，具体没看太懂，

用了一种新的方法下载图片。
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0) Gecko/20100101 Firefox/28.0', 'Referer':referer } req = urllib2.Request(PicUrl[0],None,req_header) f = urllib2.urlopen(req,None,5) with open(path,'wb') as code: code.write(f.read())
所有的代码，等会用github了放git里吧，，，这次深感版本控制的必要性，以前改好的bug，改来改去又不行了。还找不到之前的代码。

目前的坑：

1）中文日文显示问题，数据库apache都设置成utf-8了，php中文还是显示问号，而且找不到cursors.py。

2）图片信息待丰富，作者和名字没有分开，得分没有抓取，如果想做的更好还要把作者写的简介抓下来。需要创建页面放置这些信息。

3）使用cookie登陆，目前是在未登录状态下抓图，无法获取原图。
查看全文

相关阅读:
关系数据库设计一般方法范式及完整性
 left join, right join , inner join, join, union的意义
 mysql 事务类型表的用法
 Java中静态变量与非静态变量的区别
 JSP生命周期
 Java&Tomcat环境变量配置
 JSP两种声明变量的区别
 一个web页面的访问的过程
 Cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure 解决
 IDEA：修改JAVA文件自动引入import.*包

原文地址：https://www.cnblogs.com/helica/p/4890658.html