zoukankan      html  css  js  c++  java
  • 项目阶段总结

    邮件查看器

      接到邮件查看器的项目,已经近一星期,项目也已经正常展开,进行到项目中段,基本实现了邮件的抓取,存储与查看功能。

      第一天:首先搜索,熟悉关于JSON,与JSOUP的相关知识内容。了解项目的具体要求,对项目的各个功能进行方法分析。准备account.json文件

      第二天:目标实现邮箱的登录,因为要用到http协议,只能使用了网上找到的登录163邮箱的已经写好的方法

      第三天:使用json解析account文件,得到邮箱登录的账户,密码。根据网上找到的方法,实现了收件箱内容的代码片段,包括发件人,收件人,发送时间,接收时间和邮件主题相关内容。下午使用JSOUP对该片段进行解析,可以抓取输出相关信息。分析邮件箱具体到每一封邮件内容的抓取方法:得到mid

      第四天:根据mid,对收件箱的代码片段进行截取,获取每一封邮件的相关信息包括邮件内容一并提取。实现抓取内容的存储。考虑邮件的去重:

          初步想法:所有抓取过的邮件mid组合成一个字符串,把该字符串写入文件中,每次抓取到mid的集合,遍历与字符串进行比较,得到未抓取过的邮件mid的集合,然后根据mid进行代码片段截取,抓取工作,从而得到相关信息并存储。然而,细想之下,该方法存在一定的问题,如果抓取到邮件存储之后,如果认为的删除文件之后,mid组成字符串的文件不会有相应的改变,如果再进行抓取,就会漏掉被删除的文件。

      第五天:对去重方法进行改进,遍历文件存储目录的文件,获取mid组成set集合(考虑过使用list集合,理论上应该没有问题,但是考虑到认为复制文件的情况出现,使用了自动去重的set集合),然后对获取到的mid集合进行比较去重。

          写查看方法,熟悉Linux。

      

  • 相关阅读:
    特征工程-相关性检验
    模型评价指标
    数据预批处理-独热编码
    数据预处理-处理分类型特征:编码(LabelEncoder、OrdinalEncoder-字符型变量数值化
    特征工程
    逻辑回归-建模后-多重共线性
    toFixed —— 将数值四舍五入为指定小数位数的数字
    js获取url参数值
    mddir——自动生成文件目录结构
    vuex——模块化
  • 原文地址:https://www.cnblogs.com/ouyangtangfeng99/p/5775267.html
Copyright © 2011-2022 走看看