zoukankan      html  css  js  c++  java
  • 上海外国语大学语料分析工具开发简记

    说明

    机缘巧合,做了一个语料分析小工具,帮助汉语专业的学生批量导出数据,快速统计谓宾动词占比等,数据来源使用北京语言大学的bbc语料库(目前此语料库已转为北语校内使用,无法从校外访问)。

    爬虫

    写了一个小爬虫放到了自己服务器上,日夜兼程,将数万条数据存到了自己服务器的数据库里。

    • 爬虫V1.0,简单分页爬取数据,得到数据后存到数据库内;部署后发现若快速访问北语语料库,对方网站很容易500,导致我的爬虫长时间宕机和重复爬取。
    • 爬虫V1.1,设置定时,降低访问频率,添加任务断点和崩溃重启;部署后计算时间,发现需要20个小时才能爬取完成10w条数据,时间太长。
    • 爬虫V2.0,开两个爬虫进程,每个进程开两个线程,爬虫完成或崩溃后发邮件提醒;部署后将爬取时间由20个小时缩减到了5个小时,一觉醒来爬取完毕。

    阿里飞冰

    第一次使用阿里飞冰组件库,发现很好用,写代码的过程很流畅,构建、打包编译效果都很好,这个脚手架还是很完善的,适合敏捷开发用,组件库的UI效果也很好。

    页面截图

  • 相关阅读:
    div布局的几点体会
    DIV高度的问题
    想修改CSS
    如何在EXCEL SHEET中 动态添加控件
    div的背景设置的问题
    CSS的资源
    远程调试
    Javascript跨域访问解决方案 Leone
    再谈PHP开发者常犯的10个MySQL错误 Leone
    开发人员需要熟知的常用Linux命令之八:Version、Kernel查看 Leone
  • 原文地址:https://www.cnblogs.com/bbman/p/12072303.html
Copyright © 2011-2022 走看看