zoukankan      html  css  js  c++  java
  • 百度学习笔记--数据传输和写入

    注:转载于百度-百家号-人人都是产品经理

    “”在后端数据量大起来之后,大部分的工作都是在玩数据。就像一捧沙子,左手换到右手,右手指缝间分流而出,再由另一双手接住。所以作为产品经理,不不仅要知道数据从哪来,还要理清楚获取数据之后的运算逻辑,异常规则,以及异常情况,数据日志等等“”

    一、跨服务器数据传输

    (1)公司的后端数据之所以在不同的数据库上,本质是为了解耦数据,提高单个数据库的运算速度。多个子系统之间的交互,其本质就是数据传输。

    数据传输的方式:MQ(队列)、HTTP接口,otter,爬取,导入

    (2)MQ适用于公司内部,数据量大,规律性强,批量往来的数据。一般的配置是一方推出增量数据,另一方被动消费,像排队一样,不用设定频率。

    (3)http接口是最常用的。加interface,也叫做protocol。

    如果数据源是一缸水,那么接口就像是凿了一个口。所有接口必须是在数据源这边,由数据放定义接口。

    接口规则就像过滤器一样,设定推送前的筛选。转化等运算规则、这就是接口的核心内容。

    接口交互数据可以是主动推送,也可以是请求获取。

    • 主动推送一般是数据生产法一旦更新,则触发推送,将所需字段对应值传递过去。
    • 请求获取就是数据需求方传递请求参数(请求参数一般是一个条件或几个条件)数据生产方则按照协议响应,给出满足条件的数据到请求方(也就是返回参数)

    (4)接口定义是开发的事情,但是产品需要确定出范围:

     接口定义的规则是什么?传参合返回参数是什么?重复传参时是跳过还是再次获取(一般是再次获取)?必传参数是什么?是否回传接收结果给数据生产方?

    (5)确保接口获取的数据及时

    除了生产数据需要及时向下游推送之外,还有基础数据的更新也需要及时给下游同步,有时要做到同时。

    方法是两种:触发式和定时脚本

    1、触发式就是一旦一个参数值满足条件则触发。

    2、脚本式一般用在请求获取数据的时候。因为不知道数据源商贸时候更新,所以一般用定时脚本执行请求任务。

    请求的频率需要与更新的频率相协调,比如:每次取6小时内更新的数据。每2小时取一次,则不会有问题。但是若每天取一次就会有漏掉,也就是取数据的频率要高于更新频率。

    (6)数据量大的时候,可以用otter:

    • 方案1:直接请求对方的接口:数据多的时候请求就多,会占资源。
    • 方案2:为保证数据本身及时,otter是最好的,也就是库对库的传输。

    otter方法:

    1.数据全在一个表中。

    2.本地库建一个相同的表。

    (7)爬取数据

    一些第三方公司为了保密,会把文件存在网盘或网页上,比如:第三方支付公司与协议公司约定好账号密码,登录到SFTP筛选出需要的数据然后解析后保存到本地,这也实现了一个服务器之间的转移。

    (8)导入:数据量大的,且有规则数据也可以通过导入的方式。

    文档一般用csv格式,文件较小,兼容性好,然后需要定义好excel表格对于字段的关系即可。上传时需要对文件检验,检验出错就全部不予导入。

    (9)爬取第三方数据防止丢包机制

    案例:到SFTP服务器抓取并解析字段,写入数据表。

    方案:

    1.断抓补抓:例如,4号抓修改时间为3号的数据。5号断抓,则6号抓取4,5号的数据。7号抓取6号的数据。

    2.抓空补抓:网关的每次抓取若抓空(获取的数据为0)则下次继续抓。直到3次都未取到,则不再补救。

    二、数据写入

    (1)先落地到中间表

    如果获取后还要在本地进行规制运算,则最好先落地到中间表,再由中间表写入最终表。比如:从A系统获取的数据取到B系统,要进行分拣后再写入B表。那么最好先落地到B系统的中间表,然后再由中间表写入目标表。

    好处是,正向数据:可以异步处理,A---->中间表---->最终表,互不影响。

        逆向数据:一旦数据异常,则方便追溯原因。

    (2)去重规则:设置去重规则,以便再重复获取数据时更新、插入或者跳过

    注意去重规则一旦改变,则需要考虑到历史数据对新数据的影响,因为二者的判重维度不一样,可能会交叉。

    (3)数据日志:目的是记录数据的来龙去脉,追溯分析bug

    (4)单进程锁

    脚本执行的频率的时候,为了保证数据是按照单进程执行,不交叠,就要设置单进程锁。比如:一小时一次,8点没执行9点就不要执行。

    另外在跑数据的规则上面,不要设置8点跑->更新时间是7点的数据,一旦小故障,就容易漏取。正确的要么是更新时间为之前的很长一段时间,要么就以状态来判定。

    比如:A系统维护了用户基础信息(其中有个状态为是否启用),B系统取用,但不做数据维护,只用启用状态的能用,那么是否只取启用状态的到B,还是两者状态都取。

    答案是:在数据量差异不大的情况下,取全量

    原因之一:若启用状态的用户忽然被A系统禁用,那么可能该用户在B系统的生成数据报错,这时候到中间表看状态就可以看出问题,而不需要跨系统或跨部门沟通查询。

  • 相关阅读:
    冰淇淋主题博客皮肤
    在input内放置小图标的方法
    制作表单(第一期笔记):美化表单常用的css样式
    CSS:linear-gradient()背景颜色渐变--练习笔记
    css中的vertical-align在内联元素中的表现--垂直对齐(带图示)
    利用border特性做的几个纯css小图标
    CSS文本、字体个别属性效果对比
    CSS文本、字体属性(更新中)
    JavaScript HTML DOM 学习笔记
    JS、JQ获取容器内标签的个数
  • 原文地址:https://www.cnblogs.com/xushuhai/p/9794282.html
Copyright © 2011-2022 走看看