文件排序去重新思路 - 走看看

zoukankan html css js c++ java

文件排序去重新思路

我一直觉得思路是比较重要的。

前几天终于从一个充满了垃圾广告的网盘里下载到了传说中的 csdn 数据库（就是以前泄露的那个，现在被各种封杀了）

我写了个一个python脚本从中提取密码（用户名和邮箱我都不需要），用来做一个字典。

但是我发现，其中有很多是重复的，比如123456789之类的。

所以，第一个问题摆在了我的面前，怎么去重，怎么给文件中的数据去重。

我首先想到的就是python 中的先set在list。

然后我遇到了第二个问题，当这个字典文件比较大的时候，全部读取到内存是不合理的。

通过资料，我查到了一条linux命令，uniq，去重，我的字典有70MB左右，速度还可以接受。

第三个问题，如果数据量真的很大很大，我该如何处理呢？

这时候我想到了数据库，数据库设计中有一个约束，叫做唯一性约束，既已经插入的值，不能再次插入。

那么，我读取文件中的数据，尝试往数据库插入，如果数据库中已经存在，我就忽略此次插入。

这就满足了我的需求了。

我的第四个问题，我需要排序，简单的排序就是sorted了，Linux也有sort命令，那么，使用数据库应该也可以排序吧？

这里仅仅是一个思路，我还未做尝试，不过应该可行。

查看全文

相关阅读:
ArcGIS 10与ArcEngine 10安装及破解
 SQL Server：触发器详解
 sql事务（Transaction）用法介绍及回滚实例
 Brief Tour of the Standard Library
Python Scopes and Namespaces
Saving structured data with json
Packages
“Compiled” Python files
Executing modules as scripts
More on Conditions

原文地址：https://www.cnblogs.com/tk091/p/3799745.html

Copyright © 2011-2022 走看看