zoukankan      html  css  js  c++  java
  • 搜索引擎面试题

    搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前一个日志文件中有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门),请你统计最热门的10个查询串,要求使用的内存不能超过1G。

    1000万条记录,每条记录最大为255Byte,那么日志文件最大有2.5G左右,大于1G内存。但是题目中又提到这样的1000万条记录中有许多是重复的,出去重复的话只有300万条记录,存储这样的300万条记录需要0.75G左右的内存,小于1G内存。那么我们可以考虑将这些无重复的记录装入内存,这是我们需要一种数据结构,这种数据结构即能够存储查询串,又能存储查询串的出现次数,我们可以通过hashmap<query,count>来保存。读取文件,创建一个hashmap,如果hashmap中存储了遍历到的query,则修改该query所对应的count值,使其+1;如果hashmap中没有这个query,那么往haspmap中插入<query,1>。这样我们就创建好了一个包含所有query和次数的hashmap。

    然后我们创建一个长度为10最大堆MaxHeap,遍历hashmap,如果MaxHeap未满,那么往MaxHeap中插入这个键值对,如果MinHeap满了,则比较遍历到的元素的count值堆顶的count,如果遍历到元素的count大于堆顶count值,删除堆顶元素,插入当前遍历到的元素。

    遍历完整个hashmap以后,在MaxHeap中存储的就是最热门10个查询串。

    下面是根据上面思路自己编写的代码。

     

    #include <iostream>
    #include <string>   
    #include <malloc.h>   
    #include <stdlib.h>   
    #include <fstream>  
    using namespace std;
    
    #define N	10
    
    struct _linkList
    {
    	char* strValue;
    	int cnt;
    	_linkList* next;
    };
    
    class CHash
    {
    public:
    	_linkList* list[350];
    	CHash();
    	~CHash();
    	int HashFunc(char src[]);
    	void InitHash();
    };
    
    CHash::CHash()
    {
    	int i;
    	for (i = 0; i < 350; i++)
    	{
    		list[i] = (_linkList* )malloc(sizeof(_linkList));
    		list[i]->strValue = NULL;
    		list[i]->cnt = 0;
    		list[i]->next = NULL;
    	}
    }
    
    CHash::~CHash()
    {
    	int i;
    	for (i = 0; i < 350; i++)
    	{
    		free(list[i]);
    	}
    }
    
    int CHash::HashFunc(char src[])
    {
    	char* p = src;
    	int sum = 0;
    	while (*p != '\0')
    	{
    		int mod = (int)(*p) % 90;
    		if (mod % 2 ==0)
    		{
    			mod *= 2;
    		}
    		sum+=mod;
    		p++;
    	}
    	return sum;
    }
    
    void CHash::InitHash()
    {
    	ifstream fin;
    	char str[10];
    	fin.open("data1.txt");
    	while (fin>>str)
    	{
    		int addr = HashFunc(str);
    		_linkList* head = list[addr];
    		bool isRight = false;
    
    		while (head->next != NULL)
    		{
    			head=head->next;
    			if (strcmp(head->strValue, str) == 0)
    			{
    				isRight = true;
    				head->cnt++;
    				break;
    			}
    		}
    
    		if (!isRight)
    		{
    			_linkList* newNode=(_linkList*)malloc(sizeof(_linkList));
    			newNode->strValue = new char[10];
    			newNode->cnt=1;
    			newNode->next = NULL;
    			strcpy(newNode->strValue, str);
    			head->next = newNode;
    		}
    	}
    }
    
    void swap(_linkList* l, int s, int m)
    {
    	int temp;
    	char str[10];
    	temp = l[s].cnt;
    	strcpy(str,l[s].strValue);
    
    	l[s].cnt = l[m].cnt;
    	strcpy(l[s].strValue, l[m].strValue);
    
    	l[m].cnt=temp;
    	strcpy(l[m].strValue, str);
    }
    
    void swap(_linkList* l, int s, _linkList* m)
    {
    	int temp;
    	char str[10];
    	temp = l[s].cnt;
    	strcpy(str,l[s].strValue);
    
    	l[s].cnt = m->cnt;
    	strcpy(l[s].strValue, m->strValue);
    
    	m->cnt=temp;
    	strcpy(m->strValue, str);
    }
    
    void heapAdjust(_linkList* l, int s, int m)
    {
    	int temp = l[s].cnt;
    	char str[10];
    	strcpy(str,l[s].strValue);
    	for (int j = 2*s; j <= m; j *= 2)
    	{
    		if (j<m && l[j].cnt < l[j+1].cnt)
    			++j;
    		if (temp >= l[j].cnt)
    			break;
    		l[s].cnt = l[j].cnt;
    	//	l[s].strValue = l[j].strValue;
    		strcpy(l[s].strValue,l[j].strValue);
    		//strcpy(str, l[j].strValue);
    		s=j;
    	}
    	l[s].cnt = temp;
    	//l[s].strValue = str;
    	strcpy(l[s].strValue, str);
    }
    
    void heapSort(_linkList* l)
    {
    /*
    	for (int ii = 1; ii <= N; ii++)
    	{
    		cout<<l[ii].cnt<<" "<<l[ii].strValue<<endl;
    	}
    	*/
    	int i;
    	for (i = N/2; i > 0; i--)
    	{
    		heapAdjust(l, i, N);
    	}
    
    	for (i = N; i > 1; i--)
    	{
    		swap(l,i,1);
    		heapAdjust(l, 1, i-1);
    	}
    }
    
    int main()
    {
    	CHash CH;
    	CH.InitHash();
    	_linkList Max[N+1];
    	Max[0].cnt = 0;
    	Max[0].strValue = NULL;
    	_linkList* head;
    	int initCount = 1;
    	int i = 0;
    	while (initCount <= N && i < 350)
    	{
    		head=CH.list[i];
    		while (head->next && initCount <= N)
    		{
    			head=head->next;
    			Max[initCount].cnt = head->cnt;
    			Max[initCount].strValue = new char[10];
    			Max[initCount].next = NULL;
    			strcpy(Max[initCount].strValue,head->strValue);
    			initCount++;
    		}
    		i++;
    	}
    /*
    	for (int i = 1; i <= N; i++)
    	{
    		cout<<Max[i].cnt<<" "<<Max[i].strValue<<endl;
    	}
    	***/
    	heapSort(Max);
    	/***
    	cout<<"after sort...."<<endl;
    	for (int i = 1; i <= N; i++)
    	{
    		cout<<Max[i].cnt<<" "<<Max[i].strValue<<endl;
    	}*/
    
    	while (i < 350)
    	{
    		while (head->next && i < 350)
    		{
    			head=head->next;
    			if (head->cnt > Max[1].cnt)
    			{
    				swap(Max, 1, head);
    				heapSort(Max);
    			}
    		}
    		i++;
    		head=CH.list[i];
    	}
    	for (int i = 1; i <= N; i++)
    	{
    		cout<<Max[i].cnt<<" "<<Max[i].strValue<<endl;
    	}	
    }
    


    数据data1.txt如下:

     

    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    baidu
    google
    google
    google
    google
    google
    google
    google
    google
    google
    google
    google
    google
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    qq
    aa
    aa
    aa
    aa
    aa
    aa
    aa
    bb
    bb
    bb
    bb
    cc
    cc
    bb
    bb
    bb
    cc
    cc
    aa
    bb
    cc
    163
    163
    163
    hh
    hh
    vs
    vs
    vs
    vs
    vs
    vs
    hello
    hello
    hello
    hello
    what
    what
    what
    what
    what
    what
    how
    how

    结果如下:

  • 相关阅读:
    Silverlight的依赖属性与附加属性(五)
    Silverlight Behavior技术(三)
    JQuery EasyUI 简单的左右布局左边Tree右边区域打开tab右键菜单实现 Murray
    使用Areas分离ASP.NET MVC项目(前后台以及对应功能模块) Murray
    IDisposable 接口 Murray
    MVC3/4 自定义HtmlHelper截断文本内容 Murray
    30个最常用css选择器解析(经典) Murray
    asp.net 中使用 SqlBulkCopy 将一个目录下指定类型的数据文件导入到数据库 Murray
    EntityState 枚举的5中状态的变化 Murray
    IEnumerable<T> 接口主要成员 Murray
  • 原文地址:https://www.cnblogs.com/xinyuyuanm/p/2995512.html
Copyright © 2011-2022 走看看