摘要: 本实验将按以下几步进行:实验环境monodevelop ,ubuntu10.04,实验目的:探索分布式文件存储方案1、单机小文件的存储,逐步增加上传文件的大小,观察mongoDB中文件对磁盘分配大小的变化。2、采用分片的方式存储大量的数据实验一:首先建立一个数据库gywdb,上传一个574.5kB大小的文件,代码如下:View Code using System;using System.Collections;using System.Collections.Generic;using MongoDB.Bson;using MongoDB.Driver;using MongoDB.Drive阅读全文
摘要: 首先按 http://www.cnblogs.com/guoyuanwei/archive/2012/04/04/2432013.html介绍的方法安装好monodevelop和mono开发环境按照mongoDB官方的例子安装好mongoDB在linux上:http://www.mongodb.org/display/DOCS/Quickstart+Unix,注意根据CPU是32位还是64位下载不同的版本打开一个终端启动mongoDB的数据库服务 root@ubuntu:/usr/local/mongoDB/bin# ./mongod在接下来的过程中,创建一个数据库gywdb来做测试。奇怪的事阅读全文
摘要: 分词的重要性对于一个搜索引擎来说是相当重要的,英文的分词相对简单,因为英文的每个单词都具有天然的分隔符,但当遇到中文时,就显得无能为力了。中文是世界上最复杂的语言之一,不同的字在不同的词语中可能代表不同的意思,一句话的意思不能简简单单的看汉字的意思,还有结合上下文语境,因此要让计算机理解中文是比较困难的。前面学习的所有例子中都提到了分词,都用的是lucene.net自带的标准分析器。代码如://构造一个多Field查询 Query query = MultiFieldQueryParser.Parse(Lucene.Net.Util.Version.LUCENE_29, ...阅读全文
摘要: 在实际的需求中,我们需要输入一个关键语句,希望能搜索到标题中含有此关键词或者内容中也还有此关键语句的文章,这就是一个多Field查询的问题当然多Field之间的关系可能为“与”也有可能为“或”。一般情况下,都在同一个目录索引下搜索,但是如果索引被分成很多文件,存在不同的地方,因此又会有一个多索引文件搜索的问题。下面通过代码演示:首先编写建索引的代码:using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.IO;using Lucene.Net;using Luc阅读全文
摘要: 在前面的例子中,利用的都是直接在文件系统上建立索引,如 Lucene.Net.Store.Directory indexDir = FSDirectory.Open(new DirectoryInfo(@"F:\lucene_index"));其中Directory是一个抽象类,具有多态性,这里用过FSDirectory.Open()静态方法实现了一个FSDirectory实例,并给Directory赋值。当然Lucene.Net也提供了内存中的索引RAMDirectory,在内存中的索引要比文件中的索引要快得多。下面通过一个例子来说明,同时对10000个文档建立索引,其它阅读全文
摘要: 用的lucene.net的版本为2.9.4,lucene.net提供的API很强大,建个索引很方便,但是如果能搞清楚索引的文件结构,会对深入理解有帮助。先写个简单的建索引的代码如下:using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.IO;using Lucene.Net.Index;using Lucene.Net.Store;using Lucene.Net.Util;using Lucene.Net.Analysis.Standard;using Lu阅读全文
摘要: 建索引的代码,代码里面有注释using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.IO;using Lucene.Net.Index;using Lucene.Net.Store;using Lucene.Net.Util;using Lucene.Net.Analysis.Standard;using Lucene.Net.Documents;namespace TestFileIndex{ class Program { stat...阅读全文
摘要: 原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空tmp一下 的所有目录。阅读全文
摘要: 环境:两台电脑,AMD64+ubuntu10.04+jdk1.7.0+hadoop0.20.2准备做namnode用 intel x86+ubuntu10.04+jdk1.7.0+hadoop0.20.2作datanode用为集群中的每台电脑建一个账户hadoop,设置密码:123456命令:$useradd -m hadoop $passwd 123456将hadoop-0.20.2文件拷贝到hadoop用户目录下,注意:此时hadoop-0.20.2文件的所属的用户和组可能还为root,通过linux命令chown -R hadoop:hadoop hadoop-0.20.2修改其用户和组阅读全文
摘要: hadoop配置事一定要注意hadoop所属的用户和组,否则会出现文件没有访问权限,导致启动失败的问题阅读全文
摘要: 参考:在ubuntu10.04和java1.6.0.24环境下出现的问题最后发现是在hadoop/bin/hadoop中有如下一段shell:?1234567<strong>CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'if [[ $EUID -eq 0 ]]; thenHADOOP_OPTS="$HADOOP_OPTS -jvm server $HADOOP_DATANODE_OPTS"elseHADOOP_OPTS="$HADOOP_OPTS -server $HADO阅读全文
摘要: 参考: http://blog.csdn.net/inkfish/archive/2010/01/07/5150029.aspxhttp://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html伪分布模式也是在一台单机上运行,但用不同的 Java 进程模仿分布式运行中的各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode ),分布式运行中的这几个结点的区别: 从分布式存储的角度来说,集群中的结点由一个 NameNode 和若干个.阅读全文
摘要: 操作系统为ubuntu10.04,cpu为AMD1、先到到甲骨文官网下载jdk-7-linux-x64.tar.gz(CPU为其它的注意下载相应的版本),因为hadoop是用java写的,所以要安装java的jdk,我这是把下载的压缩文件解压到目录/usr/lib/jvm/jdk1.7.0,记住这个目录,待会设置hadoop的java环境变量的路径时会用到此目录。2、再到hadoop官网下载hadoop-0.20.2.tar.gz,解压到某一个目录,我这是 /usr/hadoop-0.20.23、修改hadoop的java环境变量的路径,打开/usr/hadoop-0.20.2/conf/ha阅读全文