ASP300源码

网站首页 > .NET源码 > 整站系统 > 新乙王垂直搜索引擎门户系统

新乙王垂直搜索引擎门户系统

  • 更新日期:2011-09-27
  • 语言编码:.NET源码
  • 软件大小:6.49M
  • 下载用户:免费下载
  • 无官方网站 无演示
  • 最新热门源码

    源码简介

    *********************************************
    *
    *  新乙王垂直搜索引擎门户系统(基于lucence+mysql+asp.net) V2.0
    *  作者:阮丁远
    *  商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
    *  官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com
    ********************************************




    1.版权所有 任何商业目的需要购买商业版方可正式使用,否则后果自负

    2.本垂直搜索引擎系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence+mysql+asp.net,
    支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集不用为每个站定义采集规则,只定义一个总的)

    目录结构:


    网站文件--上传这个到服务器
    |
    |----spider_bin 这里为爬虫系统目录
    |----ShangPu_zhida_data商家直达栏目数据
    |----Main_set_dats 精确采集规则和模糊采集规则的采集规则文件,每个栏目建立一个目录
    |----Lanmu_Index_templete 栏目首页模板文件目录




    3.使用方法步骤:
      a.上传文件到服务器后,点 网站文件--上传这个到服务器 目录里的 spider_bin 目录里的
    install_mysql_server_win.exe后再点击 重新安装fvdou_mysql系统服务 按钮,来开启mysql服务
    ,然后点 fvdou_spider.exe 开启爬虫端,点开始采集按钮 开始采集,
      b.把 网站文件--上传这个到服务器 目录作为网站根目录wwwroot,如未上传到网站根目录wwwroot,
      请先上传,然后服务器安装好iis+.net framework2.0后,把iis主目录指向此根目录,即可用
      127.0.0.1或者你的**打开这个系统的主页网页

      
    4.采集规则格式说明:

    网站文件--上传这个到服务器/Main_set_dats/ 为 精确采集规则和模糊采集规则的采集规则文件的目录,每个栏目建立一个子目录

    如 lanmu2_打折搜索 子目录下的lanmu_sets.dat为采集规则主定义文件:




    ----------------------------------------------------------------------------

    [$lanmu_name]
    打折搜索
    [$lanmu_sort_num]
    2
    [$lanmu_url_host]
    /index_{$lanmu_id}.aspx
    [$lanmu_index_template_file]
    dazhe.html
    [$lanmu_id]
    dazhe_ss
    [$mohu_init_search_keyword_from_other_engine]
    打折网
    [$mohu_web_root_title_panduan_funname]
    is_dz_web_title
    [$mohu_web_root_title_panduan_code]


    public bool is_dz_web_title(string inn){

      if(inn.IndexOf("搜索")!=-1){

         //return false;
       }


      if(inn.IndexOf("下载")!=-1){

      return false;
       }

      if(inn.IndexOf("打折网")!=-1||inn.IndexOf("打折信息网")!=-1){

      return true;
       }


      return false;


      }



    [$page_goto_orders]



    [$ext_fields_classpage]


    [$ext_fields_infopage]
    rem 是否为分类字段里的0 or danwei如果info页 存在 招聘单位匹配则读info页,否则读classpage 的danwei字段
    rem 字段||是否为分类字段||字段采集规则英文名标示||是否储存||是否执行分词||字段是否被高级搜索||搜索类型||是否显示在左侧索引菜单||左侧菜单显示类型||固定类型,如price,addtime||采集时是否必填||Lucence搜索类型||左侧索引菜单显示次序||little_select_min_word_num
    商品名||0 or danwei   ||spname                  ||1       ||0           ||1                 ||little_select||1                 ||links_list     ||none                      ||0           ||PrefixQuery    ||1                    ||8
    折扣  ||0             ||zhekou                  ||1       ||0           ||1                 ||little_select||1                 ||links_list     ||none                      ||1           ||PrefixQuery     ||1                   ||8
    [$ext_fields_mohu_ziduan_name_enmu]
    rem 字段采集规则英文名标示 || 可能的所有字段名列表,正则            ||可能的值的正则,0表示匹配所有
    spname                        || (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3})   || 0
    zhekou                        || (.{0,3})(折扣)(.{0,3})                 || 0

    [$code_for_ext_fields_data_enmu_guilei_to_small]



    ----------------------------------------------------------------------------

    其中:[$lanmu_name]下指定栏目名
    [$lanmu_url_host]下指定栏目路径
    [$lanmu_index_template_file]下指定栏目模板文件,在Lanmu_Index_templete 栏目首页模板文件目录
    [$lanmu_id]为栏目id,必须不能重复
    [$mohu_init_search_keyword_from_other_engine]为模糊采集规则在初始化采集来源数据时 在其他搜索引擎采集搜索时的 关键字
    [$mohu_web_root_title_panduan_funname]指定在[$mohu_web_root_title_panduan_code]里代码的函数名,不能重复
    [$mohu_web_root_title_panduan_code]为首页标题是否为目标站类型的判断函数
    [$ext_fields_infopage]为所有的采集字段的定义
    [$ext_fields_mohu_ziduan_name_enmu]为模糊采集规则,如spname || (.{0,3})(商品名|商品|产品名|打折产品|打折商品)(.{0,3})   || 0
    则表示提取 商品名或商品或产品名或打折产品 右边的最近的文字作为spname字段的采集数据


    --

    lanmu1_招聘搜索/webs_guize 下面的文件为精确采集规则文件定义,一个目标站一个文件

    其中 [$page_url_regex] 为0表示不过滤url,

    [$caiji_info_fields_regex]里的 正则/位置规则详细 里的如[fd_datatoget]里[fd_datatoget]表示目标采集数据部分


          zpdw    |+| regex                         |+|招聘单位:\s*[fd_datatoget]      zwmc    |+| regex                         |+|职位名称: [fd_datatoget]工作类型    |+|乐清公司
         yuexin    |+| regex                         |+|工资待遇:
    [fd_datatoget] 岗位描述|+|乐清公司
        didian    |+| regex                         |+|工作地点:
    [fd_datatoget]招聘人数|+|乐清公司


    这些就是精确采集规则的具体采集规则定义,zpdw等和lanmu_sets.dat里的[$ext_fields_infopage]里的字段采集规则英文名标示 对应




    5.商业授权购买或全部源代码购买或功能定制联系qq:1426875943(验证消息都填:newyw),email:1426875943@qq.com
    6. 官方演示站:http://www.fvdou.com,官方技术站:www.yiwangcms.com


    下载地址

    下载地址已转移到新版网站,请点击左上角-首页,在新版网站搜索此套源码的标题进行下载。
    你可能还喜欢