一、产品概述
行业垂直搜索引擎是指借助中文智能处理技术,针对特定行业信息进行分析整合,完成信息结构化提取和信息查询检索的软件系统,形成针对特定行业或领域的细分和精确化互联网专业搜索引擎。
行业垂直搜索引擎是公司的核心产品之一,主要目标是为客户提供面向行业网站或网站群的信息精确定位与搜索服务。
二、适用领域
行业垂直搜索引擎由于自身的灵活性,既可以针对企业事业单位构造专题信息采集和搜索系统,也可以针对特定行业提供更具针对性的解决方案。可以广泛应用于以下领域:
行业垂直搜索引擎适用领域
u 构造行业或领域相关的行业垂直搜索引擎
扩展行业门户的垂直搜索引擎,改变单一的站内信息搜索模式,扩展到相关行业的信息综合检索。帮助行业门户逐步整合行业领域内的其他网页资源、相关咨询和产品资源,为行业内价值用户提供专有的信息搜索服务。
u 面向政府业务相关的政务垂直搜索引擎
针对政府门户网站,建立垂直体系和上级主管的网站内容垂直搜索。集成各级政府相关公告、法律、法规等数据库,为政务服务通过统一的入口,方便民众,最大的发挥政务资源的效用。
u 企业和研究机构的主题相关垂直搜索引擎
帮助企业借助互联网,采集企业经营业务相关的信息,增加企业网站内容的吸引力,获取企业有关的公关信息和用户反馈,为企业提供信息增值服务;提供特定研究领域的相关信息整合,为研究机构提供集成化的领域信息检索服务。
u 实时信息和分类信息的转项垂直搜索引擎
构造生活相关的垂直搜索主要是指以搜索为手段,以结构化资源整合为主,对信息的及时性和准确性要求较高,为人们日常生活提供的信息服务。
三、产品架构
行业搜索产品采用模块化封装,各主要模块独立成系统,便于产品的部署实现系统可伸缩性。体系架构主要包括了行业搜索各项主要模块,形成了部署灵活、运行高效的搜索引擎产品。总体架构如图所示:
行业垂直搜索产品架构
四、产品功能特点
u 多线程分布式集群采集技术,形成高并发信息获取能力
行业垂直搜索引擎采集模块采用多线程并发的网络蜘蛛技术,可以根据管理员的设置和网络状况动态调节线程数目,实现多线程并发搜索。同时,可以设置多个机器人协同工作,共同完成信息采集任务,实现信息的分布式采集,从而提高采集效率,缩短采集时间。
u 多策略采集更新技术,保证信息的准确性和实效性
支持包括广度优先,深度优先在内的多种采集策略;提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源,保证信息的实效性。
u 行业专题链接分析技术,提供行业信息源的主动发现
垂直搜索引擎网络蜘蛛不但能根据搜索用户设置的网页信息源,实现全自动更新和资源发现,还能根据种子信息源,自动扩展关联站点进行资源的主动发现和下载, 从而提供更加全面的信息搜索应用。
u 个性化下载配置功能,帮助用户实现系统性能最优化
允许用户进行多种配置,具体包括:采集任务配置、信息采集的资源类型配置、信息采集的资源范围配置、信息采集的行为配置等,从而满足不同用户的不同需求。
u 面向行业优化的智能分词,实现定制性服务
针对行业搜索需要,提供智能分词技术,提供通用词库支持,系统内置分词词典。支持行业核心扩展词库,并可根据用户需求定制行业词库,保证领域核心概念和词汇完好性,有效提高了分词准确性;
u 智能化的文档分析技术,完成内码转换和内容提取
对西文、繁简体汉字信息,实现自动统一转换,以GBK为基础进行统一管理和存储。系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。通过可视化结构的网页分析技术,实现精准的内容提取。
u 针对行业领域自动训练,形成信息智能化自动分类
采用基于行业和领域内容的自动分类技术,面向行业领域,对采集的网页进行自动分类。系统自动平衡自动分类的准确率和效率,以满足实时有效的信息加工处理为目标。系统提供分类训练工具,支持用户自主设定分类需求和特征模板,适应不同行业的需求。
u 强大的非结构化数据管理功能
系统支持包括复杂格式的TEXT、HTML等格式文件的存储、索引和检索,支持多种语种、多种编码管理,实现了高效的数据和索引压缩,超低空间膨胀。
u 支持海量信息处理的分布式体系架构
分布式体系结构,可以建立多个全文数据库服务器的集群结构,并在应用层实现透明访问, 全文数据库服务器的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
u 集成智能中文处理技术,提高查全率和查准率
支持行业核心扩展检索,提供可维护主题词表,可以根据主题词典进行扩展和相关检索,主题词典自动扩展检索;通过知识挖掘,可以支持拼音纠错检索、相关短语检索和相似性检索等功能。
u 完善的信息检索手段,支持高级检索
垂直搜索引擎的检索服务为用户提供丰富的功能,除了支持标准搜索引擎所提供的全文检索之外,还支持多种特征检索。比如按日期检索、按关键词检索、按标题检索、按URL名称检索等。对于检索结果还支持多种排序操作和自动聚类功能。
u 集成的统一管理接口,全面的信息搜索应用
提供产品化的统一管理界面,解决一般搜索引擎产品管理界面不友好的问题。通过图形化入口,对各个独立模块进行管理和操作控制。
u 可配置的运行参数和服务参数,支持自动化的系统应用
多种可选服务参数,帮助管理人员方便灵活的完成运行状态的控制和系统的自动化运行,减少日常维护的工作量。
五、运行环境
系统部署环境最低要求如下:
Ø 硬件支持环境:P4
Ø 软件运行环境:
u 操作系统Windows 2000及其以上版本
u Linux 7.0以上版本及FreeBSD系统
Ø 应用服务器:Apache, Tomcat,IIS Server +.NET 等等
Ø 提供的开发接口:Java,.Net,php,Perl
融合互联网搜索和智能分类于一体,具有“海量、智能、个性”特点的搜索引擎。
信息层:互联网信息、企业内部异构信息
采集层:分布式并发采集
加工层:基于内容的智能加工
数据存储中心:海量信息分布式存储和负载均衡
用户层:提供全文检索和多种特征检索、智能检索方式
信息采集
垂直搜索引擎不但能搜索网页内容,而且能搜索各种RDBMS、文件系统,以及散布在企业各个角落的邮件、图片等非结构化数据, 从而提供更加全面的信息搜索应用。
垂直搜索引擎spider采用多线程并发搜索技术,可以根据实际情况动态调节线程数目,实现多线程并发搜索。同时,可以设置多个机器人协同工作,共同完成信息采集任务,实现信息的分布式采集,从而提高采集效率,缩短采集时间。
支持包括广度优先,深度优先在内的多种采集策略;提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源,保证信息的实效性。
允许用户进行多种配置,具体包括:采集时间配置(任务开始时间,监控周期等)、信息采集的资源类型配置(HTML文件,图片文件,各种格式化文档或者各种多媒体文件)、信息采集的网址范围配置(在限定的站点,限定的域,或无限制扩展搜索)、信息采集的数量配置(每个站点采集的资源数目,层次数)等,从而满足不同用户的不同需求。
系统BIG5内码网页和Unicode内码网页自动转换为GBK后,进行统一管理和存储。系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
采用基于内容的自动分类技术,可对采集的网页进行基于内容的自动分类,不需人工干预。自动分类的准确率基本可以满足信息粗加工或大多数应用的实用要求。同时系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求。
采用的排重技术,不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。同时用户可以根据具体需求调整相似阀值,实现个性化排重目标。被排除的重复网页不会被清除,可以作为主体网页的相似或者推荐网页进行显示,提供给信息用户参考。
系统支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS、MARC等多种格式文件的存储、索引和检索。支持多媒体数据的存储管理。支持多语种、多编码管理。实现了高效的数据和索引压缩,超低空间膨胀。
分布式体系结构,可以建立多个全文数据库服务器的集群结构,并在应用层实现透明访问, 全文数据库服务器的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
词典辅助:系统内置分词词典、主题词表等,且这些词典可维护;根据统计建立了大量歧义排除规则,有效提高了分词准确性;扩展检索:可以根据主题词典进行扩展和相关检索,包括主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角自动扩展检索等。
智能检索:通过知识挖掘,可以支持拼音/同音检索、相关短语检索和相似性检索等功能。
垂直搜索引擎的检索服务为用户提供丰富的功能,除了支持标准搜索引擎所提供的全文检索之外,还支持多种特征检索,比如按发布日期检索、按关键词检索、按标题检索、按URL名称检索等,支持拼音检索、相关短语检索、扩展检索、相似性检索等智能功能。对于检索结果还支持多种排序操作和自动聚类功能。
中国企业信息情报中心:
中国企业家世纪论坛网络实验室下属:“搜索情报技术服务中心”我们技术团队主要由搜索引擎领域资深技术专家和专业管理市场人员组成。致力于全文检索技术、中文信息处理技术的研究与开发,拥有国内领先的搜索引擎系列产品。产品包括企业级搜索、行业垂直搜索引擎、站内搜索引擎、企业竞争情报(舆情监控)系统、网络信息雷达系统等自主知识产权软件系统。公司客户覆盖各个行业,拥有良好的企业品牌和声誉。 希望以自己的技术和产品为我们的客户带来长期的利益。以长期的技术积累为产品性能和质量保证,以专业化的服务队伍提供技术服务,以专业的销售队伍帮助企业打造属于您自己的搜索引擎技术解决方案。
自有核心技术
多线程分布式集群采集技术,形成高并发信息获取能力,多策略采集更新技术,保证信息的准确性和实效性。行业专题链接分析技术,提供行业信息源的主动发现,个性化下载配置功能,帮助用户实现系统性能最优化。面向行业优化的智能分词,实现定制性服务,智能化的文档分析技术,完成内码转换和内容提取。
针对行业领域自动训练,形成信息智能化自动分类。 强大的非结构化数据管理功能, 支持海量信息处理的分布式体系架构。 集成智能中文处理技术,提高查全率和查准率,完善的信息检索手段,支持高级检索 。 完善的系统管理,集成的统一管理接口,全面的信息搜索应用。 支持多种采集策略和高效的更新策略,保证信息的准确性和实效性。 多种配置功能,满足用户个性化需求。 自动内码转换和垃圾信息过滤 。 支持海量信息处理的分布式体系架构。
支持及售后服务:
现场解决客户疑难、提供技术培训、软件升级服务、定期巡检和维护、系统优化建议与实施、组织技术交流与研讨、并提供长期的技术咨询。
业务咨询和联系方式: 010-81622008 (黄耀波) 移动:15901222008
QQ: 35070302 msn: yourb@msn.com