设为首页收藏本站
咨询热线:18612963799
  • 大数据采集系列课程 信息的发现 、选择、收藏、组织和分享是信息工作人员最重要的工作之一,尤其是在大数据时代,只有做好这方面的基础工作,才能满足企业战略决策需要,满足用户个性化信息服务的需要。

产品介绍
大数据采集培训班
一 培训目的
      信息的发现 、选择、收藏、组织和分享是信息工作人员最重要的工作之一,尤其是在大数据时代,只有做好这方面的基础工作,才能满足企业战略决策需要,满足用户个性化信息服务的需要。
      大数据具有信息种类多,更新速度快,综合价值大等众多特性,如何精选真实、更有价值的信息,更快、更方便的采集、聚合各种信息,进而进行存储、分析是信息处理工作人员面临的重要挑战。
      本次培训班将详细讲解Rss、Xpath ,Drupal 、Offline Explorer 、aTube Catcher  、Lucidworks等相关技术和专业软件使用。认真参加培训的学员,将能熟练地掌握数据采集的技巧,并熟悉数据挖掘的部分技能,为将来工作带来极大便利。
二 课程特色
      1 经过了实践考验,是成功案例的真心分享
      本课程是在给国内最顶尖的机构所做信息搜集案例的真实分享,反响强烈,甚至在一家单位多次做同样的分享。
      2具有较强的可操作性
      大部分软件具有非常便捷的操作性,简单方便。高级操作有写好的运行模版,不懂编程的,也可熟练操作。
      3 具有低成本、可持续性
      几乎用到的所有软件都是开源或免费软件,而且这些软件更新发展的速度很快,能不断满足信息采集的需求。
三 课程提纲
      第一部分:
      1.先睹为快,数据采集的2个成功案例以及如何利用数据采集技术做好学科服务、知识个性化服务。   
      2.全球智库排名报告解读以及根据实际情况灵活确定信息采集的类型,制定信息采集策略。  
      3.如何对Youtube某一频道、某一主题的视频快速批下载,如何去国家图书馆、中科院图书馆以及中国科学技术信息研究所这些免费开放的图书馆去检索和下载各种相关数据库。
      4.利用电骡emule、迅雷下载各种资源以及Drupal在信息采集、组织和服务的介绍以及国外案例介绍。
      第二部分:
      1.安装Drupal采集器。
      2.利用Drupal采集器,采集新闻数据。
      3.Drupal Feeds模块基础知识介绍,抓取器、解析器、处理器。
      4.使用导入节点、分类、用户。
      第三部分:
      1.讲解如何使用Feeds,抓取图片,如何控制图片的文件名、存储路径。
      2.讲解如何使用Feeds tamper对数据进行预处理 。
      3.Xpath规则实例解析,根据5个实例网站,讲解常用的Xpath知识。    
      4.如何使用feeds_crawler采集分页结构的列表页面。   
      第四部分:
      1.如何实现对采集过来的网页内容的自动标引,根据种子本身的设置,自动继承。
      2.feeds_selfnode_processor、feeds_smartparser、feeds_batch模块使用介绍。
      3.以Drupal采集器为基础,实现当当图书抓取。 
      第五部分:
      1.利用Lucidworks Fusion对数据进行搜索和挖掘。
      2.行业主题词表和分类表在信息组织和挖掘中的重要作用。
      3.大数据时代如何更好的进行专题服务、个性化服务以及发表相关论文注意事项。
版权所有 京ICP备16048727号-1
Powered by PageAdmin CMS