《网络爬虫全解析——技术、原理与实践》图书推荐
,《网络爬虫全解析——技术、原理与实践》
/罗刚图书
电子书价格:49元
2017年3月出版
本书介绍了如何开发网络爬虫。内容主要包括Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j来抓取网页信息,以及如何从抓取的文本中提取有效信息。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。
此外,这本书还介绍了如何从多媒体格式文件中提取文本信息,如图像和语音,以及如何使用大数据技术来存储捕获的信息。最后,以实战为例,介绍了如何捕捉微信和微博,以及在电子商务、医药、金融等领域的案例应用。其中,电子商务领域的应用引入了网络爬虫(web crawlers)来捕获商品信息并将其放入网上商店的数据库表中。医学领域的案例介绍了抓取PubMed医学专论库。金融领域的例子包括获取股票信息和从年度报告的PDF文档中提取表格。
适合对开发信息收集软件感兴趣的自学者。它也可以作为具有Java或编程基础的开发人员的参考。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!