【Web Scraper 教程】一键抓取腾讯系创业公司名单

需求很简单:我对 TMT 领域的信息比较关注,目前想要了解一下腾讯系创业公司都有哪些,南极圈这个网站上有一份名单,但是一共有 95 页,手动复制的话会耗费大量时间和精力,想要以一种更为方便快捷的方式进行数据抓取。

▲ 腾讯系 创业公司名单

作为一个非技术出身的人,且对数据抓取暂时没有更深入需求的情况下,我倾向于使用现成的插件/软件,而不是专门去学习一门编程语言,比如大名鼎鼎的 Python。通过谷歌搜索了解到 Web Scraper 这个 Chrome 浏览器插件,下面进行实践。

首先需要下载&安装 Web Scraper。恕我直言,Chrome 浏览器在 PC 端天下第一。

安装完成后右击选择「Inspect」打开调试面板, 找到 Web Scraper,点击「Create Sitemap」,创建一个新的 Sitemap。

▲ Web Scraper 使用界面

为 Sitemap 命名并在「Start URL」一栏粘贴以下网址 :

http://www.nanjiquan.com/portal/tencent_ae/tencentBusinessList?page=1

由于是跨页抓取数据,所以需要对网址信息稍加改动。这种网页分页的网址一般都存在类似规律,以上面这个网址为例,「page=1」表示第 1 页,后面的网页逐页递增,直到「page=95」,即第 95 页。Web Scraper 的抓取规则为[初始页码-结束页码:页码差值],因为页码差值为 1,可以直接忽略,把原网址改为下面这个格式,表示抓取页面包括 1~95 页。

 http://www.nanjiquan.com/portal/tencent_ae/tencentBusinessList?page=[1-95]
▲ Create Sitemap

接下来为 Stiemap 创建选择器 Selector,我要抓取的数据类型为文本,所以「Type」一栏设置为「Text」,设置完成后点击下方的「Select」,选择需要抓取的文本类型,这里点击「快手」和 「G7」,Web Scraper 会自动选中剩余同类型文本。注意勾选「Multiple」,不然 Web Scraper 只会抓取一条数据。

▲ Selector

一切准备就绪,点击「Scrape」对数据进行抓取。

▲ Scrape
▲ 抓取数据时弹出的窗口

抓取完成后,点击「refresh」即可看到抓取的数据。

▲ refresh

点击「Export data as CSV」对数据进行导出。

▲ Export data as CSV

导出后的数据如下图所示,空白部分是因为原网页本来就是空值。

▲ 导出的数据

至此对于腾讯系创业公司名单的抓取工作就算完成了,很认可 Web Scraper 的 slogan「Making web data extraction easy and accessible for everyone.」当然其它技术最终也应当 easy and accessible for everyone,而不是高高在上。

【Web Scraper 教程】一键抓取腾讯系创业公司名单》有13条评论

发表评论

您的电子邮箱地址不会被公开。