
需求很简单:我对 TMT 领域的信息比较关注,目前想要了解一下腾讯系创业公司都有哪些,南极圈这个网站上有一份名单,但是一共有 95 页,手动复制的话会耗费大量时间和精力,想要以一种更为方便快捷的方式进行数据抓取。

作为一个非技术出身的人,且对数据抓取暂时没有更深入需求的情况下,我倾向于使用现成的插件/软件,而不是专门去学习一门编程语言,比如大名鼎鼎的 Python。通过谷歌搜索了解到 Web Scraper 这个 Chrome 浏览器插件,下面进行实践。
首先需要下载&安装 Web Scraper。恕我直言,Chrome 浏览器在 PC 端天下第一。
安装完成后右击选择「Inspect」打开调试面板, 找到 Web Scraper,点击「Create Sitemap」,创建一个新的 Sitemap。

为 Sitemap 命名并在「Start URL」一栏粘贴以下网址 :
http://www.nanjiquan.com/portal/tencent_ae/tencentBusinessList?page=1
由于是跨页抓取数据,所以需要对网址信息稍加改动。这种网页分页的网址一般都存在类似规律,以上面这个网址为例,「page=1」表示第 1 页,后面的网页逐页递增,直到「page=95」,即第 95 页。Web Scraper 的抓取规则为[初始页码-结束页码:页码差值],因为页码差值为 1,可以直接忽略,把原网址改为下面这个格式,表示抓取页面包括 1~95 页。
http://www.nanjiquan.com/portal/tencent_ae/tencentBusinessList?page=[1-95]

接下来为 Stiemap 创建选择器 Selector,我要抓取的数据类型为文本,所以「Type」一栏设置为「Text」,设置完成后点击下方的「Select」,选择需要抓取的文本类型,这里点击「快手」和 「G7」,Web Scraper 会自动选中剩余同类型文本。注意勾选「Multiple」,不然 Web Scraper 只会抓取一条数据。

一切准备就绪,点击「Scrape」对数据进行抓取。


抓取完成后,点击「refresh」即可看到抓取的数据。

点击「Export data as CSV」对数据进行导出。

导出后的数据如下图所示,空白部分是因为原网页本来就是空值。

至此对于腾讯系创业公司名单的抓取工作就算完成了,很认可 Web Scraper 的 slogan「Making web data extraction easy and accessible for everyone.」当然其它技术最终也应当 easy and accessible for everyone,而不是高高在上。
Views expressed in this article are the opinions of the author and do not necessarily reflect the views of The Epoch Times.
It was good, or at least fascinating, while it lasted. The labor shortage is ending
strangely. We’ve seen incredibly low unemployment numbers (3.6 percent) that
everyone has known don’t tell the whole story. That figure only calculates people in the market but leaves out everyone else
Labor participation has been very low, not having recovered from lockdowns
may have played in shaping the
have shaped U.S., NATO, Ukrainian,
and Russian behavior before the war.
provides a useful framework for
assessing how publicly disclosing an
stages of that model. The potential
intelligence to disrupt the enemy’s
how publicly disclosing an adversary’s