北京有多少家企业?
我们公司是做企业服务的,最近想做一下企业数量的调研,所以自己写了一个爬虫来统计一下北京的企业的数量(仅统计了主体名称中包含“北京”字样且注册地址为北京的) 通过Python的requests库和BeautifulSoup库来提取网页数据。首先把官网首页打开并缓存起来,然后对网页内容进行抽取,得到企业列表后,再逐个链接得到企业详细信息,最终用pandas包处理数据并做简单的可视化。
原始数据量较大,这里只展示了部分数据。总共采集到841370家企业。其中95%的企业名称含“北京”二字、5%的企业名称含京字。
采集过程中发现部分企业名称重复的情况,经过筛选和剔除最后得到了692695家独立的企业。为了简单起见,我们把名称中含有“北京”、“京”的企业分别用“北”“京”表示,这样就不需要区分全拼、简拼等情况,大大简化了数据分析工作。 之后就是简单的数据清洗,因为数据量大,很多步骤都借助了python包来完成,如正则表达式过滤。