跳至主要內容

数据自动化采集

yczha小于 1 分钟Data AnalysisMachine LearningMachine LearningData Analysis

open in new window open in new window

陈旸老师极客时间《数据分析实战45讲》笔记

有哪些数据源?

  • 开放数据源:单位维度(政府、企业、高校)、行业维度(交通、金融、能源等)
  • 爬虫抓取:自己写代码(Requests、XPath、Pandas、Selenium、PhantomJS、Puppteteer)、使用第三方抓取工具(火车采集器、八爪鱼、搜集客、)
  • 传感器采集:采集设备
  • 日志采集:Web服务器采集(httpd、Nginx、Tomcat)、自定义采集(埋点)

注:埋点即在有需要的位置采集相应的信息,进行上报。可以使用自己写代码也可以使用第三方工具。推荐使用第三方工具,比如:友盟、Google Analysis、Talkingdata