我对数据分析的理解

人人都是数据分析师

在现在这样一个用数据说话, 靠数据竞争的时代, 人人都应该懂一点数据分析。
而顶着数据分析师的名头靠数据分析吃饭的我们, 更需要比别人做的更好。
吃的透业务、搞的定技术、玩的转数据、写的好报告, 这些技能我们每一项都必不可少。


何为数据分析

字面意思很容易理解, 就是对数据进行分析, 提取其中的有用信息与价值, 辅助判断与决策。
它主要有以下5个步骤:

  1. 明确分析目的
    这是数据分析工作的前提和先决条件, 不明白分析目的, 后面的所有工作都会非常盲目且没有效率。
  2. 数据收集
    在明确分析目的之后, 我们就需要开始构思需要哪些数据。数据来源多种多样, 可以是自有数据, 也可以是第三方数据。
    工作中常通过以下方式获取数据:
    • 问卷调查 : 可以借助免费的网络调查平台, 例如问卷网, 问卷星
    • 查询公司内的既有数据 : 例如CRM系统, 数据库等
    • 部署日志记录系统, 收集用户的行为日志
    • 第三方统计工具 : 例如Google analytics、百度统计、友盟等网站/App分析工具
  3. 数据处理
    首先在开始分析之前, 我们有必要对数据的准确性、完整性做检验, 任何建立在错误数据上的分析都是无效的, 甚至可能会导致非常严重的后果。
    在检验确认数据可用的情况下, 我们需要对数据进行加工整理, 从大量的、杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。
  4. 数据分析
    数据分析就是为了探究数据的内在规律, 提取其中的有用信息, 前期的一切工作都是为了保证数据分析这一步能够有效的进行。
    简单的数据分析方法有对比分析、细分分析、趋势分析, 这三个我经常称之为”数据分析的三板斧”。事实上, 这三种分析基本上可以解决我们大部分常见的分析工作。
    而只要谈到”高深”的数据方法, 我们也会一下子想到, 例如相关分析、回归分析、聚类分析、主成分分析、判别分析等等。

    不管黑猫白猫, 捉到老鼠就是好猫。不管是什么分析方法, 能达到分析目的就是好方法

  5. 数据展现
    数据分析的最终目的还是为了指导我们的行动, 而作为一个数据分析师, 我们必须要能将分析结果非常形象直观的展现给所有需要看到的人。
    我们常说”字不如表, 表不如图”, 当需要用数据说话时, 图表永远是我们的最佳利器。最最常见的比如折线图、柱形图、饼图、散点图等等。
    在数据展现的过程中, 光有图表是远远不够的, 我们需要把这些图表进行组合撰写成报告。
    一个好的报告需要有明确分析背景和目的、清晰的图表展现、简单易懂的结论、可实行的建议或者解决方案。

工欲善其事, 必先利其器

为了更好的展开我们的数据分析工作, 我们需要擅用工具。数据分析的软件太多了, 这里我只简单介绍一些我用过的。

  1. MindManager : 思维导图的软件很多, MindManager是我最常用的一款。使用思维导图非常有利于我们去梳理分析框架。
  2. Excel : Excel就不用多介绍了, 基本上它能够处理绝大部分的数据分析工作。可以用于数据处理、数据分析、甚至是最后的数据展现。
  3. Word、PPT : 如果说你觉得用Excel写报告还是不够美观好看的话, 那么Word、PPT绝对可以满足你的进一步需求。
  4. SQL : 不同于以上三种, SQL是一种编程语言, 大部分数据库都支持它, 即使略有不同也可以很快以此为基础掌握。每个公司都有自己的数据库, 掌握SQL是你查询这些数据必备的节能。
  5. 网站/App分析工具 : Google analytics、百度统计、友盟等第三方分析工具。其中在网站分析中, GA是我最为推崇的, 它的各种自定义分析功能远远超过了其他同类的免费工具。
  6. R : R是我最喜欢的工具。它是一种语言, 也是一种开源软件, 但我更愿意称之为一种环境。R里面各种各样的模块都十分齐全, 你可以借助它们非常方便快速的完成你的工作。
    • 图形界面 : Rstudio
    • 数据处理 : dplyr、reshape2、stringr…
    • 链接数据库 : RSQLite、RODBC、RJDBC、Rmongo…
    • 绘图 : ggplot2、ploty…
    • 写报告 : shiny、knitr、Rmarkdown、
    • 搭建Web环境 : Rserve、FastRWeb、shinyserver
  7. Python : Python和R一直是数据科学家最喜欢的两种语言。我开始使用Python是用于数据处理, 对记录的用户日志进行ETL(抽取、转换、加载), 再之后是为了搭建推荐系统。相比R而言, Python还是更适合部署在生产环境。
  8. hadoop、spark等一系列的大数据处理工具 : 这里面的每一个都可以大说特说, 后续在讲到大数据处理的时候再仔细说明。

That’s all.
Happy writing!