人人都是数据分析师
在现在这样一个用数据说话, 靠数据竞争的时代, 人人都应该懂一点数据分析。
而顶着数据分析师的名头靠数据分析吃饭的我们, 更需要比别人做的更好。
吃的透业务、搞的定技术、玩的转数据、写的好报告, 这些技能我们每一项都必不可少。
何为数据分析
字面意思很容易理解, 就是对数据进行分析, 提取其中的有用信息与价值, 辅助判断与决策。
它主要有以下5个步骤:
- 明确分析目的
这是数据分析工作的前提和先决条件, 不明白分析目的, 后面的所有工作都会非常盲目且没有效率。 - 数据收集
在明确分析目的之后, 我们就需要开始构思需要哪些数据。数据来源多种多样, 可以是自有数据, 也可以是第三方数据。
工作中常通过以下方式获取数据: - 数据处理
首先在开始分析之前, 我们有必要对数据的准确性、完整性做检验, 任何建立在错误数据上的分析都是无效的, 甚至可能会导致非常严重的后果。
在检验确认数据可用的情况下, 我们需要对数据进行加工整理, 从大量的、杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。 - 数据分析
数据分析就是为了探究数据的内在规律, 提取其中的有用信息, 前期的一切工作都是为了保证数据分析这一步能够有效的进行。
简单的数据分析方法有对比分析、细分分析、趋势分析, 这三个我经常称之为”数据分析的三板斧”。事实上, 这三种分析基本上可以解决我们大部分常见的分析工作。
而只要谈到”高深”的数据方法, 我们也会一下子想到, 例如相关分析、回归分析、聚类分析、主成分分析、判别分析等等。不管黑猫白猫, 捉到老鼠就是好猫。不管是什么分析方法, 能达到分析目的就是好方法
- 数据展现
数据分析的最终目的还是为了指导我们的行动, 而作为一个数据分析师, 我们必须要能将分析结果非常形象直观的展现给所有需要看到的人。
我们常说”字不如表, 表不如图”, 当需要用数据说话时, 图表永远是我们的最佳利器。最最常见的比如折线图、柱形图、饼图、散点图等等。
在数据展现的过程中, 光有图表是远远不够的, 我们需要把这些图表进行组合撰写成报告。
一个好的报告需要有明确分析背景和目的、清晰的图表展现、简单易懂的结论、可实行的建议或者解决方案。
工欲善其事, 必先利其器
为了更好的展开我们的数据分析工作, 我们需要擅用工具。数据分析的软件太多了, 这里我只简单介绍一些我用过的。
- MindManager : 思维导图的软件很多, MindManager是我最常用的一款。使用思维导图非常有利于我们去梳理分析框架。
- Excel : Excel就不用多介绍了, 基本上它能够处理绝大部分的数据分析工作。可以用于数据处理、数据分析、甚至是最后的数据展现。
- Word、PPT : 如果说你觉得用Excel写报告还是不够美观好看的话, 那么Word、PPT绝对可以满足你的进一步需求。
- SQL : 不同于以上三种, SQL是一种编程语言, 大部分数据库都支持它, 即使略有不同也可以很快以此为基础掌握。每个公司都有自己的数据库, 掌握SQL是你查询这些数据必备的节能。
- 网站/App分析工具 : Google analytics、百度统计、友盟等第三方分析工具。其中在网站分析中, GA是我最为推崇的, 它的各种自定义分析功能远远超过了其他同类的免费工具。
- R : R是我最喜欢的工具。它是一种语言, 也是一种开源软件, 但我更愿意称之为一种环境。R里面各种各样的模块都十分齐全, 你可以借助它们非常方便快速的完成你的工作。
- 图形界面 : Rstudio
- 数据处理 : dplyr、reshape2、stringr…
- 链接数据库 : RSQLite、RODBC、RJDBC、Rmongo…
- 绘图 : ggplot2、ploty…
- 写报告 : shiny、knitr、Rmarkdown、
- 搭建Web环境 : Rserve、FastRWeb、shinyserver
- Python : Python和R一直是数据科学家最喜欢的两种语言。我开始使用Python是用于数据处理, 对记录的用户日志进行ETL(抽取、转换、加载), 再之后是为了搭建推荐系统。相比R而言, Python还是更适合部署在生产环境。
- hadoop、spark等一系列的大数据处理工具 : 这里面的每一个都可以大说特说, 后续在讲到大数据处理的时候再仔细说明。
That’s all.
Happy writing!