Scrapy入门(2)：编写spider.py

发表于 2016-10-31 | 分类于 Python

简介

spider.py: 引用items.py定义的item类，编写爬取程序提取item，最后返回item数据。

引用Spider类

为了创建一个spider,我们需要继承scrapy中的Spider类，并定义相应的属性和方法。

除了Spider这个最基础的类以外，scrapy还包含了CrawlSpider，XMLFeedSpider，CSVFeedSpider，SitemapSpider等几种爬虫类。

阅读全文 »

Scrapy入门(1)：安装及简介

发表于 2016-10-25 | 分类于 Python

简介

在边学边做中完成了第一个Python爬虫项目，成功使用scrapy框架抓取国外电商网站的商品信息。

scrapy安装

服务器系统环境

Mac OS
Python3.5(已安装pip)

安装scrapy

1 2	# 使用pip安装scrapy pip3.5 install scrapy

阅读全文 »

Python常用语句

发表于 2016-10-24 | 分类于 Python

简介

常见语句：import，赋值，if，while，for，try，with。

import

#导入re模块
import re

# 导入pandas模块并赋值为变量pd
import pandas as pd

# 导入user_agents包中的parse模块
from user_agents import parse

# 导入re模块的findall方法
from re import findall

阅读全文 »

Python中使用正则表达式：re模块

发表于 2016-10-23 | 分类于 Python

简介

正则表达式可以按照一定的规则(模式)对文本进行处理，Python中可以通过自带的re模块使用正则表达式。re模块无需安装直接import re。

阅读全文 »

pip管理Python包

发表于 2016-10-22 | 分类于 Python

简介

Python有非常多很好用的包，使用pip管理这些包，进行安装、更新或者删除。

阅读全文 »

Python常见数据类型

发表于 2016-10-21 | 分类于 Python

简介

Python最常见的数据类型分为序列与映射两大类。
常见的序列有列表list[]、元组tupple()、字符串str三种,常见的映射为字典{}。

阅读全文 »

我的第一个H5项目(微信活动)

发表于 2016-09-19 | 分类于 Web开发

前言

整个项目开发过程中遇到了很多的问题,包括页面样式、页面布局、背景音乐、图片预加载、页面交互(touch和shake)、微信自定义分享等等。下面将会一一阐述。

阅读全文 »

Centos下安装Node.js

发表于 2016-09-01 | 分类于 Web开发

前言

初衷是为了搭建一个简单的后台管理系统, 而选择Node.js也是因为其轻便、简单、上手快。

阅读全文 »

Excel感观

发表于 2016-08-31 | 分类于 Excel

前言

细数所有可用于数据分析的软件, Excel应该是其中使用最广、上手最快的一款了。

Excel有三点是我最喜欢的：

大量的公式函数, 可以非常快速的进行数据处理；
数据透视表/图, 可以很方便的对数据进行不同维度的交叉透视计算, 展现乃至发散我们的分析想法；
画图功能, 诸如折线图、柱形图、饼图等简单的图形都可以一键搞定, 同时还可以发挥想象进行各种自定义的组合。
阅读全文 »

我对数据分析的理解

发表于 2016-08-30 | 分类于数据分析

人人都是数据分析师

在现在这样一个用数据说话, 靠数据竞争的时代, 人人都应该懂一点数据分析。
而顶着数据分析师的名头靠数据分析吃饭的我们, 更需要比别人做的更好。
吃的透业务、搞的定技术、玩的转数据、写的好报告, 这些技能我们每一项都必不可少。

阅读全文 »