终于知道大数据python入门教程

Python是一款功能强大的脚本语言，具有丰富和强大的库，重要的是，它还具有很强的可读性，易用易学，非常适合编程初学者入门。以下是小编为你整理的大数据python入门教程

环境配置：下载Python并安装，安装完成后，配置windows的环境变量：打开高级系统设置，将Python的安装目录添加到系统变量path中。配置完成后，在cmd命令行，输入命令"Python"，出现Python版本号，即配置成功

大数据python入门教程

教程学习：上网百度下载一份Python教程，进行学习。初学者入门的话，没必要整份教程看一遍，只需要将基础的语法及模块挑出学习，如：字符串、列表、字典、元组、文件及数据库的操作

上机实践：单纯地学习教程绝对是没法学好编程语言的，我们需要通过实践将理论知识转为实打实的技能。在学习的过程中，可以在Ulipad上尝试编写脚本，也可以将教程上的代码自己敲一遍。总之，一定要“多敲”

下载安装步骤

趁着在家有个干净的windows环境，我自己尝试从头配置Python+webdriver，公司的配置是前辈已经帮忙配好的。本文档在于帮助菜鸟扫盲。有些内容是引用虫师的

1.下载python，好吧官网有，直接exe安装吧少年，推荐下载py2.7，3.3不太稳定(说错别砍我，我很菜)

2.下载setuptools(python的基础包工具)，同样是exe 文件，默认会找到python 的安装路径，将安装到C:Python27Libsite-packages 目录下

3.下载pip，(python安装包管理工具)，我默认解压在了C:pip-1.3.1 目录下

4.打开命令提示符(开始---cmd 回车)进入C:pip-1.3.1目录下输入：

C:pip-1.3.1 > python setup.py install

(如果提示python 不是内部或外部命令!别急，去配置一下环境变量吧)

5.再切换到C:Python27Scripts 目录下输入：

C:Python27Scripts > easy_install pip

6、安装selenium，(下载地址： https://pypi.python.org/pypi/selenium )

如果是联网状态的话，可以直接在C:Python27Scripts 下输入命令安装：

C:Python27Scripts > pip install -U selenium

如果没联网(这个一般不太可能)，下载selenium 2.33.0 (目前的*版本)

并解压把整个目录放到C:Python27Libsite-packages 目录下。

7、下载selenium 的服务端(https://code.google.com/p/selenium/)在页面的左侧

列表中找到

selenium-server-standalone-XXX.jar

对!就是这个东西，把它下载下来并解压;

在selenium-server-standalone-xxx.jar 目录下使用命令java -jar

selenium-server-standalone-xxx.jar 启动(如果打不开，查看是否端口被占用：

netstat -aon|findstr 4444)。

至此步骤完毕

接下来是一些注意事项，是我配置想启动的过程中遇到的问题，希望对你们有所帮助：

1.我写了个入门的python+webdriver脚本：

出现error：

Traceback (most recent call last): File "C:Python27Libaa.py", line 1, in from selenium import webdriverImportError: No module named selenium

解决方案：没有找到selenium，好吧他说selenium没装，但是我真的安装的啊。我勒个去。于是我把我之前selenium-2.35.0.tar删了，在线用pip命令操作安装selenium，发现用from selenium import webdriver还是报错，于是找啊找，参见该博客http://blog.sina.com.cn/s/blog_416544cb0101kzua.html

重启电脑，这里如果不重启，不生效，OK，这个重启电脑搞定这个问题

2.我相信很多人会去手写python脚本

请大家注意调用浏览器首字母要大写。。。(今天差点弄死我)，如:Firefox，Chrome,Ie

3.注意得把IEDriverServer跟chromedriver放到对应浏览器的安装目录下

配置浏览器的环境变量Path：如

Chrome:C:UserswyxAppDataLocalGoogleChromeApplication

4.在python的安装目录下也放IEDriverServer，chromedriver

Python入门

*步：Python入门

这一阶段，你需要学习的知识点：

如果学习能力还不错的话，这一阶段，只需要一个多月的时间

教程如下：

Python入门教程完整版(懂中文就能学会)http://pan.baidu.com/s/1miwZ1WW

第二步：熟悉Scrapy各模块

教程简介：

(1)Scrapy的简介。

主要知识点：Scrapy的架构和运作流程。

(2)搭建开发环境：

主要知识点：Windows及Linux环境下Scrapy的安装。

(3)Scrapy Shell以及Scrapy Selectors的使用。

(4)使用Scrapy完成网站信息的爬取。

主要知识点：创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取网站的 Spider 并提取出结构化数据(Item)、编写 Item Pipelines 来存储提取到的Item(即结构化数据)。

教程下载地址：Scrapy教程 http://pan.baidu.com/s/1dF3qhFV

第三步：Django教程

教程简介：

(1)Django的简介。

主要知识点：MVC设计模式以及Django的MVT。

(2)搭建开发环境：

主要知识点：Linux的虚拟环境搭建和应用、Django的安装。

(3)利用Django框架完成简单的图书项目：

主要知识点：编写模型，使用API与数据库交互、使用Django的后台管理管理数据、通过视图接收请求，通过模型获

教程下载地址：Django教程 http://pan.baidu.com/s/1nvFlfU5

第四部：Python全栈教程

教程简介：

(1)HTTP协议的分析：

HTTP格式。

包含知识点：HTTP GET请求的格式、HTTP POST请求的格式、HTTP响应的格式。

(2)HTTP协议的使用(实现Web静态服务器)：

利用HTTP协议实现Web静态服务器。

包含知识点：浏览器首先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使用类。

(3)服务器动态资源请求(实现Web动态服务器)：

利用WSGI实现Web动态服务器。

包含知识点：浏览器请求动态页面的过程介绍、WSGI的介绍、定义WSGI接口。

教程下载地址：

Python全栈教程 http://pan.baidu.com/s/1nvFlfU

宽度优化遍历策略

宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法，在搜索引擎爬虫一出现就开始采用了。新提出的抓取策略往往会将这种方法作为比较基准，但应该注意到的是，这种策略也是一种相当强悍的方法，很多新方法实际效果不见昨比宽度优化遍历策略好，所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略。网页爬取顺序基本是按照网页的重要性排序的。之所以如此，有研究人员认为，如果某个网页包含很多入链，那么更有可能被宽度优化遍历策略早早爬到，而入链这个数从侧面体现了网页的重要性，即实际上宽度优化遍历策略隐含了一些网页优化级假设。

PageRank是一种著名的链接分析算法，可以用来衡量网页的重要性。很自然地，可以想到用PageRank的思想来对URL优化级进行排序。但是这里有个问题，PageRank是个全局性算法，也就是说当所有网页下载完成后，其计算结果才是可靠的，而爬虫的目的就是去下载网页，在运行过程中只能看到一部分页面，所以在爬取阶段的网页是无法获得可靠的PageRank得分的。对于已经下载的网页，加上待爬取的URL队列中的一URL一起，形成网页集合，在此集合内进行PageRank计算，计算完成之后，将待爬取URL队列里的网页按照按照PageRank得分由高低排序，形成的序列就是爬虫接下来应该依次爬取的URL列表。这也是为何称之为“非完全PageRank”的原因。

天才领路者

终于知道大数据python入门教程