天才教育网合作机构 > 北京电脑培训机构 > 北京UI设计培训机构 >

天才领路者

欢迎您!
朋友圈

400-850-8622

全国统一学习专线 9:00-21:00

位置:北京电脑培训资讯 > 北京UI设计培训资讯 > 终于知道大数据python入门教程

终于知道大数据python入门教程

日期:2019-09-18 17:14:49     浏览:526    来源:天才领路者
核心提示:Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门。以下是小编为你整理的大数据python入门教程 环境配置:下载Python并安装,安装完成后,配置windows的环

Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门。以下是小编为你整理的大数据python入门教程  

环境配置:下载Python并安装,安装完成后,配置windows的环境变量:打开高级系统设置,将Python的安装目录添加到系统变量path中。配置完成后,在cmd命令行,输入命令"Python",出现Python版本号,即配置成功

大数据python入门教程

 

教程学习:上网百度下载一份Python教程,进行学习。初学者入门的话,没必要整份教程看一遍,只需要将基础的语法及模块挑出学习,如:字符串、列表、字典、元组、文件及数据库的操作  

上机实践:单纯地学习教程绝对是没法学好编程语言的,我们需要通过实践将理论知识转为实打实的技能。在学习的过程中,可以在Ulipad上尝试编写脚本,也可以将教程上的代码自己敲一遍。总之,一定要“多敲”  

下载安装步骤

趁着在家有个干净的windows环境,我自己尝试从头配置Python+webdriver,公司的配置是前辈已经帮忙配好的。本文档在于帮助菜鸟扫盲。有些内容是引用虫师的  

1.下载python,好吧官网有,直接exe安装吧少年,推荐下载py2.7,3.3不太稳定(说错别砍我,我很菜)  

2.下载setuptools(python的基础包工具),同样是exe 文件,默认会找到python 的安装路径,将安装到C:Python27Libsite-packages 目录下  

3.下载pip,(python安装包管理工具),我默认解压在了C:pip-1.3.1 目录下  

4.打开命令提示符(开始---cmd 回车)进入C:pip-1.3.1目录下输入:  

C:pip-1.3.1 > python setup.py install  

(如果提示python 不是内部或外部命令!别急,去配置一下环境变量吧)  

5.再切换到C:Python27Scripts 目录下输入:  

C:Python27Scripts > easy_install pip  

6、安装selenium,(下载地址: https://pypi.python.org/pypi/selenium )  

如果是联网状态的话,可以直接在C:Python27Scripts 下输入命令安装:  

C:Python27Scripts > pip install -U selenium  

如果没联网(这个一般不太可能),下载selenium 2.33.0 (目前的*版本)  

并解压把整个目录放到C:Python27Libsite-packages 目录下。  

7、下载selenium 的服务端(https://code.google.com/p/selenium/)在页面的左侧  

列表中找到  

selenium-server-standalone-XXX.jar  

对!就是这个东西,把它下载下来并解压;  

在selenium-server-standalone-xxx.jar 目录下使用命令java -jar  

selenium-server-standalone-xxx.jar 启动(如果打不开,查看是否端口被占用:  

netstat -aon|findstr 4444)。  

至此步骤完毕  

接下来是一些注意事项,是我配置想启动的过程中遇到的问题,希望对你们有所帮助:  

1.我写了个入门的python+webdriver脚本:  

出现error:  

Traceback (most recent call last): File "C:Python27Libaa.py", line 1, in from selenium import webdriverImportError: No module named selenium  

解决方案:没有找到selenium,好吧他说selenium没装,但是我真的安装的啊。我勒个去。于是我把我之前selenium-2.35.0.tar删了,在线用pip命令操作安装selenium,发现用from selenium import webdriver还是报错,于是找啊找,参见该博客http://blog.sina.com.cn/s/blog_416544cb0101kzua.html  

重启电脑,这里如果不重启,不生效,OK,这个重启电脑搞定这个问题  

2.我相信很多人会去手写python脚本  

请大家注意调用浏览器首字母要大写。。。(今天差点弄死我),如:Firefox,Chrome,Ie  

3.注意得把IEDriverServer跟chromedriver放到对应浏览器的安装目录下  

配置浏览器的环境变量Path:如  

Chrome:C:UserswyxAppDataLocalGoogleChromeApplication  

4.在python的安装目录下也放IEDriverServer,chromedriver  

Python入门

*步:Python入门  

这一阶段,你需要学习的知识点:  

如果学习能力还不错的话,这一阶段,只需要一个多月的时间  

教程如下:  

Python入门教程完整版(懂中文就能学会)http://pan.baidu.com/s/1miwZ1WW  

第二步:熟悉Scrapy各模块  

教程简介:  

(1)Scrapy的简介。  

主要知识点:Scrapy的架构和运作流程。  

(2)搭建开发环境:  

主要知识点:Windows及Linux环境下Scrapy的安装。  

(3)Scrapy Shell以及Scrapy Selectors的使用。  

(4)使用Scrapy完成网站信息的爬取。  

主要知识点:创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取网站的 Spider 并提取出结构化数据(Item)、编写 Item Pipelines 来存储提取到的Item(即结构化数据)。  

教程下载地址:Scrapy教程 http://pan.baidu.com/s/1dF3qhFV

 

第三步:Django教程  

教程简介:  

(1)Django的简介。  

主要知识点:MVC设计模式以及Django的MVT。  

(2)搭建开发环境:  

主要知识点:Linux的虚拟环境搭建和应用、Django的安装。  

(3)利用Django框架完成简单的图书项目:  

主要知识点:编写模型,使用API与数据库交互、使用Django的后台管理管理数据、通过视图接收请求,通过模型获  

教程下载地址:Django教程 http://pan.baidu.com/s/1nvFlfU5  

第四部:Python全栈教程  

教程简介:  

(1)HTTP协议的分析:  

HTTP格式。  

包含知识点:HTTP GET请求的格式、HTTP POST请求的格式、HTTP响应的格式。  

(2)HTTP协议的使用(实现Web静态服务器):  

利用HTTP协议实现Web静态服务器。  

包含知识点:浏览器首先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使用类。  

(3)服务器动态资源请求(实现Web动态服务器):  

利用WSGI实现Web动态服务器。  

包含知识点:浏览器请求动态页面的过程介绍、WSGI的介绍、定义WSGI接口。  

教程下载地址:  

Python全栈教程 http://pan.baidu.com/s/1nvFlfU  

宽度优化遍历策略

宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法,在搜索引擎爬虫一出现就开始采用了。新提出的抓取策略往往会将这种方法作为比较基准,但应该注意到的是,这种策略也是一种相当强悍的方法,很多新方法实际效果不见昨比宽度优化遍历策略好,所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略。网页爬取顺序基本是按照网页的重要性排序的。之所以如此,有研究人员认为,如果某个网页包含很多入链,那么更有可能被宽度优化遍历策略早早爬到,而入链这个数从侧面体现了网页的重要性,即实际上宽度优化遍历策略隐含了一些网页优化级假设。  

PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性。很自然地,可以想到用PageRank的思想来对URL优化级进行排序。但是这里有个问题,PageRank是个全局性算法,也就是说当所有网页下载完成后,其计算结果才是可靠的,而爬虫的目的就是去下载网页,在运行过程中只能看到一部分页面,所以在爬取阶段的网页是无法获得可靠的PageRank得分的。对于已经下载的网页,加上待爬取的URL队列中的一URL一起,形成网页集合,在此集合内进行PageRank计算,计算完成之后,将待爬取URL队列里的网页按照按照PageRank得分由高低排序,形成的序列就是爬虫接下来应该依次爬取的URL列表。这也是为何称之为“非完全PageRank”的原因。

如果本页不是您要找的课程,您也可以百度查找一下: