内容简介
本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的Python读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。
本书共分11章,6个核心主题:其一是Python基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python数据库应用,包括MongoDB、MySQL在Python中的连接与应用;其四是数据清洗和组织,包括NumPy数组知识、pandas数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括Matplotlib和Pyecharts两个库的使用,涉及饼图、柱形图、线图、词云图、地图等图形,帮助读者进入可视化的殿堂。
本书以实战为主,适合Python初学者及高等院校的相关专业学生,也适合Python培训机构作为实验教材使用。
Python是一种解释型、面向对象的动态数据类型高级程序设计语言。从20世纪90年代初Python语言诞生至今,它逐渐被广泛应用于各个领域,比如桌面应用开发、游戏开发、Web开发、网络爬虫、数据统计分析、自然语言处理、机器学习、深度学习、人工智能等。由于Python语言的简捷性、易读性及可扩展性,在国外用Python进行科学计算的研究机构日益增多。一些知名大学甚至采用Python语言教授程序设计课程,例如麻省理工学院的计算机科学及编程导论课程。
在数据科学领域,Python的发展势头十分迅猛。一方面,Python拥有各种开源的网络爬虫框架,可以帮助数据科学家快速收集数据;另一方面,Python在机器学习和深度学习方面有很多成熟的拓展包,可以帮助数据科学家完成各类数据分析任务,无论是简单的线性回归,还是复杂的深度学习网络构建。
Stack Overflow最新调查显示,Python已经成为快速发展的主流编程语言,也是高收入国家网民访问Stack Overflow网站过程中,点击量最高的标签。由此可见,Python将必成为各个领域的程序员需要掌握的技能之一。
黄志洪
著名数据分析网站炼数成金创始人
我最早是通过《电商数据分析——淘宝实战》一书接触零一的。在该书中,他用相当多的实务案例来告诉读者如何在电商的环境中,用数据做决策,从实践中学知识,令我印象深刻。后来通过CDA的活动认识了零一,发现他是一名数据分析爱好者。在跟他的谈话中,提到的更多的是实务的应用,令我钦佩不已。
人工智能的先驱者吴恩达曾说过,一家人工智能的公司必须具备三种能力:其一是有策略的数据采集,其二是集中式的数据仓库及统一的数据分析平台,最后是无所不在的自动化应用。零一的这本书就是教你如何系统化地采集数据、储存数据及应用数据。
这本书教大家如何利用Python撰写爬虫程序、清洗和组织数据、解析网页的内容,并将数据储存于数据库中。本书巨细无遗,帮助大家节省时间,是值得一读的好书!
李御玺(Yue-Shi Lee)
台湾大学资讯工程博士
铭传大学资讯工程学系教授