上QQ阅读APP看书,第一时间看更新
3.2.1 数据集导入
csv、xlsx和JSON是我们常用的数据集,下面来看一下数据集是如何被读取的。
读取xlsx和csv数据集,代码如下:
import pandas as pd # 引入pandas库 path ='~/data/xyz.xlsx' # 设置文件路径 raw_data = pd.read_excel(path,sheetname=0) # 读取*.xlsx数据集 raw_data = pd.read_csv(path) # 读取*.csv数据集
JSON(JavaScript Object Notation,JavaScript对象表示法)是网络传输中非常常见的一种数据存储格式,是存储和交换文本信息的语法,与XML类似。与XML相比,JSON更小、更快、更易解析。它的轻量化、易用性和REST API的普及性造就了它在数据传输中的稳固地位。Python的JSON包可以有效地解决JSON文件读取需求。
下面是读取了JSON文件的两种方法,代码如下:
# 方法一 import json # 读取JSON文件 with open('/Python_code/data/xyz.json') as f: Raw_data = json.load(f) print(Raw_data) # Output: {'name': 'Wang', 'languages': ['Chinese', 'English']} print(Raw_data ['languages']) # Output: ['Chinese', 'English'] # 方法二 # 打开JSON文件 file_json = open('data.json',) # 加载JSON文件成为数据 json.loads(jsonstring) # 读取JSON字符串 json.loads(fileobject.read()) # 读取JSON文件对象 # 将清单中的每一个元素打印出来 for i in data['emp_details']: print(i) f.close()