Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

3.2.1 数据集导入

csv、xlsx和JSON是我们常用的数据集,下面来看一下数据集是如何被读取的。

读取xlsx和csv数据集,代码如下:


import pandas as pd                             # 引入pandas库
path ='~/data/xyz.xlsx'                         # 设置文件路径
raw_data = pd.read_excel(path,sheetname=0)      # 读取*.xlsx数据集
raw_data = pd.read_csv(path)                    # 读取*.csv数据集

JSON(JavaScript Object Notation,JavaScript对象表示法)是网络传输中非常常见的一种数据存储格式,是存储和交换文本信息的语法,与XML类似。与XML相比,JSON更小、更快、更易解析。它的轻量化、易用性和REST API的普及性造就了它在数据传输中的稳固地位。Python的JSON包可以有效地解决JSON文件读取需求。

下面是读取了JSON文件的两种方法,代码如下:


# 方法一
import json
# 读取JSON文件
with open('/Python_code/data/xyz.json') as f:
Raw_data = json.load(f)
print(Raw_data)
# Output: {'name': 'Wang', 'languages': ['Chinese', 'English']}
print(Raw_data ['languages'])
# Output: ['Chinese', 'English']

# 方法二
# 打开JSON文件
file_json = open('data.json',) 
# 加载JSON文件成为数据 
json.loads(jsonstring)                                          # 读取JSON字符串
json.loads(fileobject.read())                                   # 读取JSON文件对象
# 将清单中的每一个元素打印出来
for i in data['emp_details']: 
    print(i) 
f.close()