![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 汇总表
通常情况下,将大型电子表格以更简洁的形式进行汇总是很有用的。计数表或频率表可以让我们更轻松地了解变量的基本分布,特别是对于定性数据。这种表格可以使用describe和value_counts方法获得。
作为第一个例子,我们将加载DataFrame对象nutri——1.2节对nutri进行了重构并保存为'nutri.csv',然后对'fat'特征(列)进行汇总。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_03.jpg?sign=1739665748-Ei0jedpWvmJruW3NXaKolr8hsf6EPJse-0-c679c10438a41abcc15baaebeae81e05)
我们看到,烹调用油有8种,葵花籽油的食用频率最高,226人中有68人使用葵花籽油。value_counts方法给出了不同类型烹调用油的计数结果。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_04.jpg?sign=1739665748-bABBEZJxSZDwiD93B4dKGdgKIcc1vtEA-0-66d2ca4e89d3e2a1a20ed0a3ec31fddd)
列标签也是DataFrame的属性,例如,nutri.fat与nutri['fat']返回的对象完全相同。
也可以使用crosstab方法对两个或多个变量进行交叉汇总,给出一个列联表(contingency table):
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_05.jpg?sign=1739665748-H645XR8WlNC8LBa4BDQmHVvnNAptlLhQ-0-9631274e17dd86f7edb0b4bf1bc35108)
我们从老年人营养数据集中看到,单身男性的比例远远小于单身女性的比例。设置参数margins=True,可以在表格中添加汇总的行和列。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/20_01.jpg?sign=1739665748-azV0I8zfaUrMPCqix9RfZOqtvlPHiUwU-0-01f03cc7da5ffe4265799d4807709f60)