seaborn作图分析:各类图的作用
放上有用的链接https://blog.csdn.net/suzyu12345/article/details/69029106
FacetGrid
初始化一个以time为列,smoker为行的facet,即接下来的图不同的列为不同的time,不同的行为不同的smoker
>>> import seaborn as sns; sns.set(style="ticks", color_codes=True) >>> tips = sns.load_dataset("tips") >>> g = sns.FacetGrid(tips, col="time", row="smoker")

对每一个初始化的图形画一个直方图,横坐标为total_bill
>>> import matplotlib.pyplot as plt >>> g = sns.FacetGrid(tips, col="time", row="smoker") >>> g = g.map(plt.hist, "total_bill")

API:
class seaborn.FacetGrid
(data, row=None, col=None, hue=None, col_wrap=None, sharex=True, sharey=True, size=3, aspect=1, palette=None, row_order=None, col_order=None,hue_order=None, hue_kws=None, dropna=True, legend_out=True, despine=True, margin_titles=False, xlim=None, ylim=None, subplot_kws=None, gridspec_kws=None)
data: DataFrame
row: 不同的行为不同的某一个变量
colunm: 不同的列为不同的某一个变量
hue: 图中按照颜色不同分开的不同变量
pandas.DataFrame.str.extract('正则表达式', expand=False)
在DataFrame中提取出一段符合正则表达式的字符串
sns.countplot('特征名1', hue='特征名2', data=train_data)
画计数图,横坐标为特征1,图中不同颜色代表特征2
定性转换的方法
1. dummy variable
- Dummy Variable 中文称哑变量,或者称虚拟变量,指的是反映属性的一种变量。
- 哑变量的值通常取0或者1, 比如 0表示非本科学位, 1表示本科学位。
- 在很多数据处理中,我们都需要对数据进行哑变量处理。例如,某个数据中的月份用1-12进行表示,但是月份的值本身并没有数值上的意义,比方说2月份比1月份多,这显然是不合理的。
pandas.get_dummies( data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False,drop_first=False, dtype=None )
prefix:
dummy_na=True: nan也算作是一个种类