手把手教你做一个“渣”数据师,用Python代替老情人Excel

2019-09-28 投稿人 : www.chacha360.com 围观 : 1705 次

三天前的大数据摘要我想分享

<> > >

产生的大数据摘要

来源:中

编译:张大鹏RU/P>

十年前,你说你在做数据,大家的反应是用excel做表格。

现在,要成为一名合格的数据分析师,你说你不会是巨蟒,而概率会被江湖人士嘲笑。

medium上的一位博主分享了他十年前用python替换“老情人”excel的步骤。让我们一起学习吧!

在Excel成为我的“初恋”十年之后,是时候找到更好的“另一半”了。在这个技术日新月异的时代,选择更好,更薄,更轻和更快的数据处理就到了!我想用Python替换几乎所有的excel功能,无论是创建和分析数据和数组的简单过滤还是相对复杂。我将向您展示从简单到复杂的计算任务。强烈建议您与我一起执行这些步骤,以更好地理解它们。撰写本文的灵感来自每个人都可以访问的免费教程网站。我已仔细阅读并严格遵守此Python文档。链接如下。我相信您会在此网站上找到很多干货。 GitHub链接: 1.将excel文件导入到Panda DataFrame中第一步是将excel文件导入到DataFrame中,以便我们可以执行所有任务。我将演示支持xls和xlsx文件扩展名的Pandas read_excel方法。 Read_csv与read_excel相同,将不进行深入讨论,但我将分享一个示例。尽管read_excel方法包含数百万个参数,但我们仅讨论日常操作中最常见的参数。我们使用Iris示例数据集,该数据集可免费在线用于教育目的。请点击以下链接下载数据并将其放置在与Python文件相同的文件夹中。 1.第一步是使用Python导入库。您可以使用以下代码将电子表格数据导入Python:有很多可用的参数,让我们看一些最常用的参数。2,一些重要的熊猫read_excel选项如果默认情况下使用本地文件的路径(用“ \”表示),请接受“ /”的使用,更改斜杠以将文件添加到Python文件所在的文件夹中。如果您需要上述详细说明,请参阅以下文章。

在Windows-mac-and-linux-11a072b58d5f上处理文件路径的简便方法

使用Python扫描目录中的文件,然后选择所需的文件: 6,查看DataFrame描述性报告中有关数据子集和聚合的信息时您需要对数据有初步的了解,通常使用过滤器查看较小的数据集或特定的列以更好地理解数据。Python提供了多种分割DataFrame的方法,我们将使用其中的几种方法来查看其工作原理。 1.视图列包括以下三种主要方法:

使用点表示法:例如data.column_name

使用方括号和列名:数据[“ COLUMN_NAME”]

使用数字索引和iloc选择器:data.loc [:'column_number']

或更多的总和,我们使用的方法包括:

Sum_Total:计算列的总和

T_Sum:将系列输出转换为DataFrame并转置

重新编制索引:添加缺少的列

Row_Total:将T_Sum附加到现有的DataFrame

8,多条件求和,即Excel中的Sumif函数9,多条件求和10,算术平均值11,最大值12,最小值13,Groupby:即小计函数Excel中的您可以使用字典函数执行单独的计算,或者可以多次计算该值:Excel中的vlookup是一项神奇的功能,每个人都在学习如何我想在获得之前学习。使用vlookup会很有趣,因为输出就像魔术一样。可以说,这是电子表格上计算出的每条数据的骨干。不幸的是,Pandas中没有vlookup函数!由于Pandas中没有“ Vlookup”函数,因此Merge使用与SQL相同的备用函数。有四个合并选项:

左侧使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN;

右边的使用右边的DataFrame中的共享列,并将左边的DataFrame与N/A匹配为NaN;

Inn仅显示与两个共享列重叠的数据。默认方法;

当左侧或右侧DataFrame中存在匹配项时,Out返回所有记录。

大于可能不是解释此概念的最佳示例,但原理是相同的。整个教程到此结束。众所周知,“没有完美的教程。”这个小弟弟的教程当然并不完美,但是您可以自己尝试。如果您仍然知道什么Python可以替代Excel,请留言讨论!相关报告:

实习/专职编辑记者招聘

加入我们,通过专业的技术媒体体验每一个细节,在最有前途的行业中成长,并与一群世界上最优秀的人才一起成长。协调北京清华东门。有关详细信息,请在“大数据摘要”主页的“对话”页面上回复“招聘”。请直接将简历发送至

志愿者介绍后台对“志愿者”的响应加入我们集合报告投诉

大数据摘要

资料来源:中

编译器:Zhang Dabiru

十年前,当您说要制作数据时,反应是使用Excel制作表。

现在,为了成为一名合格的数据分析师,您说自己不了解Python。人们可能会嘲笑你。

Medium的博客作者分享了他十年前用Python替换“旧情人” Excel的分步过程。让我们一起学习!

在Excel成为我的“初恋”十年之后,是时候找到更好的“另一半”了。在这个技术日新月异的时代,选择更好,更薄,更轻和更快的数据处理就到了!我想用Python替换几乎所有的excel功能,无论是创建和分析数据和数组的简单过滤还是相对复杂。我将向您展示从简单到复杂的计算任务。强烈建议您与我一起执行这些步骤,以更好地理解它们。撰写本文的灵感来自每个人都可以访问的免费教程网站。我已仔细阅读并严格遵守此Python文档。链接如下。我相信您会在此网站上找到很多干货。 GitHub链接: 1.将excel文件导入到Panda DataFrame中第一步是将excel文件导入到DataFrame中,以便我们可以执行所有任务。我将演示支持xls和xlsx文件扩展名的Pandas read_excel方法。 Read_csv与read_excel相同,将不进行深入讨论,但我将分享一个示例。尽管read_excel方法包含数百万个参数,但我们仅讨论日常操作中最常见的参数。我们使用Iris示例数据集,该数据集可免费在线用于教育目的。请点击以下链接下载数据并将其放置在与Python文件相同的文件夹中。 1.第一步是使用Python导入库。您可以使用以下代码将电子表格数据导入Python:有很多可用的参数,让我们看一些最常用的参数。2、一些重要的pandas read_excel选项如果默认使用本地文件的路径,用“\”表示,则接受使用“/”,更改斜杠将文件添加到python文件所在的文件夹中。如果您需要以上的详细描述,请参阅以下文章。

在Windows-mac-and-linux-11a072b58d5f上处理文件路径的简便方法

使用Python扫描目录中的文件,然后选择所需的文件: 6,查看DataFrame描述性报告中有关数据子集和聚合的信息时您需要对数据有初步的了解,通常使用过滤器查看较小的数据集或特定的列以更好地理解数据。python提供了许多不同的方法来分割数据帧,我们将使用其中的一些方法来了解它是如何工作的。1。视图列包括以下三种主要方法:

使用点表示法:例如data.column_name

使用方括号和列名:数据[“ COLUMN_NAME”]

使用数字索引和iloc选择器:data.loc [:'column_number']

或更多的总和,我们使用的方法包括:

Sum_Total:计算列的总和

T_Sum:将系列输出转换为DataFrame并转置

重新编制索引:添加缺少的列

Row_Total:将T_Sum附加到现有的DataFrame

8,多条件求和,即Excel中的Sumif函数9,多条件求和10,算术平均值11,最大值12,最小值13,Groupby:即小计函数Excel中的您可以使用字典函数执行单独的计算,或者可以多次计算该值:Excel中的vlookup是一项神奇的功能,每个人都在学习如何我想在获得之前学习。使用vlookup会很有趣,因为输出就像魔术一样。可以说,这是电子表格上计算出的每条数据的骨干。不幸的是,Pandas中没有vlookup函数!由于Pandas中没有“ Vlookup”函数,因此Merge使用与SQL相同的备用函数。有四个合并选项:

左侧使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN;

右边的使用右边的DataFrame中的共享列,并将左边的DataFrame与N/A匹配为NaN;

Inn仅显示与两个共享列重叠的数据。默认方法;

当左侧或右侧DataFrame中存在匹配项时,Out返回所有记录。

大于可能不是解释此概念的最佳示例,但原理是相同的。整个教程到此结束。众所周知,“没有完美的教程。”这个小弟弟的教程当然并不完美,但是您可以自己尝试。如果您仍然知道什么Python可以替代Excel,请留言讨论!相关报告:

实习/专职编辑记者招聘

加入我们,通过专业的技术媒体体验每一个细节,在最有前途的行业中成长,并与一群世界上最优秀的人才一起成长。协调北京清华东门。有关详细信息,请在“大数据摘要”主页的“对话”页面上回复“招聘”。请直接将简历发送至

志愿者介绍后台回复“志愿者”加入我们