登录遇到问题
Q:长时间接收不到验证码怎么办?
A:您可以拨打我们的客服热线400-183-1832进行语音辅助
没找到相关问题?点此联系客服
选择国家地区
指南者留学logo
指南者留学
选校/定位/规划 必备工具
打开App
收获QS Top 100统计学offer,我是如何学习数据分析技能的?
指南者留学 Journey 2022年06月22日
阅读量:1808

学员背景
F同学
本科背景
广东财经大学 应用统计专业
GPA 81.1 雅思7
指南者商业分析项目实战学员
录取学校(2022年秋季入学)
南安普顿大学(QS排名78) 应用统计学专业
背提战绩

前言:

 

距离项目结束已经过去两个月了,当时参加这个项目的情形还历历在目。我是在今年1月初的时候报名这个项目的,其实当时最担心的问题是这个项目会不会很水,因为网络上一直诟病于这些项目,但当我真正参与到课程中去的时候,我发现我的想法是错误的。

 

项目中很多地方对我影响很大,当然我也受益其中,这个项目强化了我的专业技能(提前学习数据分析和挖掘建模方面的技能),丰富了我的实践经历,对我之后拿到研究生offer有直接有力的帮助。

 

01 背景与契机

 

一开始选择参加指南者的背景提升项目,是因为觉得自己的项目经历太少再加上自己是双非学校的背景,缺少具体的实战经验,大学里参加的项目也很少。即使我是应用统计专业,在学校里学了R语言和SQL,但是Python的实际应用一直是我的弱点,所以基于这个想法,我想参加一个提升个人编程能力的项目。

 

考虑到我后期我想申请港校和英国商业分析的方向,拥有相关的背景经历也是非常有必要的,国外的学校在BA这块的录取会特别注重申请者的数据分析和建模能力以及实践经验,这些都是我当时比较缺少的几点吧。包括我直系的师兄师姐和顾问老师也跟我说拥有几段与硕士项目相似的经历会大大提高成功的概率,因为能体现出自身与项目的匹配度。

 

同时我未来的就业方向也是想往数据分析和商业分析这两个方向,所以提前了解这个领域所必备的技能对以后就业或找实习都会有一定的好处。基于这几点,我决定参加这个项目提升自己的背景与能力,最终收获满满。

 

02 项目介绍

 

我参加的这个项目的名字叫做基于电商大数据零食市场的分析,这个项目主要是收集各类淘宝村的店铺数据和商品价格、销量和人气等数据,以可视化和挖掘建模的方式解读农村淘宝的经济特征,从商品特色、品质和口碑等方面,共同探究淘宝村如何实现兴农扶贫的目标。

 

本次项目的授课老师——王老师,他在bilibili平台的Tableau可视化视频几年来稳居第一,而且他本人也曾经在世界知名的咨询公司工作过很多年,能够真正给到我一些很实用的建议,所以个人觉得同学们完全可以大胆去报名这个项目。

 

关于学习的内容,总共分为六大节,上课所用到主要是以SQL、Python这两大软件为主,包括SQL的增删改查、Python与numpy基础、pandas、多分类问题、语义情感分析、预测与相关因素分析,最牛的莫过于是利用百度智能云进行语句情感得分分析,直接调用一段代码就可以了,大大减少了代码的书写时间提高了效率,关键这是我从来没有在学校的一门课程里接触到类似的知识,我认为这也是项目中的一个亮点之一,紧跟现在人工智能的一个潮流。

 

03 准备过程

 

即使我是学统计专业,但在实际的操作中也会遇到不少“困难”,有一些是十分低级的错误,比如使用jupyter notebook的时候把小窗口直接关掉,导致了程序无法正常运行,但是王老师还是十分耐心地告诉我一些需要注意的地方。

 

这个项目里需要每周一次作业,来检查同学们的听课情况,因为当时在写毕业设计,时间分配和把控上做得不是很好,没怎么认真听课。所以想一次性利用课程的课件把作业完成好然后交给老师,但是没想到当中遇到不少问题,在群上询问老师意见,一下子就被老师发现了,老师很严厉地批评了我,并语重心长地对我说:编程是需要时间去练习的

 

从那时开始,我每周的课都听三遍,并将代码自己再运行一遍,务必让自己每一个知识点都掌握好,这样操作下来感觉就没有特别大的问题了,因为很多难点都是老师所设计好的,相信自己一定是可以掌握的,还有给我的启示就是日常需要有目的性地去练习编程,提高个人的编程能力,比如在牛客网、leetcode上多刷题,这些才是真正为以后就读研究生甚至是就业做好充分的准备

 

04 项目实战

 

经过一个多月的学习之后,我对Python和SQL已经掌握得差不多了,在课程的最后就是需要进行项目实操。个人猜测,老师应该运用了web scraper插件在天猫上爬取了近3000多条数据以及商品的评论区的数据,我们参加项目的同学进行后续的操作。

 

首先基本操作,先导入numpy和pandas包,然后对excel表格里的数据进行处理,因为正常情况下获取的数据都是会有异常值与缺失值,所以我依照老师在课程上讲过的处理方法,利用pandas库对二维数据表对空白值去除填充,并且定义新函数对发货地址的省份与城市实现Excel中的分列功能,最后运用数组与集合等知识来对列中不规则的信息有效提取出来,以获得商品的具体分类。在这个过程中,老师还经常提醒我们要定期对表内的信息进行检查,不然会影响到后续的操作。

 

这个项目中最精彩的部分估计就是Tableau部分了,做出很多意义的图表,但我一开始没有什么方向,十分着急,不知道怎么办好。后面老师给出不同的方向,发货地址、店铺销量分析、单品分析,并且利用词云wordart 做出评论区频次最高的词汇,消费者对产品的态度一目了然。

 

当然这些仅仅停留在描述统计的范畴里面,是经不起考验的。后面我们需要借助统计模型建立多元线性回归模型和PCA模型,利用相关理论进行必要的降维,导入seaborn和matplotlib包最后绘制出热力图,不同变量之间的相关性通过颜色的深浅就可以看出。最后利用百度智能云情感分析系统对商品评论内容进行分析,这一步的操作行云流水,十分体现技术,因为在实际处理中,用户会输入很多表情,这些都属于异常字符,都需要进行过滤,所以老师介绍了try…except…的解决方案,完美避开了表情包的干扰,这样能使工具能够顺利进行,最后计算出同一产品的中位数,并绘制频率密度直方图,这样就可以更清晰地反映用户的情感得分分布,对后续的商家的运营策略调整具有积极性意义。

 

05 个人感受

 

我之前一直觉得SQL和Python在实际工作用到的情况十分少,我本人对我自己的Excel水平十分自信,觉得Excel应该可以处理大部分数据分析的问题了,Python就是算法和爬虫工程师需要做的事。但是面对十分大的数据量的时候,上万条数据的时候Excel就可以不管用了,可以说是内存不够,Python和SQL则可以改善这些缺点,在电脑里相当于是建立了一个虚拟内存,处理数据起来就会十分快捷,这也是Excel无法达到的高度,所以如果以后要吃数据分析这口饭,Python和SQL真的能决定这一份职业的上限。

 

目前我拿到了南安普顿大学应用统计专业的offer,很感谢这个项目给予我的帮助,也增强了我对数据分析技能的信心,当然想要成功,单靠这个课程是不够的,还需要自身在日常生活中不断耕耘,在实际数据分析操作中不断查缺补漏,老师说的话和这股信念鼓励着我一定要一直走下去。


指南者留学老师
您正在预约联系老师
简单填写基本信息,完成导师预约
以下信息仅供导师提供定制服务,我们承诺保护您的隐私安全
*手机号码
*目前学历
本科大四
本科大三
本科大二
本科大一
硕士在读
博士在读
其他
*留学意向地区
提交
预约成功
顾问老师将尽快联系您,请保持手机畅通
返回首页
下载指南者留学App
在线咨询
电话咨询
您的会员等级不足
前往指南者留学App查看等级详情
取消
立即前往