正大杯注意事项(作品与数据分析)

正大杯注意事项(作品与数据分析),第1张

      关于作品本身,就简单说几个点。

        排版工作可能会有些繁琐,但是排版工作非常重要。如果这没有做好,即使有优秀的内容发也很可能被刷掉。所以希望大家注意细节,多点耐心。

        作品对字数有一定的要求,大概不超过2.5w字。但这一部分有时会有变动。如我第一次参加时,校赛的2.5w突然变成了省赛的1.5w。但是个人认为不必太被字数所限制,但是一定要尽力精简语言与段落。

      在完成作品的过程中,多主动和老师沟通吧。老师可能不会主动来找你,但是学生多主动,多问的话也是可以得到很好的帮助的。

        这是很有趣的一个部分,但是也非常头疼。一般来说,数据分析方法与你的问卷设置以及目的都是吻合的,就是说根据你的目的和分析方法去设置你问卷的形式。有以下几点需要注意。

        高级的统计方法总是让人感觉非常炫酷的,但是高级的方法不一定会适合你的数据,也不一定就能得到好的结果。就像经济学中的供求模型,简单的模型却解释了十分复杂的问题。用最简单的模型得到最真实深刻的结论才应该是我们追求的。Anyway,适合的才是最好的。

      更精细准确的人群分类愈来愈成为分析的重心,在优秀作品中这成为了常态。因此我们应用聚类,PCA等方法试图将人群分类。这里想说的是如果细分是大家的目的的话,应该对问卷的形式设计进行考量,比如分类题向定量题的转变啥的。当然,分类题也是可以进行聚类的,但是相对定量题还是比较复杂一些。

        即使考虑到上述问题,有时问卷的结果可能还是不尽人意。我们这次分析用因子分析合并卡方检验对人群进行分类并画像,尽管人群之间行为差异还是比较明显,但是基本特征却几乎没有差异。这样的结果使得实际市场中细分的难度并没有得到改善,精准营销依然大受阻碍。导致我们的分析成为了真正的“纸上谈兵”。针对这种情况,大家还是在问卷的设置上多下功夫吧。

      越来越多的作品利用大数据与网络爬虫对作品进行补充。我对这方面并不是太熟悉,但还是把我不太成熟地想法与大家分享。

a.搜索网页及网站信息

        经过尝试,这一部分工作还是有些用的。当时我们为了爬取淘宝的信息,便对这方面进行了了解。主要来说就是两种方法:一种是利用Python,这需要一些技术。经过了解,这部分的学习也不是很难,但问题在于淘宝有比较严格反扒机制,所以我们需要做后续的工作,否则我们得到数据的稳定性会较差。考虑到这些因素以及自身能力限制,我们放弃了这种方法。另一种是利用相关网站进行搜索。这种方法对你爬取的内容有一定的限制,但是容易上手,感觉也还可以接受吧。具体的有店透视(插件)以及八爪鱼(软件)可以使用。更多的大家可以上知乎啥的搜一搜。

b.情感与文本分析

      这一部分大家可以利用各大指数如百度指数,微博指数等进行分析。具体的分析工具大家可以自行查询。可以使用“ 大数据导航 ”网站进行搜索。

        数据分析其实是个比较严谨的过程,数据分析中的逻辑是一种美感。但是在分析过程中希望大家多思考,不要太死板的套用模板啥的。比如尝试着对数据进行变形啥的以提升与数据方法的匹配度。当然,变形这一部分应用的不是很多,只是举个例子。

        我影响比较深刻的是关于ROC曲线。我们通常认为ROC曲线下面积越大越好,即预测的准确度越高。但面对实际问题,我们对于真阳性与真阴性的期望程度有时是不一样的。因此在ROC曲线下面积可能不是非常令人满意的时候,可以多联系实际问题进行思考与解释。遇到问题也可以查查文献啥的。

        本来想像之前做一个流程图,但是有点懒得弄了。这次实际应用到了PLS-PM模型、逻辑回归、因子分析(人群画像)这些方法,顺便也了解了一些结构方程模型(这个应用率很高)。针对数据分析,参考的数目是《R语言多元统计与建模》,个人感觉用来快速查找一些统计方法还是非常不错的。

        差不多到这里结束了,具体分析方法没时间写了。Anyway,有机会一起交流好了。

首先要立意,就是确定一个主题,要调查研究什么,最好有经济或者社会意义,可实施性高。组内确立好之后和导师讨论,可能需要多次讨论才能找到大家都比较满意的选题。

(我们当时每个人想出5个主题然后组内商量提缺点,留下的合适的主题再和导师讨论,我们当时在选题上用时很久,比其他队落后了很多,一个选题好坏真的很重要,好的选题对调查和后来的答辩很有助益。)

然后就是设计大纲,知道后来的报告具体要写几章,每章什么内容,具体可以参考往届给的一些模板示范,相关公众号会有推,导师或许也可以给看一下手里有的较好的模板。

(每个导师要求不一样,我和其他组朋友聊天有的是先设计问卷后写大纲也可以,不过我们导师要求是首先要确定一个相对详细的大纲。我们就是每个人写一章主要章节框架,再一起把首尾常规章节框架写好,再和导师讨论并反复修改。)

接下来就是设计问卷,可以用问卷星,根据大纲内容来设计合适的问题,同样组内讨论,找不出漏洞之后再找导师修改。可以进行预调查,找学校同学朋友填表,有助于发现一些言不达意或是歧义的问题。

再接着就是开始发放问卷收集数据了,抽样方法要有一个简单的设计。我们当时是先分层再非随机抽样。(随机抽样是很好,但对我们来讲没有这个渠道,所以选择的就只能是简单的街头拦截法。)

收集问卷完成后,就是数据分析。有效问卷筛查并录入数据,开始进行数据分析,和之前的章节分配一样,大致就是每人负责一章,做分析,建模型。我接触的也就是spss,amos,eviews ,可以看b站,图书馆的相关书籍,也可以蹭蹭学校的数据分析课。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/340642.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存