会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 回顾乐动体育外围-乐动体育外围新闻网
当前位置:主页 > 科技 > 正文

数据叙事的新思路|数据创作者大会演讲实录 ②

时间:2019-08-28 22:21 来源:未知 作者:admin 阅读:次

  大会围绕“数据新闻2.0的局面”、“数据叙事的新思路”、“可视化的理念与应用”、“数据新闻的未来出路”四大主题展开讨论,本文为大会演讲精华实录的第二篇——数据叙事的新思路。

  大会引入了美国数据新闻年会NICAR大会的王牌环节——Lightening Talk。在这一环节中,六位嘉宾各用八分钟的时间来,通过拆解具体项目的方式来帮助与会者贴近数据叙事的本质。这六位嘉宾中,有机构媒体的数据新闻人,有还在校园里的个人创作者,还有学界跨界业界的数据帝,为媒体提供数据解决方法的专家,以及专门关注数据注水的“京算师”。

  此外,在大会下午的议程里,回形针PaperClip制作人吴松磊和SODA联合发起人高丰分别就高信息密度的技术可视化以及数据开放做了主旨演讲。

  本篇实录内容将奉上Lightening Talk和两个主旨演讲的精彩内容。

  高铁站这个项目源起于我们在新闻联播上看到的一个文件——发改委联合住建部、中国铁总发布的意见报告——其中提到高铁站一定要尽可能选择离市中心或者城市建成区近的地方。我当时觉得,这非常贴近大家的一个感知,就是好像觉得一说到高铁站它很新,它很大,很漂亮,很豪华,但好像很远。

  我的一个疑问是,为了便利而建的高铁站,为什么反而那么远?以及高铁站到底有多远?

  带着这个疑问,我觉得数据并不难得到。无非是找到所有的高铁站,以及它所在的城市的中心点,两点连成一条线。这条线段的长度就是高铁站到市中心的距离。

  得出了600多条线段的长度之后,我的编辑问我,这些数据真的是你想要的吗?我仔细看了这些数据,比如北京站就在旁边,这种在市中心的老站需要 研究吗?

  于是,我确定研究范围是新建的高铁站。根据是否通G字头列车,我把高铁站数据从600多个删减到了200多个。

  除了高铁站需要筛选,市中心的位置也需要再定义。地图工具上定位的城市还不能直接拿来作为城市的中心,比如部分城市把市政府搬迁到郊区,但那并不是市民认可的市中心。

  根据新的一版数据,我计算得到的结论的是75%的车站都在距离市中心十公里的范围内,发现好像没有很远。那为什么大家会有”高铁站很远“这样一个印象——高铁站真得很远,这个时候我就发现两点的连线段不是我需要的数据。

  然后我开始查资料、查论文查文献、请教专家,发现我最初没有真正准确看到我的问题,问题的核心应该在于为什么高铁站让我们觉得很远。“觉得远”与一个城市的大小有关,比如说在上海,你的市中心可以定位到人民广场,到虹桥站的距离大约17公里,但是2号线半个小时就能到。

  距离指数也可以简化理解成车站到市中心的直线距离和建成区半径的比,距离指数越小高铁站越近便,距离指数越大则越偏远。这个时候结论应该是这样,当大城市说高铁真方便的时候,小城市的人会说,没觉得。

  我在做这个项目的过程中, 慢慢会有一个自我质疑的状态——当慢慢得到越来越多的数据,我是否在解决最初的疑问。另外,当我可能完全在用数据说话时,读者会觉得你离我真的很远。

  第三个质疑是,数据新闻到底是什么?有很多人说,要有很大的数据库、很炫酷的数据和可视化的图片才是。我觉得能在提出问题、阐释问题以及解决问题中三者之中,扮演好其中任意一个角色,就好了。不用强求作品一定要是这三个阶段从头贯穿到尾的。

  24岁的邹熳云已经有4年的被催婚“催龄”了。当关注相亲议题的编辑部把研究对象聚焦到已被广泛关注的相亲角时,怎么才能做出新的东西,是一个无法回避的难题。

  数据新闻编辑部试图把相亲角每一把伞上的信息收集起来,在对数据中的个人信息进行脱敏后,从微观的视角来看看这些信息背后有什么特点;毋宁说,是相亲市场上的这些“商品”的特点和价值。

  编辑部把这些文本数据结构化后,想看看在相亲角这个地方,人们(更多是家长们)是如何定义自己(的孩子),如何描述想要的对象,以及人和人之间价值是在一个什么样的基础上进行交换的。

  在相亲角收集数据并不是一件容易的事,在任何一把伞前逗留都会被家长的目光盯着,而当你拿起手机拍照,就是家长戒备最严的时候。“如果你一排拍过去,拍到第三个你可能就已经被轰走了。”

  偷拍小组当时想了很多奇妙的方式,比如说把手机放在那种你跑步手臂袋里面,或者说是假装打电话,或者是悄悄把手机放在这里,然后其实手在疯狂的按快门。

  “数据新闻,不一定要是非常数字化的东西,其实在我们的生活当中有很多可能被我们忽略到,但是放在一起就是一个很有趣的数据点,大家可能会觉得原来这个题可以这样子做,用数据的方法去做。”邹熳云分享道。

  比如这张图,概括了所有的相亲者信息,可以看得出来,性格和兴趣爱好这两个最个性化的板块,是被填写最少的,工作、学历、户口、房产是大家比较喜欢提及。

  关于房产的信息很有意思,有些人会写得很详细,光写上海有房还不够,他可能会写静安区有房;有多套房产的人,他有可能会写,上海有房产两套,杭州有店铺一套,或者说“我家有两套房,其中一套是小型复式,而且我已经付完房贷了”,甚至还有把自己家里的面积跟天花板的高度写出来的。

  与之相反,兴趣爱好就没有什么个性化的特点了。基本上所有男性填写的都是不良嗜好相关,全是烟酒不沾,就好像人生兴趣爱好只跟烟酒相关。女性虽然说比较丰富一点,但也大多集中在音乐、绘画和运动,让人无法感觉到她是真正在描述自己,更像是面试的时候填的那一份模式化的关于兴趣爱好的答案……

  对于对相亲角充满好奇的你,邹熳云和同事一起开发的交互项目也能让你线上看看,假如你在这个相亲市场上,符合你要求的对象有多少,以及你又能满足多少人的期待。

  2017年,我们刚接触数据新闻,当时受到魏则西事件的触动,看到凤凰网公布了一个关于乐动体育外围系医院的名单,我们想看看能否从这里找一个切入点进行报道。我们当时看了很多网上的报道,都是经过采访,得到说离乐动体育外围系医院它有四大家族,詹林黄陈。我们想知道,从数据出发,能否看到乐动体育外围系医院的地域分布,家族势力以及资本的分布。

  2018年年初再次跟进这个选题时,我们发现在魏则西事件后,乐动体育外围系医院正在寻求一种转型。为了解这两三年间,乐动体育外围系医院进行了怎样的转型,它们的投资又具有什么样的特点。我们选取了博爱集团和美莱集团这两大集团进行分析,看到了子承父业的代际传播以及连锁扩张、产业联盟、融资平台等多元的投资方式。

  2018年11月,基因编辑事件牵扯到和美医院以及医院的JCI认证,我们发现乐动体育外围系医院特别喜欢去做JCI之类的国际认证,以提高医院的影响力。

  做了这样一个长期跟踪的项目,我开始注意到数据的重复使用与更新问题,我们每做一次这样的项目的时候,都是在原有基础上再把数据更新一遍。企业在不断发展,数据也在流动,所以对于这套数据,我们每次复用都需要再次进行校对。而怎么保证你两年前的一个项目到如今拿出来它依然是可用的,依然是有价值和有意义的,这是我觉得需要大家去探讨的一些方向。

  如何保证数据的准确性,是我们在操作过程中一直会非常重视的。比如,我们当时通过天眼查把企业信息录入之后,我们其实是做了一次人工的手工校对。另外,关于乐动体育外围系医网中很多亲缘关系和血缘关系,一是通过新闻报道,同时我们也去实地去看过以进行确认。因为办乐动体育外围系医院的这些人大多会捐钱修庙,庙中留有家族人名信息。

  但是直到如今,我们还是不敢说我们的数据完全没有问题。我始终觉得对于数据要有敬畏之心,不能随随便便拿来一套数据就用。数据中是有一套方法和规则的。

  去年中美贸易摩擦刚开始的时候,也就是3月24号,我们突然想到,中美贸易摩擦开始后,能否通过定向管制来影响美国国内的选举结构。然后我们花了差不多三个小时的时间,收集了美国所有选区的选民结构、选举大小、选举得票率和出口情况,计算出了一个结构,就是中国要管制哪一些商品,会最大程度影响美国的选举结果。

  这篇文章在知乎上发表以后,我们得到了几万个赞同,这是我们完全出于兴趣做的研究。在那之后,有很多国家部委找到我们,想做一些关于中美贸易摩擦的研究。4月,我们接到一个任务,要研究中美贸易摩擦可能会对于中国的整个就业市场造成多大影响。这个任务非常紧张,大概只有三天时间,而且这个是一个非常大的课题。我大概讲一下,我们在做这个课题的时候碰到哪些困难,然后怎样去解决它。

  如果是一个经济学、国际关系或者国际贸易方面的研究学者,就会知道这是非常具有挑战性的课题。我们是这样做的,我们首先去向政府协调到一套数据:2018年中国海关的进出口分配率。我们可以知道每一个企业出口到美国的每一笔商品大概有多少,这其实是整个项目的第一个环节,即使是我们知道中国对于美国的出口,我们还是不知道美国加税之后会对中国造成多大影响,所以接下来我们来找第二个环节的一个数据。

  第二步,我们需要知道每一个商品出口替代弹性。比如有些商品它出口很容易被替代,比如说牛仔裤,它可能不从中国进口,也可以从越南进口。但有些商品出口就很难替代,比如中国的一些电机产品是中国出口美国非常大的一个部分。在这一步中,我们需要从很多方面去收集数据,最后我们从学术文献中找到了数据,清华大学马弘教授估算过不同商品对于单位价格变化有多大的影响。这就是第二套数据。

  下一个问题是,我们知道每一个企业出口可能会受到多大影响之后,还需要知道这个企业有多少就业人员。这是一个非常难以解决的问题,因为大家知道中国只有部分企业是有数据,一类上市企业,另外一类是规模以上工业企业。大部分出口商没有企业数据。

  所以我们使用另外一个手段,我们找到所有中国上市企业,上市企业数据中有中国所有的企业存量就业人数。另一组数据是中国所有招聘网站的招聘数据。我做的一个工作是,用所有的招聘数据去除以所有企业的就业数据,相当于是我可以算出每一个企业的一个周转率,和财务周转率是相当的一个概念,可以知道一个企业每年要招聘多少人?进一步再计算得出所有企业的一个大概就业人口。 然后我们用就业人口乘以每一个企业受到订单影响率以后,可以得到在出口环节里面,中国因美国就业贸易战,可能会影响多少人的就业。

  接下来最后一步,我们会使用投入产出比一个环节一个环节去计算,整个产业链上可能会有多少就业会受到影响。然后这个研究差不多是我们两个人,花了两天时间做完的,一般来说是可能一个月时间就要做完的一个研究。最后得到了批示。

  在这个研究过程中,值得跟数据创作者们分享的是数据组织能力。我们能看到现在非常多的研究所和作者强调数据的获取,他们希望从数据里面找出一些比较fancy的东西,然后画一些很漂亮的图。但是在我们的研究中,我们认为最重要的一点就是你要研究的问题是什么?以及在研究过程中,如何组织全社会的所有数据来为你所用。

  一个花圈店老板,有一天发现生意非常好,货物供不应求,销量是平时的五倍。老板很诧异,事后发现,因为市长老婆死了。此后,他留了一个心眼,时刻关注大领导的信息。

  后来有一天,市长去世了,有了上次的经验,他第一时间订了一大批花圈。”之前死老婆,那么多人送,这次自己去了,那花圈不得卖脱销呀!”

  他想了好几天回味过来:之前卖脱销,是因为大家给市长捧场,现在市长自己都死了,不用来抱你大腿了,还捧什么场呢?

  这个故事给我的启发是,我们不是在观察数据,而是通过数据观察逻辑。不要陷入了数据的死胡同,数据可能会说谎。

  道歉微博的转发数据可能最接近线年初,PG One 被封杀,我明显感觉到有点奇怪,因为他的转发数据实在太少了。一般流量明星他的转发率可能都是各种百万级别,但是他这一条只达到了16万。我那时候就想了,其实他跟花圈的故事是一样的,只有当他被封杀时,经纪公司也不敢刷数据了,而且这是一条道歉微博,他的粉丝也不会去帮他刷数据,因为道歉微博没什么好刷的。

  在微博上各种粉丝刷数据的表象下, 这时的数据才是真实的。我终于在这时候找到了数据的关键锚点,然后我创作了一篇文章,后来在知乎上拿到了1万个赞。

  这次我找了参考系,去判断所有的其他流量明星,他们的这么一个数据真实量,发现他们确实存在很大的造假。而且我还统计了粉丝数、转发量,包括各种运营系数和每天的发微博数据。但是这么一篇数据详细的文章,最后的阅读数据非常差,总共连一千赞都没拿到,在微博上的反响也很一般。

  后来我反思一下,我觉得我犯了个错。对于娱乐圈吃瓜党来说,这篇文章太难了!因为它涉及了转发,又涉及了运营比,模型体系太过复杂。而对于真正的数据工作者来说,我的模型太简陋,仅仅是对微博的数据做了一个抓取,所以两边都看不上。

  我这时候在思考,我是一个数据分析师还是一个数据创作者?后来在2019年初,我创作了第三篇文章,也就是大家可能比较知道的500京。在这篇文章中,我把吴京作为参照系,把其他粉丝转发量等数据全部抛掉,仅仅以吴京的流量数据作为标准值,然后再去看流量明星刷了多少倍数据。

  这篇文章它既不是最精确也不是最全面的,但是这篇文章的影响力最广泛,为什么?因为它是大众最容易理解的。

  对于我们今天很多人来说,要做数据创作者,可能很多人光想说我的难点在爬数据、获取数据,或者怎么把数据做一个可视化分析,但是我觉得真正重要的应该是说创作者你要怎么样讲好一个故事,你要讲出什么样的故事。

  如何给猪盖章?如何科学地执行死刑?混音师如何拯救歌手?如何科学地给机票定价……

  像这样大量的和日常生活相关的,解释这个世界如何运转的技术是我们关心的话题。我们试图用视频的手段,把文字无法展示的技术呈现出来。回形针PaperClip致力于成为你的当代生活说明书。

  如何用高信息密度和流畅的方式,呈现出比较复杂的技术?这是我们团队一直在实验和尝试的方式。

  最常用的一种手段是拟物模板。我们会在视频里面用各种各样的拟物化设计,比如说老电视、幻灯片、手机、老电脑、监控中心。拟物模板可以构建起视频和现实世界的连接,创造出一种语境

  。比如怎么打造一座戒备森严的监狱,首先需要展现出犯人会用什么样的手段越狱。直接用几个视频无法构成一种语境,我们设计了一个监控指挥中心,可以看到各种各样的小窗口,每个小窗口都是一个单独的越狱画面。

  这些在视频中可能只是一句话,比如每只猪来到屠宰场都需要带一个检疫证明,但如果我们只是在画面上出现一个非常简单的检疫证明,或者一句话,这一帧视频是没有信息量的,它没有反映真实世界的样子。我们通过设计真实的动物检疫合格证明,提供耳标编号、运送地点、二维码等信息。这些信息在视频里没有提到,但这一帧画面呈现出高于文本内容非常多的信息密度。

  除了拟物化设计,我们还在视频里尝试更多的三维设计,三维设计帮助我们去解构一个事物工作的原理。

  比如的结构中,电子雷管的位置在哪里,它和整个之间的关系是什么样的?

  这些看起来非常厉害的三维模型,制作起来并没有那么难。只要有一个大致结构的概念,以及会使用C4D进行简单的建模能力,就可以完成类似的三维模型。三维模型包含了逻辑关系,能够用视频形式展现出远远高于文字或图像的信息密度。

  另一种比较典型的三维模型是数据可视化方面的。我们想展现出香蕉树的种植密度非常高,在一个篮球场上就可以种一百棵香蕉,这一百棵香蕉树每年可以收获3万根香蕉。如果我们用扁平、二维的视觉语言来呈现,很难直观展现出来。1982年春节联欢晚会通过三维场景,就可以做到。

  还有一些场景渲染,比如讨论中国路灯,我们找到了一个路灯图纸,根据图纸做场景建模,然后在建模的场景中去展开我们要讲的话题。

  如果要讲汽车的工作原理,我们通常会对已有的素材做重新设计。比如抽粪车,我们对专利里面的抽粪车做了一个重绘,然后对重绘过的吸粪车做动画,演示如何用真空泵抽粪液,如何到储粪罐的过程。这是一个和真实素材做结合的动画逻辑,它会更自然地帮助观众意识到我们要讲的这个东西和素材之间的关系。

  这是另外一个比较典型的场景,我们的文案是这么写的,“虽然看上去长得很像树,但香蕉其实是草本植物”。这句话的信息量其实很简单,最简单的一个设计方法:香蕉,草本植物。但是这个画面信息量是不够的,那除了草本植物,还有什么?还有木本植物。这个时候我们就要展现出来三个东西,一个是草本植物,一个是木本植物,中间的香蕉是草本植物,但是这样还是不够的,我们需要把木本植物去掉。这就告诉观众它的同级结构是什么,以及

  动画逻辑背后隐含的是信息扩展的需求,每一个画面,每一个文本做成视频以后,1982年春节联欢晚会能够让视频呈现出更高的信息密度。

  “除了运行图,1982年春节联欢晚会列车的运行还需要一套可靠的列车运行控制系统,闭塞是防止列车相撞最重要的机制”。为了这样的一句话,我们要把完整列车的运行控制系统展现出来。虽然实质上也很短,大概只有两三秒钟,但是这个画面的信息量是完整的,它的结构是完整的。这就是我们要讲的具体问题和它所处的结构是什么样?这是常用的一种手段,叫做结构扩展

  。比如“这些数据将从服务器送往最近的基站,也就是你经常在路上看到的铁塔”,我们会把流程做完善。

  ,比如钻石、石墨有很多很多种,但是结构的差异让石墨在墨氏硬度等级中只排在最低的一级。这是各种各样的碳,石墨的位置在哪里?以及其它等级都有什么?

  相比于课本知识,我们更关心行业知识。也就是我们常说的这个世界是怎么运转的。

  比如技术问题、工程问题、规则问题。最后再举个例子,《如何给机票定价》这一期,之前的文本是这么写的:“每趟航班会根据数学模型规划好各个舱位的数量,然后放出折扣票试探行情,同时通过历史销售数据对比,以及和竞争对手对比,对售价剩余票量进行动态调整”。

  这个文本看上去似乎解释了这个问题,但其实没有解决任何问题,它只是非常宽泛地讲了一个思想,或者叫理念,但是看到这段话的人,马上就会忘记它。

  这就带来一个结果,我以为我知道了,但其实我不知道。所以我们的工作就是对这样的一个模型去做更进一步的解释,告诉大家这个算法它究竟是怎样工作的?它最核心的意义和价值在于,它真正呈现出来一个没有人做过的,或者没有人展现出来的一个精确的算法和模型。7

  天眼查的成立和发展伴随着我们国家的数据公开的整体进程,而公开数据,是有公共价值,甚至是商业价值的。

  从数据新闻的角度来讲,天眼查整合的公开数据帮助媒体提高了稿件操作的效率。而这些公开数据也确实帮助媒体实现了对于一些议题的深入探讨。

  数据从哪里来?这是所有数据创作都会面临的问题。这涉及到三个点,一个叫做可发现

  ,即数据是否可以通过公共渠道检索发现,你当然可以用搜索引擎去搜,但大家都知道,搜索引擎没有那么智能化,你问它一个问题,它给你的是一个碎片化、字段式的响应,几百几千万的答案很可能对你真正有帮助的只有那么一两条。你也可以从纸质刊物中获取资料,但通常不那么方便。第二个角度是可获得

  ,即数据的获得是否有壁垒,通过注册去访问数据已是家常便饭,好多你要去获取数据的地方,都需要你注册、登录,最终的目的是让你付费。你有一个很想做的题材,可能你要付给他几万块钱,甚至于几千万,你才能拿到想要的数据 。第三个是关于可使用性的问题

  ,即数据的使用上是否有壁垒和限制。纸质文件你没法直接转化成电子内容,PDF你也得费劲把它变成Excel,有时候即使给你一个Excel,它只有一个表头,表头可能空了四行、五行、六行都有,或者还有一堆注释,各种各样奇奇怪怪的Excel,其实也是我们在创作当中经常会碰到的问题。接下来我们聊聊数据开放,实际上开放数据这个定义是非常非常早的东西了,也就是任何人都可以自由、免费地访问、获取、分享的数据资源

  。核心是公开数据+可重用格式+开放协议,最主要的还是可重用的格式,也就是这个东西好用。开放的协议更多是指我用这个东西,它是不是对我有所限制,这个数据是不是我爬下来了,我一定能去用。

  我们从2017年开始做《中国地方政府数据开放报告》,中国地方政府的开放数据很有意思,16、17年还是十几个地方在做数据开放,蹭的一下2018年就到了46个,今年2019年有82个地方。从地域分布上看,相对集中在中部到东部,像北上广这类有信息化技术,有相应产业基础的地方,数据开放做的更好。

  政府数据网站都开放了哪些数据?一般以行政事务为主,比如说许可、审批、登记、处罚类信息。按照网信办、工信部和科技部的要求,全国各地多数数据开放的网站都遵循着类似的域名:data.xx[地方政府缩写

  在传统的政府开放体系之外,也有很多外部开放数据,比如上海新能源汽车数据监测中心的“EV大数据”,提供新能源汽车的监测数据用于研究。用户可以申请获取数据,用于调研报告、新闻创作等等,1982年春节联欢晚会这是一种游离于政府传统的开放数据体系之外的“开放数据”。上海青悦对于环境数据的开放也是类似的合作模式。

  还有一类可能性像国家卫建委做的流动人口数据服务平台,实际上这只是科技部在过去十几年当中一大批科学共享平台的一部分,流动人口数据知名度比较高,每年接受2次申请,能够让你获取到他们用统计调研方式获取到的流动人口相关数据内容。

  开放是一个公共议题,媒体的关注和媒体对议题持续的报道非常重要。例如5月1日,上海有一个公共数据开放管理办法的意见征求,媒体界可以通过表达诉求影响政府政策的制定。二是多利用开放数据。

  今天的数据创作者大会,很有意思的一点是汇聚了各行各业的数据创作人,有越来越多的人去挖掘数据的可能性。对于数据提供者而言,这是一个良性反馈,能够激励他开放更多的数据,或者合作机会,最终达到一个正向循环。三是让开放数据更“可见”。

  像在GitHub上有一个非常知名的Repo(Awesome Public Datasets),上面有将近几千个公共数据集,供大家查询使用。可能大家对英文平台不是那么熟悉,是否可以用其它的方式方法梳理这些已有的数据集。这些已有的平台,包括不同的数据创作者是否可以联合在一起做这件事。四是开放你的数据。

  这样的案例有很多,像海外的很多News Room都会在一些公开平台上公布新闻作品背后的数据。开放给其它新闻机构,开放给公众,让他们能够拿着这些数据去做进一步的拷问,去做论证,去做一些复核的检验。之前也有看到澎湃Sixth Tone做了类似的事情。更进一步地,开放数据,开放创作素材这样的一种方式,关于它的商业模式,如何可持续运行下去,也值得我们做更多的探讨。

  最后希望更多的创作者,能够去关注“开放数据”这样一个议题,能够更多地使用已经开放的数据,或者说更多已经存在的公共信息。

标签:1982年春节联欢晚会(3)

顶一下
(0)
0%
踩一下
(0)
0%