【阅】本周阅读摘选2023-04-17 → 2023-04-23

Posted by Cao Zihang on April 24, 2023 Word Count:
本周阅读摘选
2023-04-17 → 2023-04-23
目录

学术相关

阅后即焚,如何影响信息处理1

SMJ:免费增值的竞争:具有网络效应的数字竞争2

How quantifying the shape of stories predicts their success3

一直挺喜欢Jonah Berger的一些观点的,但这篇好像有点失望orz…

叙事和其他形式的话语是告知、愉悦和理解世界的有力工具,但少有研究对其效果进行量化分析,因此作者利用NLP和机器学习技术将文本表示为一个潜在高维语义空间的序列点,进而构建约5万文本的样本集(电影、TV秀、学术论文)量化语义特征(语速、体量、迂回性等)并检验它们与成功(评价、引用)的关联。

作者致力于解决的问题是为什么一些叙事或讨论会比其他的言语更成功,以及如何解释这一现象。

  • 方法

将文本分割为规模接近的$T$个窗口$t$,之后Embedding为300维的向量$x_t$。之后作者计算表示每个文本的语义路径。

速度衡量语义概念的转化节奏,作者计算连续块之间的文本距离(语义相似度的欧氏距离),并根据文本长度归一化。速度是一种需要权衡的指标,快速语义转变可能产生更多的参与度和兴奋,但是需要接收者付出更多的认知努力。

体量表示文本包含的主题数量。作者通过一个优化问题找到包含点${x_1,x_2,…,x_T}$的最小体积的椭球来衡量,并通过椭球的维度进行归一化得到文本的体量。与速度一样,体量也是一个需要在主题数量与认知负担之间权衡的变量。

体量捕获了覆盖的主题数量,但没有表示这些点如何被覆盖的,因此作者还测量了迂回性。给定两个点$x_1$和$x_T$,作者使用旅行商问题解法优化获取文本之间的最短路径,并将之与真实路径序列${x_1,x_2,…,x_{T-1},x_t}$作比。虽然话语的迂回通常不受欢迎,但它也可能让接收者在之前的主题之间建立新的和深的联系。

image-20230624133416505

  • 结果

对于文本,作者除了包含一组标准的控制变量,还使用隐含狄利克雷分布LDA估计100个话题强度来控制文本内容,确保其结果不受特定话题与成功的关联驱动。

image-20230624150039476

4000部电影结果显示叙事速度高更易受欢迎;12000部TV秀结果与之类似,同时TV秀包含较少的体量会更易受欢迎。学术论文则不同,叙事速度会降低其引用量($log(1+citations)$),更大的体量能有助于增加引用量,更迂回的论文平均来讲被引用的更多。

张霖丨可信吗?关于仿真的灵魂拷问

当用户试图依赖仿真结果进行决策时,最大的顾虑便是仿真的可信性,这一问题已经事实上成为影响仿真应用的最大障碍。

模型可信性

图片

概念模型、数学模型、算法模型和仿真模型,每一环节的每一种模型都可能出现错误。数据也可能被污染,人工数据的真实性需要机制和制度保障,机器生成的数据真实性取决于设备和软件可靠性。

因此,仿真可信性主要取决于模型可信性。

此外,随着数字工程、基于模型的系统工程、人工智能等技术的发展,模型的应用实际上已经超越仿真领域本身,成为各行业数字化建设的基础。

严格地讲,如果要建立100%可信模型,需要模型100%正确,即模型分毫不差地将真实世界的对象描述出来,但就目前人类技术水平是不可能的。

判断模型的“正确性”主要取决于模型的目的,即研究的内容和精度。抛开用途或需求谈模型可信是一个伪命题。

模型可信评估

  • 基于输入输出的评估
    • 加载输入数据判断模型的输出结果与理论/实验数据一直程度
      • 将模型视作黑箱,当且仅当输入所有可能数据且输出都正确时,才能认为模型正确
        • 实际中不可能穷尽所有可能
        • 归纳法只能证伪
    • 模型的校核、验证与确认(VV&A)
      • 校核:模型运行前考察是否正确建立模型
        • 对所建模型的结构及内部逻辑进行正向分析,判断正确性和合理性
        • 校验是可解释过程,模型必须是白盒模型
      • 验证:基于输入输出的评估
        • 即使经过校核、验证的模型仍然可能存在诸多流动和不确定性
          • 评估方法不合适、方法不可靠、评估过程不规范等
      • 确认:甲方根据自己的需求和开放方提供的过程材料进行最终的审定
    • VV&A忽视了对模型开发过程/人员的评估
      • 能力成熟度模型CMMI:评估软件开发能力

The preregistration revolution4

最早接触预注册还是源于前几年甘怡群老师在心仪脑上分享开放科学理念的时候,后来虽然一直知道这个概念和具体操作的平台,但总是对它背后的理念有所欠缺,这次补上这一课。

科学进步的标志是显著减少关于自然的不确定性。科学家构建模型来解释先验观测并预测未来观测,这些模型是现实的估计和简化。模型通过不断更迭来减少预测误差,以增强确定性。正如著名的George Box的名言:“所有的模型都是错的,但一些模型是有用的。”科学家基于已有观测生成假设,并通过获取新观测检验假设来改进模型。

作者使用事后检验post-diction和预测prediction来分别概括假设-生成/假设-检验、发现/理解、数据无关分析/数据相关分析、探索研究/实证研究的差距。在事后检验中,数据是用于生成假设的,而在预测中数据是用于检验假设的。

事后检验对于发现未被考虑的可能性至关重要,在许多情况下,研究人员几乎没有产生预测的基础或证明期望是错误的,科学的进步通常是通过意想不到的发现产生的。但是如果对事后检验过度自信,将可能产生错误的结果,降低研究的可重复性。

在实际研究中,科研人员通常交替进行事后检验和预测。研究工作的动态性和人类推理的局限性容易让科研人员把事后理论化认为是预测,例如基于观测数据生成假设,并利用同样的数据检验假设。由于后见之明偏差,人们会在事前认为我们无法预测未来会发生什么,但当事后我们却有极大的自信认为我们可以解释它。现有的科研体系也隐式地推动科研人员注重于产生容易获得利益的结果,而在一定程度上忽视准确性。此外,数据挖掘、P-hacking等行为加剧了滥用统计推断对证据可靠性方面提供虚假的安慰剂问题。

统计推断的标准工具具有预测假设,例如零假设显著性测试是为预测设计的——检验假设而非生成假设。当人们忽视掉P-value是为诊断预测而设计的时候就会产生问题,因为科研人员总能找到不同的方法开展统计推断检验,使其符合预期。因此,零假设显著性测试NHST不能有把握地应用于事后检验。相反,在进行预测的检验中,这种有意无意地寻找最可能产生显著结果统计方法的寻径问题是可以被规避的,因为预测的分析程序在观测到数据之前已经被确立。所以在修正测试数量后,P值是能够具有诊断能力的。

预注册就是能够帮助科研人员保持预测而非事后检验的清晰界限,并提供精准校验的证据的有效工具。

预注册的研究计划需要在获悉研究结果的先验知识之前确立分析步骤。通常科研人员需要将分析计划上传至独立的注册表并公开(有时存在一定的保密期)。

在理论上,预注册分析会令研究更具有可重复性,但目前尚没有实证证据充分证明其可重复性优势。相关证据表明预先构建假设与增加可重复性具有相关关系,预注册能够降低发表偏差,并有助于发现报告偏差。

预注册实践

在理想的研究场景中,科研人员观察世界并产生研究问题或假设,然后他们会根据问题设计研究和分析计划。接科研人员会基于研究计划收集并分析数据,这将面临对假设的检验。之后,研究人员会探索数据的潜在发现,生成假说或潜在的事后解释。就这,最有趣的事后预测会被转化为设计下一个研究的预测,如此往复循环。

在这样的理想场景中,预注册仅仅是让科研人员将研究设计和分析计划发表在独立的注册表之中。然而,在现实的研究中却会面临很多问题。

  • 挑战1:研究管理期间程序的变动

实践中,通常最精心设计的计划是难以实现的。实际的数据收集与分析计划存在偏差的情况通常发生,它必然会增加检验产生偏差的风险,但预注册仍然能够提供一定的帮助:一方面,在观测前计划的调整不会影响预测检验的有效性;另一方面,预注册可以透明地汇报修改计划的缘由,使审阅人员可以分析修改计划的影响。

  • 挑战2:在分析过程中发现违反假设的情况

例如数据违背分布假设的情况几乎不可能在观测数据之前被识别到,然而我们有很多策略能够处理在数据分析中出现的意外,且不会损害统计推断的诊断效力。

在一些数据分析中,我们可以清晰地定义阶段,并逐步地开展预注册。例如,研究者可以定义一个对变量分布形式进行评估的预注册,以确定数据排除、转换和建模的假设,这些假设不会揭示任何关于研究结果的内容。之后,研究者再预注册最合适的模型来检验感兴趣的结果。

但是在许多研究中,有效地应用序列预注册(sequential preregistration)是困难的,如果一个早期阶段的预注册揭示了后续阶段要测试的结果的信息,那么预注册的效力就会受到影响。

因此,一个更稳健的方式是通过扰乱一些观测值来遮蔽数据,这样可以在保留分布形式的同时避免暴露实际结果,但由于数据集的性质和研究者对结果的兴趣,该方面在实践中比较困难。

另一种有效的方式是预注册一个决策树,该决策树定义了每个序列预注册阶段的检验序列和决策规则,但可能会把偏差引入决策树。

最后一种选择是为一个或多个预注册建立标准操作程序(SOPs),它为常用的建模方法和数据处理决策提供了比决策树更通用的应用程序,但它需要通过刻意练习和建立共识形成社区规范。

  • 挑战3:二手数据

再使用二手数据进行研究中,研究者无法在收集数据前知晓哪些变量和数据是可用的,因此无法基于理想方法构建预注册。

在二手数据上进行预测检验的可能性取决于分析计划是否能够忽视数据。如果研究者能够忽视观测到的数据,纯粹的预注册仍然是可行的。

但是实际中,很多情况是无法产生纯粹的预注册的。一旦确定研究者对数据的盲目性被扼杀,就需要通过登记分析计划并透明地报告事先对数据集的了解程度使统计推断的诊断效力达到最大,这样至少提供了对可信度的主观评估。

  • 挑战4:纵向研究和大型多变量数据集

这类研究通常难以对所有未来论文的整体设计和分析计划进行预注册。同时,纵向数据会方法二手数据和预注册后变更计划的挑战。

前三种挑战的解决方案在这里依然使用,同时,由于纵向数据每年都有新的变量被观测,因此在观测之前进行预注册可以获取一些盲法的好处。虽然当数据存在关联性的时候,盲法就会被削弱,但通过预注册的部分盲法比完全没有盲法为统计推断的诊断效力提供了更多的保护。

  • 挑战5:大量实验

当团队需要高效进行大量实验时,预注册可能成为工作的负担。为此,定义了变量和参数的预注册模板将有助于提高效率。

  • 挑战6:项目研究

预注册必须汇报所有的结果来避免选择性报告。

  • 挑战7:缺少先验预期

这种情况在研究项目刚开始时是很常见的,但整个研究都是探索性研究缺是少见的。预注册对探索假设和检验假设的迭代研究过程是有益的,在对预测进行检验后,研究者可以不受限地探索数据以获取指导下一次实验的发现。例如第一项研究用一个简单的分析计划进行预注册,然后主要进行探索性分析以产出预测,形成第二项研究预注册的基础。

  • 挑战8:竞争性预测

不同研究者可以基于不同的理论视角对同一个研究设计产生不同的预测假说。预注册可以支持同时拥有多个预测。

  • 挑战9:叙事性推理和结论

如果一个预注册项目进行了10项分析,但论文的叙事性讨论只集中在其中的2项,那么就会增加推论错误。从本质上说,这是一种未能纠正多重比较的情况,在统计学上可以通过Bonferroni alpha corrections进行修正,但是研究者的选择性关注和解释却难以通过统计学调整。

预注册并不能阻止研究者和读者采用不同的解释框架来理解统计证据。论文的作者对数据及其意义拥有一种观点,但在预注册的透明性下,其他的看法和解释也可能被使用。对同一统计证据拥有不同解释是科学作为独立观察者分散研究的一个特点,只有在研究过程透明的前提下,选择性推论的问题才能被发现和解决。

预注册规范

预注册的一个实质性障碍是缺乏良好的统计和方法学实践的培训。作者提供了一些资源:统计统计推断预注册教学指导预注册徽章OSF模板

圣塔菲学者:AI 大语言模型真的理解人类语言吗?5

在不久前,人们还非常确信,人工智能系统在许多特定任务中所表现出的看似智能行为,实际上并不能按人类一样理解它们所处理的数据。然而,近几年大预言模型的发展挑战了这一观点。

一些人认为,随着网络规模增大,这些网络在整体上可以真正理解语言并质性推理(尽管没有达到人类水平)。另一派认为大规模预训练模型并不具备理解能力,因为它们没有对世界的经验或心理模式,大量的训练文本只教会了它们如何组织语言,但并不理解语言。这一派表示虽然LLMs的流畅性令人惊讶,但这是源于我们对统计相关性在这些模型上的结果缺乏直觉。他们提及Joseph Weizenbaum在1964~1966年间打造的史上第一个聊天机器人Eliza和著名的Eliza效应,即当人们与计算机交互时,会产生将计算机的行为比拟为真人对话的幻想。

2022年就这一问题在NLP社区的调查显示了人们巨大的分歧,480名受访者中51%认为如果有足够的数据和计算资源,可以在某种非常微妙的意义上理解自然语言,49%的受访者持反对意见。

作者认为,大量的认为LLMs具有理解能力的人潜在假设了类人的理解能力是模型在自然语言相关任务上表现出色的必要条件,但作者并不认可这一假设。例如在一些推理任务中的回答,模型可能只是从材料中找到了简单的相关性,而当我们阻止了这些简单关联后,模型的推理水平下降到随机猜测的水平。这就是“捷径学习”,学习机依靠数据虚假的相关性,而不是像人一样的理解在特定的基准上表现良好。因此,随着大语言模型规模提升,模型内可能包含复杂的统计相关性使其在没有类人的理解状态下,模型也能有接近完美的表现。

虽然关于LLMs理解能力的辩论双方都有强烈的知觉证据支撑他们的观点,但目前基于认知科学方法并不足以深入了解理解能力这类问题。一些学者已经将人类的理解和推理机制的评估应用于LLMs,发现在某些情况下LLMs确实表现出类似人类的反应,但这些评估对人类是可靠的,对AI系统却不是。

随着规模越来越大、能力越来越强的模型被开发出现,我们需要扩展我们的认知科学,以便更广泛地明白理解的概念。

业界动态

益普索Ipsos丨2023直播电商趋势分享

调研问题:2023年直播电商发展趋势

调研人员:Ipsos

调研日期:2023年4月

调研范畴:家具家电&3C数码

调研对象:2000名1-5线城市18-60岁非社交媒体、互联网或调研咨询行业等相关行业从业者进行问卷调查;4组过去1个月使用电商平台和短视频平台购物用户进行小组访谈;5个已入驻平台商家负责品牌短视频/直播电商运营人员深访

调研方法:调查问卷、深度访谈

调研结论:短视频/社交内容分享平台用户比例超出预期

  • 2022年网络购物用户比例89%(同比增长1%),货架电商83%(同比增长1%),短视频/社交内容分享平台72%(同比增长6%)

    • 人均使用3种网购方式
  • 平台边界模糊

    image-20230621131347895

  • 电商平台用户月均购物4次,年消费额平均6205元

  • 短视频/社交内容分享平台月均购物3.7次,年消费额平均4014元

  • 女性和Y时代用户在短视频/社交内容平台电商占比更高

    image-20230621133832704

    image-20230621134042900

  • 直播间购物商品服装、食品饮料是核心品类

    image-20230621134345186

深度伪造技术的风险、挑战及治理

基于深度学习的生成模型主要包括生成对抗网络GAN和变分自编码器VAE两种技术。

图像与视频的深度伪造检测技术主要分为针对伪造痕迹进行取证的检测方法(图像处理取证、生物信息、融合痕迹、时序连贯、模型指纹)和数据驱动的检测方法。

  • 美国:自下而上的治理路径

图片

  • 欧盟:自上而下的治理路径

图片

  • 中国:多方主体共同参与的治理路径

图片

B端数据分析:指标

仅供参考,有一些错误

  • 电商

    • 核心指标:GMV、转化率、ROI、复购率

      图片

  • SaaS

    • 核心指标:复购率

      图片

  • PaaS

    图片

  • 零售

    • 核心指标:GMV、连带率、客单价

      图片

  • 汽车

    图片

  • 房地产

    图片

  • 金融

    图片

  • 医疗

    图片

  • 文娱

    • 核心指标:LTV

      图片

技术技巧

R包:rayshader 绘制精美2D、3D地图

之前看别人转载一些大神制作的GIS地图觉得十分惊艳,才知道这些图片是用rayshader 制作的!这个R包还可以让2D ggplot2图像转换为3D!

对应的python版本为rpy2库。

图片

gg

R包:Tidyverse速查表

R包:gridExtra图形内部添加子图

还可以通过layout_matrix参数做一些复杂的布局,但是我没有看懂这块orz…

plot_zoom

图灵丨Python 学习路线图

前几天,图灵发了一个Python学习路线图的书单,包括web开发、安全等特定方向的推荐书目。特此备案(多半积灰)。

微信图片_20230425180141

  1. Barnea, U., Meyer, R. J., & Nave, G. (2023). The Effects of Content Ephemerality on Information Processing. Journal of Marketing Research, 002224372211310. https://doi.org/10.1177/00222437221131047 

  2. Boudreau, K. J., Jeppesen, L. B., & Miric, M. (2022). Competing on freemium: Digital competition with network effects. Strategic Management Journal, 43(7), 1374–1401. https://doi.org/10.1002/smj.3366 

  3. Toubia, O., Berger, J., & Eliashberg, J. (2021). How quantifying the shape of stories predicts their success. Proceedings of the National Academy of Sciences, 118(26), e2011695118. https://doi.org/10.1073/pnas.2011695118 

  4. Nosek, B. A., Ebersole, C. R., DeHaven, A. C., & Mellor, D. T. (2018). The preregistration revolution. Proceedings of the National Academy of Sciences, 115(11), 2600–2606. https://doi.org/10.1073/pnas.1708274114 

  5. Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large language models. Proceedings of the National Academy of Sciences, 120(13), e2215907120. https://doi.org/10.1073/pnas.2215907120