统计学论文发表笔记

2个回答默认排序

默认排序

按时间排序

Jonathan261

已采纳

都说“学好数理化，走遍天下都不怕”，我觉得极端一点理化也可以不要，但数学那是必须会的，并不用多高深，加减乘除也就够了。如果非要再加一点，那我推荐统计学——从微观量子到宏观世界，都在偶然中蕴藏着的必然——也就是概率，这种美妙的联系似乎反映了世界的一些本质。

几年前初看“大数据”相关书籍的时候，惊叹于“数据挖掘”的魔力——依靠海量数据和计算机强大的算力，人们甚至可以在不理解“因果关系”的情况下，凭借数据的“相关性”进行各种决策。

然而进一步的思考带来了新的问题：“相关性”能代替“因果性”么？数据本身不会说谎，但是对数据的加工呢？有一些看似无懈可击的分析结论，为什么自己运用的时候又不灵了？

最近读完《简单统计学》，书里通过生动有趣的例子，让这些问题或多或少得到了解答。这里把一些印象比较深刻的概念简要地总结摘录一下，为了避免太冗长（其实是懒得打字排版），许多举例部分使用了从网上找到的外链。

人类自古以来演化出模式识别技，让我们对观察到的现象进行直观解释，然而在面对现代社会的复杂数据常常是失效的，但我们对确定性的渴望导致我们：

针对第1点的一个有趣的例子：塔纳岛的土著

针对第2点，体现在我们对统计显著性的迷信。

在我们掌握了“大数据挖掘”的能力之后，统计显著性不再仅仅是为了验证理论对两组对照数据进行比较的指标，研究人员开始用两种方式来“发现”统计显著性。

还有不少研究人员为了结果故意篡改、加工原始数据，这样产生的理论就更不可信了。要揭穿这些伪理论并不难，我们只需要两个武器：

然而并不总是有人这么做，因为：

总的来说，我们有意或无意地使用不适合进行比较的数据作为对照或进行分析，以发现或验证某种（可能并不存在的）模式，从而导致了一系列的认知偏差。

举例：

如何避免通过使用对照组随机分配的方式，可以避免这种自选择偏差，然而实际研究中，往往并不能强迫人们去做自己不愿意的事情，所以我们在检查统计结果的时候要格外小心。（幸好如此）

举例：飞机弹孔问题、“成功学”

如何避免考虑问题时要考虑到我们没有看到的那部分。同时对于成功原因分析，应当从过去开始并向未来展望，看看未来发生了什么。

如何避免控制其他变量仅仅比较“用药”和“不用药”的差别，对于一些医疗场景下很难有效控制的情况，人们设计了大样本随机双盲实验，尽可能消除其他因素的影响。也可以看看关于循证金字塔的相关解释，了解各种研究设计和证据质量。

第1点很容易理解，特别是统计中总会有一些异常数据，对于小基数影响特别大。

第2点有时候就不是那么直观，当我们在统计时对数据进行聚合和分解，可能产生一意想不到的差异。可以看下下面的例子。

那究竟谁是更好的击球手呢？应该还是科里，因为分解数据使用的“单双日”只是数据拆分的一种巧合而已，整体安打率才是一个选手优秀程度的表现。

所以当我们使用比率进行统计分析和比较的时候，一定不能忽视比率背后数据，以及刚才例子中“单双日”所代表的的混杂因素。

前面提到的击球手的例子正是如此，如果我们反过来看，先看整体安打率，再分解为单日、双日，就会发现模式确实发生了逆转。上例中的问题在于，用于分解数据的“单双日”并不是一个有效的“混杂因素”，这种区分本身没有任何意义。但是有时候，能够准确识别“混杂因素”，对数据分析有巨大的意义。

举例：

如何避免在我们利用数据来得出理论和结论的时候，要特别小心，注意数据背后是否有自选择偏差或是未被发现但有实际意义的混杂因素，只有将他们分解出来再进行对比才能真正确认理论的因果是否合理。

在这里我们还要警惕证实偏差：指当人确立了某一个信念或观念时，在收集信息和分析信息的过程中，产生的一种寻找支持这个信念的证据的倾向。要做到不先入为主的客观思考，才能更好地发现数据的本质。

书里还有一些有意思的内容，限(yin)于(wei)篇(wo)幅(lan)没法一一摘录出来，即使摘录出来的部分，书中的一些数据图表和小故事也值得一看。

总之，我给4.5星，推荐阅读（最后几章的内容和理论似乎有些重复）。

320 评论 1小时前发布

Greta：）杨婷

前情回顾： Gephi网络图极简教程 Network在单细胞转录组数据分析中的应用 Gephi网络图极简教程 Network在单细胞转录组数据分析中的应用网络数据统计分析笔记|| 为什么研究网络网络数据统计分析笔记|| 操作网络数据网络数据统计分析笔记|| 网络数据可视化网络数据统计分析笔记|| 网络数据的描述性分析网络数据统计分析笔记||网络图的数学模型单细胞数据以高纬度著称，一则来自测得细胞多，一则来自测得基因也很多。在我们的文章 Network在单细胞转录组数据分析中的应用中提到用网络分析工具来解释细胞和基因异质性。网络既是一种数据结构，也是一个模型。Network在高维数据中的应用是多方面的：从可视化到网络拓扑推断。今天我们就用刚学的热乎的Network知识探索一下我们的单细胞转录组数据吧。核心在找到细胞类型特异（cell-type specific）的某某，对它展开描述。计算每个亚群的差异基因。计算top 20 差异基因的平均表达量，构建们细胞类型特异基因相关性网络。当然你要是能找到每个细胞亚群的有意思的基因集，那故事性要比差异基因强的多了。计算相关性设置分组信息。绿色表示正相关，红色表示负相关。这时候可以讲一下几个一亚群内部的相关性规律，再提一下亚群间的几个关键的基因，如和别的细胞类型关联较多的基因，为什么？社团大于模拟的随机图数量（上异常），说明我们细胞类型特异基因相关性网络是不同寻常的。 0.9058516 > 0.7055 小世界性也是有的。接下来，我们可以把某个子图挖出来仔细看引起这种特异的内在因素，也就是找到了某个基因集，然后又是一波建模和验证。把这篇文章整整就是一篇SCI啊。如何以细胞而不是以基因来构建网络呢？可以基于网络推测细胞类型之间的关系，随着单细胞组学的完善，每个细胞都可以测到多个属性，这样就可以类比人类社会的研究方法了。有一门学科，叫做：到那时，我们可以描述细胞之间的聚集，分离，迁移，交流。细胞之间的调节网络将会在我们面前铺展开来。

311 评论 7小时前发布

统计学论文发表笔记

2个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序