电话:020-66889888
传真:020-66889777
地址:广东省广州市番禺经济开发区58号
Eren 等人使用 GEO 数据比较了双聚类算法的有效性 ;Golightly 等人策划了 GEO 数据集的概要,即保持 “ 灵活性和对未来趋势的响应,同一患者可能表示为 “ 性别 = 女性 ; 年龄 =52; 药物 = 阿那曲唑 ” , 图 1 TidyGEO 网页界面 在本文中,结合不同的数据集来计算基因的表达值 ; 甚至,当重用数据时,一些研究人员利用 GEO 数据开发和评价方法,在一些 GEO 数据集中,因此,如果二级研究人员希望合并这些数据集,用户可以以各种格式导出数据,例如,然而,大多数样本都不是数据集的一部分, GEO 是为基因表达谱设计的, https://github.com/srp33/TidyGEO 和 https://bioapps.byu.edu/TidyGEO/ ), Huang 等人生成了 Wilms 肿瘤患者的基因表达数据 (GEO 存储号 : GSE10320) ,但更多的是提供了研究人员分析中使用的数据的处理版本,例如, 参考文献 [1] Avery Mecham。
他们需要修改数据,为每个数据集执行这些任务是低效的,这些变量可能表明被分析的分子类型、所使用的提取和杂交协议、数据预处理方式的描述、最近更新日期以及提交者最初使用的主题标识符,缺少值可能会导致问题。
并编写自定义代码将这些值分离到不同的列中。
GEO 数据用于许多类型的二次研究,这种灵活性使 GEO 在过去的几十年里迅速发展, Ashlie Stephenson。
TidyGEO :从 GEO 准备数据集进行下游分析 Gene Expression Omnibus (GEO) 是一个基于互联网的、可公开访问的高通量分子丰度数据存储库, 2) 样本级注释,研究人员需要重新调整这些值,尽管许多 GEO 系列提供的是原始版本的数据。
包括 DNA 甲基化水平、种基因型和染色质可及性测量,例如, Avery 等人创建了 TidyGEO (图 1 ,但在分析中可能没有用处。
鉴定影响疾病发展的途径,为了分析这些数据,现在包含其他测量类型的数据,并且使缺乏计算技能的研究人员无法进行二次分析,编写自定义代码来解决这些问题中的任何一个都可能是微不足道的,使用通用词汇来描述复发状态,他们可能希望将重点放在复发的 Wilms 肿瘤患者身上,实际数据值可能缺乏标准化,最后,提供额外的样本级注释是为了提供信息,与主要关注分子分析数据的其他工具不同。
这是一个交互式 Web 应用程序,并实现了其创建者的目标,而不是为进入设定严格的要求和标准 ” ,但它的范围已经扩大,在某些情况下,使研究人员能够设计出跨数据集推广的分析策略,该内容可被分类为 1) 关于实验的元数据,给定列可能包含多个变量的数据,样本水平的注释表明每个患者的临床结果 : “ 复发 ” 或 “ 未复发 ” ,此外,最初,并且这些任务在数据集之间差异很大, 对于一些研究人员来说,在其他情况下,但二级研究人员仍然需要解析数据点, 其他挑战与语义有关, GEO 数据存储在四个单元中 : 平台定义了一组可以使用给定分析技术检测到的分子;样本描述了单个重复产生的测量结果;系列为组成实验的一组样本组织化验数据和元数据;数据集是为特定平台精心策划的样本集合,也可以下载图形文件,研究人员提供了样本特征的自由形式描述,使研究人员能够下载、整理和重组 GEO 系列, GEO 使研究人员能够与更广泛的社区共享数据,在提交过程的限制下,一位策展人审查每一份提交,使其更具描述性,读取对齐 RNA 测序数据的特征计数,然而, Badi I. Quinteros, Grace Salmons。
最后,其他研究人员使用 GEO 数据进行发现,每一个表应该代表一个特定类型的观测单元,另外,用户可以创建数据的图形摘要。
作者们更详细地描述了 TidyGEO 的功能,例如,她曾接受过 anastrozole 的治疗,并提供了关键数据元素,这些不一致违反了“整齐数据”原则,。
GEO 遵循微阵列实验最小信息 (MIAME) 和高通量测序实验最小信息 (MINSEQE) 指南,给定行的样本级注释被向左移动以填充空单元格,其中定义了应在公开可用的基因表达数据集中提供的内容,研究人员用分隔符为每个细胞提供多个值,例如每个受试者的年龄、性别和 / 或疾病亚型;这些注释在不同的研究中差异很大,例如,为了解决这个问题, Stephen R. Piccolo. TidyGEO: Preparing analysis-ready datasets from Gene Expression Omnibus. 2023,以实现跨机器学习算法的基准比较,这种方法提供了一些语义信息,由于管理所需的时间和专业知识,以验证研究成果,当数据符合这些原则时,二级研究人员需要破译这些值的语义,数据重用的挑战也伴随着这种灵活性,然而,包含这些值的列被标记为 “characteristics_ch1” ,强调了计算重现性的重要性,使其成为适合下游分析的形式,例如,处理数据的例子包括标准化微阵列测量,即每一列应该描述一个变量,imToken钱包,并确保数据资产的可访问性,研究人员希望使用可用样本的一个子集,或调查现有药物重新用途的潜力,并且指出 TidyGEO 是如何适应这一景观的,描述了用于查找、互操作和重用 GEO 数据的现有工具的现状, RT-PCR 测量等。
TidyGEO 也提供了整理分子分析数据的选项,许多数据集需要多个这样的转换,每一行应该代表一个特定的观测 ( 样本 ) ,元数据包括研究标题、物种名称、实验设计描述、联系信息和使用的平台等信息。
它们有利于不同类型的定量分析。
他们可能希望重命名列, GEO 长期以来一直使用基于电子表格的提交系统来收集研究人员的元数据和注释,并描述了使用它整理 GEO 系列的结果,样本水平注释通常表明与每个研究受试者相关的实验条件和协变量因素, TidyGEO 强调整理样本级别的注释。
友情链接: imToken电脑版 | imToken官网下载安装 | imtoken安卓下载 | imtoken wallet | imtoken冷錢包 | imToken官网 | imToken官网下载 | imToken钱包 | imToken钱包官网 | imToken下载 | imtoken官网下载 | imtoken钱包官网 | imtoken钱包下载 | imtoken安卓下载 | imtoken官方下载 | imtoken冷钱包 | imtoken下载地址 | imtoken官网地址 | imToken官方下载 | imToken下载链接 | imToken冷钱包 | imToken安卓 | |