当前位置:首页 » 操作系统 » 微观数据库

微观数据库

发布时间: 2023-02-12 16:09:09

❶ 怎么把工业企业数据库弄成面板数据

中国工业企业数据库的使用现状和潜在问题 聂辉华 江艇 杨汝岱  提要:在经验研究中,企业级的微观数据正受到越来越多的重视。中国工业企业数据 库成为海内外学者研究中国企业行为和绩效的主要数据库之一。但是该数据库存在样本匹配 混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题,忽视这些问题可能会导致 研究结果错误。本文介绍了该数据库的基本情况和使用现状,指出了该数据库的若干缺陷, 并根据现有研究提供了若干改进建议。 关键词:企业数据 工业企业 微观计量 制造业 生产率 JEL 分类号:C33 D24 L22 L60 一、引言 数据是经验研究的细胞,因此数据质量的好坏直接决定了经验研究的活力。最近十多 年来,国际经济学界越来越重视使用微观面板数据(longitudinal micro-level data)的研究。 相对于宏观数据或行业数据,微观的企业数据或个体数据的优势是非常明显的:第一,微观 面板数据包含了更多信息,例如企业的所有制、规模和出口等状态,这些信息对于企业行为 研究是必不可少的;第二,微观面板数据同时包含了时间维度和个体维度,有助于解决计量 经济学中的个体异质性问题,更容易保证估计的一致性;第三,微观面板数据增加了观测值 个数,使得估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配 和劳动供给等研究领域来说,经验研究的数据主要就是微观数据。 伴随微观计量经济学的引入和国内外微观数据库的开放,中国经济学者越来越重视微 观数据的开发和使用,并生产了很多基于微观数据的研究成果。一些中国数据库甚至被全世 界各国学者使用,这一方面表明中国问题越来越受到国际经济学界的重视,另一方面也表明 中国数据的质量得到了越来越多的认可。特别是,相当多海内外学者使用了“中国工业企业 数据库”(Chinese instrial enterprises database) ① ,其研究成果广泛发表在包括《American Economic Review》(如Song等,2011)、《Quarterly Journal of Economics》(如Hsieh和Klenow, 2009)和《经济研究》等国际和国内着名学术期刊上。作为一个由中国国家统计局收集的 数据库,它的优点是样本大、指标多、时间长。但是,它毕竟不是一个由学术机构发布的数 据库,因此在很多方面还不太符合学术研究的严格要求,其缺陷包括样本匹配混乱、指标存 在缺失、指标大小异常、测度误差明显和变量定义模糊等严重问题。我们认为,如果研究者 没有察觉到这些数据缺陷,并且采取有效的方法缓解或消除这些缺陷,那么就会对经验研究 的结果产生负面影响,甚至会导致错误的结果。而错误的结果对于理论研究和经验研究来说, 不仅浪费了时间和精力,而且可能会产生误导作用。鉴于此,我们认为有必要详细地、严谨 地讨论中国工业企业数据库的基本情况、使用现状,指出其存在的问题,并尽可能提供解决 问题的建议。我们希望,本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来  聂辉华,中国人民大学经济学院,人大企业与组织研究中心,北京市 100872;email: [email protected]。 江艇,中国人民大学经济学院,人大企业与组织研究中心,[email protected];杨汝岱,湘潭大学消费 研究院,[email protected]。作者感谢何帆对写作本文提供的建议,感谢屠顺杰提供的助研工作,同时 感谢两位匿名审稿人提供的有益建议。本文的研究得到姚洋主持的国家社科基金重大项目“我国中长期经 济增长与结构变动趋势研究(09&ZD020)”和聂辉华、杨汝岱分别主持的教育部新世纪优秀人才项目的资 助,特此鸣谢。文责自负。 ① 一些英文文章将该数据库名称翻译为“China Annual Survey of Instrial Firms”或“China Annual Survey of Manufacturing Firms”。 1 本文发表于《世界经济》2012 年第5 期 方向,而且有助于他们更准确地使用该数据库,从而推进相关领域的研究。当然,作为该数 据库的使用者之一,我们并不能保证我们全面地熟悉了该数据库,并且我们对问题的分析不 可避免地包含了一定的研究倾向。 二、数据库基本信息 我们首先简单地描述数据库的基本情况。中国工业企业数据库由国家统计局建立,它 的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为“全部 国有及规模以上非国有工业企业数据库”,其样本范围为全部国有工业企业以及规模以上非 国有工业企业,其统计单位为企业法人。这里的“工业”统计口径包括“国民经济行业分类” 中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类,主要是制造 业(占 90%以上)。这里的“规模以上”要求企业每年的主营业务收入(即销售额)在 500 万元及其以上,2011 年该标准改为2000 万元及其以上。基于上述统计口径的数据库自1998 年开始采集,但多数学者使用的工业企业数据库涉及的年份在1999-2007 年之间。由于该 数据库的主要成份为制造业企业,在统计口径上与其它国家的产业分类比较一致,而且一些 变量(例如资本、研发投入和出口交货值)更容易度量,因此使用者通常析出该数据库中的 制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其它制造业、 废弃资源和废旧材料回收加工业等30 个大类(二位数行业),对应于国民经济行业分类与代 码(GB/T4754—2002)中的代码 13-43(没有 38)。为了保持企业样本的完整性,同时与 现有研究具有可比性,我们以1999-2007 年全部国有及规模以上非国有工业企业作为我们 分析该数据库的主要样本。 1999-2007 年中国工业企业数据库包括了 200 多万个观测值,每年的样本企业数量从 1999 年的大约16 万家逐年递增到2007 年的大约33 万家。 ① 在9 年样本期内,总共有大约 55 万家企业出现,包括上市公司。显然,这是一个巨大的非平衡面板数据。由于企业关闭、 改制、重组等各种原因,只有4 万6 千多家企业(约占样本企业总数的8%)连续出现在整 个样本期间。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的 2004 年第一次全国经济普查年报,当年工业企业销售额为218442.81 亿元。而中国工业企业数据 库当年全部样本企业的销售额为195600 亿元,约占全国的89.5%。 ② 目前,除了经济普查 数据库,中国工业企业数据库是可获得的最大的企业级数据库。表1 描述了1999-2007 年 企业总数和国有、集体、民营、外资企业(含港澳台企业)的份额变化。可以看出,国有和 集体企业的比例在显着减少,从1999 年的三分之二下降到2007 年的不足十分之一,而民营 企业的比例从不足 20%迅速增加到超过 70%。该表从一个侧面反映了中国市场经济结构的 剧烈变动。 表1 中国工业企业的类型、数目和比例 年份 国有 比例% 集体 比例% 民营 比例% 外资 比例% 总数 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 学者们使用的该数据库可能有几个不同的来源,但是内容相差很小。 ② 经济普查的工业企业销售额来自国家统计局网站《第一次全国经济普查主要数据公报(第二号)》,工业 企业数据库中的工业企业销售额来自作者计算。 2 本文发表于《世界经济》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 来源:作者根据数据库计算 事实上,工业企业数据库也是最全面的企业数据库。该数据库包括企业的两类信息, 一类是企业的基本情况,另一类是企业的财务数据。企业的基本情况包括:法人代码、企业 名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型(所有制)、隶属 关系、开业年份和职工人数等指标。企业的财务数据包括:流动资产、应收账款、长期投资、 固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业 务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工 资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标 大约为 130 个。特别是,2004 年为第一次全国经济普查年,因此在数据库中当年的企业指 标还包括了不同学历(研究生、本科、大专、中专、高中、初中及以下)、不同职称(技术 职称和技师等)的男职工和女职工的相应数量,此外还包括了企业是否加入工会以及加入工 会的人数等其它年份所没有的信息。 毋庸置疑,工业企业数据库的优势非常显着。第一,它的样本量非常大,涵盖了全国 所有的国有工业企业和规模以上的非国有工业企业。9 年的观测值总数超过200 万个。2006 年之后,每年的样本企业数目已经超过了30 万个。除了普查数据库,还没有哪个企业数据 库在样本量上能与之匹敌。从统计学或计量经济学的角度讲,大样本的优势是降低估计的近 似偏误,提高估计的效率。第二,它的指标非常多,包括了企业的基本情况和企业的财务数 据,能够从多个角度比较全面地反映企业的市场进入、投资、借贷、广告、研发、出口等行 为和企业的短期与长期经营绩效,并且企业加总数据能够反映出企业所处行业或地区的市场 结构。从产业组织理论的角度讲,一旦可以获得市场结构、企业行为和绩效的数据,学者们 几乎就可以进行任何主题的研究!公司金融、企业理论、国际贸易和产业集聚等相关领域的 研究者们也可以对该数据库各取所需,包括进行跨专业研究。如果将该数据库和其它数据库 合并,那么学者们将会发现更加丰富的研究视角。指标越多,在构建计量方程时解释变量和 控制变量就越多,这样可以减少遗漏变量问题。第三,它的时间序列比较长。工业企业数据 库最早的建立年份是1998 年,目前已经更新到了2008 年,前后跨期11 年。这使得研究者 采用动态面板方法具有可行性,从而有助于反映历史因素的作用,以及从动态的角度研究企 业和产业的演化过程。 相对而言,目前流行的其它几个企业数据库,例如万得金融数据库、色诺芬经济金融 数据库、国泰安上市公司数据库,样本企业都是上市公司,它们的指标更全面、准确,提供 指标的频率也更高。比如,这些上市公司数据库通常包括了主要股东持股情况、董事会成员 和高管的个人特征以及职位变动,从而可以研究公司治理结构。另外,上市公司数据库不仅 包含工业类上市公司,还包含了金融类和服务类上市公司,这也是工业企业数据库所缺乏的。 此外,一些特定的调查项目也催生了企业数据库。例如,2006 年世界银行和国家统计局对 中国12 省的1200 多家企业进行了调查,内容涉及企业社会责任、内部管理、质量管理、劳 动管理、环境管理、市场竞争以及技术改造等方面。从1991 年到2006 年,中央统战部和全 国工商联陆续对全国民营企业的经营情况进行了抽样调查,内容涉及企业基本情况、管理体 制、企业家背景以及劳资关系等方面。 ① ① 关于其它企业数据库,感兴趣的读者可以访问香港中文大学中国研究服务中心的网站。 3 本文发表于《世界经济》2012 年第5 期 三、数据库使用现状 由于工业企业数据库的独特优势,近几年来每年都有大量的海内外经济学者使用该数 据库撰写和发表论文,主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸 易、劳动经济学和区域经济学等学科。下面,我们简要介绍工业企业数据库在上述经济学分 支中的使用现状。一方面,我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用 该数据库做了什么,还可以做什么;另一方面,我们希望这有助于感兴趣者了解现有研究者 是如何做这些研究的。当然,囿于篇幅和精力,我们不可能囊括所有使用该数据库的文献, 而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。 1、生产率 在所有使用该数据库的相关研究文献中,企业生产率是最受关注的主题。因为生产率 是最重要的效率度量,正如克鲁格曼(Krugman,1997)所言:“生产率不是一切,但是长 期来看生产率近似于一切。”而且,对于计算企业生产率而言,工业企业数据库提供了加总 数据所不具有的独特优势。利用工业企业数据库中提供的销售额或经济增加值(表示Y)、 固定资产(表示K)和职工人数(表示L),采取相应的价格指数进行平减,可以计算出每个 企业的劳动生产率和全要素生产率(total factors proctivity,简称TFP)。鉴于劳动生产率 不能反映资本的效率,因此多数文献以TFP作为生产率的度量。又因为制造业口径与国际产 业分类更具可比性,所以现有文献在计算TFP时几乎都以制造业企业为样本。在计算TFP时, 一些学者采取了传统的索洛残差法(Solow resial),例如谢千里等(2008)、Hsieh和Klenow (2009);一些学者采取了主流的OP方法(Olley和Pakes,1996),例如张杰等(2009)、余 淼杰(2010)、聂辉华和贾瑞雪(2011)、杨汝岱和熊瑞祥(2011)、Brandt等(2012);一些 学者采取了LP方法(Levinsohn和Petrin,2003),例如周黎安等(2007);一些学者采取了随 机边界方法(SFA),例如刘小玄和李双杰(2008)。 ① 2、国际贸易 与生产率研究密切相关的是国际贸易,更具体地说,是考察企业出口与生产率的关系。 根据着名的企业异质性假说(Melitz,2003),生产率高的企业会倾向于选择出口,即生产 率和出口是正相关的。工业企业数据库包含了企业出口交货值,但无法区分一般贸易和加工 贸易企业。利用工业企业数据库,一些学者检验了这一假说对于中国企业是否成立。张杰等 (2009)利用1999-2003 年的制造业企业数据发现,出口有利于企业提高TFP,即存在出 口的“学习效应”。而李春顶(2010)利用1998-2007 年的样本发现,出口企业的平均TFP 或劳动生产率低于内销企业,他认为这是“生产率悖论”。此外,赵伟等(2011)发现劳动 生产率与出口选择是负相关的,但 TFP 有时与出口选择是正相关的。这似乎表明,利用该 数据库文献研究还没有明确地支持企业异质性假说,但 Lu(2010)对此提供了一个理论解 释。还有一些学者利用工业企业数据库做了相关的研究。例如,余淼杰(2010)发现,贸易 自由化(降低关税)会提高出口企业的TFP;包群等(2011)发现,制造业企业出口后对其 员工收入的改善并不明显;杨汝岱和郑辛迎(2011)发现行业的垂直专业化程度对企业员工 工资有差异化影响。 3、外商直接投资 中国加入 WTO 已经十周年了,外商直接投资(FDI)究竟在中国的经济发展中扮演了 什么样的角色?亓朋等(2008)利用1998-2001 年的制造业企业数据,考察了外资企业对 内资企业 TFP 的溢出效应,发现在行业内溢出效应不显着,行业间和地区间均存在正的溢 出效应。罗雨泽等(2008)使用2000 年和2002 年的制造业企业数据,发现外商投资企业对 ① 聂辉华和贾瑞雪(2011)比较了计算TFP 的几种方法的优劣。 4 本文发表于《世界经济》2012 年第5 期 本行业和本地区的内资企业有显着正的溢出效应。有趣的是,路江涌(2008)利用 1998- 2005 年的制造业企业数据,发现外资企业对内资企业的溢出效应随地理距离而递减,在本 市内溢出效应为正,在全国范围内为负,并且对国企为负,对民企为正。Du 等(2011)发 现,外资企业对内资企业的溢出效应主要是通过前向或后向产业关联实现的,横向产业关联 没有产生显着的溢出效应;而且,来自港澳台的外资企业和来自外国的外资企业对内资企业 的影响也不相同。Xu 和Sheng(2011)也得到了类似的发现。Sheng 等(2011)还发现,FDI 通过后向产业关联提高了内资企业的出口价值,通过同行业的示范效应提高了内资企业的出 口倾向。Chen 等(2011)发现,外资企业具有明显的工资溢价,并且对内资企业的工资有 抑制作用,从而加剧了企业之间的工资不平等现象。 4、研发 技术创新是企业生产率的重要源泉之一,因此企业的研究开发(R&D)行为也备受关 注。关于 R&D 的文献主要分为两类:第一类是研究 R&D 或者企业创新的决定因素,主要 是检验“熊彼特假说”;第二类是研究企业的 R&D 对绩效的影响。聂辉华等(2008)利用 2001-2005 年的制造业企业数据,分析了发现企业的研发密度(度量创新)与规模、市场 竞争之间均呈倒 U 型关系,而且尽管国有企业的研发密度比民营企业的更高,但是研发的 效率更低。Hu 等(2009)发现FDI 和企业改制对于促进企业研发密度有正面作用。陈林和 朱卫(2011)使用2005-2006 年的工业企业数据,根据国有经济比重区分行政进入壁垒高 的行业和行政进入壁垒低的行业,发现在前一类行业中创新与市场结构之间是倒U 型关系, “熊彼特假说”成立,但是在后一类行业中相反。Chesbrough 和Liang(2007)以制造业中 的半导体行业为例,发现市场导向会影响企业R&D 的投资回报,即全球市场导向的企业比 国内市场导向的企业能够获得更高的 R&D 回报。戴觅和余淼杰(2012)发现,出口前的 R&D 投资能够促进企业在出口后的生产率提高。 5、民营化 中国国有企业改革的主要成效之一,就是大量的国有企业进行了转制,即从百分之百 的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资 本成份变化上。Tong(2009)利用1998-2003 年的工业企业数据,发现市场竞争的加剧、 FDI 集中度的上升以及预算约束的硬化是国企民营化的主要动因,而且绩效相对好的国企更 有可能民营化。Bai 等(2009)研究了国企民营化的影响,发现民营化增加了销售额和劳动 生产率,而这主要是通过减少管理费用来实现的。Dougherty 等(2007)发现,民营化通过 提高企业的赢利能力和生产的地区专业化水平提高了企业的生产率。Lu 等(2010)发现, 集体企业的私有化导致了销售成本的上升,但是也导致了管理费用的下降。 6、公司金融 由于中国工业企业数据库包含了丰富的财务指标,因此很多学者用它研究企业的投资、 融资和避税行为。Cai 和 Liu(2009)提出了一个有趣的问题:竞争是否会加剧公司规避所 得税?他们识别避税程度的方式是,比较企业报告的利润和根据会计规则计算的利润之间的 差额。使用 2000-2005 的工业企业数据,他们发现竞争会加剧企业的避税行为。Cull 等 (2009)认为,中国的银行贷款(loan)和商业信用(trade credit)之间存在一种替代关系, 业绩差的国企会通过商业信用将银行贷款再配置给企业客户,而业绩好的民营企业比业绩差 的民营企业更有可能扩展商业信用。余明桂和潘红波(2010)利用2004-2007 年的工业企 业数据发现,企业(特别是私有企业)会将授予客户的商业信用作为产品市场竞争的手段, 这验证了商业信用的竞争假说。Guariglia 等(2011)发现,民营企业的内部融资(现金流/ 总资产)是企业增长的重要约束条件,而国有企业则不受此类约束。 7、产业集聚 利用企业层面的数据,我们可以得到行业或地区层面的加总数据,这可以反映中国工业 5 本文发表于《世界经济》2012 年第5 期 的产业集聚现象。使用1998-2005 年的制造业企业数据,Lu 和Tao(2009)考察了中国制 造业集聚(用EG 指数衡量)的决定因素,发现地方保护主义(国有企业的雇佣比例)是阻 碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。Li 等(2011) 发现产业集聚对企业规模有显着的正面影响。Lin 等(2011)发现,产业集聚和企业生产率 之间存在一种倒U 型关系。Yang 和He(2011)发现贸易通过信息和分工影 转载仅供参考,版权属于原作者。祝你愉快,满意请采纳哦

❷ 高频数据处理用stata还是eviews

高频数据处理用eviews

Stata 与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把 EViews, SPSS 的傻瓜式菜单和 SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。Stata 不仅在统计方面功能齐全,其在计量分析领域更是有着深刻影响,以至于有人一言以蔽之:“关于学习 Stata 的意义,大家只需知道:目前,Stata 是计量经济学,特别是微观计量经济学的主流软件。”Stata作为一款功能强大、用法简单且易于上手的统计软件,不仅统计分析功能全面,而且在数据管理方面的功能也很强大。Stata 擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色。

Eviews软件适用于相关、回归、多重共线性、异方差、自相关、单位根检验、协整、格兰杰、脉冲、方法分解、VAR、面板数据、门限等领域。Stata除了可以处理上述分析方法之后,还可以处理倾向匹配得分、门限、合成、断点、双重差分、空间计量等领域。若是你想使用后面的分析方法进行研究,那么无疑stata是不二之选。另外在现在微观计量经济学领域,处理大型微观数据库等方便,stata的数据管理功能显得更加完美。

❸ 数据库如何设计

数据库设计的基本步骤

按照规范设计的方法,考虑数据库及其应用系统开发全过程,将数据库设计分为以下6个阶段

1.需求分析

2.概念结构设计

3.逻辑结构设计

4.物理结构设计

5.数据库实施

6.数据库的运行和维护


数据库设计通常分为6个阶段1分析用户的需求,包括数据、功能和性能需求;2概念结构设计:主要采用E-R模型进行设计,包括画E-R图;3逻辑结构设计:通过将转换成表,实现从E-R模型到关系模型的转换;4:主要是为所设计的数据库选择合适的和存取路径;5数据库的实施:包括编程、测试和试运行;6数据库运行与维护:系统的运行与数据库的日常维护。),主要讨论其中的第3个阶段,即逻辑设计。



在数据库设计过程中,需求分析和概念设计可以独立于任何数据库管理系统进行,逻辑设计和物理设计与选用的DAMS密切相关。

1.需求分析阶段(常用自顶向下)

进行数据库设计首先必须准确了解和分析用户需求(包括数据与处理)。需求分析是整个设计过程的基础,也是最困难,最耗时的一步。需求分析是否做得充分和准确,决定了在其上构建数据库大厦的速度与质量。需求分析做的不好,会导致整个数据库设计返工重做。

需求分析的任务,是通过详细调查现实世界要处理的对象,充分了解原系统工作概况,明确用户的各种需求,然后在此基础上确定新的系统功能,新系统还得充分考虑今后可能的扩充与改变,不仅仅能够按当前应用需求来设计。

调查的重点是,数据与处理。达到信息要求,处理要求,安全性和完整性要求。

分析方法常用SA(Structured Analysis) 结构化分析方法,SA方法从最上层的系统组织结构入手,采用自顶向下,逐层分解的方式分析系统。

数据流图表达了数据和处理过程的关系,在SA方法中,处理过程的处理逻辑常常借助判定表或判定树来描述。在处理功能逐步分解的同事,系统中的数据也逐级分解,形成若干层次的数据流图。系统中的数据则借助数据字典(data dictionary,DD)来描述。数据字典是系统中各类数据描述的集合,数据字典通常包括数据项,数据结构,数据流,数据存储,和处理过程5个阶段。

2.概念结构设计阶段(常用自底向上)

概念结构设计是整个数据库设计的关键,它通过对用户需求进行综合,归纳与抽象,形成了一个独立于具体DBMS的概念模型。

设计概念结构通常有四类方法:

  • 自顶向下。即首先定义全局概念结构的框架,再逐步细化。

  • 自底向上。即首先定义各局部应用的概念结构,然后再将他们集成起来,得到全局概念结构。

  • 逐步扩张。首先定义最重要的核心概念结构,然后向外扩张,以滚雪球的方式逐步生成其他的概念结构,直至总体概念结构。

  • 混合策略。即自顶向下和自底向上相结合。

  • 3.逻辑结构设计阶段(E-R图)

    逻辑结构设计是将概念结构转换为某个DBMS所支持的数据模型,并将进行优化。

    在这阶段,E-R图显得异常重要。大家要学会各个实体定义的属性来画出总体的E-R图。

    各分E-R图之间的冲突主要有三类:属性冲突,命名冲突,和结构冲突。

    E-R图向关系模型的转换,要解决的问题是如何将实体性和实体间的联系转换为关系模式,如何确定这些关系模式的属性和码。

    4.物理设计阶段

    物理设计是为逻辑数据结构模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)。

    首先要对运行的事务详细分析,获得选择物理数据库设计所需要的参数,其次,要充分了解所用的RDBMS的内部特征,特别是系统提供的存取方法和存储结构。

    常用的存取方法有三类:1.索引方法,目前主要是B+树索引方法。2.聚簇方法(Clustering)方法。3.是HASH方法。

    5.数据库实施阶段

    数据库实施阶段,设计人员运营DBMS提供的数据库语言(如sql)及其宿主语言,根据逻辑设计和物理设计的结果建立数据库,编制和调试应用程序,组织数据入库,并进行试运行。

    6.数据库运行和维护阶段

    数据库应用系统经过试运行后,即可投入正式运行,在数据库系统运行过程中必须不断地对其进行评价,调整,修改。

    数据库设计5步骤
    Five Steps to design the Database

    1.确定entities及relationships

    a)明确宏观行为。数据库是用来做什么的?比如,管理雇员的信息。

    b)确定entities。对于一系列的行为,确定所管理信息所涉及到的主题范围。这将变成table。比如,雇用员工,指定具体部门,确定技能等级。

    c)确定relationships。分析行为,确定tables之间有何种关系。比如,部门与雇员之间存在一种关系。给这种关系命名。

    d)细化行为。从宏观行为开始,现在仔细检查这些行为,看有哪些行为能转为微观行为。比如,管理雇员的信息可细化为:

    · 增加新员工

    · 修改存在员工信息

    · 删除调走的员工

    e)确定业务规则。分析业务规则,确定你要采取哪种。比如,可能有这样一种规则,一个部门有且只能有一个部门领导。这些规则将被设计到数据库的结构中。

    ====================================================================
    范例:
    ACME是一个小公司,在5个地方都设有办事处。当前,有75名员工。公司准备快速扩大规模,划分了9个部门,每个部门都有其领导。
    为有助于寻求新的员工,人事部门规划了68种技能,为将来人事管理作好准备。员工被招进时,每一种技能的专业等级都被确定。


    定义宏观行为
    一些ACME公司的宏观行为包括:
    ● 招聘员工
    ● 解雇员工
    ● 管理员工个人信息
    ● 管理公司所需的技能信息
    ● 管理哪位员工有哪些技能
    ● 管理部门信息
    ● 管理办事处信息
    确定entities及relationships
    我们可以确定要存放信息的主题领域(表)及其关系,并创建一个基于宏观行为及描述的图表。
    我们用方框来代表table,用菱形代表relationship。我们可以确定哪些relationship是一对多,一对一,及多对多。
    这是一个E-R草图,以后会细化。


    细化宏观行为
    以下微观行为基于上面宏观行为而形成:
    ● 增加或删除一个员工
    ● 增加或删除一个办事处
    ● 列出一个部门中的所有员工
    ● 增加一项技能
    ● 增加一个员工的一项技能
    ● 确定一个员工的技能
    ● 确定一个员工每项技能的等级
    ● 确定所有拥有相同等级的某项技能的员工
    ● 修改员工的技能等级

    这些微观行为可用来确定需要哪些table或relationship。

    确定业务规则
    业务规则常用于确定一对多,一对一,及多对多关系。
    相关的业务规则可能有:
    ● 现在有5个办事处;最多允许扩展到10个。
    ● 员工可以改变部门或办事处
    ● 每个部门有一个部门领导
    ● 每个办事处至多有3个电话号码
    ● 每个电话号码有一个或多个扩展
    ● 员工被招进时,每一种技能的专业等级都被确定。
    ● 每位员工拥有3到20个技能
    ● 某位员工可能被安排在一个办事处,也可能不安排办事处。

    2.确定所需数据

    要确定所需数据:

    a)确定支持数据

    b)列出所要跟踪的所有数据。描述table(主题)的数据回答这些问题:谁,什么,哪里,何时,以及为什么

    c)为每个table建立数据

    d)列出每个table目前看起来合适的可用数据

    e)为每个relationship设置数据

    f)如果有,为每个relationship列出适用的数据

    确定支持数据

    你所确定的支持数据将会成为table中的字段名。比如,下列数据将适用于表Employee,表Skill,表Expert In。

    Employee

  • Skill

  • Expert In

  • ID

  • ID

  • Level

  • Last Name

  • Name

  • Date acquired

  • First Name

  • Description

  • Department

  • Office

  • Address


  • 如果将这些数据画成图表,就像:


  • 需要注意:

  • ● 在确定支持数据时,请一定要参考你之前所确定的宏观行为,以清楚如何利用这些数据。

  • ● 比如,如果你知道你需要所有员工的按姓氏排序的列表,确保你将支持数据分解为名字与姓氏,这比简单地提供一个名字会更好。

  • ● 你所选择的名称最好保持一致性。这将更易于维护数据库,也更易于阅读所输出的报表。

  • ● 比如,如果你在某些地方用了一个缩写名称Emp_status,你就不应该在另外一个地方使用全名(Empolyee_ID)。相反,这些名称应当是Emp_status及Emp_id。

  • ● 数据是否与正确的table相对应无关紧要,你可以根据自己的喜好来定。在下节中,你会通过测试对此作出判断。
  • 3.标准化数据

    标准化是你用以消除数据冗余及确保数据与正确的table或relationship相关联的一系列测试。共有5个测试。本节中,我们将讨论经常使用的3个。
    关于标准化测试的更多信息,请参考有关数据库设计的书籍。

    标准化格式
    标准化格式是标准化数据的常用测试方式。你的数据通过第一遍测试后,就被认为是达到第一标准化格式;通过第二遍测试,达到第二标准化格式;通过第三遍测试,达到第三标准化格式。

    如何标准格式:
    1. 列出数据
    2. 为每个表确定至少一个键。每个表必须有一个主键。
    3. 确定relationships的键。relationships的键是连接两个表的键。
    4. 检查支持数据列表中的计算数据。计算数据通常不保存在数据库中。
    5. 将数据放在第一遍的标准化格式中:
    6. 从tables及relationships除去重复的数据。
    7. 以你所除去数据创建一个或更多的tables及relationships。
    8. 将数据放在第二遍的标准化格式中:
    9. 用多于一个以上的键确定tables及relationships。
    10. 除去只依赖于键一部分的数据。
    11. 以你所除去数据创建一个或更多的tables及relationships。
    12. 将数据放在第三遍的标准化格式中:
    13. 除去那些依赖于tables或relationships中其他数据,并且不是键的数据。
    14. 以你所除去数据创建一个或更多的tables及relationships。

    数据与键
    在你开始标准化(测试数据)前,简单地列出数据,并为每张表确定一个唯一的主键。这个键可以由一个字段或几个字段(连锁键)组成。

    主键是一张表中唯一区分各行的一组字段。Employee表的主键是Employee ID字段。Works In relationship中的主键包括Office Code及Employee ID字段。给数据库中每一relationship给出一个键,从其所连接的每一个table中抽取其键产生。

    RelationShip

  • Key

  • Office

  • *Office code

  • Office address

  • Phone number

  • Works in

  • *Office code

  • *Employee ID

  • Department

  • *Department ID

  • Department name

  • Heads

  • *Department ID

  • *Employee ID

  • Assoc with

  • *Department ID

  • *EmployeeID

  • Skill

  • *Skill ID

  • Skill name

  • Skill description

  • Expert In

  • *Skill ID

  • *Employee ID

  • Skill level

  • Date acquired

  • Employee

  • *Employee ID

  • Last Name

  • First Name

  • Social security number

  • Employee street

  • Employee city

  • Employee state

  • Employee phone

  • Date of birth


  • 将数据放在第一遍的标准化格式中
    ● 除去重复的组
    ● 要测试第一遍标准化格式,除去重复的组,并将它们放进他们各自的一张表中。
    ● 在下面的例子中,Phone Number可以重复。(一个工作人员可以有多于一个的电话号码。)将重复的组除去,创建一个名为Telephone的新表。在Telephone与Office创建一个名为Associated With的relationship。

    将数据放在第二遍的标准化格式中
    ● 除去那些不依赖于整个键的数据。
    ● 只看那些有一个以上键的tables及relationships。要测试第二遍标准化格式,除去那些不依赖于整个键的任何数据(组成键的所有字段)。
    ● 在此例中,原Employee表有一个由两个字段组成的键。一些数据不依赖于整个键;例如,department name只依赖于其中一个键(Department ID)。因此,Department ID,其他Employee数据并不依赖于它,应移至一个名为Department的新表中,并为Employee及Department建立一个名为Assigned To的relationship。


    将数据放在第三遍的标准化格式中
    ● 除去那些不直接依赖于键的数据。
    ● 要测试第三遍标准化格式,除去那些不是直接依赖于键,而是依赖于其他数据的数据。
    ● 在此例中,原Employee表有依赖于其键(Employee ID)的数据。然而,office location及office phone依赖于其他字段,即Office Code。它们不直接依赖于Employee ID键。将这组数据,包括Office Code,移至一个名为Office的新表中,并为Employee及Office建立一个名为Works In的relationship。

    4.考量关系

    当你完成标准化进程后,你的设计已经差不多完成了。你所需要做的,就是考量关系。

    考量带有数据的关系
    你的一些relationship可能集含有数据。这经常发生在多对多的关系中。

    遇到这种情况,将relationship转化为一个table。relationship的键依旧成为table中的键。

    考量没有数据的关系
    要实现没有数据的关系,你需要定义外部键。外部键是含有另外一个表中主键的一个或多个字段。外部键使你能同时连接多表数据。

    有一些基本原则能帮助你决定将这些键放在哪里:

    一对多在一对多关系中,“一”中的主键放在“多”中。此例中,外部键放在Employee表中。

    一对一在一对一关系中,外部键可以放进任一表中。如果必须要放在某一边,而不能放在另一边,应该放在必须的一边。此例中,外部键(Head ID)在Department表中,因为这是必需的。

    多对多在多对多关系中,用两个外部键来创建一个新表。已存的旧表通过这个新表来发生联系。

    5.检验设计

    在你完成设计之前,你需要确保它满足你的需要。检查你在一开始时所定义的行为,确认你可以获取行为所需要的所有数据:
    ● 你能找到一个路径来等到你所需要的所有信息吗?
    ● 设计是否满足了你的需要?
    ● 所有需要的数据都可用吗?
    如果你对以上的问题都回答是,你已经差不多完成设计了。

    最终设计
    最终设计看起来就像这样:

    设计数据库的表属性
    数据库设计需要确定有什么表,每张表有什么字段。此节讨论如何指定各字段的属性。

    对于每一字段,你必须决定字段名,数据类型及大小,是否允许NULL值,以及你是否希望数据库限制字段中所允许的值。

    选择字段名
    字段名可以是字母、数字或符号的任意组合。然而,如果字段名包括了字母、数字或下划线、或并不以字母打头,或者它是个关键字(详见关键字表),那么当使用字段名称时,必须用双引号括起来。

    为字段选择数据类型
    SQL Anywhere支持的数据类型包括:
    整数(int, integer, smallint)
    小数(decimal, numeric)
    浮点数(float, double)
    字符型(char, varchar, long varchar)
    二进制数据类型(binary, long binary)
    日期/时间类型(date, time, timestamp)
    用户自定义类型

    关于数据类型的内容,请参见“SQL Anywhere数据类型”一节。字段的数据类型影响字段的最大尺寸。例如,如果你指定SMALLINT,此字段可以容纳32,767的整数。INTEGER可以容纳2,147,483,647的整数。对CHAR来讲,字段的最大值必须指定。

    长二进制的数据类型可用来在数据库中保存例如图像(如位图)或者文字编辑文档。这些类型的信息通常被称为二进制大型对象,或者BLOBS。

    关于每一数据类型的完整描述,见“SQL Anywhere数据类型”。

❹ 金融论文用哪个数据库比较好 知乎

可以看看你们学校有什么数据库可以免费下载数据。
推荐万德数据库,比较适合找微观数据,还有中经网数据库、国泰安数据库都是很好的经济、金融类数据库。
如果论文内容涉及宏观方面,可以去IMF数据库里下载,这个数据库是免费的,基本上全球宏观数据都有。
望采纳,谢谢!

热点内容
手机配置高玩不了单机游戏怎么办 发布:2025-07-26 15:53:05 浏览:258
手机设置开机手势密码后如何解锁 发布:2025-07-26 15:39:14 浏览:39
迭代优化算法 发布:2025-07-26 15:25:45 浏览:949
东风本田买哪个配置好 发布:2025-07-26 15:10:01 浏览:765
plsql游标 发布:2025-07-26 15:09:51 浏览:128
android转字符串数组 发布:2025-07-26 15:08:05 浏览:269
实时产量编程 发布:2025-07-26 15:03:33 浏览:114
c语言汉诺塔算法 发布:2025-07-26 14:56:13 浏览:937
androidqq空间分享 发布:2025-07-26 14:27:27 浏览:724
为什么招生办公室登录密码错误 发布:2025-07-26 14:27:13 浏览:665