當前位置:首頁 » 操作系統 » 微觀資料庫

微觀資料庫

發布時間: 2023-02-12 16:09:09

❶ 怎麼把工業企業資料庫弄成面板數據

中國工業企業資料庫的使用現狀和潛在問題 聶輝華 江艇 楊汝岱  提要:在經驗研究中,企業級的微觀數據正受到越來越多的重視。中國工業企業數據 庫成為海內外學者研究中國企業行為和績效的主要資料庫之一。但是該資料庫存在樣本匹配 混亂、變數大小異常、測度誤差明顯和變數定義模糊等嚴重問題,忽視這些問題可能會導致 研究結果錯誤。本文介紹了該資料庫的基本情況和使用現狀,指出了該資料庫的若幹缺陷, 並根據現有研究提供了若干改進建議。 關鍵詞:企業數據 工業企業 微觀計量 製造業 生產率 JEL 分類號:C33 D24 L22 L60 一、引言 數據是經驗研究的細胞,因此數據質量的好壞直接決定了經驗研究的活力。最近十多 年來,國際經濟學界越來越重視使用微觀面板數據(longitudinal micro-level data)的研究。 相對於宏觀數據或行業數據,微觀的企業數據或個體數據的優勢是非常明顯的:第一,微觀 面板數據包含了更多信息,例如企業的所有制、規模和出口等狀態,這些信息對於企業行為 研究是必不可少的;第二,微觀面板數據同時包含了時間維度和個體維度,有助於解決計量 經濟學中的個體異質性問題,更容易保證估計的一致性;第三,微觀面板數據增加了觀測值 個數,使得估計更有效率。對於產業組織理論、企業理論、公司金融、國際貿易、收入分配 和勞動供給等研究領域來說,經驗研究的數據主要就是微觀數據。 伴隨微觀計量經濟學的引入和國內外微觀資料庫的開放,中國經濟學者越來越重視微 觀數據的開發和使用,並生產了很多基於微觀數據的研究成果。一些中國資料庫甚至被全世 界各國學者使用,這一方面表明中國問題越來越受到國際經濟學界的重視,另一方面也表明 中國數據的質量得到了越來越多的認可。特別是,相當多海內外學者使用了「中國工業企業 資料庫」(Chinese instrial enterprises database) ① ,其研究成果廣泛發表在包括《American Economic Review》(如Song等,2011)、《Quarterly Journal of Economics》(如Hsieh和Klenow, 2009)和《經濟研究》等國際和國內著名學術期刊上。作為一個由中國國家統計局收集的 資料庫,它的優點是樣本大、指標多、時間長。但是,它畢竟不是一個由學術機構發布的數 據庫,因此在很多方面還不太符合學術研究的嚴格要求,其缺陷包括樣本匹配混亂、指標存 在缺失、指標大小異常、測度誤差明顯和變數定義模糊等嚴重問題。我們認為,如果研究者 沒有察覺到這些數據缺陷,並且採取有效的方法緩解或消除這些缺陷,那麼就會對經驗研究 的結果產生負面影響,甚至會導致錯誤的結果。而錯誤的結果對於理論研究和經驗研究來說, 不僅浪費了時間和精力,而且可能會產生誤導作用。鑒於此,我們認為有必要詳細地、嚴謹 地討論中國工業企業資料庫的基本情況、使用現狀,指出其存在的問題,並盡可能提供解決 問題的建議。我們希望,本文的分析不僅有助於潛在使用者了解該資料庫的研究現狀和未來  聶輝華,中國人民大學經濟學院,人大企業與組織研究中心,北京市 100872;email: [email protected]。 江艇,中國人民大學經濟學院,人大企業與組織研究中心,[email protected];楊汝岱,湘潭大學消費 研究院,[email protected]。作者感謝何帆對寫作本文提供的建議,感謝屠順傑提供的助研工作,同時 感謝兩位匿名審稿人提供的有益建議。本文的研究得到姚洋主持的國家社科基金重大項目「我國中長期經 濟增長與結構變動趨勢研究(09&ZD020)」和聶輝華、楊汝岱分別主持的教育部新世紀優秀人才項目的資 助,特此鳴謝。文責自負。 ① 一些英文文章將該資料庫名稱翻譯為「China Annual Survey of Instrial Firms」或「China Annual Survey of Manufacturing Firms」。 1 本文發表於《世界經濟》2012 年第5 期 方向,而且有助於他們更准確地使用該資料庫,從而推進相關領域的研究。當然,作為該數 據庫的使用者之一,我們並不能保證我們全面地熟悉了該資料庫,並且我們對問題的分析不 可避免地包含了一定的研究傾向。 二、資料庫基本信息 我們首先簡單地描述資料庫的基本情況。中國工業企業資料庫由國家統計局建立,它 的數據主要來自於樣本企業提交給當地統計局的季報和年報匯總。該資料庫的全稱為「全部 國有及規模以上非國有工業企業資料庫」,其樣本范圍為全部國有工業企業以及規模以上非 國有工業企業,其統計單位為企業法人。這里的「工業」統計口徑包括「國民經濟行業分類」 中的「採掘業」、「製造業」以及「電力、燃氣及水的生產和供應業」三個門類,主要是製造 業(占 90%以上)。這里的「規模以上」要求企業每年的主營業務收入(即銷售額)在 500 萬元及其以上,2011 年該標准改為2000 萬元及其以上。基於上述統計口徑的資料庫自1998 年開始採集,但多數學者使用的工業企業資料庫涉及的年份在1999-2007 年之間。由於該 資料庫的主要成份為製造業企業,在統計口徑上與其它國家的產業分類比較一致,而且一些 變數(例如資本、研發投入和出口交貨值)更容易度量,因此使用者通常析出該資料庫中的 製造業企業。製造業的統計口徑包括從農副食品加工業、食品製造業到工藝品及其它製造業、 廢棄資源和廢舊材料回收加工業等30 個大類(二位數行業),對應於國民經濟行業分類與代 碼(GB/T4754—2002)中的代碼 13-43(沒有 38)。為了保持企業樣本的完整性,同時與 現有研究具有可比性,我們以1999-2007 年全部國有及規模以上非國有工業企業作為我們 分析該資料庫的主要樣本。 1999-2007 年中國工業企業資料庫包括了 200 多萬個觀測值,每年的樣本企業數量從 1999 年的大約16 萬家逐年遞增到2007 年的大約33 萬家。 ① 在9 年樣本期內,總共有大約 55 萬家企業出現,包括上市公司。顯然,這是一個巨大的非平衡面板數據。由於企業關閉、 改制、重組等各種原因,只有4 萬6 千多家企業(約占樣本企業總數的8%)連續出現在整 個樣本期間。該資料庫樣本占據了中國工業企業的絕大部分比例。根據具有可比性的 2004 年第一次全國經濟普查年報,當年工業企業銷售額為218442.81 億元。而中國工業企業數據 庫當年全部樣本企業的銷售額為195600 億元,約佔全國的89.5%。 ② 目前,除了經濟普查 資料庫,中國工業企業資料庫是可獲得的最大的企業級資料庫。表1 描述了1999-2007 年 企業總數和國有、集體、民營、外資企業(含港澳台企業)的份額變化。可以看出,國有和 集體企業的比例在顯著減少,從1999 年的三分之二下降到2007 年的不足十分之一,而民營 企業的比例從不足 20%迅速增加到超過 70%。該表從一個側面反映了中國市場經濟結構的 劇烈變動。 表1 中國工業企業的類型、數目和比例 年份 國有 比例% 集體 比例% 民營 比例% 外資 比例% 總數 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 學者們使用的該資料庫可能有幾個不同的來源,但是內容相差很小。 ② 經濟普查的工業企業銷售額來自國家統計局網站《第一次全國經濟普查主要數據公報(第二號)》,工業 企業資料庫中的工業企業銷售額來自作者計算。 2 本文發表於《世界經濟》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 來源:作者根據資料庫計算 事實上,工業企業資料庫也是最全面的企業資料庫。該資料庫包括企業的兩類信息, 一類是企業的基本情況,另一類是企業的財務數據。企業的基本情況包括:法人代碼、企業 名稱、法人代表、聯系電話、郵政編碼、具體地址、所屬行業、注冊類型(所有制)、隸屬 關系、開業年份和職工人數等指標。企業的財務數據包括:流動資產、應收賬款、長期投資、 固定資產、累計折舊、無形資產、流動負債、長期負債、實收資本、主營業務收入、主營業 務成本、營業費用、管理費用、財務費用、營業利潤、利稅總額、廣告費、研究開發費、工 資總額、福利費總額、增值稅、工業中間投入、工業總產值和出口交貨值等指標。全部指標 大約為 130 個。特別是,2004 年為第一次全國經濟普查年,因此在資料庫中當年的企業指 標還包括了不同學歷(研究生、本科、大專、中專、高中、初中及以下)、不同職稱(技術 職稱和技師等)的男職工和女職工的相應數量,此外還包括了企業是否加入工會以及加入工 會的人數等其它年份所沒有的信息。 毋庸置疑,工業企業資料庫的優勢非常顯著。第一,它的樣本量非常大,涵蓋了全國 所有的國有工業企業和規模以上的非國有工業企業。9 年的觀測值總數超過200 萬個。2006 年之後,每年的樣本企業數目已經超過了30 萬個。除了普查資料庫,還沒有哪個企業數據 庫在樣本量上能與之匹敵。從統計學或計量經濟學的角度講,大樣本的優勢是降低估計的近 似偏誤,提高估計的效率。第二,它的指標非常多,包括了企業的基本情況和企業的財務數 據,能夠從多個角度比較全面地反映企業的市場進入、投資、借貸、廣告、研發、出口等行 為和企業的短期與長期經營績效,並且企業加總數據能夠反映出企業所處行業或地區的市場 結構。從產業組織理論的角度講,一旦可以獲得市場結構、企業行為和績效的數據,學者們 幾乎就可以進行任何主題的研究!公司金融、企業理論、國際貿易和產業集聚等相關領域的 研究者們也可以對該資料庫各取所需,包括進行跨專業研究。如果將該資料庫和其它資料庫 合並,那麼學者們將會發現更加豐富的研究視角。指標越多,在構建計量方程時解釋變數和 控制變數就越多,這樣可以減少遺漏變數問題。第三,它的時間序列比較長。工業企業數據 庫最早的建立年份是1998 年,目前已經更新到了2008 年,前後跨期11 年。這使得研究者 採用動態面板方法具有可行性,從而有助於反映歷史因素的作用,以及從動態的角度研究企 業和產業的演化過程。 相對而言,目前流行的其它幾個企業資料庫,例如萬得金融資料庫、色諾芬經濟金融 資料庫、國泰安上市公司資料庫,樣本企業都是上市公司,它們的指標更全面、准確,提供 指標的頻率也更高。比如,這些上市公司資料庫通常包括了主要股東持股情況、董事會成員 和高管的個人特徵以及職位變動,從而可以研究公司治理結構。另外,上市公司資料庫不僅 包含工業類上市公司,還包含了金融類和服務類上市公司,這也是工業企業資料庫所缺乏的。 此外,一些特定的調查項目也催生了企業資料庫。例如,2006 年世界銀行和國家統計局對 中國12 省的1200 多家企業進行了調查,內容涉及企業社會責任、內部管理、質量管理、勞 動管理、環境管理、市場競爭以及技術改造等方面。從1991 年到2006 年,中央統戰部和全 國工商聯陸續對全國民營企業的經營情況進行了抽樣調查,內容涉及企業基本情況、管理體 制、企業家背景以及勞資關系等方面。 ① ① 關於其它企業資料庫,感興趣的讀者可以訪問香港中文大學中國研究服務中心的網站。 3 本文發表於《世界經濟》2012 年第5 期 三、資料庫使用現狀 由於工業企業資料庫的獨特優勢,近幾年來每年都有大量的海內外經濟學者使用該數 據庫撰寫和發表論文,主題涵蓋產業組織理論、企業理論、公司金融、轉型經濟學、國際貿 易、勞動經濟學和區域經濟學等學科。下面,我們簡要介紹工業企業資料庫在上述經濟學分 支中的使用現狀。一方面,我們希望這有助於感興趣的研究人員了解人們在不同領域已經用 該資料庫做了什麼,還可以做什麼;另一方面,我們希望這有助於感興趣者了解現有研究者 是如何做這些研究的。當然,囿於篇幅和精力,我們不可能囊括所有使用該資料庫的文獻, 而是將目光聚焦於國內外的主要學術期刊或者流傳較廣的英文文章。 1、生產率 在所有使用該資料庫的相關研究文獻中,企業生產率是最受關注的主題。因為生產率 是最重要的效率度量,正如克魯格曼(Krugman,1997)所言:「生產率不是一切,但是長 期來看生產率近似於一切。」而且,對於計算企業生產率而言,工業企業資料庫提供了加總 數據所不具有的獨特優勢。利用工業企業資料庫中提供的銷售額或經濟增加值(表示Y)、 固定資產(表示K)和職工人數(表示L),採取相應的價格指數進行平減,可以計算出每個 企業的勞動生產率和全要素生產率(total factors proctivity,簡稱TFP)。鑒於勞動生產率 不能反映資本的效率,因此多數文獻以TFP作為生產率的度量。又因為製造業口徑與國際產 業分類更具可比性,所以現有文獻在計算TFP時幾乎都以製造業企業為樣本。在計算TFP時, 一些學者採取了傳統的索洛殘差法(Solow resial),例如謝千里等(2008)、Hsieh和Klenow (2009);一些學者採取了主流的OP方法(Olley和Pakes,1996),例如張傑等(2009)、余 淼傑(2010)、聶輝華和賈瑞雪(2011)、楊汝岱和熊瑞祥(2011)、Brandt等(2012);一些 學者採取了LP方法(Levinsohn和Petrin,2003),例如周黎安等(2007);一些學者採取了隨 機邊界方法(SFA),例如劉小玄和李雙傑(2008)。 ① 2、國際貿易 與生產率研究密切相關的是國際貿易,更具體地說,是考察企業出口與生產率的關系。 根據著名的企業異質性假說(Melitz,2003),生產率高的企業會傾向於選擇出口,即生產 率和出口是正相關的。工業企業資料庫包含了企業出口交貨值,但無法區分一般貿易和加工 貿易企業。利用工業企業資料庫,一些學者檢驗了這一假說對於中國企業是否成立。張傑等 (2009)利用1999-2003 年的製造業企業數據發現,出口有利於企業提高TFP,即存在出 口的「學習效應」。而李春頂(2010)利用1998-2007 年的樣本發現,出口企業的平均TFP 或勞動生產率低於內銷企業,他認為這是「生產率悖論」。此外,趙偉等(2011)發現勞動 生產率與出口選擇是負相關的,但 TFP 有時與出口選擇是正相關的。這似乎表明,利用該 資料庫文獻研究還沒有明確地支持企業異質性假說,但 Lu(2010)對此提供了一個理論解 釋。還有一些學者利用工業企業資料庫做了相關的研究。例如,余淼傑(2010)發現,貿易 自由化(降低關稅)會提高出口企業的TFP;包群等(2011)發現,製造業企業出口後對其 員工收入的改善並不明顯;楊汝岱和鄭辛迎(2011)發現行業的垂直專業化程度對企業員工 工資有差異化影響。 3、外商直接投資 中國加入 WTO 已經十周年了,外商直接投資(FDI)究竟在中國的經濟發展中扮演了 什麼樣的角色?亓朋等(2008)利用1998-2001 年的製造業企業數據,考察了外資企業對 內資企業 TFP 的溢出效應,發現在行業內溢出效應不顯著,行業間和地區間均存在正的溢 出效應。羅雨澤等(2008)使用2000 年和2002 年的製造業企業數據,發現外商投資企業對 ① 聶輝華和賈瑞雪(2011)比較了計算TFP 的幾種方法的優劣。 4 本文發表於《世界經濟》2012 年第5 期 本行業和本地區的內資企業有顯著正的溢出效應。有趣的是,路江涌(2008)利用 1998- 2005 年的製造業企業數據,發現外資企業對內資企業的溢出效應隨地理距離而遞減,在本 市內溢出效應為正,在全國范圍內為負,並且對國企為負,對民企為正。Du 等(2011)發 現,外資企業對內資企業的溢出效應主要是通過前向或後向產業關聯實現的,橫向產業關聯 沒有產生顯著的溢出效應;而且,來自港澳台的外資企業和來自外國的外資企業對內資企業 的影響也不相同。Xu 和Sheng(2011)也得到了類似的發現。Sheng 等(2011)還發現,FDI 通過後向產業關聯提高了內資企業的出口價值,通過同行業的示範效應提高了內資企業的出 口傾向。Chen 等(2011)發現,外資企業具有明顯的工資溢價,並且對內資企業的工資有 抑製作用,從而加劇了企業之間的工資不平等現象。 4、研發 技術創新是企業生產率的重要源泉之一,因此企業的研究開發(R&D)行為也備受關 注。關於 R&D 的文獻主要分為兩類:第一類是研究 R&D 或者企業創新的決定因素,主要 是檢驗「熊彼特假說」;第二類是研究企業的 R&D 對績效的影響。聶輝華等(2008)利用 2001-2005 年的製造業企業數據,分析了發現企業的研發密度(度量創新)與規模、市場 競爭之間均呈倒 U 型關系,而且盡管國有企業的研發密度比民營企業的更高,但是研發的 效率更低。Hu 等(2009)發現FDI 和企業改制對於促進企業研發密度有正面作用。陳林和 朱衛(2011)使用2005-2006 年的工業企業數據,根據國有經濟比重區分行政進入壁壘高 的行業和行政進入壁壘低的行業,發現在前一類行業中創新與市場結構之間是倒U 型關系, 「熊彼特假說」成立,但是在後一類行業中相反。Chesbrough 和Liang(2007)以製造業中 的半導體行業為例,發現市場導向會影響企業R&D 的投資回報,即全球市場導向的企業比 國內市場導向的企業能夠獲得更高的 R&D 回報。戴覓和余淼傑(2012)發現,出口前的 R&D 投資能夠促進企業在出口後的生產率提高。 5、民營化 中國國有企業改革的主要成效之一,就是大量的國有企業進行了轉制,即從百分之百 的國有企業變成了國有控股企業或者民營企業。這一點明顯地反映在國有工業企業的實收資 本成份變化上。Tong(2009)利用1998-2003 年的工業企業數據,發現市場競爭的加劇、 FDI 集中度的上升以及預算約束的硬化是國企民營化的主要動因,而且績效相對好的國企更 有可能民營化。Bai 等(2009)研究了國企民營化的影響,發現民營化增加了銷售額和勞動 生產率,而這主要是通過減少管理費用來實現的。Dougherty 等(2007)發現,民營化通過 提高企業的贏利能力和生產的地區專業化水平提高了企業的生產率。Lu 等(2010)發現, 集體企業的私有化導致了銷售成本的上升,但是也導致了管理費用的下降。 6、公司金融 由於中國工業企業資料庫包含了豐富的財務指標,因此很多學者用它研究企業的投資、 融資和避稅行為。Cai 和 Liu(2009)提出了一個有趣的問題:競爭是否會加劇公司規避所 得稅?他們識別避稅程度的方式是,比較企業報告的利潤和根據會計規則計算的利潤之間的 差額。使用 2000-2005 的工業企業數據,他們發現競爭會加劇企業的避稅行為。Cull 等 (2009)認為,中國的銀行貸款(loan)和商業信用(trade credit)之間存在一種替代關系, 業績差的國企會通過商業信用將銀行貸款再配置給企業客戶,而業績好的民營企業比業績差 的民營企業更有可能擴展商業信用。餘明桂和潘紅波(2010)利用2004-2007 年的工業企 業數據發現,企業(特別是私有企業)會將授予客戶的商業信用作為產品市場競爭的手段, 這驗證了商業信用的競爭假說。Guariglia 等(2011)發現,民營企業的內部融資(現金流/ 總資產)是企業增長的重要約束條件,而國有企業則不受此類約束。 7、產業集聚 利用企業層面的數據,我們可以得到行業或地區層面的加總數據,這可以反映中國工業 5 本文發表於《世界經濟》2012 年第5 期 的產業集聚現象。使用1998-2005 年的製造業企業數據,Lu 和Tao(2009)考察了中國制 造業集聚(用EG 指數衡量)的決定因素,發現地方保護主義(國有企業的僱傭比例)是阻 礙產業地區集聚的主要因素。另外一些學者考察了產業集聚對企業的影響。Li 等(2011) 發現產業集聚對企業規模有顯著的正面影響。Lin 等(2011)發現,產業集聚和企業生產率 之間存在一種倒U 型關系。Yang 和He(2011)發現貿易通過信息和分工影 轉載僅供參考,版權屬於原作者。祝你愉快,滿意請採納哦

❷ 高頻數據處理用stata還是eviews

高頻數據處理用eviews

Stata 與 SPSS、SAS 並稱為當今三大統計軟體。與後者相比,Stata 體積小巧、簡單易懂且功能強大。Stata 把 EViews, SPSS 的傻瓜式菜單和 SAS 的命令、編程完美結合起來,所以它一推出就受到了初學者和高級用戶的普遍歡迎。Stata 不僅在統計方面功能齊全,其在計量分析領域更是有著深刻影響,以至於有人一言以蔽之:「關於學習 Stata 的意義,大家只需知道:目前,Stata 是計量經濟學,特別是微觀計量經濟學的主流軟體。」Stata作為一款功能強大、用法簡單且易於上手的統計軟體,不僅統計分析功能全面,而且在數據管理方面的功能也很強大。Stata 擅長數據處理、面板數據分析、時間序列分析、生存分析,以及調查數據分析,但其它方面的功能也並不遜色。

Eviews軟體適用於相關、回歸、多重共線性、異方差、自相關、單位根檢驗、協整、格蘭傑、脈沖、方法分解、VAR、面板數據、門限等領域。Stata除了可以處理上述分析方法之後,還可以處理傾向匹配得分、門限、合成、斷點、雙重差分、空間計量等領域。若是你想使用後面的分析方法進行研究,那麼無疑stata是不二之選。另外在現在微觀計量經濟學領域,處理大型微觀資料庫等方便,stata的數據管理功能顯得更加完美。

❸ 資料庫如何設計

資料庫設計的基本步驟

按照規范設計的方法,考慮資料庫及其應用系統開發全過程,將資料庫設計分為以下6個階段

1.需求分析

2.概念結構設計

3.邏輯結構設計

4.物理結構設計

5.資料庫實施

6.資料庫的運行和維護


資料庫設計通常分為6個階段1分析用戶的需求,包括數據、功能和性能需求;2概念結構設計:主要採用E-R模型進行設計,包括畫E-R圖;3邏輯結構設計:通過將轉換成表,實現從E-R模型到關系模型的轉換;4:主要是為所設計的資料庫選擇合適的和存取路徑;5資料庫的實施:包括編程、測試和試運行;6資料庫運行與維護:系統的運行與資料庫的日常維護。),主要討論其中的第3個階段,即邏輯設計。



在資料庫設計過程中,需求分析和概念設計可以獨立於任何資料庫管理系統進行,邏輯設計和物理設計與選用的DAMS密切相關。

1.需求分析階段(常用自頂向下)

進行資料庫設計首先必須准確了解和分析用戶需求(包括數據與處理)。需求分析是整個設計過程的基礎,也是最困難,最耗時的一步。需求分析是否做得充分和准確,決定了在其上構建資料庫大廈的速度與質量。需求分析做的不好,會導致整個資料庫設計返工重做。

需求分析的任務,是通過詳細調查現實世界要處理的對象,充分了解原系統工作概況,明確用戶的各種需求,然後在此基礎上確定新的系統功能,新系統還得充分考慮今後可能的擴充與改變,不僅僅能夠按當前應用需求來設計。

調查的重點是,數據與處理。達到信息要求,處理要求,安全性和完整性要求。

分析方法常用SA(Structured Analysis) 結構化分析方法,SA方法從最上層的系統組織結構入手,採用自頂向下,逐層分解的方式分析系統。

數據流圖表達了數據和處理過程的關系,在SA方法中,處理過程的處理邏輯常常藉助判定表或判定樹來描述。在處理功能逐步分解的同事,系統中的數據也逐級分解,形成若干層次的數據流圖。系統中的數據則藉助數據字典(data dictionary,DD)來描述。數據字典是系統中各類數據描述的集合,數據字典通常包括數據項,數據結構,數據流,數據存儲,和處理過程5個階段。

2.概念結構設計階段(常用自底向上)

概念結構設計是整個資料庫設計的關鍵,它通過對用戶需求進行綜合,歸納與抽象,形成了一個獨立於具體DBMS的概念模型。

設計概念結構通常有四類方法:

  • 自頂向下。即首先定義全局概念結構的框架,再逐步細化。

  • 自底向上。即首先定義各局部應用的概念結構,然後再將他們集成起來,得到全局概念結構。

  • 逐步擴張。首先定義最重要的核心概念結構,然後向外擴張,以滾雪球的方式逐步生成其他的概念結構,直至總體概念結構。

  • 混合策略。即自頂向下和自底向上相結合。

  • 3.邏輯結構設計階段(E-R圖)

    邏輯結構設計是將概念結構轉換為某個DBMS所支持的數據模型,並將進行優化。

    在這階段,E-R圖顯得異常重要。大家要學會各個實體定義的屬性來畫出總體的E-R圖。

    各分E-R圖之間的沖突主要有三類:屬性沖突,命名沖突,和結構沖突。

    E-R圖向關系模型的轉換,要解決的問題是如何將實體性和實體間的聯系轉換為關系模式,如何確定這些關系模式的屬性和碼。

    4.物理設計階段

    物理設計是為邏輯數據結構模型選取一個最適合應用環境的物理結構(包括存儲結構和存取方法)。

    首先要對運行的事務詳細分析,獲得選擇物理資料庫設計所需要的參數,其次,要充分了解所用的RDBMS的內部特徵,特別是系統提供的存取方法和存儲結構。

    常用的存取方法有三類:1.索引方法,目前主要是B+樹索引方法。2.聚簇方法(Clustering)方法。3.是HASH方法。

    5.資料庫實施階段

    資料庫實施階段,設計人員運營DBMS提供的資料庫語言(如sql)及其宿主語言,根據邏輯設計和物理設計的結果建立資料庫,編制和調試應用程序,組織數據入庫,並進行試運行。

    6.資料庫運行和維護階段

    資料庫應用系統經過試運行後,即可投入正式運行,在資料庫系統運行過程中必須不斷地對其進行評價,調整,修改。

    資料庫設計5步驟
    Five Steps to design the Database

    1.確定entities及relationships

    a)明確宏觀行為。資料庫是用來做什麼的?比如,管理雇員的信息。

    b)確定entities。對於一系列的行為,確定所管理信息所涉及到的主題范圍。這將變成table。比如,僱用員工,指定具體部門,確定技能等級。

    c)確定relationships。分析行為,確定tables之間有何種關系。比如,部門與雇員之間存在一種關系。給這種關系命名。

    d)細化行為。從宏觀行為開始,現在仔細檢查這些行為,看有哪些行為能轉為微觀行為。比如,管理雇員的信息可細化為:

    · 增加新員工

    · 修改存在員工信息

    · 刪除調走的員工

    e)確定業務規則。分析業務規則,確定你要採取哪種。比如,可能有這樣一種規則,一個部門有且只能有一個部門領導。這些規則將被設計到資料庫的結構中。

    ====================================================================
    範例:
    ACME是一個小公司,在5個地方都設有辦事處。當前,有75名員工。公司准備快速擴大規模,劃分了9個部門,每個部門都有其領導。
    為有助於尋求新的員工,人事部門規劃了68種技能,為將來人事管理作好准備。員工被招進時,每一種技能的專業等級都被確定。


    定義宏觀行為
    一些ACME公司的宏觀行為包括:
    ● 招聘員工
    ● 解僱員工
    ● 管理員工個人信息
    ● 管理公司所需的技能信息
    ● 管理哪位員工有哪些技能
    ● 管理部門信息
    ● 管理辦事處信息
    確定entities及relationships
    我們可以確定要存放信息的主題領域(表)及其關系,並創建一個基於宏觀行為及描述的圖表。
    我們用方框來代表table,用菱形代表relationship。我們可以確定哪些relationship是一對多,一對一,及多對多。
    這是一個E-R草圖,以後會細化。


    細化宏觀行為
    以下微觀行為基於上面宏觀行為而形成:
    ● 增加或刪除一個員工
    ● 增加或刪除一個辦事處
    ● 列出一個部門中的所有員工
    ● 增加一項技能
    ● 增加一個員工的一項技能
    ● 確定一個員工的技能
    ● 確定一個員工每項技能的等級
    ● 確定所有擁有相同等級的某項技能的員工
    ● 修改員工的技能等級

    這些微觀行為可用來確定需要哪些table或relationship。

    確定業務規則
    業務規則常用於確定一對多,一對一,及多對多關系。
    相關的業務規則可能有:
    ● 現在有5個辦事處;最多允許擴展到10個。
    ● 員工可以改變部門或辦事處
    ● 每個部門有一個部門領導
    ● 每個辦事處至多有3個電話號碼
    ● 每個電話號碼有一個或多個擴展
    ● 員工被招進時,每一種技能的專業等級都被確定。
    ● 每位員工擁有3到20個技能
    ● 某位員工可能被安排在一個辦事處,也可能不安排辦事處。

    2.確定所需數據

    要確定所需數據:

    a)確定支持數據

    b)列出所要跟蹤的所有數據。描述table(主題)的數據回答這些問題:誰,什麼,哪裡,何時,以及為什麼

    c)為每個table建立數據

    d)列出每個table目前看起來合適的可用數據

    e)為每個relationship設置數據

    f)如果有,為每個relationship列出適用的數據

    確定支持數據

    你所確定的支持數據將會成為table中的欄位名。比如,下列數據將適用於表Employee,表Skill,表Expert In。

    Employee

  • Skill

  • Expert In

  • ID

  • ID

  • Level

  • Last Name

  • Name

  • Date acquired

  • First Name

  • Description

  • Department

  • Office

  • Address


  • 如果將這些數據畫成圖表,就像:


  • 需要注意:

  • ● 在確定支持數據時,請一定要參考你之前所確定的宏觀行為,以清楚如何利用這些數據。

  • ● 比如,如果你知道你需要所有員工的按姓氏排序的列表,確保你將支持數據分解為名字與姓氏,這比簡單地提供一個名字會更好。

  • ● 你所選擇的名稱最好保持一致性。這將更易於維護資料庫,也更易於閱讀所輸出的報表。

  • ● 比如,如果你在某些地方用了一個縮寫名稱Emp_status,你就不應該在另外一個地方使用全名(Empolyee_ID)。相反,這些名稱應當是Emp_status及Emp_id。

  • ● 數據是否與正確的table相對應無關緊要,你可以根據自己的喜好來定。在下節中,你會通過測試對此作出判斷。
  • 3.標准化數據

    標准化是你用以消除數據冗餘及確保數據與正確的table或relationship相關聯的一系列測試。共有5個測試。本節中,我們將討論經常使用的3個。
    關於標准化測試的更多信息,請參考有關資料庫設計的書籍。

    標准化格式
    標准化格式是標准化數據的常用測試方式。你的數據通過第一遍測試後,就被認為是達到第一標准化格式;通過第二遍測試,達到第二標准化格式;通過第三遍測試,達到第三標准化格式。

    如何標准格式:
    1. 列出數據
    2. 為每個表確定至少一個鍵。每個表必須有一個主鍵。
    3. 確定relationships的鍵。relationships的鍵是連接兩個表的鍵。
    4. 檢查支持數據列表中的計算數據。計算數據通常不保存在資料庫中。
    5. 將數據放在第一遍的標准化格式中:
    6. 從tables及relationships除去重復的數據。
    7. 以你所除去數據創建一個或更多的tables及relationships。
    8. 將數據放在第二遍的標准化格式中:
    9. 用多於一個以上的鍵確定tables及relationships。
    10. 除去只依賴於鍵一部分的數據。
    11. 以你所除去數據創建一個或更多的tables及relationships。
    12. 將數據放在第三遍的標准化格式中:
    13. 除去那些依賴於tables或relationships中其他數據,並且不是鍵的數據。
    14. 以你所除去數據創建一個或更多的tables及relationships。

    數據與鍵
    在你開始標准化(測試數據)前,簡單地列出數據,並為每張表確定一個唯一的主鍵。這個鍵可以由一個欄位或幾個欄位(連鎖鍵)組成。

    主鍵是一張表中唯一區分各行的一組欄位。Employee表的主鍵是Employee ID欄位。Works In relationship中的主鍵包括Office Code及Employee ID欄位。給資料庫中每一relationship給出一個鍵,從其所連接的每一個table中抽取其鍵產生。

    RelationShip

  • Key

  • Office

  • *Office code

  • Office address

  • Phone number

  • Works in

  • *Office code

  • *Employee ID

  • Department

  • *Department ID

  • Department name

  • Heads

  • *Department ID

  • *Employee ID

  • Assoc with

  • *Department ID

  • *EmployeeID

  • Skill

  • *Skill ID

  • Skill name

  • Skill description

  • Expert In

  • *Skill ID

  • *Employee ID

  • Skill level

  • Date acquired

  • Employee

  • *Employee ID

  • Last Name

  • First Name

  • Social security number

  • Employee street

  • Employee city

  • Employee state

  • Employee phone

  • Date of birth


  • 將數據放在第一遍的標准化格式中
    ● 除去重復的組
    ● 要測試第一遍標准化格式,除去重復的組,並將它們放進他們各自的一張表中。
    ● 在下面的例子中,Phone Number可以重復。(一個工作人員可以有多於一個的電話號碼。)將重復的組除去,創建一個名為Telephone的新表。在Telephone與Office創建一個名為Associated With的relationship。

    將數據放在第二遍的標准化格式中
    ● 除去那些不依賴於整個鍵的數據。
    ● 只看那些有一個以上鍵的tables及relationships。要測試第二遍標准化格式,除去那些不依賴於整個鍵的任何數據(組成鍵的所有欄位)。
    ● 在此例中,原Employee表有一個由兩個欄位組成的鍵。一些數據不依賴於整個鍵;例如,department name只依賴於其中一個鍵(Department ID)。因此,Department ID,其他Employee數據並不依賴於它,應移至一個名為Department的新表中,並為Employee及Department建立一個名為Assigned To的relationship。


    將數據放在第三遍的標准化格式中
    ● 除去那些不直接依賴於鍵的數據。
    ● 要測試第三遍標准化格式,除去那些不是直接依賴於鍵,而是依賴於其他數據的數據。
    ● 在此例中,原Employee表有依賴於其鍵(Employee ID)的數據。然而,office location及office phone依賴於其他欄位,即Office Code。它們不直接依賴於Employee ID鍵。將這組數據,包括Office Code,移至一個名為Office的新表中,並為Employee及Office建立一個名為Works In的relationship。

    4.考量關系

    當你完成標准化進程後,你的設計已經差不多完成了。你所需要做的,就是考量關系。

    考量帶有數據的關系
    你的一些relationship可能集含有數據。這經常發生在多對多的關系中。

    遇到這種情況,將relationship轉化為一個table。relationship的鍵依舊成為table中的鍵。

    考量沒有數據的關系
    要實現沒有數據的關系,你需要定義外部鍵。外部鍵是含有另外一個表中主鍵的一個或多個欄位。外部鍵使你能同時連接多表數據。

    有一些基本原則能幫助你決定將這些鍵放在哪裡:

    一對多在一對多關系中,「一」中的主鍵放在「多」中。此例中,外部鍵放在Employee表中。

    一對一在一對一關系中,外部鍵可以放進任一表中。如果必須要放在某一邊,而不能放在另一邊,應該放在必須的一邊。此例中,外部鍵(Head ID)在Department表中,因為這是必需的。

    多對多在多對多關系中,用兩個外部鍵來創建一個新表。已存的舊表通過這個新表來發生聯系。

    5.檢驗設計

    在你完成設計之前,你需要確保它滿足你的需要。檢查你在一開始時所定義的行為,確認你可以獲取行為所需要的所有數據:
    ● 你能找到一個路徑來等到你所需要的所有信息嗎?
    ● 設計是否滿足了你的需要?
    ● 所有需要的數據都可用嗎?
    如果你對以上的問題都回答是,你已經差不多完成設計了。

    最終設計
    最終設計看起來就像這樣:

    設計資料庫的表屬性
    資料庫設計需要確定有什麼表,每張表有什麼欄位。此節討論如何指定各欄位的屬性。

    對於每一欄位,你必須決定欄位名,數據類型及大小,是否允許NULL值,以及你是否希望資料庫限制欄位中所允許的值。

    選擇欄位名
    欄位名可以是字母、數字或符號的任意組合。然而,如果欄位名包括了字母、數字或下劃線、或並不以字母打頭,或者它是個關鍵字(詳見關鍵字表),那麼當使用欄位名稱時,必須用雙引號括起來。

    為欄位選擇數據類型
    SQL Anywhere支持的數據類型包括:
    整數(int, integer, smallint)
    小數(decimal, numeric)
    浮點數(float, double)
    字元型(char, varchar, long varchar)
    二進制數據類型(binary, long binary)
    日期/時間類型(date, time, timestamp)
    用戶自定義類型

    關於數據類型的內容,請參見「SQL Anywhere數據類型」一節。欄位的數據類型影響欄位的最大尺寸。例如,如果你指定SMALLINT,此欄位可以容納32,767的整數。INTEGER可以容納2,147,483,647的整數。對CHAR來講,欄位的最大值必須指定。

    長二進制的數據類型可用來在資料庫中保存例如圖像(如點陣圖)或者文字編輯文檔。這些類型的信息通常被稱為二進制大型對象,或者BLOBS。

    關於每一數據類型的完整描述,見「SQL Anywhere數據類型」。

❹ 金融論文用哪個資料庫比較好 知乎

可以看看你們學校有什麼資料庫可以免費下載數據。
推薦萬德資料庫,比較適合找微觀數據,還有中經網資料庫、國泰安資料庫都是很好的經濟、金融類資料庫。
如果論文內容涉及宏觀方面,可以去IMF資料庫里下載,這個資料庫是免費的,基本上全球宏觀數據都有。
望採納,謝謝!

熱點內容
androidhome環境變數 發布:2025-07-25 22:38:37 瀏覽:123
魚站源碼 發布:2025-07-25 22:37:49 瀏覽:771
sql更新統計信息 發布:2025-07-25 22:23:58 瀏覽:866
風電場火災應急演練腳本 發布:2025-07-25 22:22:33 瀏覽:680
蘋果更新系統的密碼是什麼 發布:2025-07-25 22:07:40 瀏覽:480
遠程附加web伺服器開什麼埠 發布:2025-07-25 22:07:34 瀏覽:301
飛兒精品解壓密碼 發布:2025-07-25 22:01:27 瀏覽:587
域名怎麼連接伺服器 發布:2025-07-25 21:55:27 瀏覽:335
安卓手機怎麼刷ios系統 發布:2025-07-25 21:49:40 瀏覽:594
我的世界伺服器悠然小天 發布:2025-07-25 21:20:06 瀏覽:4