大數據排序演算法
1. 跪求一對大數據量浮點數的快速排序演算法啊。。急用!
因為不知道你的數據從哪裡來,是從文本還是手動輸入...所以只提供個思路:
先動態建立個鏈表,用來存浮點數的整數部分,鏈表的每個單元下掛一個小的鏈表(其實只是理解上的小,實際和前面的鏈表是一樣的,下掛的鏈表定義為浮點型的);這里你需要先定義結構體,含有一個整型數據和整型指針,指針存儲下掛的鏈表地址,下掛鏈表用於存儲浮點數的小數部分,然後用該結構體生成數組。這樣所有數據讀取進來後,都是按整數部分劃分存儲在一個鏈表下面,比如2.0034和2.412都是存儲在數據為2的鏈表下面,3.323和3.12124都是存儲在數據為3的鏈表下面。然後再對各個鏈表進行冒泡法排序或者是隨意一個你覺得可以的排序。
如果說整數部分相同但小數部分不同的數據很多很多,可以再往下細分。
希望能對你有所幫助!
2. 求一種大數據分析的演算法
//群體數據的排序與查找 //1.直接插入排序的演算法實現: void InsertSort(int arrForSort[],int nLength) { int i,j,temp; for(i=1;i/遍歷整個序列 { temp=arrForSort[i]; for(j=i;j>0&&temp<arrForSort[j-1];j--) //將第i個元素插入到合適的位置 arrForSort[j]=arrForSort[j-1]; arrForSort[j]=temp; } } //2.直接選擇排序的演算法實現: void SelectSort(int arrForSort[],int nLength) { int min,temp, i,j; for(i=0;i<nLength-1;i++) { min=i; for(j=i+1;j<nLength;j++) //選出具有最小值的元素的下標標號 if(arrForSort[j]/第i個元素與具有最小值的元素進行交換 arrForSort[i]=arrForSort[min]; arrForSort[min]=temp; } } //3.起泡法排序的演算法實現: void BubbleSort(int arrForSort[],int nLength) { int i,j,temp; i=nLength-1; while(i>0) { for(j=0;j<i;j++) //1次起泡的過程 { if(arrForSort[j+1]/逆序交換 {temp=arrForSort[j+1]; arrForSort[j+1]=arrForSort[j]; arrForSort[j]=temp;} } i--; //准備下一次起泡序列的長度 } } //4.希爾排序的演算法實現: void ShellSort(int arrForSort[],int nLength) { int k,j,i,temp; k=nLength/2; //設置初始子序列的間隔 while(k>0) { for(j=k;j/子序列的插入排序 { temp=arrForSort[j];i=j-k; while((i>=0)&&(arrForSort[i]>temp)) { arrForSort[i+k]=arrForSort[i];i=i-k; } arrForSort[i+k]=temp; } k=k/2; //重新設置子序列的間隔 } return; } //5.順序查找的實現 int SequenceSearch(int arrForSearch[],int nLength,int nKey) { int i; for(i=0;i<nLength;i++) //遍歷整個序列 if(arrForSearch[i]==nKey) return i; return -1; } //6.折半查找的演算法實現 int MiddleSearch(int arrForSearch(int arrForSearch[],int nLength,int nKey) { int mid,top,bottom; bottom=0; //設置首末元素下標 top=nLength-1; while(bottom/取序列中間元素下標 if(arrForSearch[mid]==nKey) return mid; //如果找到該元素,返回其下標 else if(arrForSearch[mid]>nKey) top=mid-1; //在前半個序列中繼續查找 else bottom=mid+1; } return -1; }
3. 常見的排序演算法哪個效率最高
快速排序法。
4. 需要掌握哪些大數據演算法
數據挖掘領域的十大經典演算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。
1、C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法。
2、2、k-means algorithm演算法是一個聚類演算法,把n的對象根據他們的屬性分為k個分割,k < n。
3、支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用於統計分類以及回歸分析中。
4、Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。
5、最大期望(EM)演算法。在統計計算中,最大期望(EM,Expectation–Maximization)演算法是在概率(probabilistic)模型中尋找參數最大似然 估計的演算法,其中概率模型依賴於無法觀測的隱藏變數(Latent Variabl)。
6、PageRank是Google演算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
7、Adaboost是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器 (強分類器)。
8、K最近鄰(k-Nearest Neighbor,KNN)分類演算法,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。
9、Naive Bayes。在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。
10、CART, Classification and Regression Trees。 在分類樹下面有兩個關鍵的思想。
關於大數據演算法的相關問題推薦CDA數據分析師的相關課程,課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」點擊預約免費試聽課。
5. 大數據演算法有哪些
大數據是一個很廣的概念,並沒有大數據演算法這種東西,您估計想問的是大數據挖掘的演算法:
1.樸素貝葉斯
超級簡單,就像做一些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型收斂的更快,所以你只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。
2. 回歸
LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型(使用在線梯度下降法)。
3.決策樹
DT容易理解與解釋。DT是非參數的,所以你不需要擔心野點和數據是否線性可分的問題,此外,RF在很多分類問題中經常表現得最好,且速度快可擴展,也不像SVM那樣需要調整大量的參數,所以最近RF是一個非常流行的演算法。
4.支持向量機
很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。
想要了解更多有關數據挖掘的信息,可以了解一下CDA數據分析師的課程。大數據分析師現在有專業的國際認證證書了, 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。全球 CDA 持證者秉承著先進商業數據分析的新理念,遵循著《CDA 數據分析師職業道德和行為准則》新規范,發 揮著自身數據科學專業能力,推動科技創新進步,助力經濟持續發展。點擊預約免費試聽課。
6. 大數據常用的各種演算法
我們經常談到的所謂的 數據挖掘 是通過大量的數據集進行排序,自動化識別趨勢和模式並且建立相關性的過程。那現在市面的數據公司都是通過各種各樣的途徑來收集海量的信息,這些信息來自於網站、公司應用、社交媒體、移動設備和不斷增長的物聯網。
比如我們現在每天都在使用的搜索引擎。在自然語言處理領域,有一種非常流行的演算法模型,叫做詞袋模型,即把一段文字看成一袋水果,這個模型就是要算出這袋水果里,有幾個蘋果、幾個香蕉和幾個梨。搜索引擎會把這些數字記下來,如果你想要蘋果,它就會把有蘋果的這些袋子給你。
當我們在網上買東西或是看電影時,網站會推薦一些可能符合我們偏好的商品或是電影,這個推薦有時候還挺准。事實上,這背後的演算法,是在數你喜歡的電影和其他人喜歡的電影有多少個是一樣的,如果你們同時喜歡的電影超過一定個數,就把其他人喜歡、但你還沒看過的電影推薦給你。 搜索引擎和推薦系統 在實際生產環境中還要做很多額外的工作,但是從本質上來說,它們都是在數數。
當數據量比較小的時候,可以通過人工查閱數據。而到了大數據時代,幾百TB甚至上PB的數據在分析師或者老闆的報告中,就只是幾個數字結論而已。 在數數的過程中,數據中存在的信息也隨之被丟棄,留下的那幾個數字所能代表的信息價值,不抵其真實價值之萬一。 過去十年,許多公司花了大價錢,用上了物聯網和雲計算,收集了大量的數據,但是到頭來卻發現得到的收益並沒有想像中那麼多。
所以說我們現在正處於「 數字化一切 」的時代。人們的所有行為,都將以某種數字化手段轉換成數據並保存下來。每到新年,各大網站、App就會給用戶推送上一年的回顧報告,比如支付寶會告訴用戶在過去一年裡花了多少錢、在淘寶上買了多少東西、去什麼地方吃過飯、花費金額超過了百分之多少的小夥伴;航旅縱橫會告訴用戶去年做了多少次飛機、總飛行里程是多少、去的最多的城市是哪裡;同樣的,最後讓用戶知道他的行程超過了多少小夥伴。 這些報告看起來非常酷炫,又冠以「大數據」之名,讓用戶以為是多麼了不起的技術。
實際上,企業對於數據的使用和分析,並不比我們每年收到的年度報告更復雜。已經有30多年歷史的商業智能,看起來非常酷炫,其本質依然是數數,並把數出來的結果畫成圖給管理者看。只是在不同的行業、場景下,同樣的數字和圖表會有不同的名字。即使是最近幾年炙手可熱的大數據處理技術,也不過是可以數更多的數,並且數的更快一些而已。
在大數據處理過程中會用到那些演算法呢?
1、A* 搜索演算法——圖形搜索演算法,從給定起點到給定終點計算出路徑。其中使用了一種啟發式的估算,為每個節點估算通過該節點的較佳路徑,並以之為各個地點排定次序。演算法以得到的次序訪問這些節點。因此,A*搜索演算法是較佳優先搜索的範例。
2、集束搜索(又名定向搜索,Beam Search)——較佳優先搜索演算法的優化。使用啟發式函數評估它檢查的每個節點的能力。不過,集束搜索只能在每個深度中發現最前面的m個最符合條件的節點,m是固定數字——集束的寬度。
3、二分查找(Binary Search)——在線性數組中找特定值的演算法,每個步驟去掉一半不符合要求的數據。
4、分支界定演算法(Branch and Bound)——在多種最優化問題中尋找特定最優化解決方案的演算法,特別是針對離散、組合的最優化。
5、Buchberger演算法——一種數學演算法,可將其視為針對單變數較大公約數求解的歐幾里得演算法和線性系統中高斯消元法的泛化。
6、數據壓縮——採取特定編碼方案,使用更少的位元組數(或是其他信息承載單元)對信息編碼的過程,又叫來源編碼。
7、Diffie-Hellman密鑰交換演算法——一種加密協議,允許雙方在事先不了解對方的情況下,在不安全的通信信道中,共同建立共享密鑰。該密鑰以後可與一個對稱密碼一起,加密後續通訊。
8、Dijkstra演算法——針對沒有負值權重邊的有向圖,計算其中的單一起點最短演算法。
9、離散微分演算法(Discrete differentiation)。
10、動態規劃演算法(Dynamic Programming)——展示互相覆蓋的子問題和最優子架構演算法
11、歐幾里得演算法(Euclidean algorithm)——計算兩個整數的較大公約數。最古老的演算法之一,出現在公元前300前歐幾里得的《幾何原本》。
12、期望-較大演算法(Expectation-maximization algorithm,又名EM-Training)——在統計計算中,期望-較大演算法在概率模型中尋找可能性較大的參數估算值,其中模型依賴於未發現的潛在變數。EM在兩個步驟中交替計算,第一步是計算期望,利用對隱藏變數的現有估計值,計算其較大可能估計值;第二步是較大化,較大化在第一步上求得的較大可能值來計算參數的值。
13、快速傅里葉變換(Fast Fourier transform,FFT)——計算離散的傅里葉變換(DFT)及其反轉。該演算法應用范圍很廣,從數字信號處理到解決偏微分方程,到快速計算大整數乘積。
14、梯度下降(Gradient descent)——一種數學上的最優化演算法。
15、哈希演算法(Hashing)。
16、堆排序(Heaps)。
17、Karatsuba乘法——需要完成上千位整數的乘法的系統中使用,比如計算機代數系統和大數程序庫,如果使用長乘法,速度太慢。該演算法發現於1962年。
18、LLL演算法(Lenstra-Lenstra-Lovasz lattice rection)——以格規約(lattice)基數為輸入,輸出短正交向量基數。LLL演算法在以下公共密鑰加密方法中有大量使用:背包加密系統(knapsack)、有特定設置的RSA加密等等。
19、較大流量演算法(Maximum flow)——該演算法試圖從一個流量網路中找到較大的流。它優勢被定義為找到這樣一個流的值。較大流問題可以看作更復雜的網路流問題的特定情況。較大流與網路中的界面有關,這就是較大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一個流網路中的較大流。
20、合並排序(Merge Sort)。
21、牛頓法(Newton's method)——求非線性方程(組)零點的一種重要的迭代法。
22、Q-learning學習演算法——這是一種通過學習動作值函數(action-value function)完成的強化學習演算法,函數採取在給定狀態的給定動作,並計算出期望的效用價值,在此後遵循固定的策略。Q-leanring的優勢是,在不需要環境模型的情況下,可以對比可採納行動的期望效用。
23、兩次篩法(Quadratic Sieve)——現代整數因子分解演算法,在實踐中,是目前已知第二快的此類演算法(僅次於數域篩法Number Field Sieve)。對於110位以下的十位整數,它仍是最快的,而且都認為它比數域篩法更簡單。
24、RANSAC——是「RANdom SAmple Consensus」的縮寫。該演算法根據一系列觀察得到的數據,數據中包含異常值,估算一個數學模型的參數值。其基本假設是:數據包含非異化值,也就是能夠通過某些模型參數解釋的值,異化值就是那些不符合模型的數據點。
25、RSA——公鑰加密演算法。較早的適用於以簽名作為加密的演算法。RSA在電商行業中仍大規模使用,大家也相信它有足夠安全長度的公鑰。
26、Schönhage-Strassen演算法——在數學中,Schönhage-Strassen演算法是用來完成大整數的乘法的快速漸近演算法。其演算法復雜度為:O(N log(N) log(log(N))),該演算法使用了傅里葉變換。
27、單純型演算法(Simplex Algorithm)——在數學的優化理論中,單純型演算法是常用的技術,用來找到線性規劃問題的數值解。線性規劃問題包括在一組實變數上的一系列線性不等式組,以及一個等待較大化(或最小化)的固定線性函數。
28、奇異值分解(Singular value decomposition,簡稱SVD)——在線性代數中,SVD是重要的實數或復數矩陣的分解方法,在信號處理和統計中有多種應用,比如計算矩陣的偽逆矩陣(以求解最小二乘法問題)、解決超定線性系統(overdetermined linear systems)、矩陣逼近、數值天氣預報等等。
29、求解線性方程組(Solving a system of linear equations)——線性方程組是數學中最古老的問題,它們有很多應用,比如在數字信號處理、線性規劃中的估算和預測、數值分析中的非線性問題逼近等等。求解線性方程組,可以使用高斯—約當消去法(Gauss-Jordan elimination),或是柯列斯基分解( Cholesky decomposition)。
30、Strukturtensor演算法——應用於模式識別領域,為所有像素找出一種計算方法,看看該像素是否處於同質區域( homogenous region),看看它是否屬於邊緣,還是是一個頂點。
31、合並查找演算法(Union-find)——給定一組元素,該演算法常常用來把這些元素分為多個分離的、彼此不重合的組。不相交集(disjoint-set)的數據結構可以跟蹤這樣的切分方法。合並查找演算法可以在此種數據結構上完成兩個有用的操作:
查找:判斷某特定元素屬於哪個組。
合並:聯合或合並兩個組為一個組。
32、維特比演算法(Viterbi algorithm)——尋找隱藏狀態最有可能序列的動態規劃演算法,這種序列被稱為維特比路徑,其結果是一系列可以觀察到的事件,特別是在隱藏的Markov模型中。
7. 跪求一對大數據量浮點數的快速排序演算法啊。。急用!
因為不知道你的數據從哪裡來,是從文本還是手動輸入...所以只提供個思路:
先動態建立個鏈表,用來存浮點數的整數部分,鏈表的每個單元下掛一個小的鏈表(其實只是理解上的小,實際和前面的鏈表是一樣的,下掛的鏈表定義為浮點型的);這里你需要先定義結構體,含有一個整型數據和整型指針,指針存儲下掛的鏈表地址,下掛鏈表用於存儲浮點數的小數部分,然後用該結構體生成數組。這樣所有數據讀取進來後,都是按整數部分劃分存儲在一個鏈表下面,比如2.0034和2.412都是存儲在數據為2的鏈表下面,3.323和3.12124都是存儲在數據為3的鏈表下面。然後再對各個鏈表進行冒泡法排序或者是隨意一個你覺得可以的排序。
如果說整數部分相同但小數部分不同的數據很多很多,可以再往下細分。
希望能對你有所幫助!
8. 如何進行大數據集上排序演算法性能的體驗
1、選擇標題欄---數據--篩選,點成績一欄篩選的小箭頭就可以升序和降序排列。2、表格全選--數據-排序。
9. 大數據用什麼排序演算法
大數據一般是用資料庫的策略來解決排序問題的,可以建立索引和視圖。
10. 大數據排序或取重或去重相關問題
大數據排序或取重或去重相關問題
1. 給定a、b兩個文件,各存放50億個url,每個url各佔64位元組,內存限制是4G,讓你找出a、b文件共同的url?
方案1:可以估計每個文件安的大小為50G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全載入到內存中處理。考慮採取分而治之的方法。
s 遍歷文件a,對每個url求取 ,然後根據所取得的值將url分別存儲到1000個小文件(記為 )中。這樣每個小文件的大約為300M。
s 遍歷文件b,採取和a相同的方式將url分別存儲到1000各小文件(記為 )。這樣處理後,所有可能相同的url都在對應的小文件( )中,不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。
s 求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那麼就是共同的url,存到文件裡面就可以了。
方案2:如果允許有一定的錯誤率,可以使用Bloom filter,4G內存大概可以表示340億bit。將其中一個文件中的url使用Bloom filter映射為這340億bit,然後挨個讀取另外一個文件的url,檢查是否與Bloom filter,如果是,那麼該url應該是共同的url(注意會有一定的錯誤率)。
2. 有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重復。要求你按照query的頻度排序。 方案1:
s 順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記為 )中。這樣新生成的文件每個的大小大約也1G(假設hash函數是隨機的)。
s 找一台內存在2G左右的機器,依次對 用hash_map(query, query_count)來統計每個query出現的次數。利用快速/堆/歸並排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件(記為 )。
s 對 這10個文件進行歸並排序(內排序與外排序相結合)。
方案2:
一般query的總量是有限的,只是重復的次數比較多而已,可能對於所有的query,一次性就可以加入到內存了。這樣,我們就可以採用trie樹/hash_map等直接來統計每個query出現的次數,然後按出現次數做快速/堆/歸並排序就可以了。
方案3:
與方案1類似,但在做完hash,分成多個文件後,可以交給多個文件來處理,採用分布式的架構來處理(比如MapRece),最後再進行合並。
3. 有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16位元組,內存限制大小是1M。返回頻數最高的100個詞。
方案1:順序讀文件中,對於每個詞x,取 ,然後按照該值存到5000個小文件(記為 ) 中。這樣每個文件大概是200k左右。如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,知道分解得到的小文件的大小都不超過1M。對每個小文件,統計每個文件中出現的詞以及相應的頻率(可以採用trie樹/hash_map等),並取出出現頻率最大的100個詞(可以用含100個結點 的最小堆),並把100詞及相應的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進行歸並(類似與歸並排序)的過程了。
4. 海量日誌數據,提取出某日訪問網路次數最多的那個IP。
方案1:首先是這一天,並且是訪問網路的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有 個 IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以採用hash_map進 行頻率統計,然後再找出頻率最大的幾個)及相應的頻率。然後再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。
5. 在2.5億個整數中找出不重復的整數,內存不足以容納這2.5億個整數。
方案1:採用2-Bitmap(每個數分配2bit,00表示不存在,01表示出現一次,10表示多次,11無意義)進行,共需內存內存,還可以接受。然後掃描這2.5億個整數,查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事後,查看bitmap,把對應位是01的整數輸出即可。
方案2:也可採用上題類似的方法,進行劃分小文件的方法。然後在小文件中找出不重復的整數,並排序。然後再進行歸並,注意去除重復的元素。
6. 海量數據分布在100台電腦中,想個辦法高校統計出這批數據的TOP10。
方案1:
s 在每台電腦上求出TOP10,可以採用包含10個元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我們首先取前10個元素調整成最小堆,如果發現,然後掃描後面的數據,並與堆頂元素比較,如果比堆頂元素大,那麼用該元素替換堆頂,然後再調整為最小堆。最後堆中的元 素就是TOP10大。
s 求出每台電腦上的TOP10後,然後把這100台電腦上的TOP10組合起來,共1000個數據,再利用上面類似的方法求出TOP10就可以了。
7. 怎麼在海量數據中找出重復次數最多的一個?
方案1:先做hash,然後求模映射為小文件,求出每個小文件中重復次數最多的一個,並記錄重復次數。然後找出上一步求出的數據中重復次數最多的一個就是所求(具體參考前面的題)。
8. 上千萬或上億數據(有重復),統計其中出現次數最多的錢N個數據。
方案1:上千萬或上億的數據,現在的機器的內存應該能存下。所以考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的數據了,可以用第6題提到的堆機制完成。
9. 1000萬字元串,其中有些是重復的,需要把重復的全部去掉,保留沒有重復的字元串。請怎麼設計和實現?
方案1:這題用trie樹比較合適,hash_map也應該能行。
10. 一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞,請給出思想,給出時間復雜度分析。
方案1:這題是考慮時間效率。用trie樹統計每個詞出現的次數,時間復雜度是O(n*le)(le表示單詞的平準長度)。然後是找出出現最頻繁的前10個詞,可以用堆來實現,前面的題中已經講到了,時間復雜度是O(n*lg10)。所以總的時間復雜度,是O(n*le)與O(n*lg10)中較大 的哪一個。
11. 一個文本文件,找出前10個經常出現的詞,但這次文件比較長,說是上億行或十億行,總之無法一次讀入內存,問最優解。
方案1:首先根據用hash並求模,將文件分解為多個小文件,對於單個文件利用上題的方法求出每個文件件中10個最常出現的詞。然後再進行歸並處理,找出最終的10個最常出現的詞。
12. 100w個數中找出最大的100個數。
方案1:在前面的題中,我們已經提到了,用一個含100個元素的最小堆完成。復雜度為O(100w*lg100)。
方案2:採用快速排序的思想,每次分割之後只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,採用傳統排序演算法排序,取前100個。復雜度為O(100w*100)。
方案3:採用局部淘汰法。選取前100個元素,並排序,記為序列L。然後一次掃描剩餘的元素x,與排好序的100個元素中最小的元素比,如果比這個最小的要大,那麼把這個最小的元素刪除,並把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了所有的元素。復雜度為O(100w*100)。
13. 尋找熱門查詢:
搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄,這些查詢串的重復讀比較高,雖然總數是1千萬,但是如果去除重復和,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就越熱門。請你統計最熱門的10個 查詢串,要求使用的內存不能超過1G。
(1) 請描述你解決這個問題的思路;
(2) 請給出主要的處理流程,演算法,以及演算法的復雜度。
方案1:採用trie樹,關鍵字域存該查詢串出現的次數,沒有出現為0。最後用10個元素的最小推來對出現頻率進行排序。
14. 一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。如何找到 個數中的中數?
方案1:先大體估計一下這些數的范圍,比如這里假設這些數都是32位無符號整數(共有 個)。我們把0到 的整數劃分為N個范圍段,每個段包含 個整數。比如,第一個段位0到 ,第二段為 到 ,…,第N個段為 到 。 然後,掃描每個機器上的N個數,把屬於第一個區段的數放到第一個機器上,屬於第二個區段的數放到第二個機器上,…,屬於第N個區段的數放到第N個機器上。 注意這個過程每個機器上存儲的數應該是O(N)的。下面我們依次統計每個機器上數的個數,一次累加,直到找到第k個機器,在該機器上累加的數大於或等於 ,而在第k-1個機器上的累加數小於 ,並把這個數記為x。那麼我們要找的中位數在第k個機器中,排在第 位。然後我們對第k個機器的數排序,並找出第 個數,即為所求的中位數。復雜度是 的。
方案2:先對每台機器上的數進行排序。排好序後,我們採用歸並排序的思想,將這N個機器上的數歸並起來得到最終的排序。找到第n個便是所求。復雜度是n(i)的。
15. 最大間隙問題
給定n個實數 ,求著n個實數在實軸上向量2個數之間的最大差值,要求線性的時間演算法。
方案1:最先想到的方法就是先對這n個數據進行排序,然後一遍掃描即可確定相鄰的最大間隙。但該方法不能滿足線性時間的要求。故採取如下方法:
s 找到n個數據中最大和最小數據max和min。
s 用n-2個點等分區間[min, max],即將[min, max]等分為n-1個區間(前閉後開區間),將這些區間看作桶,編號為 ,且桶 的上界和桶i+1的下屆相同,即每個桶的大小相同。每個桶的大小為: 。實際上,這些桶的邊界構成了一個等差數列(首項為min,公差為 ),且認為將min放入第一個桶,將max放入第n-1個桶。
s 將n個數放入n-1個桶中:將每個元素 分配到某個桶(編號為index),其中 ,並求出分到每個桶的最大最小數據。
s最大間隙:除最大最小數據max和min以外的n-2個數據放入n-1個桶中,由抽屜原理可知至少有一個桶是空的,又因為每個桶的大小相同,所以最大間隙不會在同一桶中出現,一定是某個桶的上界和氣候某個桶的下界之間隙,且該量筒之間的桶(即便好在該連個便好之間的桶)一定是空桶。也就是說,最大間隙在桶 i的上界和桶j的下界之間產生 。一遍掃描即可完成。
16. 將多個集合合並成沒有交集的集合:給定一個字元串的集合,格式如: 。要求將其中交集不為空的集合合並,要求合並完成的集合之間無交集,例如上例應輸出 。
(1) 請描述你解決這個問題的思路;
(2) 給出主要的處理流程,演算法,以及演算法的復雜度;
(3) 請描述可能的改進。
方案1:採用並查集。首先所有的字元串都在單獨的並查集中。然後依掃描每個集合,順序合並將兩個相鄰元素合並。例如,對於 , 首先查看aaa和bbb是否在同一個並查集中,如果不在,那麼把它們所在的並查集合並,然後再看bbb和ccc是否在同一個並查集中,如果不在,那麼也把它們所在的並查集合並。接下來再掃描其他的集合,當所有的集合都掃描完了,並查集代表的集合便是所求。復雜度應該是O(NlgN)的。改進的話,首先可以 記錄每個節點的根結點,改進查詢。合並的時候,可以把大的和小的進行合,這樣也減少復雜度。
17. 最大子序列與最大子矩陣問題
數組的最大子序列問題:給定一個數組,其中元素有正,也有負,找出其中一個連續子序列,使和最大。
方案1:這個問題可以動態規劃的思想解決。設 表示以第i個元素 結尾的最大子序列,那麼顯然 。基於這一點可以很快用代碼實現。
最大子矩陣問題:給定一個矩陣(二維數組),其中數據有大有小,請找一個子矩陣,使得子矩陣的和最大,並輸出這個和。
方案1:可以採用與最大子序列類似的思想來解決。如果我們確定了選擇第i列和第j列之間的元素,那麼在這個范圍內,其實就是一個最大子序列問題。如何確定第i列和第j列可以詞用暴搜的方法進行。