pagerank源碼
① 工具包括哪些
問題一:五金工具有哪些內容 五金工具其實可以分為工具與小五金兩類;
工具類下邊可細分為手動工具(刷子、鉗子、剪、螺絲刀、扳手、錘子、銼刀、絲錐板牙、氣筒等)、鋸(鋸條、手鋸、鏈鋸等)、氣動工具(氣動扳手、氣動剪刀、氣鑽等)、電動工具(電動拋光機、電鑽、電錘、電動扳手、電剪刀、熱風槍等)、汽車維修工具、施工設備和工具、量具量儀、園藝用工具和設備、金剛石工具、磨具磨料(砂輪、磨頭、磨塊、砂紙、油石、拋光輪、研磨劑,拋光膏等等);
小五金分為五金配件(吊鉤、鋼珠、滑輪、噴嘴、萬向輪、索具等)、建築五金(鎖、管件、門窗五金等)、機械五金(軸承、模具、彈簧、閥門、刀具和夾具、氣動元件等)以及日用五金(刀、剪等)
問題二:五金工具種類有哪些 五金工具種類:標准件,五金機電,電工電料,低壓電器、水暖管件,化工油漆,裝飾建材,勞保日雜,小型機械,手動工具,電動工具,氣動工具,鋼材鑄鐵等等,這些鑫方盛商城都有,需要的話可以去看看,希望我的回答能夠幫助到你!打了這么多記得採納哦!
問題三:五金工具有哪些種類? 五金工具類(1)鋼鋸 (2)手用鋸條 (3)鉗子 (4)螺絲刀(一字、十字) (5)捲尺 (6)克絲鉗 (7)尖嘴鉗 (8)斜嘴鉗 (9)玻璃膠槍 (10)直柄麻花鑽頭 (11)金剛石鑽頭 (12)電錘鑽頭 (13)開孔器(14)開口扳手和梅花扳手(15)拉鉚槍(16)黃油槍(17)錘子(18)套筒(19)活動扳手(20)鋼捲尺.盒尺.米尺
問題四:電工工具包括哪些? 電工工具是一個龐大的門類,電工工具的開發研究永遠不會終結。我只能簡單說說,不可能全面。
1、基本個人工具:電筆、電工開口鉗子、鑼刀、電工刀、開口扳手等。
2、內線電工工具:電筆、萬用表、斜口鉗、尖嘴鉗、梅花扳、各種手鉗、各種扳手、 各種電烙鐵、扒皮鉗。
3、外線電工工具:導線安全接地用具、腳扣子、登高踏板、安全帶繩、提物繩子、起重器、滑輪、小型電鑽、線頭壓接器、噴燈、土方鍬鎬工具、鋼鋸鋸割工具、各種緊線器、掛線滑輪。
4、大型工具設備:挖掘機、吊車、電纜盤支架、電纜拖車。
5、通信專業電工常用工具:銅芯線接線子壓接鉗、25對銅芯線模塊壓接機、通信電纜故障脈沖測試儀、萬用DJ45電橋、接地電阻測試儀、對線對照器、芯線檢測千分尺、氣壓表
6、通信專業光纜電工常用工具:光纜芯線熔接機,光纜測試儀
7、維修專業電工工具:專業性比較強,門類多,就簡單舉例說明吧:
8、維修空調冰箱要用到氟利昂充氣設備、封焊接設備。
9、維修電視等要用到信號發生器、示波器、振盪器等。
10、維修電動機要用到端蓋打開器、軸承拔出器、繞線機、清線下線專門小工具、浸漆烘乾工具。
問題五:生活中常用的工具有哪些 做工用的叫工具:錘子、老虎鉗、尖嘴鉗、十字/一字起子(螺絲刀)、鋸子、電工筆等等。
問題六:管理工具有哪些 管理工具是企業運營管理方法與體系的統稱,CEO必讀12篇、EMBA及MBA等主流經管培訓均對各類管理工具與方法有詳細介紹。
管理工具是由管理者使用的,直接或者間接作用於管理對象,能夠幫助管理者實現管理目標的有形的事物。管理工具的本質是管理規律發生作用所需條件的物化准備;是管理者人體功能器官的延伸和放大。管理工具是管理者最好的幫手,是管理者管理水平高低的標志
工具類型編輯
企業戰略工具
7S模式
企業在發展過程中必須全面地考慮的7個要素。
五力分析模型
五力分析模型作為由外而內的管理工具,從五個方面分析企業結構的吸引度,
管理工具
即競爭力,這五個方面分別是,行業現有的競爭狀況、供應商的議價能力、客戶的議價能力、替代產品或服務的威脅、新進入者的威脅。
戰略地圖
戰略地圖是以平衡計分卡的四個層面目標(財務層面、客戶層面、內部層面、學習與增長層面)為核心,通過分析這四個層面目標的相互關系而繪制的企業戰略因果關系圖。
藍海戰略
與其在擁擠的市場上(紅海)做激烈競爭,不如開發新的、沒有競爭的市場空間(藍海),有些藍海是在已有產業以外創建的,但大多出藍海是通過紅海內部擴展已有產業邊界而開拓出來的。
長尾理論
「長尾理論」講述的是這樣一個故事:以前被認為是邊緣化的、地下的、獨立的產品現在共同占據了一塊市場份額,足以可與最暢銷的熱賣品匹敵。
領導力工具
ERG理論
ERG理論指出,人們共存在3種核心的需要,即生存(Existence)的需要、相互關系(Relatedness)的需要和成長發展(Growth)的需要。
目標管理法
使管理活動圍繞和服務於目標中心,以分解和執行目標為手段,以圓滿實現目標為宗旨的一種管理方法。
管理方格圖
管理方格圖是對識別各種領導作風不同組合的演示,表明對業績的關心和對人的關心是一名管理者應該兼顧的。
領導行為連續體
一個專制的領導掌握完全的權威,自己決定一切,他不會授權下屬;而一位民主的領導在指定決策過程中,會給予下屬很大的權力。
「情境領導」模式
「情境領導」模式:在領導和管理公司或團隊時,不能用一成不變的方法,而要隨著情況和環境的改變及員工的不同,而改變領導和管理的方式。
沉默的螺旋
沉默的螺旋描述了這樣的一個現象,人們在表達自己的想法和觀點的時候,如果發覺某一觀點無人或很少有人理會,即使自己贊同它,也會保持沉默。
團隊迷思
團體成員在集體主義精神感召下,積極追求團體的和諧與共識,卻忽略了團體的真實決策目的,從而無法進行准確判斷的一種思考模式。
德爾菲法
德爾菲法是用來構造團隊溝通流程,應對復雜任務難題的管理技術。
喬哈里資訊窗
喬哈里資訊窗(Johari Window)是一種關於溝通的技巧和理論。
管理工具
人力資源工具
LIFO系統
LIFO的全稱是「 Life Orientation」,包括個人內在的價值觀以及外顯的行為偏好,是一種結合現代管理、組織心理學和人際關系學的綜合管理培訓系統。
MBTI人格理論
MBTI(邁爾斯類型指標)全稱Myers Briggs Type Indicator,是一種性格測試工具,用以衡量和描述人們在獲取信息、作出決策、對待生活等方面的心理活動規律和性格類型。
職業錨
職業錨,是自我意向的一個習得部分。個人進入早期工作情境後,由習得的實際工作經驗所決定,與在經驗中自省的動機、價值觀、才幹相符合,達到自我滿足和補償的一種穩定的職業定位。
業內訓練
業內訓練(Training Within Instry ,TWI)是一項可以用來發展企業管理人員技能的技術。
行動學習法
行動學習法(Acti......>>
問題七:量測工具有哪些 測量的種類非常多,這是測量長度的工具有:米尺、捲尺、三角板、可以用各種顯微鏡、激光干涉儀、常規的各種尺(包括三角版、游標卡尺……)1m以上100m之內的,可以用皮尺、鋼尺.高級一點的有因瓦基線尺。 用來測量天氣的工具有:溫度計、氣壓計、風向標、雨量測量器、計算機以及人造衛星。 電廠現場常用測量工具有:萬用表,表(兆歐表,電壓等級不同所用表計也不一樣,如二次迴路用500V表測量),驗電筆(根據場站電壓等級配備),鉗形電流表,點溫儀(測溫用),相序表, 基本上就是這些。 機械加工主要測量工具有:游標卡尺、千分尺、高度尺、塞尺、螺紋塞規、螺紋環規等 比較常規的:投影儀、硬度計、百格刀等 特殊:三坐標、搖擺儀、拉力機、膜厚儀、色差儀、光澤儀等
問題八:修理工具有哪些呢 維修機械設備常用工具有:通用工具、鉗工工具、專用工具及量具。 通用工具:活板手、呆板手、梅花板手、套筒板手、鉗子、起子等等。 鉗工工具:平台、台鉗、鋸、銼、鑽、研等等。 專業工具:空壓機、電焊機、氣割、氣焊等等。 量具:卡尺、千分尺、百分表、高、深度尺、角度尺、速度表、溫度表、壓力表等等!!
問題九:互聯網工具有哪些? 一、PageRank分析插件
PageRank分析插件的功能非常強大,能分享網路收錄,網路近期收錄,Google收錄,pr查詢,網路權重,網路流量查詢,soso收錄,搜狗收錄,sr查詢,域名年齡,備案狀態等等整個網站的基本情況。我在優化finndy網站經過會用它進行分析,數據非常准確,對於做網路seo很有幫助
二、採集器
採集功能非常強大,集成雲端採集、交易及api輸出,內容採集准確,包括欄位維度信息,可用性很強。無論是新網站做啟動數據還是老網站做內容更新,都需要採集內容,用於資料儲備等。現在逐漸發展成了集數據採集、數據交易市場的平台。
三、光年日誌分析器
網站日誌分析是站長經常要做的事,網站日誌分析工具能快速分析站點的日誌文件,讓您對網路、Google等蜘蛛的爬行記錄一目瞭然。剛開始尋找日誌分析器找了好久,也用過許多其他的日誌分析軟體,但是在分析彩票軟體源碼站點的網站日誌中,發現光年日誌分析器是一款實用、簡單、數據准確性非常高的軟體。
四、網站安全檢測
1、網路安全檢測:這個是大家一定要熟悉的安全檢測平台。已經引用騰訊、小紅傘、金山、知道創宇的資料庫
2、360安全檢測:相對來說,360安全檢測是各大安全檢測平台當中的最全面的一個了,不僅僅提供免費的網頁掛馬、網頁篡改還提供免費的網站漏洞檢測。
3、安全寶:功能比較齊全,提供免費的mini,可視化網站報告,CDN網站加速,是創新工場旗下的一個公司。
4、騰訊電腦管家安全檢測:我們平時在QQ聊天窗口中發出的網址,就會調用此資料庫,對我們的網站安全作用比較大。
五、網站統計工具
1、網路統計:網路統計工具是完全免費的,對網站的市場營銷以及SEO優化提供詳細的建議與參考數據
2、CNZZ:目前來說國內草根站長用的最多的一款免費統計工具,功能簡單易用,非常適合一些草根站長使用。
3、騰訊分析:騰訊分析工具也是一款比較實用的分析統計工具,功能類似於網路統計。
六、廣告聯盟
1、網路聯盟:國內站長使用較多的平台,網路聯盟一般審核比較嚴格,加入網路聯盟需要進行網站備案,每月的25號到30號之間結算傭金,結算方式是人民幣,付款方便,但是需要扣除個人所得稅。
2、谷歌聯盟:谷歌聯盟也是比較不錯的聯盟,谷歌聯盟的廣告單價比較高,結算方式是美元結算。但是收款的時候有些繁瑣,管理也是非常嚴格,一旦發現作弊行為,會永久進行封號。
七:SEO綜合查詢工具
1、愛站:SEO優化綜合查詢工具,可以利用查詢網路權重、有情鏈接、網路索引量、備案信息、關鍵詞挖掘等信息。
2、站長工具:站長工具的功能幾乎和愛站的功能一樣,利用站長工具與愛站工具查詢的數據結果有些差異,這是因為這兩款工具數據計算不同導致的,屬於正常現象。可結合使用。
八:關鍵詞挖掘工具
1、金花關鍵詞工具:此款工具功能非常強大,這里我們提供給大家一款破解版本的,利用此工具可以一次性挖掘5000個長尾關鍵詞,是站長常用的SEO輔助工具之一。
2、飛魯達關鍵詞挖掘工具:此款工具的功能類似於以上提供的金花關鍵詞工具,下載之後兩款工具可以配合使用,效果更佳。
3、網路指數:網路指數是基於網路搜索引擎綜合數據搜索結果的一項工具。這項工具是是用來分析在近段時間用戶對某些關鍵詞的搜索索引量。這個工具對我們SEO優化有著非常大的價值。
4、Google AdWords關鍵字工具:此款工具可以幫助我們有效的分析用戶關注的某些特定關鍵詞,還可以分析出我們指定的某些關鍵詞在全球的搜索量,和在某些地方的搜索量。是一些大型門戶網站擴展長尾關鍵詞的最佳工具。
九:站長社區/官方工具
1.百......>>
問題十:常用的弱電工具有哪些? 工具類:
1、常用電工工具:克絲鉗、尖嘴鉗、斜口鉗、十字螺絲刀、一字螺絲刀、電工刀、試電筆;
2、常用工具:活絡扳手、套管扳手、眼鏡扳手、死口扳手、內六角扳手、壁紙刀、斷線鉗、剝線鉗、接線端子壓接鉗、錘子、穿線器、放線架、電烙鐵鋼捲尺,墨斗,記號筆;
3、專用工具:管路施工:彎管器、擴管器,綜合布線工具:單口打線刀、五聯打線刀、模塊壓接鉗、水晶頭壓接鉗、剝線刀、光纜工具:光纜接續機、光纖剝線刀、切刀;視頻監控工具:BNC插拔器;
4、常用機械:電錘,電鑽,切割機,角磨機,水鑽、電焊機,梯子,升降機,龍門架、移動電源箱、對講機、手推車、簡易叉車,
5、常用儀表:測線器、萬用表、福祿克FLUKEDSP-****,OTDR光纜測試儀、地阻儀、光功率計、場強儀、視頻信號測試儀、兆歐表、信號泄露測試儀、信號發生器、大對數電纜測試儀、屏蔽測試設備。
6、測量工具:游標卡尺、螺旋測微儀、水平尺、
7、軟體工具:計算機硬體測試軟體,網路測試軟體、RS485通訊測試軟體,其他測試軟體,
8、調試工具:筆記本計算機
② 互聯網工具有哪些
一、PageRank分析插件
PageRank分析插件的功能非常強大,能分享網路收錄,網路近期收錄,Google收錄,pr查詢,網路權重,網路流量查詢,soso收錄,搜狗收錄,sr查詢,域名年齡,備案狀態等等整個網站的基本情況。我在優化finndy網站經過會用它進行分析,數據非常准確,對於做網路seo很有幫助
二、採集器
採集功能非常強大,集成雲端採集、交易及api輸出,內容採集准確,包括欄位維度信息,可用性很強。無論是新網站做啟動數據還是老網站做內容更新,都需要採集內容,用於資料儲備等。現在逐漸發展成了集數據採集、數據交易市場的平台。
三、光年日誌分析器
網站日誌分析是站長經常要做的事,網站日誌分析工具能快速分析站點的日誌文件,讓您對網路、Google等蜘蛛的爬行記錄一目瞭然。剛開始尋找日誌分析器找了好久,也用過許多其他的日誌分析軟體,但是在分析彩票軟體源碼站點的網站日誌中,發現光年日誌分析器是一款實用、簡單、數據准確性非常高的軟體。
四、網站安全檢測
1、網路安全檢測:這個是大家一定要熟悉的安全檢測平台。已經引用騰訊、小紅傘、金山、知道創宇的資料庫
2、360安全檢測:相對來說,360安全檢測是各大安全檢測平台當中的最全面的一個了,不僅僅提供免費的網頁掛馬、網頁篡改還提供免費的網站漏洞檢測。
3、安全寶:功能比較齊全,提供免費的mini,可視化網站報告,CDN網站加速,是創新工場旗下的一個公司。
4、騰訊電腦管家安全檢測:我們平時在QQ聊天窗口中發出的網址,就會調用此資料庫,對我們的網站安全作用比較大。
五、網站統計工具
1、網路統計:網路統計工具是完全免費的,對網站的市場營銷以及SEO優化提供詳細的建議與參考數據
2、CNZZ:目前來說國內草根站長用的最多的一款免費統計工具,功能簡單易用,非常適合一些草根站長使用。
3、騰訊分析:騰訊分析工具也是一款比較實用的分析統計工具,功能類似於網路統計。
六、廣告聯盟
1、網路聯盟:國內站長使用較多的平台,網路聯盟一般審核比較嚴格,加入網路聯盟需要進行網站備案,每月的25號到30號之間結算傭金,結算方式是人民幣,付款方便,但是需要扣除個人所得稅。
2、谷歌聯盟:谷歌聯盟也是比較不錯的聯盟,谷歌聯盟的廣告單價比較高,結算方式是美元結算。但是收款的時候有些繁瑣,管理也是非常嚴格,一旦發現作弊行為,會永久進行封號。
七:SEO綜合查詢工具
1、愛站:SEO優化綜合查詢工具,可以利用查詢網路權重、有情鏈接、網路索引量、備案信息、關鍵詞挖掘等信息。
2、站長工具:站長工具的功能幾乎和愛站的功能一樣,利用站長工具與愛站工具查詢的數據結果有些差異,這是因為這兩款工具數據計算不同導致的,屬於正常現象。可結合使用。
八:關鍵詞挖掘工具
1、金花關鍵詞工具:此款工具功能非常強大,這里我們提供給大家一款破解版本的,利用此工具可以一次性挖掘5000個長尾關鍵詞,是站長常用的SEO輔助工具之一。
2、飛魯達關鍵詞挖掘工具:此款工具的功能類似於以上提供的金花關鍵詞工具,下載之後兩款工具可以配合使用,效果更佳。
3、網路指數:網路指數是基於網路搜索引擎綜合數據搜索結果的一項工具。這項工具是是用來分析在近段時間用戶對某些關鍵詞的搜索索引量。這個工具對我們SEO優化有著非常大的價值。
4、Google AdWords關鍵字工具:此款工具可以幫助我們有效的分析用戶關注的某些特定關鍵詞,還可以分析出我們指定的某些關鍵詞在全球的搜索量,和在某些地方的搜索量。是一些大型門戶網站擴展長尾關鍵詞的最佳工具。
九:站長社區/官方工具
1.網路站長平台:全球最大的面向中文互聯網管理者、移動開發者、創業者的搜索流量管理的官方平台。提供有助於搜索引擎收錄的工具、SEO建議、API介面、多端適配服務的能力等。
2.搜狗站長工具:搜狗站長平台是搜狗網頁搜索與站點管理員溝通交流的平台。站點管理員可以通過sitemap、中文站點名、壓力反饋等站長工具進行數據提交和數據查詢。
3.360搜索站長平台:搜索引擎的本意即開放的索引全世界的網站。將真實、可信的搜索結果展現給用戶,更是搜索引擎的職責所在。當搜索引擎逐日成為網民信息檢索的首要窗口,網民對於搜索引擎的依賴度也與日俱增。360搜索作 為中國第二大搜索引擎,更應肩負起企業社會責任,避免為了追求商業利潤而影響搜索結果的真實性。
③ 網站PR456是什麼意思。網站買了有什麼好處。可不可以提升排名
網站的PR值,本來是用於判斷一個網站的受歡迎程度的,可現在已經被濫用。
鏈接幾個PR值高的網站,是有助於你的網站提升PR值,但對於網路的排名沒幫助,因為PR值是谷歌的傑作,網路不受這一套。網路有自己的一套去判斷一個網站的質量。
——謝謝——
④ 用易語言獲取網頁源碼的某些內容,然後導出表格格式
獲取裡面的內容很簡單,先分割源碼,再循環取出對應的內容就可以了,但是你說的導出表格格式是指什麼
⑤ 電腦知識
1、RSS為Really Simple Syndication(簡易供稿)的縮寫,是某一站點用來和其它站點之間共享內容的一種簡易方式,也叫聚合內容。網路用戶可以在客戶端藉助於支持RSS的新聞聚合工具軟體(例如SharpReader NewzCrawler、FeedDemon RSSReader),在不打開網站內容頁面的情況下閱讀支持RSS輸出的網站內容。可見,網站提供RSS輸出,有利於讓用戶發現網站內容的更新。在高速高質高效成為主流呼聲的互聯網時代,RSS無疑推動了網上信息的傳播,提出了另一種看世界的方式。
RSS,原意是把網站內容如標題、鏈接、部分內文甚至全文轉換為可延伸標示語言(XML:eXtensible Markup Language)的格式,以向其它網站供稿,使用者可以用一般的瀏覽器觀看,也可以用特殊的「閱讀器」軟體來閱讀。
2、要理解WEB2.0,先得看WEB的歷史。 World Wide Web,簡稱WWW,是英國人TimBerners-Lee 1989年在歐洲共同體的一個大型科研機構任職時發明的。通過WEB,互聯網上的資源,可以在一個網頁里比較直觀的表示出來;而且資源之間,在網頁上可以鏈來鏈去。在WEB1.0上做出巨大貢獻的公司有Netscape,Yahoo和Google。 Netscape研發出第一個大規模商用的瀏覽器,Yahoo的楊致遠提出了互聯網黃頁, 而Google後來居上,推出了大受歡迎的搜索服務。
搜索最大的貢獻是,把互聯網上海量的信息,用機器初步分了個線索。但是,光知道網頁里有哪些關鍵字,只解決了人瀏覽網頁的需求。所以,Tim-Berners-Lee在提出WWW不久,即開始推崇語義網(Semantic Web)的概念。為什麼呢?因為互聯網上的內容,機器不能理解。他的理想是,網頁製作時和架構資料庫時,大家都用一種語義的方式,將網頁里的內容表述成機器可以理解的格式。這樣,整個互聯網就成了一個結構嚴謹的知識庫。從理想的角度,這是很誘人的,因為科學家和機器都喜歡有次序的東西。Berners-Lee關心的是,互聯網上數據,及能否被其它的互聯網應用所重復引用。舉一個例子說明標准資料庫的魅力。有個產品叫LiberyLink。裝了它後,到Amazon上去瀏覽時,會自動告訴你某一本書在用戶當地的圖書館能否找到,書號是多少等。因為一本書有統一的書號和書名,兩個不同的互聯網服務(Amazon 和當地圖書館資料庫檢索)可以公享數據,給用戶提供全新服務。
但是,語義網提出之後,曲高和寡,響應的人不多。為什麼?因為指望要網頁的製作者提供這么多額外的信息去讓機器理解一個網頁,太難;簡直就是人給機器打工。這違反了人們能偷懶就偷懶的本性。看看Google的成功就知道。 Google有個Page Rank技術,將網頁之間互相鏈接的關系,用來做結果排序的一個依據,變相利用了網頁製作人的判斷力。想一想網頁的製作者們,從數量來說,比純瀏覽者的數量小得多。但Google就這一個革新,用上了網頁的製作者的一部份力量,已將其推上了互聯網的頂峰。
所以互聯網下一步,是要讓所有的人都忙起來,全民織網,然後用軟體,機器的力量使這些信息更容易被需要的人找到和瀏覽。如果說WEB1.0是以數據為核心的網,那我覺得WEB2.0是以人為出發點的互聯網。 我們看一看最近的一些WEB2.0產品,就可以理解以上觀點。
3、BT下載是一個多點下載的源碼公開的P2P軟體,採用了多點對多點的傳輸原理,適於下載電影等較大的文件。使用BT下載與使用傳統的HTTP站點或FTP站點下載不同,隨著下載用戶的增加,下載速度會越快。基於這一特
點,使用BT下載最新的電影、軟體等在速度上有很大優勢。BT下載軟體的使用很簡便,在已安裝該軟體的前提下,只需在網上找到與所要下載之文件相應的種子文件(*.torrrent),點擊後隨著系統提示的步驟即可開始下載。
⑥ 如何讓自己的網站在搜索中排名靠前
在上只要花錢就可以。
google不知道行不行。
但是花錢就可以列在右邊的文字鏈接廣告中。
如何讓搜索引擎收錄我的站[轉]
[原創]搜索引擎優化(SEO)菜鳥版@上官無恥 (上官無恥) 2005-5-11 12:19:23
何謂「SEO」?簡單的解釋就是,通過人為的調整和設計,讓你的網站在搜索引擎(主要以Google為主,因為有競價排名,人為對搜索結果的干擾很大,這也是為何有人說「Google是幹事業的,網路是做買賣的」,不過只要你的網站在Google中能取得好名次,那麼在其它搜索引擎中也不會太壞。)的搜索結果中排名靠前,靠前的好處不用講,自然是增加網站被點擊的機會了,很少有人喜歡去翻上10幾頁去找一個網站吧,當然,耐心好時間多的朋友例外,要麼就是你有特別的目的,比如:幫女朋友找一首很老的歌,如果找不到,咱們就分手^_^
目前網上專業提供SEO服務的公司很多,魚龍混雜,不管如何,他們共同的特點就是把自己說的神乎其神,與之接觸必曰:「你的網站交給我優化,xx期限內,讓你的網站出現在xx搜索引擎的xx位置上雲雲」,有這么厲害嗎?還真有這么厲害,當然,我說的是那些有真本事的公司,不是騙子。
本人對SEO的了解也很有限,不過我不是騙子,呵呵,因為我沒騙你錢,當然如果你看完了下邊的文字覺得沒什麼意義,那我就是騙子了,因為我騙了你的時間,而時間=金錢。
關於SEO的經驗、教程,網上有很多,什麼「關鍵字密度」、「PR值」、「動態頁面靜態化」等等,感興趣的朋友去Google一下就知道了,乍一看很復雜,不錯,是很麻煩,但大家也不要敬而遠之,SEO並沒有你想像的那麼神秘,理由:
1、沒有人知道如何做才算得上是有效的SEO,因為所謂的SEO都是大家總結出來的既往經驗,Google不可能讓你隨意的操縱它的搜索結果,否則天下豈不打亂?從這一點上說,所謂的SEO這一行當中的高手無非就是比你多過了幾座橋,道熟而已,別把他們當神看,喝多也吐^_^
2、因為中文語法、構詞的復雜性,國外SEO的經驗並不符合我們的國情,也就是說能優化好一個英文網站並不等於能優化好一個中文網站,這也就意味著對於我們、中國人來說,優化自己的網站可能會簡單一些,呵呵,因為個別用在英文網站上的招術到我們這里失效了,也就不用學了。
3、「謀事在人,成事在天」,不是說你對網站做了個把優化後你的網站一下子就跑到搜索結果的Top1了,因為還有網站流量、網站流量等多方面的因素,試想,一個無人問津的網站就是優化的再好,也難以想像它會被Google所青睞。所以,大家還是應該把心思放在如何網上網站內容和服務上,靠實力,靠網友的口碑,這才是一個網站真正的立足之地,而對於SEO,大家應該持有一個平和心態:我會盡量讓自己的網站取悅Google,但不是為了取悅而取悅,甚至用歪門邪道作弊,絕沒有好下場!
接下來,我就向大家介紹一下自己在SEO方面的心得體會,大家可以試著照做,未必有效,但絕對無害^_^
*頁面主題優化
一個頁面的部分是很重要的,許多SEO都堅信,Google會優先尋找這里的文字,因此好多網站就瘋狂的在這里寫下一堆關鍵字,希望增加被搜索的概率,就像我們的「電腦愛好者俱樂部」一樣:
呵呵,你會覺得Google這么傻嗎?這么容易就被一個title所左右了?其實,我們不妨老實一些,實事求是的寫下自己網站的名字,當然,網站的名字要考慮好,最好包含網站的主要內容,比如說,如果你的網站是一個原創文學站點,可能會起名叫「雅文軒」,很好聽,但不疼不癢,Google不會知道「雅文軒」是干什麼的,那麼這里你可以寫成「雅文軒原創文學」就好多了。
*頁面頭部優化
頁面頭部指的是代碼中部分,具體一點就是中的「Description(描述)」和「Keywords(關鍵字)」兩部分,這部分也是SEO們比較花心思的地方,理論一大堆!總結起來就是:
1、「描述」部分應該用近乎描述的語言寫下一段介紹你網站的文字,在這其中,你應該適當的對你網站的特色內容加以重復以求突出,比如:
這是我的朋友幫一個寵物店(http://longmao.com.cn/)製作的網站,他在描述中就恰到好處的介紹了網站的內容,同時反復強調了「龍貓」二字,這是比較合理的,而相比下邊這家網站的描述那:
這只能被搜索引擎忽略,因為很明顯這是在堆積關鍵字愚弄搜索引擎程序。
2、「關鍵字」部分也很簡單,你只需在這里列出你認為合適的,能突出網站內容的關鍵字就可以了,不要太多,10個8個就可以了,多了也沒用,搜索引擎只會瀏覽靠前的幾個,餘下的都是浪費。不過有一點大家要明白,現在的主流搜索引擎都不再依靠中的關鍵字了,因此,這部分內容我們也只是「例行公事」,個人覺得意義不大,不過總好過沒有。而且關鍵字的選擇也是一門學問,具體可以參考網上的相關文章,別像下面這個網站這樣做無聊的重復,顯得太傻。
*超鏈接優化
搜索引擎為何可以能夠索引全世界的網站,是因為各個搜索引擎程序中都有一個會自動「爬行」於互聯網上的智能機器人程序,這個機器人就是順著網站之間的鏈接游覽世界的,那麼我們就應該為它創造一個良好的爬行通道——合理的設置鏈接。
怎樣的鏈接才是合理的呢?你只需牢記以下幾點:
1、採用純文本鏈接,少用,最好是別用Flash動畫設置鏈接,因為搜索引擎無法識別Flash上的文字,許多公司、個人都喜歡酷酷的Flash動畫,網站的入口也做成Flash片斷,呵呵,這么做在目前幾乎就是「自尋死路」,搜索引擎很難光顧這樣的網站。而且個別設計者非常馬虎,把網站的入口鏈接放在了Flash上,有時因為網路繁忙、缺少Flash插件而導致用戶根本就看不到網站的內容,失敗,失敗中的失敗。
2、按規范書寫超鏈接,就像這樣:論壇 ,別小看這個title屬性,它既可以起到提示訪客的作用,也可以讓搜索引擎知道它要去哪裡,注意,別寫的太羅嗦:title="電腦愛好者論壇是全中國最酷最好的論壇" ,這么寫的人八成精神有問題,而且時間富餘的很。
3、最好別使用圖片熱點鏈接,理由和第一點差不多。
*圖片優化
圖片優化不是讓你修改圖片的大小、顏色,而是你應該為每個標簽加上alt屬性,就像這樣: ,alt屬性的作用是當圖片無法顯示時以文字作為替代顯示出來,而對於SEO來說,它可以令搜索引擎有機會索引你網站上的圖片,大家都用過和google的圖片搜索功能吧,你以為搜索引擎是怎麼找到圖片的,不會以為Google能看懂圖片吧!?對於一些確實沒什麼意義的圖片,最好也不要省略alt,而應該留空,即 alt=""。
*為網站製作一個「網站地圖」
什麼是網站地圖?說白了就是一個頁面,在這個頁面上呢,列出了你網站中各個欄目的入口地址,就像這個(http://longmao.com.cn/sitemap.htm),站點地圖的作用很大,首先,對於一個欄目眾多的網站,它可以幫助訪客最快速度找到所需的內容;二則,可以給搜索引擎提供一份自己網站的「鳥瞰圖」,方便搜索機器人依次索引整個網站。
*PageRank(pr值)
PR值是Google提出的一個重要參數,它標明了某個網站的重要程度,那麼pr值是如何確定的呢?目前普通的解釋為:假如有ABC三個網站,彼此互作友情鏈接,那麼當一個訪客通過A上的友情鏈接來到B時,Google就認為A為B投了「一票」,同理,如果有人從C訪問B,那麼B又得一票,如果全世界的網站上都有B的友情鏈接,呵呵,可想而知,B就是世界上最重要的網站了!
那麼如何提供我們自己的pr哪,找別人交換鏈接啊!不過不能亂找,也不能狂找,而應該找一些和自己網站內容相近,且較為優秀的網站,當然,你自己的網站也不能太差,誰會願意和一個臭棋簍子下棋啊^_^
切記!不要瘋狂的交換鏈接,如果你的首頁上一下子搞了幾百個友情鏈接,呵呵,Google不但不會提升你的pr,沒准還得認為你作弊,從而把你從自己的資料庫中刪除,到時你就哭吧。
*靜態頁面與動態頁面
目前所有的SEO都認為,Google一類的搜索引擎會盡量避免索引帶有參數動態頁面,而喜歡索引普通的靜態頁面,這一點並未得到Google等搜索引擎的明確回答,但從效果來看是這樣,畢竟動態頁面的變數太大,舉個例子,你發了一個帖子,可能在論壇某板塊的第1頁上,可隨著跟貼的增加你的發言可能就被擠到第10頁上了,你說搜索引擎是不是很頭疼啊。
因此,製作網站的時候,最好避免使用動態頁面,或者改良技術,讓動態頁面自動生成對應的靜態頁面,既能便於搜索引擎收錄,也可以降低網站伺服器、資料庫負擔,一舉兩得,不過這也不是覺對的,還是那句話,網站流量決定一切,即便是一個全部採用動態頁面的網站,但因為很受歡迎訪客不斷,那麼它還是會被搜索引擎青睞,還是會出現在搜索結果的前列。而且,隨著技術的進步,搜索引擎也會改進,搜索動態頁面將來必定會更加容易。
*避免大「體積」的頁面
有經驗標明,搜索引擎不喜歡索引大體積的頁面,即一個頁面代碼部分的體積不要太大,控制在100kb內為佳,我見過一個網站,其首頁光HTML代碼部分的體積就高達近300kb,呵呵,每次瀏覽它都相當於下載一個小軟體了,多虧現在是寬頻,要是以前用56k小貓,非得以為死機了不可。
*最重要的一點!合理的代碼結構
搜索引擎喜歡格式清晰,結構分明的頁面,理論上XML是最合乎搜索引擎的胃口了,呵呵,當然,這太極端了,不過如果採用最新的XHTML+CSS技術將頁面數據同表現分離,即避免大量嵌套表格和其它冗餘的代碼還是能夠完美實現這一要求的。為了說明這個問題,請允許我再次幫朋友的網站做下廣告,呵呵,別看廣告,看療效!
案例1:http://www.jitapu.com/
這個網站是朋友2個月前開辦的,內容是為吉他愛好者提供曲譜,網站本身並未作特別的優化,但是在頁面製作上完全採用了符合web標準的XHTML 1.0 + CSS2技術構建,大家可以看一下它上面每個頁面的源代碼,是不是非常清晰,沒有通常所見的凌亂的表格嵌套?就是這么一個個人站點,Google中「吉他譜」搜索排名第一,「吉他」搜索也是前2頁;就因為這樣,每天都有大量尋找吉他譜的人通過Google找到這里,根本不用他費力去做什麼宣傳,羨慕+嫉妒!
案例2:http://longmao.com.cn/
一個專門銷售寵物龍貓的店鋪主頁,建立時間近半個月,流量少得可憐,但因為同樣採用了web標准開發,同時進行了適當優化,目前在Google中以「龍貓」為關鍵字搜索就進入了前3頁;以「龍貓價格」搜索,排名第一頁第二位,而這兩個關鍵字的使用頻率還是很高的。
之所以舉這兩個網站,一來是想幫朋友宣傳一下,二來是兩個網站從建設開始我都是一直關注的,他們在搜索結果中的排名變化也是我親眼目睹的,因為我和朋友都對SEO都不是很了解,但就是因為採用了web標准製作頁面,讓網站頁面有了一個非常清晰的結構,也許真的就碰巧迎合了Google的搜索習慣了吧。當然,XHTML對於一些朋友還是有難度的,不過大家同樣可以採用正確的HTML 4.01標准製作頁面,竅門就是一個:多多使用CSS樣式,減少代碼中的修飾部分,比如文章標題就應該採用
來表示,段落就採用
而不是
等等,這部分細說起來很麻煩,需要大家自己學習研究,現在國內的專業SEO們也開始重視XHTML技術,因為他們發現,XHTML可以切實滿足建立一個「結構良好、條例清晰」的頁面的這個要求。
好了,我本人的心得就是這么多,SEO是一個考經驗取勝的領域,學習它不是那麼直觀,重要的是提高自己的技術、平時注意觀察、多留意這方面的新聞。現在國內有人出了一本專門講授SEO經驗的電子書,售價高達2、3千元,大家還是不要相信的好,不是說這個人是騙子,只是這門技術變化太快,如果自己沒有這個悟性的話,今天學會了明天就可能用不上了,白白浪費錢財。
⑦ 為什麼我站在GOOGLE上搜索是,網址前要加site:才可以搜到我的站
網址上加site表示google目前收錄你網站的相關信息的數量……
不加site直接搜索如果沒有搜到你的網站的話,說明GOOGLE目前還沒有收錄你的網站……
給你提供下面一個辦法
安裝GOOGLE工具條訪問網頁不能提高網站的PR值,提高網站的PR值可參照下面的方法:
1.登陸dmoz,yahoo,looksmart,zeal等目錄,這里目錄的連接價值一個頂10個其他連接
2.多跟內容好,主題相近和高質量(PR高,頁面內出連少——連接到其他站點的連接數量少)的網站做友情連接
3.可以主動到留言本,blog,wiki和其他地方製造連接
4.注意不要連接到作弊的站點,不然可能殃及池魚被搜索引擎懲罰
其中第3條是製造連接的普遍方法,可是本人不推薦,垃圾站可以用這條,要是想好好做一個站,還是謹慎使用
PR是英文Pagerank 的縮寫形式,Pagerank取自Google的創始人LarryPage,它是Google排名運演算法則(排名公式)的一部分,Pagerank是Google對網頁重要性的評估,是Google用來衡量一個網站的好壞的唯一標准。PR值的級別從1到10級,10級為滿分。PR值越高說明該網頁越受歡迎。Google把自己的網站的PR值定到9,這說明Google這個網站是非常受歡迎的,也可以說這個網站非常重要。一個PR值為1的網站表明這個網站不太具有流行度,而PR值為7到10則表明這個網站非常受歡迎。那麼PR值都受那些因素影響呢?下面我們一起來看看。
一、網站外部鏈接的質量和數量在計算網站排名時,Pagerank會將網站的外部鏈接數考慮進去。並不能說一個網站的外部鏈接數越多其PR值就越高,如果這樣的話,一個網站盡可能獲得最多的外部鏈接就OK了,有這種想法是錯誤的。Google對一個網站上的外部鏈接數的重視程度並不意味著你因此可以不求策略地與任何網站建立連接。這是因為Google並不是簡單地由計算網站的外部鏈接數來決定其等級
通常的Google登陸辦法就是通過Google登錄頁面向Google搜索引擎提交.
地址:http://www.google.com/intl/zh-CN/add_url.html
雖然一般而言,只要提交了一個頁面,Google會自動搜索到你其他的頁面,但是假如你的頁面連接是圖片或者FLASH按鈕等,你最好還是將主要頁面都向GOOGLE提交一下。就算你的是文字連接,也可以多次向GOOGLE提交的,反正沒有什麼壞處。這個方法登陸Google一般沒有你想想的那麼快,短了三五天,長了就難說了。
最簡單的辦法就是在流量非常大,Google天天光顧的網站或者網頁上做超連接,文字連接效果最好! 這招雖然比普通的登陸辦法麻煩些,但是效果是非常明顯的。這種連接越多越好,不光可以讓你快速的被GOOGLE收錄,而且還可以快速的在Google中提升你網站的的PageRank
同時,為了保證GOOGLE能夠收錄你更多的頁面,你最好做一個網站地圖,網站地圖製作軟體。
希望能幫到你……
⑧ 這個鏈接下的源代碼是什麼
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>合租女孩洗澡不關門,用手機拍了幾張相片。。【好圖共賞】 |女人心情_ 搖籃論壇 </title>
<meta name="keywords" content="" />
<meta name="description" content=" 搖籃論壇 " />
<link rel="archives" title="搖籃論壇" href="http://bbs.yaolan.com/archiver/" />
<link href="http://loginbar.yaolan.com/css/dh.css" rel="stylesheet" type="text/css" />
<style type="text/css">
.dh_nav_r_m .menu input{ margin-top:6px;padding:0;}
</style>
<link rel="stylesheet" type="text/css" href="forumdata/cache/style_7_viewthread.css" />
<link rel="stylesheet" type="text/css" href="forumdata/cache/style_7_common.css" />
<script type="text/javascript">
var discuz_uid = 0;var IMGDIR = 'images/default';var attackevasive = '0';var gid = 0;var STYLEID = '7';
gid = parseInt('204');var fid = parseInt('24');var tid = parseInt('51269126');
</script>
<script src="include/javascript/common.js" type="text/javascript"></script>
<script src="http://bbs.yaolan.com/Js/jAppear.js?v=20081030" type="text/javascript"></script>
<link href="http://bbs.yaolan.com/css/Popo.css?v=20081030" rel="stylesheet" type="text/css" />
</head>
<body onkeydown="if(event.keyCode==27) return false;" onload="ShopAuth(3,'onload');">
<div id="menuinfo" >
<div id="nav_nav">
<script src="http://loginbar.yaolan.com/GetUserInfo.aspx" type="text/javascript"></script>
<script src="http://my.yaolan.com/Message/GetNewInfosCount1.aspx" type="text/javascript"></script>
<script src="http://loginbar.yaolan.com/js/loginbar.js" type="text/javascript"></script>
<ul style="width:450px">
<li class="menu1 wc_nav_bg1"><a href="http://www.yaolan.com/" target="_blank" class="wc_nav_nav">搖籃首頁</a></li>
<li class="menu1 wc_nav_bg1"><a href="http://abc.yaolan.com/" target="_blank" class="wc_nav_nav">成長階梯</a></li>
<li class="menu1 wc_nav_bg1"><a href="http://www.yaolan.com/index/" target="_blank" class="wc_nav_nav">育兒知識</a></li>
<li class="menu2 wc_nav_bg2" onmouseover="this.className='menu1 wc_nav_bg2'" onmouseout="this.className='menu2 wc_nav_bg2'">
<a href="http://ask.yaolan.com/" target="_blank" class="wc_nav_nav">育兒問答</a>
<div class="list">
<a href="http://www.1.yaolan.com/shequ/chat/index.asp" target="_blank">專家在線</a><br />
</div>
</li>
<li class="menu2 wc_nav_bg2" onmouseover="this.className='menu1 wc_nav_bg2'" onmouseout="this.className='menu2 wc_nav_bg2'">
<a href="http://baobao.yaolan.com/" target="_blank" class="wc_nav_nav">寶貝主頁</a>
<div class="list">
<a href="http://baobao.yaolan.com/jsp/bloglist/list.jsp" target="_blank">寶寶日記</a><br />
<a href="http://cn.yaolan.com/cn/" target="_blank">寶寶域名</a><br />
<a href="http://diy.yaolan.com/" target="_blank">個性定製</a><br />
<a href="http://bless.yaolan.com/getKnot.aspx" target="_blank">送祝福</a><br />
</div>
</li>
<li class="menu1 wc_nav_bg1"><a href="http://bbs.yaolan.com/" target="_blank" class="wc_nav_nav">
育兒論壇</a></li>
<li class="menu2 wc_nav_bg2" onmouseover="this.className='menu1 wc_nav_bg2'" onmouseout="this.className='menu2 wc_nav_bg2'">
<a href="http://emag.yaolan.com/" target="_blank" class="wc_nav_nav">電子雜志</a>
<div class="list">
<a href="http://emag.yaolan.com/ezine/mama.shtml" target="_blank">准媽媽系列</a><br />
<a href="http://emag.yaolan.com/ezine/0-1.shtml" target="_blank">0-1系列</a><br />
<a href="http://emag.yaolan.com/ezine/1-3.shtml" target="_blank">1-3系列</a><br />
</div>
</li>
</ul>
</div>
</div>
<div id="append_parent"></div><div id="ajaxwaitid"></div>
<div class="wrap">
<div id="header">
<h2><div style="margin-top:15px"><a href="index.html" title="搖籃論壇"><img src="images/default/bbslogo.jpg" alt="搖籃論壇" border="0" /></a></div></h2>
<div id="ad_headerbanner"><iframe id="banner2" width="630" height="65" scrolling="no" frameborder="0" marginheight="0" marginwidth="0" class="left" src="http://adnet.yaolan.com/GetCommonAds.aspx?pos_id=321" ></iframe></div>
</div>
<div style="width:100%; height:30px; background-color:#FFBABC; " >
<form action="http://search.yaolan.com/luntan/ss.jsp" method="get" target="_blank">
<div style="width:205px; height:21px; margin:5px 0 0 15px; float:left;">
<select name="searchfw">
<option value="0" selected="selected">全部</option>
<option value="1">主題</option>
<option value="2">作者</option>
</select>
<input name="searchword" id="searchword" onmouseover="this.select();" onkeydown="checkKey(event, document.getElementById('lnkSearch'))" type="text" style="width:102px; " />
<input value="" type="Submit" class="dzwc_b1" />
</div>
<span style=" height:30px; line-height:30px; float:left;">
</span>
</form>
</div>
<style type="text/css">
.defaultpost { height: auto !important; height:120px; min-height:120px !important; }
</style>
<script src="include/javascript/viewthread.js" type="text/javascript"></script>
<script type="text/javascript">zoomstatus = parseInt(1);</script>
<div id="infosidemain">
<div id="foruminfo">
<div id="nav">
<div class="userinfolist">
<p style="font-size:14px;"><a href="index.html" id="forumlist" onmouseover="showMenu(this.id)" class="dropmenu">搖籃論壇</a> » <a href="board_24.aspx">女人心情</a> » 合租女孩洗澡不關門,用手機拍了幾張相片。。【好圖共賞】</p>
</div>
</div>
<div id="headsearch">
</div>
</div>
<div id="ad_text"></div>
<div class="pages_btns">
<div class="threadflow"><a href="redirect.php?fid=24&tid=51269126&goto=nextoldset"> ‹‹ 上一主題</a> | <a href="redirect.php?fid=24&tid=51269126&goto=nextnewset">下一主題 ››</a></div>
<div class="pages"><em>44</em><strong>1</strong><a href="thread_51269126_2.aspx" >2</a><a href="thread_51269126_2.aspx" class="next">››</a></div> <a href="#tobottom" style="float:right;margin:10px 0 0 10px; color:#666666; text-decoration:underline">到樓底</a>
<span class="postbtn" id="newspecial" onmouseover="$('newspecial').id = 'newspecialtmp';this.id = 'newspecial';showMenu(this.id)"><a target="_blank" href="post.php?action=newthread&fid=24&extra="><img src="images/default/newtopic.gif" border="0" alt="發新話題" title="發新話題" /></a></span>
<span class="replybtn"><a href="post.php?action=reply&fid=24&tid=51269126&extra="><img src="images/default/reply.gif" border="0" alt="" /></a></span></div>
<ul class="popupmenu_popup newspecialmenu" id="newspecial_menu" style="display: none">
<li><a target="_blank" href="post.php?action=newthread&fid=24&extra=">發新話題</a></li>
<li class="poll"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=1">發布投票</a></li> <li class="trade"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=2">發布商品</a></li> <li class="reward"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=3">發布懸賞</a></li> <li class="activity"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=4">發布活動</a></li> <li class="debate"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=5">發布辯論</a></li> <li class="video"><a target="_blank" href="post.php?action=newthread&fid=24&extra=&special=6">發布視頻</a></li> </ul>
<form method="post" name="modactions">
<input type="hidden" name="formhash" value="7150568c" />
<div class="mainbox viewthread " style=" background:url(images/default/bbs_bg7.gif) repeat-x top" >
<span class="headactions">
</span>
<h1><span class="kv_threadtitle">[主題]<a href="forumdisplay.php?fid=24&filter=type&typeid=48">[家長里短]</a> 合租女孩洗澡不關門,用手機拍了幾張相片。。【好圖共賞】</span>
</h1>
<table id="pid51598839" summary="pid51598839" cellspacing="0" cellpadding="0">
<tr>
<td class="postauthor">
<div class="online" >
<cite>
<a href="http://space.yaolan.com/50036303" target="_blank" id="userinfo51598839" class="dropmenu" onmouseover="showMenu(this.id)">狂戰</a>
<em>其它</em>
</cite>
</div>
<table border="0" cellspacing="0" cellpadding="0">
<tr>
<td valign="top" >
<b style="color:#009900;width:100px;display:block">新生搖精</b>
<a href="http://space.yaolan.com/50036303" target="_blank" >
<a border="0" target="_blank" href="http://space.yaolan.com/50036303"><img src="/uc/images/noavatar_middle.gif" onerror="this.onerror=null;this.src='/uc/images/noavatar_middle.gif'" width="90" height="90"></a>
</a>
<br/>
<a href="http://space.yaolan.com/50036303" target="_blank" border="0"><img src="/images/headpng/head_1_0_0.png" /></a>
<p style="text-align:center;"><a href="http://www.yaolan.com/help/article2007_462561627026.shtml" target="_blank" border="0"><font color="#ff6600" style="font-size:12px;" >新生搖精</font></a></p>
</td>
<td >
<a name="newpost"></a>
<!-- <p><img src="images/default/star_level1.gif" alt="Rank: 1" /></p>-->
<ul>
<li></li>
<li class="pm"><a href="http://my.yaolan.com/Message/NewWriteMessage.aspx?u=50036303" target="_blank">短消息</a></li>
<li class="buddy"><a href="http://space.yaolan.com/50036303/friends/addfriend.html" target="_blank">加好友</a></li>
<li class="space"><a href="http://space.yaolan.com/50036303/BBS" target="_blank">帖子集</a></li>
</ul>
<DIV style="margin:25px 0 0 5px;color:#999">活力: 192</DIV>
<DIV style="margin:0 0 0 5px;color:#999">魅力: 100</DIV>
<DIV style="margin:0 0 0 5px;color:#999">文采: 102</DIV>
</td>
</tr>
</table>
</td>
<td class="postcontent">
<div class="postinfo" style="background:#FFD8D9">
<strong>1<sup>#</sup></strong>
<em title="復制帖子鏈接到剪貼板" id="postnum51598839" onclick="set('http://bbs.yaolan.com/viewthread.php?tid=51269126&page=1#pid51598839', '帖子鏈接已經復制到剪貼板')"><a href="#">復制本樓地址</a></em>
<em><a href="viewthread.php?tid=51269126&page=1&authorid=50036303" rel="nofollow">只看該作者</a></em>
發表於 2009-3-16 14:40 瀏覽:532 回復:43
</div>
<div id="ad_thread2_0"></div> <div class="postmessage defaultpost" style="background:#FFFFFF">
<div id="ad_thread3_0"></div><div id="ad_thread4_0"></div>
<div id="postmessage_51598839" class="t_msgfont" style="padding:10px;"><img src="http://www.funbq.com/img/216/bq51551475.jpg" border="0" onclick="zoom(this, this.src)" onload="attachimg(this, 'load')" alt="" /><br />
一、此貼為調查貼,為配合公安部第二次全國色狼普查實名登記制,特發此貼,被標題吸引進入瀏覽的,不論男女,皆為色狼. <br />
<br />
二、帖子被瀏覽數即為色狼數量,統計結果截止到2009年8月31日. <br />
<br />
三、瀏覽此貼時,系統已自動記錄瀏覽者的ip地址以及論壇id,請勿抱有僥幸心理. <br />
<br />
四、不要說沒看清或點錯了之類的鬼話來為自己辯解 <br />
<br />
五、請於觀看此貼20日內與戶口所在地街道辦事處或派出所自帶小板凳聯系備案 <br />
<br />
六、此次調查結果將於2009年中在各地方電視台滾動播出,敬請期待。。。。。。。。<br />
<br />
[<i> 本帖最後由 狂戰 於 2009-3-16 15:17 編輯 </i>]</div>
⑨ 0.......
2001年秋天互聯網公司(dot-com)泡沫的破滅標志著互聯網的一個轉折點。許多人斷定互聯網被過分炒作,事實上網路泡沫和相繼而來的股市大衰退看起來像是所有技術革命的共同特徵。股市大衰退通常標志著蒸蒸日上的技術已經開始佔領中央舞台。假冒者被驅逐,而真正成功的故事展示了它們的力量,同時人們開始理解了是什麼將一個故事同另外一個區分開來。
「Web 2.0」的概念開始於一個會議中,展開於O'Reilly公司和MediaLive國際公司之間的頭腦風暴部分。所謂互聯網先驅和O'Reilly公司副總裁的戴爾·多爾蒂(Dale Dougherty)注意到,同所謂的「崩潰」迥然不同,互聯網比其他任何時候都更重要,令人激動的新應用程序和網站正在以令人驚訝的規律性涌現出來。更重要的是,那些倖免於當初網路泡沫的公司,看起來有一些共同之處。那麼會不會是互聯網公司那場泡沫的破滅標志了互聯網的一種轉折,以至於呼籲「Web 2.0」的行動有了意義?我們都認同這種觀點,Web 2.0會議由此誕生。
在那個會議之後的一年半的時間里,「Web 2.0」一詞已經深入人心,從Google上可以搜索到950萬以上的鏈接。但是,至今關於Web 2.0的含義仍存在極大的分歧,一些人將Web 2.0貶低為毫無疑義的一個行銷炒作口號,而其他一些人則將之理解為一種新的傳統理念。
本文就是來嘗試澄清Web 2.0本來意義。
在我們當初的頭腦風暴中,我們已經用一些例子,公式化地表達了我們對Web 2.0的理解:
Web 1.0 Web 2.0
DoubleClick Google AdSense
Ofoto Flickr
Akamai BitTorrent
mp3.com Napster
大英網路全書在線(Britannica Online) 維基網路全書(Wikipedia)
個人網站 博客(blogging)
evite upcoming.org和EVDB
域名投機 搜索引擎優化
頁面瀏覽數 每次點擊成本
屏幕抓取(screen scraping) 網路服務(web services)
發布 參與
內容管理系統 維基
目錄(分類) 標簽(「分眾分類」,folksonomy)
粘性 聚合
這個列表還會不斷繼續下去。但是到底是什麼,使得我們認定一個應用程序或一種方式為作所謂「Web 1.0」,而把另外一個叫做「Web 2.0」呢?(這個問題尤為緊迫,因為Web 2.0的觀念已經傳播的如此廣泛,以至於很多公司正在將這個詞加到他們的行銷炒作中,但卻沒有真正理解其含義。同時這個問題也尤為困難,因為許多嗜好口號的創業公司顯然不是Web 2.0,而一些我們認為是Web 2.0的應用程序,例如Napster和BitTorrent,甚至不是真正適當的網路程序!)我們首先來探討一些原則,這些原則是通過Web 1.0的一些成功案例,以及一些最為有趣的新型應用程序來體現的。
1. 互聯網作為平台
正如許多重要的理念一樣,Web 2.0沒有一個明確的界限,而是一個重力核心。不妨將Web 2.0視作一組原則和實踐,由此來把距離核心或遠或近的網站組成為一個類似太陽系的網路系統,這些網站或多或少地體現著Web 2.0的原則。
圖1為Web 2.0的「模擬圖」,該圖是在名為「O'Reilly的朋友」(Friend Of O』reilly, FOO)的會議的一個研討會上產生的。這個圖基本上仍處於演化階段,但已經描繪出了 從Web 2.0核心理念中衍生出的許多概念。
例如,在2004年10月的第一次Web 2.0的會議上,約翰·巴特利(John Battelle)和我在我們各自的開場白中列舉了一組初步的原則。
這些原則中的第一條就是「互聯網作為平台」。這也曾是Web 1.0的寵兒網景公司(Netscape)的戰鬥口號,而網景在同微軟的大戰中隕落了。此外,我們早先的Web 1.0的楷模中的兩個,DoubleClick和Akamai公司,皆是將網路當作平台的先驅。人們往往不認為這是一種網路服務,但事實上,廣告服務是第一個被廣泛應用的網路服務,同時也是第一個被廣泛應用的混合處理(mashup),如果用另一個近來流行的詞來說的話。每個旗幟廣告(banner ad)都是用來在兩個網站之前無縫合作,向位於另外一台計算機上的讀者傳遞一個整合好的頁面。
Akamai也將網路看作平台,並且在一個更深入的層次上,來搭建一個透明的緩存和內容分發網路,以便降低寬頻的擁塞程度。
雖然如此,這些先驅提供了有益的對比,因為後來者遇到同樣問題的時候,可以將先驅們的解決方案進一步延伸,從而對新平台本質的理解也更為深刻了。DoubleClick和Akamai都是Web 2.0的先驅,同時我們也可以看到,可以通過引入更多Web 2.0的設計模式,來實現更多的應用。
讓我們對這三個案例中的每一個都作一番深究,來探討其間的一些本質性的差別。
Netscape 對 Google
如果Netscape可以稱為Web 1.0的旗手,那麼Google幾乎可以肯定是Web 2.0的旗手,只要看看他們的首次公開上市(IPO)是如何地揭示了各自的時代就清楚了。所以我們就從這兩個公司和其定位的差別入手。
Netscape以傳統的軟體摹本來勾勒其所謂「互聯網作為平台」:他們的旗艦產品是互聯網瀏覽器,一個桌面應用程序。同時,他們的戰略是利用他們在瀏覽器市場的統治地位,來為其昂貴的伺服器產品建立起市場。從理論上講,在瀏覽器中控制顯示內容和程序的標准,賦予了Netscape一種市場支配力,如同微軟公司在個人計算機市場上所享受的一樣。很像當初「自行的馬車」(horseless carriage)將汽車描繪為一種熟知事物的延伸,Netscape曾推銷一種網路桌面(webtop)來替代傳統的桌面(desktop),並且計劃藉助信息更新,以及由購買了Netscape伺服器的信息提供者來推送的各種小程序,來開發推廣這種網路桌面。
最終,瀏覽器和網路伺服器都變成了「日用品」,同時價值鏈條也向上移動到了在互聯網平台上傳遞的服務。
作為對比,Google則以天生的網路應用程序的角色問世,它從不出售或者打包其程序,而是以服務的方式來傳遞。客戶們直接或間接地為其所使用的服務向Google付費。原有軟體工業缺陷盪然無存。沒有了定期的軟體發布,只需要持續的改善。沒有了許可證或銷售,只需要使用。沒有了為了讓用戶在其設備上運行軟體而不得不進行的平台遷移,只需要搭建宏大的、由眾多個人計算機組成的、可伸縮的網路,其上運行開源操作系統,及其及自行研製的應用程序和工具,而公司之外的任何人則永遠無法接觸到這些東西。
在其底層,Google需要一種Netscape從未需要過的能力:資料庫管理。Google遠遠不只是一個軟體工具的集合,它是一個專業化的資料庫。沒有這些數據,那些工具將毫無用武之地;沒有這些軟體,數據也將無可控制。軟體許可證制度和對應用程序介面(API)的控制——上一個時代的法寶——已經毫不相關了,因為Google的軟體只需要執行而從不需要分發,也因為如果不具備收集和管理數據的能力,軟體本身就沒有什麼用處了。事實上,軟體的價值是同它所協助管理的數據的規模和活性成正比的。
Google的服務不是一個簡單的伺服器,雖然其服務是通過大規模的互聯網伺服器集合來傳遞的;其服務也不是一個瀏覽器,雖然這種服務是被用戶在瀏覽器中體驗到的。Google的旗艦產品——搜索服務,甚至不託管它讓用戶來搜尋的內容。很像一個電話通話過程,不僅發生在通話的兩端,而且發生在中間的網路上。作為用戶和其在線體驗的一個中介,Google作用於瀏覽器、搜索引擎和最終的內容伺服器之間的空間中。
雖然Netscape和Google都可以被描述為軟體公司,但顯然Netscape可以歸到Lotus,Microsoft,Oracle,SAP,以及其他發源於上個世紀八十年代軟體革命的那些公司所組成的軟體世界。而Google的同伴們,則是像eBay,Amazon,Napster,及至DoubleClick和Akamai這樣的互聯網公司。
DoubleClick對Overture和AdSense
同Google類似,DoubleClick是一個名副其實的互聯網時代的孩子。它把軟體作為一種服務,在數據管理方面具有核心競爭力,並且正如上文所述,它是一個早在連網路服務的名字還不曾有的時候,就已然開始其服務的先驅。然而,DoubleClick最終還是被其商業模式局限住了。它所貫徹的是九十年代的互聯網觀念。這種觀念圍繞著出版,而不是參與;圍繞著廣告客戶,而不是消費者,來進行操縱;圍繞著規模,認為互聯網會被如MediaMetrix等網路廣告評測公司尺度下的所謂頂級網站所統治。
結果是,DoubleClick得意地在其網站上引用道:「超過2000種的成功應用」。而相對比的是,Yahoo!公司的搜索市場(從前的Overture)和Google的AdSense產品,已經在為幾十萬的廣告客戶服務。
Overture和Google的成功源自於對克里斯·安德森(Chris Anderson)提到的所謂「長尾」的領悟,即眾多小網站集體的力量提供了互聯網的大多數內容。DoubleClick的產品要求一種簽訂正式的銷售合同,並將其市場局限於很少的幾千個大型網站。Overture和Google則領會到如何將廣告放置到幾乎所有網頁上。更進一步地,它們迴避了發行商和廣告代理們所喜愛的廣告形式,例如旗幟廣告和彈出式廣告,而採用了干擾最小的、上下文敏感的、對用戶友好的文字廣告形式。
Web 2.0的經驗是:有效利用消費者的自助服務和演算法上的數據管理,以便能夠將觸角延伸至整個互聯網,延伸至各個邊緣而不僅僅是中心,延伸至長尾而不僅僅是頭部。
毫不奇怪,其他Web 2.0的成功故事也顯示著同樣的軌跡。eBay扮演著一個自動的中間媒介的角色,使個體之間發生的幾個美元的偶然性的交易成為可能。Napster(雖然已經出於法律原因而關閉)將其網路建立在一個集中的歌曲資料庫之上,但是它讓每一個下載者都成為一台伺服器,從而使其網路逐漸擴大。
Akamai 對 BitTorrent
同DoubleClick類似,Akamai的業務重點面向網路的頭部,而不是尾部;面向中心,而不是邊緣。雖然它服務於那些處於網路邊緣的個體的利益,為他們訪問位於互聯網中心的高需求的網站鋪平了道路,但它的收入仍然來自從那些位於中心的網站。
BitTorrent,像P2P風潮中的其他倡導者一樣,採用了一種激進的方式來達到互聯網去中心化(internet decentralization)的目的。每個客戶端同時也是一個伺服器;文件被分割成許多片段,從而可以由網路上的多個地方提供,透明地利用了網路的下載者來為其他下載者提供帶寬和數據。事實上,文件越流行下載得越快,因為有更多的用戶在為這個文件提供帶寬和各個片段。
BitTorrent由此顯示出Web 2.0的一個關鍵原則:用戶越多,服務越好。一邊是Akamai必須增加伺服器來改善服務,另一邊是BitTorrent用戶將各自的資源貢獻給大家。可以說,有一種隱性的「參與體系」內置在合作準則中。在這種參與體系中,服務主要扮演著一個智能代理的作用,將網路上的各個邊緣連接起來,同時充分利用了用戶自身的力量。
2. 利用集體智慧
在誕生於Web 1.0時代並且存活了下來,而且要繼續領導Web 2.0時代的那些巨人的成功故事的背後,有一個核心原則,就是他們藉助了網路的力量來利用集體智慧:
--超級鏈接是互聯網的基礎。當用戶添加新的內容和新的網站的時候,將被限定在一種特定的網路結構中,這種網路結構是由其他用戶發現內容並建立鏈接的。如同大腦中的神經突觸,隨著彼此的聯系通過復制和強化變得越來越強,而作為所有網路用戶的所有活動的直接結果,互聯的網路將有機地成長。
--Yahoo!是第首例偉大的成功故事,誕生於一個分類目錄,或者說是鏈接目錄,一個對數萬甚至數百萬網路用戶的最精彩作品的匯總。雖然後來Yahoo!進入了創建五花八門的內容的業務,但其作為一個門戶來收集網路用戶們集體作品的角色,依然是其價值核心。
--Google在搜索方面的突破在於PageRank技術,該技術令其迅速成為搜索市場上毫無爭議的領導者。PageRank是一種利用了網路的鏈接結構,而不是僅僅是使用文檔的屬性,來實現更好的搜索效果的方法。
--eBay的產品是其全部用戶的集體活動,就向網路自身一樣,eBay隨著用戶的活動而有機地成長,而且該公司的角色是作為一個特定環境的促成者,而用戶的行動就發生在這種環境之中。更重要的是,eBay的競爭優勢幾乎都來自於關鍵性的大量的買家和賣家雙方,而這正是這一點使得後面許多競爭者的產品的吸引力顯著減低。
--Amazon銷售同Barnesandnoble.com等競爭者相同的產品,同時這些公司從賣方獲得的是同樣的產品描述、封面圖片和目錄。所不同的是,Amazon已然締造出了一門關於激發用戶參與的科學。Amazon擁有比其競爭者高出一個數量級以上的用戶評價,以及更多的邀請來讓用戶以五花八門的方式,在近乎所有的頁面上進行參與,而更為重要的是,他們利用用戶的活動來產生更好的搜索結果。Barnesandnoble.com的搜索結果很可能指向該公司自己的產品,或者是贊助商的結果,而Amazon則始終以所謂「最流行的」打頭,這是一種實時計算,不僅基於銷售,而且基於其他一些被Amazon內部人士稱為圍繞著產品「流動」(flow)的因素。由於擁有高出對手一個數量級的用戶參與,Amazon銷售額超出競爭對手也就不足為奇了。
現在,具備了這種洞察力,並且可能會將之延伸開來的那些創新型的公司,正在互聯網上留下他們的印跡。
維基網路全書(Wikipedia)是一種在線網路全書,其實現基於一種看似不可能的觀念。該觀念認為一個條目可以被任何互聯網用戶所添加,同時可以被其他任何人編輯。無疑,這是對信任的一種極端的實驗,將埃里克·雷蒙德(Eric Raymond)的格言(源自開放源碼軟體的背景之下):「有足夠的眼球,所有的程序缺陷都是膚淺的」(with enough eyeballs, all bugs are shallow)運用到了內容的創建之中。維基網路全書已然高居世界網站百強之列,並且許多人認為它不久就將位列十強。這在內容創建方面是一種深遠的變革。
像del.icio.us(美味書簽)和Flickr這樣的網站,其公司已經在近期獲得了廣泛的關注,並且已經在一種被人們成為「分眾分類」(folksonomy,有別於傳統分類法)的概念上成為先行者。「分眾分類」是一種使用用戶自由選擇的關鍵詞對網站進行協作分類的方式,而這些關鍵詞一般稱為標簽(tags)。標簽化運用了像大腦本身所使用的那種多重的、重疊的關聯,而不是死板的分類。舉一個經典的例子,在Flickr網站上,一幅小狗照片可能被加上「小狗」和「可愛」這樣的標簽,從而允許系統依照用戶行為所產生的自然的方式來進行檢索。
協作式垃圾信息過濾產品,例如Cloudmark,就聚集了電子郵件用戶們對於「一封郵件是或者不是垃圾郵件」的眾多相互獨立的決策,從而勝過了依賴於分析郵件本身的那些系統。
偉大的互聯網成功者並不主動地到處推銷其產品,這幾乎成為公理。他們採用「病毒式營銷」(viral marketing)的方式,也就是說,一些推介會直接從一個用戶傳播到另外一個用戶。如何一個網站或產品依賴廣告來進行宣傳,你幾乎可以斷定它不是Web 2.0。
即便許多互聯網基礎設施本身,包括在大多數網路伺服器中用到的Linux,Apache,MySQL,以及Perl,PHP或Python代碼,也都依靠開放源碼的對等生產(peer-proction)的方式。其中包含了一種集體的、網路賦予的智慧。在SourceForge.net網站上列有至少10萬種開放源碼軟體項目。任何人都可以添加一個項目,任何人都可以下載並使用項目代碼。
同時,由於作為用戶使用的結果,新的項目從邊緣遷移到中心。一個對軟體的有機的接受過程幾乎完全依靠病毒式營銷。同時,作為用戶應用的結果,新的項目從邊緣遷移到中心,這是一種幾乎完全依靠病毒式營銷的,有機的軟體採用過程,。
經驗是:源於用戶貢獻的網路效應,是在Web 2.0時代中統治市場的關鍵。
⑩ jieba分詞詳解
「結巴」分詞是一個Python 中文分片語件,參見 https://github.com/fxsjy/jieba
可以對中文文本進行 分詞、詞性標注、關鍵詞抽取 等功能,並且支持自定義詞典。
本文包括以下內容:
1、jieba分詞包的 安裝
2、jieba分詞的 使用教程
3、jieba分詞的 工作原理與工作流程
4、jieba分詞所涉及到的 HMM、TextRank、TF-IDF等演算法介紹
可以直接使用pip來進行安裝:
sudo pip install jieba
或者
sudo pip3 install jieba
關鍵詞抽取有兩種演算法,基於TF-IDF和基於TextRank:
jieba分詞有三種不同的分詞模式: 精確模式、全模式和搜索引擎模式 :
對應的,函數前加l即是對應得到list結果的函數:
精確模式是最常用的分詞方法,全模式會將句子中所有可能的詞都列舉出來,搜索引擎模式則適用於搜索引擎使用。具體的差別可在下一節工作流程的分析中詳述。
在上述每個函數中,都有名為HMM的參數。這一項表示是否在分詞過程中利用HMM進行新詞發現。關於HMM,本文附錄中將簡述相關知識。
另外分詞支持自定義字典,詞典格式和 dict.txt 一樣,一個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。
具體使用方法為:
關鍵詞抽取的兩個函數的完整參數為:
可以通過
來打開或關閉並行分詞功能。
個人感覺一般用不到,大文件分詞需要手動實現多進程並行,句子分詞也不至於用這個。
jieba分詞主要通過詞典來進行分詞及詞性標注,兩者使用了一個相同的詞典。正因如此,分詞的結果優劣將很大程度上取決於詞典,雖然使用了HMM來進行新詞發現。
jieba分詞包整體的工作流程如下圖所示:
下面將根據源碼詳細地分析各個模塊的工作流程。
在之後幾節中,我們在 藍色的方框 中示範了關鍵步驟的輸出樣例或詞典文件的格式樣例。在本節中都採用類似的表示方式。
jieba分詞中,首先通過對照典生成句子的 有向無環圖 ,再根據選擇的模式不同,根據詞典 尋找最短路徑 後對句子進行截取或直接對句子進行截取。對於未登陸詞(不在詞典中的詞)使用 HMM 進行新詞發現。
詞典的格式應為
word1 freq1 word_type1
word2 freq2 word_type2
…
其中自定義用戶詞典中詞性word_type可以省略。
詞典在其他模塊的流程中可能也會用到,為方便敘述,後續的流程圖中將會省略詞典的初始化部分。
圖b演示了搜索引擎模式的工作流程,它會在精確模式分詞的基礎上,將長詞再次進行切分。
在這里我們假定讀者已經了解HMM相關知識,如果沒有可先行閱讀下一章內容中的HMM相關部分或者跳過本節。
在jieba分詞中,將字在詞中的位置B、M、E、S作為隱藏狀態,字是觀測狀態,使用了詞典文件分別存儲字之間的表現概率矩陣(finalseg/prob_emit.py)、初始概率向量(finalseg/prob_start.py)和轉移概率矩陣(finalseg/prob_trans.py)。這就是一個標準的 解碼問題 ,根據概率再利用 viterbi演算法 對最大可能的隱藏狀態進行求解。
詞性分析部分與分詞模塊用了同一個基礎的分詞器,對於詞典詞的詞性,將直接從詞典中提取,但是對於新詞,詞性分析部分有一個 專屬的新詞及其詞性的發現模塊 。
用於詞性標注的HMM模型與用於分詞的HMM模型相似,同樣將文字序列視為可見狀態,但是隱藏狀態不再是單單的詞的位置(B/E/M/S),而變成了詞的位置與詞性的組合,如(B,v)(B,n)(S,n)等等。因此其初始概率向量、轉移概率矩陣和表現概率矩陣和上一節中所用的相比都要龐大的多,但是其本質以及運算步驟都沒有變化。
具體的工作流程如下圖所示。
jieba分詞中有兩種不同的用於關鍵詞抽取的演算法,分別為TextRank和TF-IDF。實現流程比較簡單,其核心在於演算法本身。下面簡單地畫出實現流程,具體的演算法可以參閱下一章內容。
TextRank方法默認篩選詞性,而TF-IDF方法模型不進行詞性篩選。
在本章中,將會簡單介紹相關的演算法知識,主要包括用於新詞發現的 隱馬爾科夫模型 和 維特比演算法 、用於關鍵詞提取的 TextRank 和 TF-IDF 演算法。
HMM即隱馬爾科夫模型,是一種基於馬爾科夫假設的統計模型。之所以為「隱」,是因為相較於馬爾科夫過程HMM有著未知的參數。在世界上,能看到的往往都是表象,而事物的真正狀態往往都隱含在表象之下,並且與表象有一定的關聯關系。
其中,S、O分別表示狀態序列與觀測序列。
如果讀者還對這部分內容心存疑問,不妨先往下閱讀,下面我們將以一個比較簡單的例子對HMM及解碼演算法進行實際說明與演示,在讀完下一小節之後再回來看這些式子,或許能夠恍然大悟。
下面以一個簡單的例子來進行闡述:
假設小明有一個網友小紅,小紅每天都會在朋友圈說明自己今天做了什麼,並且假設其僅受當天天氣的影響,而當天的天氣也只受前一天天氣的影響。
於小明而言,小紅每天做了什麼是可見狀態,而小紅那裡的天氣如何就是隱藏狀態,這就構成了一個HMM模型。一個HMM模型需要有五個要素:隱藏狀態集、觀測集、轉移概率、觀測概率和初始狀態概率。
即在第j個隱藏狀態時,表現為i表現狀態的概率。式中的n和m表示隱藏狀態集和觀測集中的數量。
本例中在不同的天氣下,小紅要做不同事情的概率也不同, 觀測概率 以表格的形式呈現如下:
其中
除此之外,還需要一個初始狀態概率向量π,它表示了觀測開始時,即t=0時,隱藏狀態的概率值。本例中我們指定 π={0,0,1} 。
至此,一個完整的 隱馬爾科夫模型 已經定義完畢了。
HMM一般由三類問題:
概率計算問題 ,即給定 A,B,π 和隱藏狀態序列,計算觀測序列的概率;
預測問題 ,也成解碼問題,已知 A,B,π 和觀測序列,求最優可能對應的狀態序列;
學習問題 ,已知觀測序列,估計模型的 A,B,π 參數,使得在該模型下觀測序列的概率最大,即用極大似然估計的方法估計參數。
在jieba分詞中所用的是解碼問題,所以此處對預測問題和學習問題不做深入探討,在下一小節中我們將繼續以本節中的例子為例,對解碼問題進行求解。
在jieba分詞中,採用了HMM進行新詞發現,它將每一個字表示為B/M/E/S分別代表出現在詞頭、詞中、詞尾以及單字成詞。將B/M/E/S作為HMM的隱藏狀態,而連續的各個單字作為觀測狀態,其任務即為利用觀測狀態預測隱藏狀態,並且其模型的 A,B,π 概率已經給出在文件中,所以這是一個標準的解碼問題。在jieba分詞中採用了 Viterbi演算法 來進行求解。
Viterbi演算法的基本思想是: 如果最佳路徑經過一個點,那麼起始點到這個點的路徑一定是最短路徑,否則用起始點到這點更短的一條路徑代替這段,就會得到更短的路徑,這顯然是矛盾的;從起始點到結束點的路徑,必然要經過第n個時刻,假如第n個時刻有k個狀態,那麼最終路徑一定經過起始點到時刻n中k個狀態里最短路徑的點 。
將時刻t隱藏狀態為i所有可能的狀態轉移路徑i1到i2的狀態最大值記為
下面我們繼續以上一節中的例子來對viterbi演算法進行闡述:
小明不知道小紅是哪裡人,他只能通過小紅每天的活動來推斷那裡的天氣。
假設連續三天,小紅的活動依次為:「睡覺-打游戲-逛街」,我們將據此計算最有可能的天氣情況。
表示第一天為雨天能夠使得第二天為晴天的概率最大(也就是說如果第二天是晴天在最短路徑上的話,第一天是雨天也一定在最短路徑上,參見上文中Viterbi演算法的基本思想)
此時已經到了最後的時刻,我們開始回溯。
其計算過程示意圖如下圖所示。
)的路徑。
TF-IDF(詞頻-逆文本頻率)是一種用以評估字詞在文檔中重要程度的統計方法。它的核心思想是,如果某個詞在一篇文章中出現的頻率即TF高,並且在其他文檔中出現的很少,則認為這個詞有很好的類別區分能力。
其中:
TextRank是一種用以關鍵詞提取的演算法,因為是基於PageRank的,所以先介紹PageRank。
PageRank通過互聯網中的超鏈接關系確定一個網頁的排名,其公式是通過一種投票的思想來設計的:如果我們計算網頁A的PageRank值,那麼我們需要知道哪些網頁鏈接到A,即首先得到A的入鏈,然後通過入鏈給網頁A進行投票來計算A的PR值。其公式為:
其中:
d為阻尼系數,取值范圍為0-1,代表從一定點指向其他任意點的概率,一般取值0.85。
將上式多次迭代即可直到收斂即可得到結果。
TextRank演算法基於PageRank的思想,利用投票機制對文本中重要成分進行排序。如果兩個詞在一個固定大小的窗口內共同出現過,則認為兩個詞之間存在連線。
公式與PageRank的基本相同。多次迭代直至收斂,即可得到結果。
在jieba分詞中,TextRank設定的詞窗口大小為5,將公式1迭代10次的結果作為最終權重的結果,而不一定迭代至收斂。