php搜索分詞
⑴ php中function是什麼意思
function 就是自定義函數
如:
functionjia($a){
$b=$a+10;
return$b;
}
'以上就是一個自定義函數,下面看看怎麼使用它
echojia(『10』);
顯示結果為20 //這里jia就是自定義的函數名,這樣只要給$a任何數字返回的結果都為+10的結果,這樣就是自定義了一個函數,這個例子是很簡單的~ 不過通過自定義函數你會發現一切變得更好實現,加油 O(∩_∩)O
⑵ php和go語言哪個好
前言
最近工作中遇到的一個場景,php項目中需要使用一個第三方的功能,而恰好有一個用Golang寫好的類庫。那麼問題就來了,要如何實現不同語言之間的通信呢?下面就來一起看看吧。
常規的方案
1、 用Golang寫一個http/TCP服務,php通過http/TCP與Golang通信
2、將Golang經過較多封裝,做為php擴展。
3、PHP通過系統命令,調取Golang的可執行文件
存在的問題
1、http請求,網路I/O將會消耗大量時間
2、需要封裝大量代碼
3、PHP每調取一次Golang程序,就需要一次初始化,時間消耗很多
優化目標
1、Golang程序只初始化一次(因為初始化很耗時)
2、所有請求不需要走網路
3、盡量不大量修改代碼
解決方案
1、簡單的Golang封裝,將第三方類庫編譯生成為一個可執行文件
2、PHP與Golang通過雙向管道通信
使用雙向管道通信優勢
1:只需要對原有Golang類庫進行很少的封裝
2:性能最佳 (IPC通信是進程間通信的最佳途徑)
3:不需要走網路請求,節約大量時間
4:程序只需初始化一次,並一直保持在內存中
具體實現步驟
1:類庫中的原始調取demo
package main
import (
"fmt"
"github.com/yanyiwu/gojieba"
"strings"
)
func main() {
x := gojieba.NewJieba()
defer x.Free()
s := "小明碩士畢業於中國科學院計算所,後在日本京都大學深造"
words := x.CutForSearch(s, true)
fmt.Println(strings.Join(words, "/"))
}
保存文件為main.go,就可以運行
2:調整後代碼為:
package main
import (
"bufio"
"fmt"
"github.com/yanyiwu/gojieba"
"io"
"os"
"strings"
)
func main() {
x := gojieba.NewJieba(
"/data/tmp/jiebaDict/jieba.dict.utf8",
"/data/tmp/jiebaDict/hmm_model.utf8",
"/data/tmp/jiebaDict/user.dict.utf8"
)
defer x.Free()
inputReader := bufio.NewReader(os.Stdin)
for {
s, err := inputReader.ReadString('\n')
if err != nil && err == io.EOF {
break
}
s = strings.TrimSpace(s)
if s != "" {
words := x.CutForSearch(s, true)
fmt.Println(strings.Join(words, " "))
} else {
fmt.Println("get empty \n")
}
}
}
只需要簡單的幾行調整,即可實現:從標准輸入接收字元串,經過分詞再輸出
測試:
# go build test
# ./test
# //等待用戶輸入,輸入」這是一個測試「
# 這是 一個 測試 //程序
3:使用cat與Golang通信做簡單測試
//准備一個title.txt,每行是一句文本
# cat title.txt | ./test
正常輸出,表示cat已經可以和Golang正常交互了
4:PHP與Golang通信
以上所示的cat與Golang通信,使用的是單向管道。即:只能從cat向Golang傳入數據,Golang輸出的數據並沒有傳回給cat,而是直接輸出到屏幕。但文中的需求是:php與Golang通信。即php要傳數據給Golang,同時Golang也必須把執行結果返回給php。因此,需要引入雙向管道。
在PHP中管道的使用:popen("/path/test") ,具體就不展開說了,因為此方法解決不了文中的問題。
雙向管道:
$descriptorspec = array(
0 => array("pipe", "r"),
1 => array("pipe", "w")
);
$handle = proc_open(
'/webroot/go/src/test/test',
$descriptorspec,
$pipes
);
fwrite($pipes['0'], "這是一個測試文本\n");
echo fgets($pipes[1]);
解釋:使用proc_open打開一個進程,調用Golang程序。同時返回一個雙向管道pipes數組,php向$pipe['0']中寫數據,從$pipe['1']中讀數據。
好吧,也許你已經發現,我是標題檔,這里重點要講的並不只是PHP與Golang如何通信。而是在介紹一種方法: 通過雙向管道讓任意語言通信。(所有語言都會實現管道相關內容)
測試:
通過對比測試,計算出各個流程佔用的時間。下面提到的title.txt文件,包含100萬行文本,每行文本是從b2b平台取的商品標題
1: 整體流程耗時
time cat title.txt | ./test > /dev/null
耗時:14.819秒,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
Golang處理數據,將結果返回到屏幕
2:計算分詞函數耗時。方案:去除分詞函數的調取,即:注釋掉Golang源代碼中的調取分詞那行的代碼
time cat title.txt | ./test > /dev/null
耗時:1.817秒時間,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
Golang處理數據,將結果返回到屏幕
分詞耗時 = (第一步耗時) - (以上命令所耗時)
分詞耗時 : 14.819 - 1.817 = 13.002秒
3:測試cat進程與Golang進程之間通信所佔時間
time cat title.txt > /dev/null
耗時:0.015秒,消耗時間包含:
進程cat讀出文本
通過管道將數據傳入Golang
go處理數據,將結果返回到屏幕
管道通信耗時:(第二步耗時) - (第三步耗時)
管道通信耗時: 1.817 - 0.015 = 1.802秒
4:PHP與Golang通信的時間消耗
編寫簡單的php文件:
<?php
$descriptorspec = array(
0 => array("pipe", "r"),
1 => array("pipe", "w")
);
$handle = proc_open(
'/webroot/go/src/test/test',
$descriptorspec,
$pipes
);
$fp = fopen("title.txt", "rb");
while (!feof($fp)) {
fwrite($pipes['0'], trim(fgets($fp))."\n");
echo fgets($pipes[1]);
}
fclose($pipes['0']);
fclose($pipes['1']);
proc_close($handle);
流程與上面基本一致,讀出title.txt內容,通過雙向管道傳入Golang進程分詞後,再返回給php (比上面的測試多一步:數據再通過管道返回)
time php popen.php > /dev/null
耗時:24.037秒,消耗時間包含:
進程PHP讀出文本
通過管道將數據傳入Golang
Golang處理數據
Golang將返回結果再寫入管道,PHP通過管道接收數據
將結果返回到屏幕
結論:
1 :整個分詞過程中的耗時分布
使用cat控制邏輯耗時: 14.819 秒
使用PHP控制邏輯耗時: 24.037 秒(比cat多一次管道通信)
單向管道通信耗時: 1.8 秒
Golang中的分詞函數耗時: 13.002 秒
2:分詞函數的性能: 單進程,100萬商品標題分詞,耗時13秒
以上時間只包括分詞時間,不包括詞典載入時間。但在本方案中,詞典只載入一次,所以載入詞典時間可以忽略(1秒左右)
3:PHP比cat慢 (這結論有點多餘了,呵呵)
語言層面慢: (24.037 - 1.8 - 14.819) / 14.819 = 50%
單進程對比測試的話,應該不會有哪個語言比cat更快。
相關問題:
1:以上Golang源碼中寫的是一個循環,也就是會一直從管道中讀數據。那麼存在一個問題:是不是php進程結束後,Golang的進程還會一直存在?
管道機制自身可解決此問題。管道提供兩個介面:讀、寫。當寫進程結束或者意外掛掉時,讀進程也會報錯,以上Golang源代碼中的err邏輯就會執行,Golang進程結束。
但如果PHP進程沒有結束,只是暫時沒有數據傳入,此時Golang進程會一直等待。直到php結束後,Golang進程才會自動結束。
2:能否多個php進程並行讀寫同一個管道,Golang進程同時為其服務?
不可以。管道是單向的,如果多個進程同時向管道中寫,那Golang的返回值就會錯亂。
可以多開幾個Golang進程實現,每個php進程對應一個Golang進程。
最後,上面都是瞎扯的。如果你了解管道、雙向管道,上面的解釋對你基本沒啥用。但如果你不了解管道,調試上面的代碼沒問題,但稍有修改就有可能掉坑裡。
⑶ SCWS版本情況
SCWS項目正處於持續的研發和改進階段,目前最新可用版本為1.2.0。這個版本在各個平台上表現出色,包括Unix和PHP環境。對於SCWS-1.1.xC的代碼,其在Unix和PHP環境下的精確度達到了95%,召回率為91%,速度表現也相當可觀,達到了1.2MB每秒的速度。
在PHP擴展分詞速度方面,表現同樣高效,能達到每秒250KB。具體到Windows環境中,SCWS的PHP擴展庫也表現穩定。對於php_scws.dll(1)版本,針對PHP 4.4.x的環境,准確度同樣為95%,召回率為91%,速度大約是40KB每秒。php_scws.dll(2)和php_scws.dll(3)分別適用於PHP 5.2.x和PHP 5.3.x,它們在准確度和召回率上均保持在95%和91%,速度方面同樣為每秒40KB。總的來說,SCWS的這些版本在不同平台和PHP版本下,都提供了高效和准確的分詞服務。
⑷ php自動提取文章關鍵字
現在很多web系統都用到了不少的自然語言處理技術來提高客戶體驗。
主要技術:
1.文章關鍵字提取.
2.相關文章(產品)推薦.
最近有不少網友問道,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提.
基本分以下幾個步驟:
一.對文章進行分詞:
php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。
這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。
選擇的分詞器需要支持停止詞過濾。
二.統計詞條詞頻並且排序:
對一篇文章分詞後,統計每個詞條出現的次數。然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。
前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。
現在,很多web系統都用到了不少的自然語言處理技術來提高客戶體驗.主要技術:1.文章關鍵字提取.2.相關文章(產品)推薦.最近有不少網友問到,這里以php為例子講解下php的"關鍵字提取"的實現,同時這個也是實現"相關文章推薦"的前提。
基本分以下幾個步驟:
一.對文章進行分詞:php的中文分詞程序還是有不少的,從前輩的scws,到用純php實現的phpAnalysis,phpcws(phpcws)以及本人開發的robbe擴展。這里的講解是使用"robbe分詞擴展"來進行分詞,robbe興許不是最好的,但一定是最快的。選擇的分詞器需要支持停止詞過濾。
二.統計詞條詞頻並且排序:對一篇文章分詞後,統計每個詞條出現的次數,然後按照詞頻降序排序下,你想要的結果在前面幾個詞中。天通苑IT培訓建議前提是去除了出現詞頻很高的停止詞,要不然得到的都是一些無用的停止詞。
⑸ php用explode字元串後用一個符號鏈接,多出了一個符號
這樣更簡單:
<?php
function gostrsplit($str) {
$str_array = explode(",",$str);
return implode('→', $str_array);
}
echo gostrsplit("1,2,3");
?>