當前位置:首頁 » 操作系統 » 網站推送演算法

網站推送演算法

發布時間: 2022-09-23 13:32:25

㈠ b站是根據什麼進行推送

不止b站,各大網站推送,一般都是根據你的播放記錄,然後找到對應播放記錄的分類給你推送,或者根據播放記錄的視頻,然後橫向查詢大部分觀看過此類視頻的人會看哪一類的比較多,簡單地說就是一個聚類演算法。將相同或相似的視頻在一定范圍內聚合,從而形成給你推送的視頻。

㈡ 關於java新聞網站的演算法

(一) 演算法倫理的研究
1.演算法內涵界定。演算法源於數學,但現代演算法又遠遠不止於傳統數學的計算范疇。演算法多被理解為是計算機用於解決問題的程序或步驟,是現代人工智慧系統的運行支柱。《計算主義:一種新的世界觀》(李建會等,2012)中將演算法定義為能行的方法,在外界的常識性理解中所謂演算法就是能感受到的一套運算規則,這個規則的特點在於運算時間的有限性、計算步驟的有窮性、輸入結果的確切性,它是機械步驟或能行可算計程序。該定義點明了演算法應具備的兩個基本屬性——有限性與有窮性。《用計算的觀點看世界》( 酈全民,2016) 則從信息傳播的角度解讀演算法,認為演算法實質上是信息處理方法。
2.演算法倫理研究
倫理關乎道德價值真理及其判斷。存在於自然界、社會中的人,其行為應遵循一定的倫理道德規范。倫理的效應要導向善。倫理道德關注對個體存在的尊重、個體的自由、公平正義以及組織團體的延續與發展等問題。在一定程度上可以說,當今的人類社會已經不能脫離智能演算法系統而運行了。
演算法無時無處不在對世界產生影響,因而演算法也會必然的觸碰到倫理道德。和鴻鵬(2017)已指出,演算法系統在人類社會生活中的廣泛應用,會陷入諸多如人類面臨且無法迴避的倫理兩難選擇困境之中。而當演算法與倫理發生關聯時,學界一般認為會引出職業倫理和技術倫理兩種倫理問題。
職業倫理主要與演算法系統的開發者有關,指開發者是帶有個性價值觀、倫理道德觀去研發演算法系統的行為體,因而演算法系統一開始便會摻雜著設計人主觀性的倫理道德觀。設計者出於何種目的開發某演算法系統、面對不同問題設計者持有的倫理道德態度,這些都會在演算法系統的運行中得到體現。
技術倫理是演算法系統在一定意義上可稱之為一種科學技術,這種技術自身及其運作結果都會負載著倫理價值。其實在一些情況下,職業倫理與技術倫理之間並沒有很明確的界別,關於這一點,劉則淵跟王國豫已做過論述。
本文將主要從技術倫理的角度對演算法關涉倫理這一問題嘗試做深入研究。
(二)網路新聞傳播的演算法倫理研究
演算法與技術的融合不斷英語於網路新聞傳播領域中,從數據新聞到機器寫作,從演算法推送到輿情到分析,國內新聞傳媒領域的機器新聞和相關研究逐漸發展,金兼斌在《機器新聞寫作:一場正在發生的革命》(2014),作者較早的將眼光聚焦於基於演算法的新聞內容生產和編輯。認為在自動化新聞生產大發展的前提下,諸如新聞生產或分發中勞動密集型的基礎性工作與環節都將被技術取代。張超、鍾新在《從比特到人工智慧:數字新聞生產的演算法轉向》(2017) 認為演算法正在從比特形式走向人工智慧階段,這種轉向使得數字新聞與傳統新聞的邊界進一步明晰,促使數字新聞生產也產生了變革。胡萬鵬在《智能演算法推薦的倫理風險及防範策略》中總結了從演算法推送方面:針對新聞的價值觀所受到的負面影響;以及新聞的公共性、客觀性和真實性受到的削弱進行分析;從受眾方面:將具體對信息繭房現象以及受眾的知情權和被遺忘權展開探討;從社會影響方面,則針對社會群體、社會公共領域和社會文化所受到的消極影響展開論述。
根據以上文獻的梳理可以看出,國內目前對網路新聞傳播的演算法倫理研究主要集中在新聞業態演算法倫理失范的相關問題,因為與其他失范問題相比,這是比較容易發現的。但目前關於網路新聞傳播的演算法倫理的國內研究還存在不足:國內演算法倫理和網路新聞傳播演算法倫理的研究還是在起步階段,比較成熟的系統性研究還未出現;關於演算法開發人員和平台的責任機制的研究都比較薄弱,總上所述,演算法推送新聞的倫理問題研究是有必要繼續加強的。
2.新聞推薦演算法的興起、發展與原理
2.1 新聞推薦演算法的興起
隨著計算機技術的信息處理的維度越來越高,信息處理的能力不斷提升,演算法技術可以從大數據中篩選出用戶最關心最感興趣的信息,改變了原有的新聞信息傳播方式,重塑了新的媒介生態和傳播格局。
但反過來看,在人人都能生產信息的背景下,信息的生產、傳播和反饋的速度都是呈幾何倍數增長,用戶面對的信息越來越多。由於設備的局限性和信息海量,用戶無法集中注意力看自己感興趣的內容,也無法及時抓取對自己有用的信息,於是出現了「注意力經濟」。美國經濟學家邁克爾·戈德海伯(1997)認為,當今社會是一個信息極大豐富甚至泛濫的社會,而互聯網的出現,加快了這一進程,信息非但不是稀缺資源,相反是過剩的。相對於過剩的信息,只有一種資源是稀缺的,那就是人們的注意力。換句話說,信息不能夠一味追求量,還要有價值,價值就在於用戶對信息的注意力,誰獲得了用戶的注意力就可以有市場的發展空間,通過「販賣」用戶的注意力能夠使新媒體聚合平台獲得利潤,維持發展。再加上現在生活節奏越來越快,人們對信息獲取的量和效率要求提高,不想把時間浪費在自己不感興趣的信息,從而用戶獲取信息的「個性化」特徵變得明顯起來。
基於此背景下,演算法推送新聞的傳播機制應運而生,用戶不需要特意搜索自己需要的信息,而是海量的信息會自行「找到」用戶,為用戶節省搜索時間之餘,又能做到真正為用戶提供有用的信息。
2.2新聞推薦演算法的發展現狀
演算法推薦是依據用戶數據為用戶推薦特定領域的信息,根據受眾使用反饋不斷修正並完善推薦方案。目前主要有兩類新聞機構使用演算法推送,其一是新型的互聯網新聞聚合類平台,國內主要是以今日頭條和一點資訊等演算法類平台為代表,在我國新聞客戶端市場上擁有極高的佔有率。張一鳴創建今日頭條是依靠大數據和演算法為用戶推薦信息,提供連接人與信息的服務,演算法會以關鍵詞等元素判斷用戶的興趣愛好,從全網抓取內容實現個性化推薦。國外則是以Facebook、Instagram等平台為代表,這些APP都是通過演算法挖掘用戶的數據,以用戶個性化需求為導向對用戶進行新聞推送。另一種則是專業新聞生產的傳統媒體,為積極應對新聞市場的競爭和提高技術水平而轉型到新聞全媒體平台,如國內的「人民日報」等,國外利用演算法推送向用戶推送新聞的傳統媒體則有美國的美聯社、華盛頓郵報和英國的BBC等,他們利用演算法監督受眾的數量還有閱讀行為,使他們的新聞報道能夠更加受受眾的喜歡,增加用戶的粘性。
2.2 新聞推薦演算法的原理
2.2.1 新聞推薦演算法的基本要素
演算法推送有三個基本要素,分別是用戶、內容和演算法。用戶是演算法推送系統的服務對象,對用戶的理解和認知越是透徹,內容分法的准確性和有效性就越准確。內容是演算法推送系統的基本生產資料,對多種形式內通的分析、組織、儲存和分發都需要科學的手段與方法。演算法是演算法推送技術上的支持,也是最核心的。系統中大量用戶與海量的信息是無法自行匹配的,需要推送演算法把用戶和內容連接起來,在用戶和內容之間發揮橋梁作用,高效把合適的內容推薦給合適的用戶。
2.2.2 新聞推薦演算法的基本原理
演算法推送的出現需要具備兩個條件:足夠的信息源和精確的演算法框架。其中,演算法的內容生產源與信息分發最終效果密切相關:是否有足夠多的信息可供抓取與信息是否有足夠的品質令用戶滿意都將對信息的傳播效果產生影響。與此同時,分發環節也在向前追溯,改變著整個傳播的生態。目前,國內新聞傳播領域所使用的演算法推送主要有三大類——協同過濾推送、基於內容推送和關聯規則推送。
協同過濾推送分為基於用戶的協同過濾和基於模型的協同過濾。前者主要考慮的是用戶和用戶之間的相似度,只要找出相似用戶喜歡的新聞文章類別,並預測目標用戶對該文章的喜歡程度,就可以將其他文章推薦給用戶;後者和前者是類似的,區別在此時轉向找到文章和文章之間的相似度,只有找到了目標用戶對某類文章的喜愛程度,那麼我們就可以對相似度高的類似文章進行預測,將喜愛程度相當的相似文章推薦給用戶。因此,前者利用用戶歷史數據在整個用戶資料庫中尋找相似的推送文章進行推薦,後者通過用戶歷史數據構造預測模型,再通過模型進行預測並推送。
基於內容的推送即根據用戶歷史進行文本信息特徵抽取、過濾,生成模型,向用戶推薦與歷史項目內容相似的信息。它的優點之一就是解決了協同過濾中數據稀少時無法准確判斷分發的問題。但如果長期只根據用戶歷史數據推薦信息,會造成過度個性化,容易形成「信息繭房」。
關聯規則推送就是基於用戶歷史數據挖掘用戶數據背後的關聯,以分析用戶的潛在需求,向用戶推薦其可能感興趣的信息。基於該演算法的信息推薦流程主要分為兩個步驟,第一步是根據當前用戶閱讀過的感興趣的內容,通過規則推導出用戶還沒有閱讀過的可能感興趣的內容;第二是根據規則的重要程度,對內容排序並展現給用戶。關聯規則推送的效果依賴規則的數量和質量,但隨著規則數量的增多,對系統的要求也會提高。
2.2.3 演算法推送的實現流程
在信息過載的時代,同一個新聞選題有很多同質化的報道,因此分發前需要對新聞內容進行消重,消重後的新聞內容便等待推送,此時的推送有三個類別:啟動推送、擴大推送和限制推送。
第一類是啟動推送,先對用戶精準推送,即將其訂閱賬號的更新內容第一時間向用戶推薦;然後根據用戶的歷史瀏覽數據,把相似的文本特徵歸類後推送給其他用戶;最後是給關注用戶的相似人群進行推薦。第二類擴大推送是指對於某個點擊率、閱讀時長都明顯高於平均水平的新聞內容,系統會將它自動篩選出來,並向更多的人進行推薦。但在擴大推薦的過程中,系統會依據用戶的反饋進行調整。第三為限制推送,指某個點擊率、閱讀時長都明顯低於平均水平的新聞內容,會被系統自動篩選出來,遏制推送,這樣的內容會被縮小推薦范圍。

3. 「今日頭條」新聞推薦演算法分析
「今日頭條」是國內一款資訊類的媒體聚合平台,每天有超過1.2億人使用。從「你關心的,才是頭條!」到如今的「信息創造價值!」,產品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維,而開始注重人與信息的連接,在促進信息高效、精準傳播的同時注重正確的價值引導。
在2018年初,「今日頭條」的資深演算法架構師曹歡歡博士在一場分享交流會上公開了其演算法運行原理。在他的敘述中,非常詳細地介紹了「今日頭條」的演算法推薦系統概述以及演算法推薦系統的操作原理。

3.1.1-1 曹歡歡博士的今日頭條演算法建模
上圖用數學形式化的方法去描述「今日頭條」的演算法推送,實際上就是一個能夠得出用戶對內容滿意程度的函數:即y為用戶對內容的滿意度,Xi,Xc,Xu分別是今日頭條公開的演算法推送的三個維度:Xi是用戶,包括用戶的性別、年齡、職業和興趣標簽,還有其他演算法模型刻畫的隱形用戶偏好等;Xc是環境,這也是移動互聯網時代新聞推送的特點,由於用戶隨時隨地在不停移動,移動終端也在移動,用戶在不同的工作場合、旅行等場景信息推送偏好也會不同;Xu是內容,今日頭條本身就是信息聚合類平台,平台上涵蓋各種不同形式的內容。本章將以該函數為基礎,逐一分析今日頭條的推薦演算法。
3.1 推薦維度之一:內容分析
內容分析原指第二次世界大戰期間,傳播學家拉斯韋爾等研究學家組織了「戰士通訊研究」的工作,以德國公開出版的戰時報紙為分析研究對象,弄清報紙內容本質性的事實和趨勢,揭示隱含的隱性情報內容,獲取了許多軍情機密情報並且對事態發展作出情報預測。在「今日頭條」中,內容分析則是對文章、視頻內容提取關鍵要素,通過對文本、視頻標題關鍵字進行語義識別,給內容進行分類。「今日頭條」的推送系統是典型的層次化文本分類演算法,來幫助每篇新聞找到合適的分類,比如:第一大分類是政治、科技、財經、娛樂、體育等,體育類可以下分籃球、足球、網球等,足球又可以下分中國足球和國際足球,中國足球最後下分為甲、中超、國家隊等。這一步是對文章進行對這個工作主要目的是對文章進行分類,方便以後對客戶推薦。
想要內容分析實現效果,則需要海量的內容信息給演算法系統提供有效的篩選和分類。「今日頭條」既然是依賴於演算法推送新聞,那它背後的資料庫必然是強大的,「網頁蜘蛛」和「頭條號」就是支撐今日頭條平台消息來源的重要渠道,其消息來源極其豐富,何時何地有何新鮮事,都能高效率抓取信息。
第一個消息來源的渠道是「網頁蜘蛛」,「網頁蜘蛛」又叫網頁爬蟲,頭條使用的就是搜索引擎爬蟲叫「Bytespider」。它能按照一定的規則,自動爬行抓取互聯網的信息或腳本,就像蜘蛛通過蛛網進行捕食,當發現新的信息資源,蜘蛛會立刻出動抓取信息內容並將其收入自己的資料庫中。和微信的垂直搜索不同,Bytespider是能夠抓取全網內容的全新搜索引擎,因此「今日頭條」的搜索引擎功能很全面,搜索的資源很廣,資源包容性極高。
Bytespider信息抓取的基本流程如下:首先是網頁抓取。Bytespider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。第二步是處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括消除重復網頁、判斷網頁類型、分析超鏈接、計算網頁的重要度、豐富度等。第三步提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁,為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
第二個消息來源渠道是「頭條號」。與「今日頭條」不同,它是今日頭條針對媒體、國家機構、企業以及自媒體推出的專業信息發布平台。致力於幫助生產者在移動互聯網上高效率地獲得更多的曝光和關注。簡單來說頭條號是媒體在上面撰寫並發布文章、視頻後,會在今日頭條(包括今日頭條極速版)平台展示。通過頭條號後台,媒體可以看到具體文章推薦量、閱讀量、粉絲閱讀量、評論量、轉發量和收藏量,最後通過這些可以量化的用戶閱讀行為的反饋,演算法系統進一步對目標用戶進行內容推薦。
3.2 推薦維度之二:用戶分析
用戶分析通過提取用戶的有效數據,如用戶經常瀏覽的文字類型、經常搜索的關鍵字、注冊時登記信息的內容等,演算法系統可以將每個用戶的瀏覽記錄、瀏覽時間、留言、評論和轉發等行為進行關鍵字提取,最終形成用戶畫像,以便之後對用戶進行文章和視頻的精準推送。舉個例子,給喜歡閱讀「體育」的用戶標上「體育」標簽;給喜歡「娛樂」的用戶標上「娛樂」的標簽,這一步的作用是給用戶的興趣進行建模,包括用戶對文章和視頻的全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等。熱度信息在大的推薦系統能夠解決新聞冷啟動問題,幫助新聞實現推送。
用戶分析還具有協同特徵,它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵也就是「聯想式」的推送方法,並非只考慮用戶已有歷史,而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。根據用戶之間計算數據的相似程度,把用戶細化分類成為不同的目標群體,再向目標群體集中的推送其感興趣的新聞內容
內容分析和用戶分析是相輔相成的,如果沒有分析的文本標簽,無法得到用戶興趣標簽,沒有用戶的興趣標簽就無法給用戶定位實現精準推送。
3.3 推薦維度之三:環境分析
環境分析就是根據文章的時效性和接近性推送給相應的用戶,比如獲取用戶當前所在位置是否在旅遊區,這個可以通過獲取用戶的實時位置來實現。還會不斷與用戶之前經常出現的所在地進行對比等方式確認當前狀態,分析出用戶是在常住地區還是在旅行。這時若系統檢測到用戶正在泰山及周邊遊玩,則可能會相應推送泰山的相關文章、周邊的交通新聞和天氣信息等等。
通過上面三個推薦維度可以作為數據基礎,分析當前用戶處於什麼環境,結合用戶畫像以及文章的內容分類來推薦,盡量做到推送的內容都是用戶所感興趣的。演算法系統還會通過內容分類、分析抽取,把文本相似度高的文章,包括新聞主題、內容相似的文章進行消重,解決推送重復的問題,進一步對目標用戶進行精確且不重復的內容推薦。最後過濾質量低俗色情的內容,以免造成平台會有負面傾向。
3.4 「今日頭條」新聞推薦演算法的價值取向
3.4.1 「用戶為上」
「今日頭條」的演算法推送是站在用戶的立場上的,以滿足用戶個性化和推送的精準性,「今日頭條」也重新衡量了新聞價值標准:以用戶為上,用戶對新聞內容和閱讀方式的滿意度便是平台推送新聞的價值宗旨。傳統媒體時代,只有報紙和電視,有什麼受眾就得看什麼,而如今「今日頭條」根據用戶興趣去進行推送。演算法推送平台用戶范圍廣,很多用戶熱衷關注負面,也有許多用戶都有窺視欲和好奇心,喜歡無聊八卦和無聊新聞,而且在好奇心作用下用戶都有從眾心理。這使得生產者過度去迎合受眾,只要是用戶喜歡看就可以發表在「今日頭條」上。
3.4.2 「演算法主導」
「今日頭條」更注重技術分發,生產者是用戶,受眾者也是用戶,這樣一來內容監管和分發就很困難。演算法推送機制根據用戶愛好進行推送,這樣生產的內容快、也無疑會加速內容配送效率。在演算法推送模型中,用戶點擊頻率、閱讀時間、點贊評論以及轉發在演算法時代都是可以進行量化的目標。在這樣情況下生產的內容,想要獲得較大點擊率和推送率,需要標題才能吸引用戶,因為用戶在平台一眼能看到的就是標題和配圖。標題和配圖決定用戶是否會打開你的內容,這導致許多內容生產者在編輯新聞標題時陷入標題黨的怪圈,還有導致低俗內容的呈現,以製造沖突製造懸念貼標簽等方式引用戶點擊,意圖把自己的文章做成爆文。對於海量的信息內容,即使今日頭條數據和智能推薦做的再好,目前來說也難以抵擋海量的垃圾信息。
4.演算法推送新聞引發的倫理問題
在如今網路時代的傳播思維中,「用戶為上」、「演算法主導」的新聞價值取向已經在演算法聚合類平台成為了普遍,演算法推送技術作為吸引用戶的手段,搭建起一個充滿誘導的媒介環境,以此增加用戶對平台的粘性。演算法推送技術在獲取信息、傳播速度等方面與以往相比有著跨時代的進步,但與此同時,由於演算法推送技術的加入,衍生出新的倫理問題,並且日漸復雜化。
4.1 演算法推送引發的倫理問題
4.1.1 演算法推送過於機械化,沒有思考能力
單向的演算法推薦對用戶來說經常會帶來內容雜亂無章、信息量過大、信息價值低等問題。從邏輯講,演算法只是從關鍵字的檢索匹配來完成統計推薦,但對新聞報道或文學作品具有藝術性、專業性的內容來說,是不能保證推送的質量的。演算法方面,目前主要基於匹配檢索與統計,大部分都是個人關注的信息類型和標簽,難以達到較好的推送效果。一千個人眼裡有一千個哈姆雷特,但是計算機只有隻有一個。演算法技術過於注重機械化的統計,只根據關鍵詞來推薦用戶,對我們中國具有博大精深的中國文字文化底蘊,推薦演算法是遠遠不夠的。整個新聞客戶端顯得像是一個菜市場,沒有態度、沒有風格,閱讀感受單一化,呈現了碎片化的特點。新聞不只是讓用戶能夠了解身邊發生的新鮮事,還有宣傳正面思想和傳播正能量的作用,新聞應該還要給人們帶來新的思考。讓機器做出正確判斷很簡單,但是讓機器綜合心理學、社會學、乃至某細分領域內的規則做出判斷還要正確地引導受眾則很難,正如現在演算法技術還不能完成一篇富有人文性、文學性和批判性的深度報道,它止步在了碎片式的、表層的傳播范疇。
4.1.2 容易引起「信息繭房」效應
「信息繭房」這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中,這樣會降低接觸外界其他信息的可能,從而將自己的生活桎梏於蠶繭一般的「蠶房」中的現象。人們的信息領域會習慣性被自己的興趣引導,信息窄化帶來了受眾對信息接收的單一性,這種單一性的可能會使受眾陷入循環,加重受眾信息同質化。
在互聯網的普及初期,受眾主要是從主流媒體和門戶網站獲取新聞信息,主流媒體能夠保障新聞的質量;對於其他資訊的獲取,由於技術的限制,此時的繭房並沒有過度被放大,受眾是有適當的自主選擇性閱讀新聞的。但到了如今以智能技術的互聯網時代,情況發生了改變,信息繭房的現象越來越明顯,用戶被標簽的情況下,演算法系統進行大量的主動推送,使受眾被動地成為信息的接收者。用戶的閱讀興趣不可能涵蓋所有的知識領域,演算法分發的核心邏輯是根據用戶的行為數據來進行精確推薦的,但同時演算法又會自動過濾掉「不感興趣」「不認同」的信息,實現「看我想看,聽我想聽」。在此過程中,因為演算法技術的力量將用戶的信息選擇效果放大了倍數,進而將受眾困住在信息繭房當中,受眾也很難憑借自身力量打破繭房,甚至在不知覺中受到更多負面的影響。

4.1.3 演算法推送的「偽中立性」
客觀和全面是新聞倫理的基本要求,新聞從業者必須從可好信息源來獲取真實的信息,以客觀的態度反應現實。我們慣常認為,互聯網技術服務商是技術中立者,不需要承擔約束大眾媒體的社會責任,然而當信息把關人又新聞編輯轉變為演算法工程師,傳統的媒介倫理似乎已經失效。演算法具有商業傾向性,「中立性」是演算法平台用以逃避媒體責任的理由,給大眾媒介造成傳播亂象,如此一來更像是一場演算法平台「肆意妄為又不想負責」的詭辯。
演算法平台的信息源是經過選擇和過濾的,「頭條號」的內容占「今日頭條」整個信息系統的絕大部分,然而在「人人都可以做新聞人」的時代,頭條號平台是一個開放的網路媒介環境,存在大量的偏見和錯誤的認知。無論是「今日頭條」平台設立的演算法規則,還是其他爬蟲的抓取的關鍵詞,演算法系統的信息源很多是具有目的性的、有偏見和非客觀的信息,所以信息源不能直接作用於用戶。因此,篩選演算法系統的信息源與傳統的人工編輯相比較,范圍極廣且很難把關,若演算法被惡意利用,那麼使整個傳播系統將會被輕易控制。
4.1.4 演算法推送里的「議程設置」
原議程設置功能揭示的重要內涵是:「受眾對新聞的看法雖然被大眾媒體議程設置功能所主導,但其更深刻的是議程設置給大眾媒體新聞帶來放大與延伸,從而使受眾對新聞選擇做出能動性修正,讓受眾在滿足需求和媒介依賴中逐漸培養出的潛在認同感」。
推送演算法技術在互聯網平台的運用,使原來傳統媒體主導的議程設置過程發生了變化,伴隨著傳播權的轉移、公眾參與度的提高和信息量劇增等原因導致議程設置功逐漸能減弱。過往傳統新聞的內容是由編輯有選擇地進行報道後再呈現在受眾面前的,而個性化新聞推送是用戶自己來選擇看哪一方面的內容,而這一環節中,天然的技術賦權將傳播權從傳統媒體下放至平台的用戶,使得受眾和社會的連接無需依賴傳統媒介,新聞媒體作為把關人的作用和議程設置功能都在減弱。
4.2 演算法新聞治理缺陷下的演算法權利異化
演算法作為人工智慧的基石之一,是「一種有限、確定、有效並適合用計算機程序來實現的解決問題的方法,是計算機科學的基礎」。近年來,伴隨人工智慧深度學習演算法取得的重大突破和大數據時代的到來,人工智慧的應用場景不斷拓展,人工智慧時代正逐漸從想像成為現實。藉助於海量的大數據和具備強大計算能力的硬體設備,擁有深度學習演算法的人工智慧機器可以通過自主學習和強化訓練來不斷提升自身的能力,解決很多人類難以有效應對的治理難題。伴隨人工能演算法在國家和社會治理中重要性的日漸凸顯,國家和社會對於演算法的依賴也逐漸加深,一種新型的權力形態——演算法權力也隨之出現。
可以把演算法權利分為四種:數據主權、演算法設計權、研發的資本權和演算法控制權。由於前三種權利都是單向的、演算法開發者賦予演算法的權利,是屬於演算法開發者的,與演算法分發平台呈現的效果沒有直接的影響,所以本文將著重論述演算法控制權。
演算法控制權是雙向的,用戶是演算法技術數據行為的提供者,同時又是被演算法技術控制的受害者。例如我們看到「今日頭條」會通過推送演算法來監管用戶的發布和瀏覽行為,同時平台會通過演算法決策系統來實現內容的發布去引導用戶。演算法控制權當然是一種天然技術賦予的權利,但演算法控制權是在用戶提供數據行為的情況下才得以實現的,因此演算法控制權既存在內容生產權,同時有要尊重和保護演算法相對人的義務。
正因為如此,演算法技術被認為是一種雙刃劍,一方面演算法能夠做出精準的行為預測,可以為管理者提供非常好的循環干預機制;對於公共行為主體來說,可以通過對大數據的應用來解決社會治理問題,對於私人主體來說可以藉助數據來提供個性化和定製化的服務;另一方面,演算法技術存在著諸如利益和風險不對稱等問題,而且由於演算法技術發展的超前性,新科技的創造者具備不對稱的信息和技術優勢,能夠按照自身利益的需求來塑造在平台上的演算法推送邏輯和社會系統,這帶來了監管的不確定性。人們要通過集體行為去承擔社會責任,通過這樣的方式規制演算法權利,可以讓我們能夠對演算法分發系統的意義和價值得到更深刻的思考。

㈢ 網站推廣方式有哪些

1、SEM推廣

SEM是Search Engine Marketing的縮寫,中文意思是搜索引擎營銷。SEM追求最高的性價比,以最小的投入,獲得最大的來自搜索引擎的訪問量,並產生商業價值。


2、SEO推廣

SEO的Search Engine Optimization的縮寫,中文譯為搜索引擎優化。簡單地說,就是通過執行迎合搜索引擎演算法的操作,主要原理是通過抬高目標網站在搜索引擎中的排名來達到推廣目的。


3、SNS推廣

SNS是Social Network Software的縮寫,中文譯為社會性網路軟體。是利用網路社交軟體或應用其功能進行宣傳推廣,從而達到提升品牌知名度、促進產品銷售等目的的活動,即稱為SNS推廣。


4、SMM推廣

SMM的全稱是Social Media Marketing,中文意思是社會化媒體營銷。社會化媒體營銷就是利用社會化網路、在線社區、博客、網路、圖片和視頻分享等,利用其高人氣的平台進行營銷信息推廣。

(3)網站推送演算法擴展閱讀:

企業網站推廣六要點:

1、對軟文寫作進行品牌理念的融合;商業軟文就是把企業的商業性弱化,並通過文章在受眾不知情的情況下,把企業信息傳遞給受眾,也就是所謂的企業印記;聚海網路傳媒把品牌理念加入到軟文合適、隱性的地方,使文章有一種渾然天成的感覺。

2、發布品台的選擇;商業軟文營銷的目的就在於將寫好的軟文發布在論壇上,聚海網路傳媒根據軟文的不同類型選擇不同的平台,從而最大化的將潛在受眾變為目標消費者。

3、軟文效果進行評估;德訊互動通過軟文流量分析,文章置頂、置首率分析,文章的轉載率以及關鍵詞優化等手段對商業軟文進行評估,實現企業在搜索引擎首頁的新聞展示,帶來最精確、最實際的效果。

4、注重商業軟文推廣;創建軟文的最終目的是推廣,聚海網路傳媒應用搜索引擎優化,多家重要級電子平台,引用關鍵內容等手段進行軟文推廣。

5、與讀者互動交流,一篇軟文寫好之後不能只等著看效果,應及時地和讀者進行交流,了解讀者的想法以及所增加的營銷效果;這也是人們互訪以及流量增加的重要方法。

6、抓住熱點、時政;軟文寫作應緊跟時代潮流的腳步,商業軟文一般都有可能被當做新聞進行發布,緊抓熱點就能使商業軟文的新聞價值提高,且增加軟文轉載量。

㈣ 購物網站的商品推薦演算法有哪些

這種形式一般可以按推薦引擎的演算法分,主要有基於協同過濾、基於內容推薦等演算法。 「買過此商品的人,百分之多少還買過其他啥啥商品」:協同過濾item-based filtering 「和你興趣相似的人,還買過其他啥啥商品」:協同過濾 user-based filtering 「相關商品推薦」:基於內容推薦content-based 「猜你喜歡」 一般混合使用推薦演算法。

㈤ 今日頭條的推薦機制是怎麼演算法的

今日頭條是屬於機器演算法推薦機制的平台,也就是說,即使你沒有粉絲來到頭條上發表內容,也可以獲得比較大的推薦,一個剛來頭條不久的新人創作出10萬百萬閱讀都是有可能的。
但要想創作出閱讀量高的內容,就需要了解清楚今日頭條的推薦機制:
每一個使用今日頭條APP的用戶,都會被系統打上各種類型的標簽,比如你經常看體育看足球,今日頭條就會認為你是一個體育愛好者,那麼當有頭條號作者發布足球相關的內容時,就會優先推薦給你。
所以說要想讓你的文章獲得比較大的推薦量,首先你需要在文章的標題和內容中,體現出來你的領域和人群,以方便系統判定你的類型,幫你推送給精準的用戶。
如果你的標題和內容中都沒有體現出來相應的關鍵詞,那系統就不知道要把你的內容將會給推薦給誰,很有可能會造成閱讀量,推薦量都不好的結果。
除了上面這個最基礎的人群和關鍵詞匹配外,用戶的行為動作也是影響頭條號推薦的關鍵因素。
評論,收藏,轉發點贊和讀完率,這些都決定的,你的內容是否會獲得比較高的推薦。
一篇文章發布後會經過一輪這樣的推薦:初審、冷啟動、正常推薦、復審。
初審是一般機器審核,通過內容判定出你是否有違規行為,初審通過後,將進入冷啟動階段。
冷啟動就是系統把你的內容推送給一小批可能對你內容感興趣的人群,然後根據這個人群的反應,比如說讀完率、點贊互動評論的整體情況,對你進行下一輪的正常推薦。
如果這些互動都比較好,讀完率很高點贊,評論都很好,收藏量也很多,那麼系統就會給你加大推薦,推薦給更多的用戶。
當推薦到一定程度後,系統會給用戶的反饋情況進行復審,比如說有人舉報,或者負面評論過多,如果在復審種,發現你屬於標題黨或者內容過於負向,將系統將會不再推薦。
這是今日頭條的推薦機制和推薦流程,弄懂這個推薦流程後,會對你的頭條號運營有很大的幫助。

㈥ 互聯網信息服務演算法推薦管理規定

第一章總 則第一條為了規范互聯網信息服務演算法推薦活動,弘揚社會主義核心價值觀,維護國家安全和社會公共利益,保護公民、法人和其他組織的合法權益,促進互聯網信息服務健康有序發展,根據《中華人民共和國網路安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》、《互聯網信息服務管理辦法》等法律、行政法規,制定本規定。第二條在中華人民共和國境內應用演算法推薦技術提供互聯網信息服務(以下簡稱演算法推薦服務),適用本規定。法律、行政法規另有規定的,依照其規定。

前款所稱應用演算法推薦技術,是指利用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等演算法技術向用戶提供信息。第三條國家網信部門負責統籌協調全國演算法推薦服務治理和相關監督管理工作。國務院電信、公安、市場監管等有關部門依據各自職責負責演算法推薦服務監督管理工作。

地方網信部門負責統籌協調本行政區域內的演算法推薦服務治理和相關監督管理工作。地方電信、公安、市場監管等有關部門依據各自職責負責本行政區域內的演算法推薦服務監督管理工作。第四條提供演算法推薦服務,應當遵守法律法規,尊重社會公德和倫理,遵守商業道德和職業道德,遵循公正公平、公開透明、科學合理和誠實信用的原則。第五條鼓勵相關行業組織加強行業自律,建立健全行業標准、行業准則和自律管理制度,督促指導演算法推薦服務提供者制定完善服務規范、依法提供服務並接受社會監督。第二章信息服務規范第六條演算法推薦服務提供者應當堅持主流價值導向,優化演算法推薦服務機制,積極傳播正能量,促進演算法應用向上向善。

演算法推薦服務提供者不得利用演算法推薦服務從事危害國家安全和社會公共利益、擾亂經濟秩序和社會秩序、侵犯他人合法權益等法律、行政法規禁止的活動,不得利用演算法推薦服務傳播法律、行政法規禁止的信息,應當採取措施防範和抵制傳播不良信息。第七條演算法推薦服務提供者應當落實演算法安全主體責任,建立健全演算法機制機理審核、科技倫理審查、用戶注冊、信息發布審核、數據安全和個人信息保護、反電信網路詐騙、安全評估監測、安全事件應急處置等管理制度和技術措施,制定並公開演算法推薦服務相關規則,配備與演算法推薦服務規模相適應的專業人員和技術支撐。第八條演算法推薦服務提供者應當定期審核、評估、驗證演算法機制機理、模型、數據和應用結果等,不得設置誘導用戶沉迷、過度消費等違反法律法規或者違背倫理道德的演算法模型。第九條演算法推薦服務提供者應當加強信息安全管理,建立健全用於識別違法和不良信息的特徵庫,完善入庫標准、規則和程序。發現未作顯著標識的演算法生成合成信息的,應當作出顯著標識後,方可繼續傳輸。

發現違法信息的,應當立即停止傳輸,採取消除等處置措施,防止信息擴散,保存有關記錄,並向網信部門和有關部門報告。發現不良信息的,應當按照網路信息內容生態治理有關規定予以處置。第十條演算法推薦服務提供者應當加強用戶模型和用戶標簽管理,完善記入用戶模型的興趣點規則和用戶標簽管理規則,不得將違法和不良信息關鍵詞記入用戶興趣點或者作為用戶標簽並據以推送信息。第十一條演算法推薦服務提供者應當加強演算法推薦服務版面頁面生態管理,建立完善人工干預和用戶自主選擇機制,在首頁首屏、熱搜、精選、榜單類、彈窗等重點環節積極呈現符合主流價值導向的信息。第十二條鼓勵演算法推薦服務提供者綜合運用內容去重、打散干預等策略,並優化檢索、排序、選擇、推送、展示等規則的透明度和可解釋性,避免對用戶產生不良影響,預防和減少爭議糾紛。第十三條演算法推薦服務提供者提供互聯網新聞信息服務的,應當依法取得互聯網新聞信息服務許可,規范開展互聯網新聞信息采編發布服務、轉載服務和傳播平台服務,不得生成合成虛假新聞信息,不得傳播非國家規定范圍內的單位發布的新聞信息。第十四條演算法推薦服務提供者不得利用演算法虛假注冊賬號、非法交易賬號、操縱用戶賬號或者虛假點贊、評論、轉發,不得利用演算法屏蔽信息、過度推薦、操縱榜單或者檢索結果排序、控制熱搜或者精選等干預信息呈現,實施影響網路輿論或者規避監督管理行為。

㈦ 推薦演算法簡介

寫在最前面:本文內容主要來自於書籍《推薦系統實踐》和《推薦系統與深度學習》。

推薦系統是目前互聯網世界最常見的智能產品形式。從電子商務、音樂視頻網站,到作為互聯網經濟支柱的在線廣告和新穎的在線應用推薦,到處都有推薦系統的身影。推薦演算法是推薦系統的核心,其本質是通過一定的方式將用戶和物品聯系起來,而不同的推薦系統利用了不同的方式。

推薦系統的主要功能是以個性化的方式幫助用戶從極大的搜索空間中快速找到感興趣的對象。因此,目前所用的推薦系統多為個性化推薦系統。個性化推薦的成功應用需要兩個條件:

在推薦系統的眾多演算法中,基於協同的推薦和基於內容的推薦在實踐中得到了最廣泛的應用。本文也將從這兩種演算法開始,結合時間、地點上下文環境以及社交環境,對常見的推薦演算法做一個簡單的介紹。

基於內容的演算法的本質是對物品內容進行分析,從中提取特徵,然後基於用戶對何種特徵感興趣來推薦含有用戶感興趣特徵的物品。因此,基於內容的推薦演算法有兩個最基本的要求:

下面我們以一個簡單的電影推薦來介紹基於內容的推薦演算法。

現在有兩個用戶A、B和他們看過的電影以及打分情況如下:

其中問好(?)表示用戶未看過。用戶A對《銀河護衛隊 》《變形金剛》《星際迷航》三部科幻電影都有評分,平均分為 4 .7 分 ( (5+4+5 ) / 3=4.7 );對《三生三世》《美人魚》《北京遇上西雅圖》三部愛情電影評分平均分為 2.3 分 ( ( 3十2+2 ) /3=2.3 )。現在需要給A推薦電影,很明顯A更傾向於科幻電影,因此推薦系統會給A推薦獨立日。而對於用戶B,通過簡單的計算我們可以知道更喜歡愛情電影,因此給其推薦《三生三世》。當然,在實際推薦系統中,預測打分比這更加復雜些,但是其原理是一樣的。

現在,我們可以將基於內容的推薦歸納為以下四個步驟:

通過上面四步就能快速構建一個簡單的推薦系統。基於內容的推薦系統通常簡單有效,可解釋性好,沒有物品冷啟動問題。但他也有兩個明顯的缺點:

最後,順便提一下特徵提取方法:對於某些特徵較為明確的物品,一般可以直接對其打標簽,如電影類別。而對於文本類別的特徵,則主要是其主題情感等,則些可以通過tf-idf或LDA等方法得到。

基於協同的演算法在很多地方也叫基於鄰域的演算法,主要可分為兩種:基於用戶的協同演算法和基於物品的協同演算法。

啤酒和尿布的故事在數據挖掘領域十分有名,該故事講述了美國沃爾瑪超市統計發現啤酒和尿布一起被購買的次數非常多,因此將啤酒和尿布擺在了一起,最後啤酒和尿布的銷量雙雙增加了。這便是一個典型的物品協同過濾的例子。

基於物品的協同過濾指基於物品的行為相似度(如啤酒尿布被同時購買)來進行物品推薦。該演算法認為,物品A和物品B具有很大相似度是因為喜歡物品A的用戶大都也喜歡物品B。

基於物品的協同過濾演算法主要分為兩步:

基於物品的協同過濾演算法中計算物品相似度的方法有以下幾種:
(1)基於共同喜歡物品的用戶列表計算。

此外,John S. Breese再其論文中還提及了IUF(Inverse User Frequence,逆用戶活躍度)的參數,其認為活躍用戶對物品相似度的貢獻應該小於不活躍的用戶,應該增加IUF參數來修正物品相似度的公式:

上面的公式只是對活躍用戶做了一種軟性的懲罰, 但對於很多過於活躍的用戶, 比如某位買了當當網80%圖書的用戶, 為了避免相似度矩陣過於稠密, 我們在實際計算中一般直接忽略他的興趣列表, 而不將其納入到相似度計算的數據集中。

(2)基於餘弦相似度計算。

(3)熱門物品的懲罰。
從上面(1)的相似度計算公式中,我們可以發現當物品 i 被更多人購買時,分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都會增長。對於熱門物品,分子 N(i) ∩ N(j) 的增長速度往往高於 N(i),這就會使得物品 i 和很多其他的物品相似度都偏高,這就是 ItemCF 中的物品熱門問題。推薦結果過於熱門,會使得個性化感知下降。以歌曲相似度為例,大部分用戶都會收藏《小蘋果》這些熱門歌曲,從而導致《小蘋果》出現在很多的相似歌曲中。為了解決這個問題,我們對於物品 i 進行懲罰,例如下式, 當α∈(0, 0.5) 時,N(i) 越小,懲罰得越厲害,從而使熱門物品相關性分數下降( 博主註:這部分未充分理解 ):

此外,Kary pis在研究中發現如果將ItemCF的相似度矩陣按最大值歸一化, 可以提高推薦的准確率。 其研究表明, 如果已經得到了物品相似度矩陣w, 那麼可以用如下公式得到歸一化之後的相似度矩陣w':

歸一化的好處不僅僅在於增加推薦的准確度,它還可以提高推薦的覆蓋率和多樣性。一般來說,物品總是屬於很多不同的類,每一類中的物品聯系比較緊密。假設物品分為兩類——A和B, A類物品之間的相似度為0.5, B類物品之間的相似度為0.6, 而A類物品和B類物品之間的相似度是0.2。 在這種情況下, 如果一個用戶喜歡了5個A類物品和5個B類物品, 用ItemCF給他進行推薦, 推薦的就都是B類物品, 因為B類物品之間的相似度大。 但如果歸一化之後, A類物品之間的相似度變成了1, B類物品之間的相似度也是1, 那麼這種情況下, 用戶如果喜歡5個A類物品和5個B類物品, 那麼他的推薦列表中A類物品和B類物品的數目也應該是大致相等的。 從這個例子可以看出, 相似度的歸一化可以提高推薦的多樣性。

那麼,對於兩個不同的類,什麼樣的類其類內物品之間的相似度高,什麼樣的類其類內物品相似度低呢?一般來說,熱門的類其類內物品相似度一般比較大。如果不進行歸一化,就會推薦比較熱門的類裡面的物品,而這些物品也是比較熱門的。因此,推薦的覆蓋率就比較低。相反,如果進行相似度的歸一化,則可以提高推薦系統的覆蓋率。

最後,利用物品相似度矩陣和用戶打過分的物品記錄就可以對一個用戶進行推薦評分:

基於用戶的協同演算法與基於物品的協同演算法原理類似,只不過基於物品的協同是用戶U購買了A物品,會計算經常有哪些物品與A一起購買(也即相似度),然後推薦給用戶U這些與A相似的物品。而基於用戶的協同則是先計算用戶的相似性(通過計算這些用戶購買過的相同的物品),然後將這些相似用戶購買過的物品推薦給用戶U。

基於用戶的協同過濾演算法主要包括兩個步驟:

步驟(1)的關鍵是計算用戶的興趣相似度,主要是利用用戶的行為相似度計算用戶相似度。給定用戶 u 和 v,N(u) 表示用戶u曾經有過正反饋(譬如購買)的物品集合,N(v) 表示用戶 v 曾經有過正反饋的物品集合。那麼我們可以通過如下的 Jaccard 公式簡單的計算 u 和 v 的相似度:

或通過餘弦相似度:

得到用戶之間的相似度之後,UserCF演算法會給用戶推薦和他興趣最相似的K個用戶喜歡的物品。如下的公式度量了UserCF演算法中用戶 u 對物品 i 的感興趣程度:

首先回顧一下UserCF演算法和ItemCF演算法的推薦原理:UserCF給用戶推薦那些和他有共同興趣愛好的用戶喜歡的物品, 而ItemCF給用戶推薦那些和他之前喜歡的物品具有類似行為的物品。

(1)從推薦場景考慮
首先從場景來看,如果用戶數量遠遠超過物品數量,如購物網站淘寶,那麼可以考慮ItemCF,因為維護一個非常大的用戶關系網是不容易的。其次,物品數據一般較為穩定,因此物品相似度矩陣不必頻繁更新,維護代價較小。

UserCF的推薦結果著重於反應和用戶興趣相似的小群體的熱點,而ItemCF的推薦結果著重於維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反應了用戶所在小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反應了用戶自己的個性傳承。因此UserCF更適合新聞、微博或微內容的推薦,而且新聞內容更新頻率非常高,想要維護這樣一個非常大而且更新頻繁的表無疑是非常難的。

在新聞類網站中,用戶的興趣愛好往往比較粗粒度,很少會有用戶說只看某個話題的新聞,而且往往某個話題也不是每天都會有新聞。 個性化新聞推薦更強調新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,個性化是補充,所以 UserCF 給用戶推薦和他有相同興趣愛好的人關注的新聞,這樣在保證了熱點和時效性的同時,兼顧了個性化。

(2)從系統多樣性(也稱覆蓋率,指一個推薦系統能否給用戶提供多種選擇)方面來看,ItemCF的多樣性要遠遠好於UserCF,因為UserCF更傾向於推薦熱門物品。而ItemCF具有較好的新穎性,能夠發現長尾物品。所以大多數情況下,ItemCF在精度上較小於UserCF,但其在覆蓋率和新穎性上面卻比UserCF要好很多。

在介紹本節基於矩陣分解的隱語義模型之前,讓我們先來回顧一下傳統的矩陣分解方法SVD在推薦系統的應用吧。

基於SVD矩陣分解在推薦中的應用可分為如下幾步:

SVD在計算前會先把評分矩陣 A 缺失值補全,補全之後稀疏矩陣 A 表示成稠密矩陣,然後將分解成 A' = U∑V T 。但是這種方法有兩個缺點:(1)補成稠密矩陣後需要耗費巨大的儲存空間,對這樣巨大的稠密矩陣進行儲存是不現實的;(2)SVD的計算復雜度很高,對這樣大的稠密矩陣中進行計算式不現實的。因此,隱語義模型就被發明了出來。

更詳細的SVD在推薦系統的應用可參考 奇異值分解SVD簡介及其在推薦系統中的簡單應用 。

隱語義模型(Latent Factor Model)最早在文本挖掘領域被提出,用於找到文本的隱含語義。相關的演算法有LSI,pLSA,LDA和Topic Model。本節將對隱語義模型在Top-N推薦中的應用進行詳細介紹,並通過實際的數據評測該模型。

隱語義模型的核心思想是通過隱含特徵聯系用戶興趣和物品。讓我們通過一個例子來理解一下這個模型。

現有兩個用戶,用戶A的興趣涉及偵探小說、科普圖書以及一些計算機技術書,而用戶B的興趣比較集中在數學和機器學習方面。那麼如何給A和B推薦圖書呢?

我們可以對書和物品的興趣進行分類。對於某個用戶,首先得到他的興趣分類,然後從分類中挑選他可能喜歡的物品。簡言之,這個基於興趣分類的方法大概需要解決3個問題:

對於第一個問題的簡單解決方案是找相關專業人員給物品分類。以圖書為例,每本書出版時,編輯都會給出一個分類。但是,即使有很系統的分類體系,編輯給出的分類仍然具有以下缺點:(1)編輯的意見不能代表各種用戶的意見;(2)編輯很難控制分類的細粒度;(3)編輯很難給一個物品多個分類;(4)編輯很難給一個物品多個分類;(5)編輯很難給出多個維度的分類;(6)編輯很難決定一個物品在某一個類別中的權重。

為了解決上述問題,研究員提出可以從數據出發,自動找到那些分類,然後進行個性化推薦。隱語義模型由於採用基於用戶行為統計的自動聚類,較好地解決了上面提出的5個問題。

LFM將矩陣分解成2個而不是3個:

推薦系統中用戶和物品的交互數據分為顯性反饋和隱性反饋數據。隱式模型中多了一個置信參數,具體涉及到ALS(交替最小二乘法,Alternating Least Squares)中對於隱式反饋模型的處理方式——有的文章稱為「加權的正則化矩陣分解」:

一個小細節:在隱性反饋數據集中,只有正樣本(正反饋)沒有負反饋(負樣本),因此如何給用戶生成負樣本來進行訓練是一個重要的問題。Rong Pan在其文章中對此進行了探討,對比了如下幾種方法:

用戶行為很容易用二分圖表示,因此很多圖演算法都可以應用到推薦系統中。基於圖的模型(graph-based model)是推薦系統中的重要內容。很多研究人員把基於領域的模型也稱為基於圖的模型,因為可以把基於領域的模型看作基於圖的模型的簡單形式。

在研究基於圖的模型之前,需要將用戶行為數據表示成圖的形式。本節的數據是由一系列用戶物品二元組 (u, i) 組成的,其中 u 表示用戶對物品 i 產生過行為。

令 G(V, E) 表示用戶物品二分圖,其中 V=V U UV I 由用戶頂點 V U 和物品節點 V I 組成。對於數據集中每一個二元組 (u, i) ,圖中都有一套對應的邊 e(v u , v i ),其中 v u ∈V U 是用戶對應的頂點,v i ∈V I 是物品i對應的頂點。如下圖是一個簡單的物品二分圖,其中圓形節點代表用戶,方形節點代表物品,用戶物品的直接連線代表用戶對物品產生過行為。比如下圖中的用戶A對物品a、b、d產生過行為。

度量圖中兩個頂點之間相關性的方法很多,但一般來說圖中頂點的相關性主要取決於下面3個因素:

而相關性高的一對頂點一般具有如下特徵:

舉個例子,如下圖,用戶A和物品c、e沒有邊直連,但A可通過一條長度為3的路徑到達c,而Ae之間有兩條長度為3的路徑。那麼A和e的相關性要高於頂點A和c,因而物品e在用戶A的推薦列表中應該排在物品c之前,因為Ae之間有兩條路徑。其中,(A,b,C,e)路徑經過的頂點的出度為(3,2,2,2),而 (A,d,D,e) 路徑經過了一個出度比較大的頂點D,所以 (A,d,D,e) 對頂點A與e之間相關性的貢獻要小於(A,b,C,e)。

基於上面3個主要因素,研究人員設計了很多計算圖中頂點相關性的方法,本節將介紹一種基於隨機遊走的PersonalRank演算法。

假設要給用戶u進行個性化推薦,可以從用戶u對應的節點 v u 開始在用戶物品二分圖上進行隨機遊走。遊走到任一節點時,首先按照概率α決定是繼續遊走還是停止這次遊走並從 v u 節點重新開始遊走。若決定繼續遊走,則從當前節點指向的節點中按照均勻分布隨機選擇一個節點作為遊走下次經過的節點。這樣,經過很多次隨機遊走後,每個物品被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。

上述演算法可以表示成下面的公式:

雖然通過隨機遊走可以很好地在理論上解釋PersonalRank演算法,但是該演算法在時間復雜度上有明顯的缺點。因為在為每個用戶進行推薦時,都需要在整個用戶物品二分圖上進行迭代,知道所有頂點的PR值都收斂。這一過程的時間復雜度非常高,不僅無法在線進行實時推薦,離線計算也是非常耗時的。

有兩種方法可以解決上面PersonalRank時間復雜度高的問題:
(1)減少迭代次數,在收斂之前停止迭代。但是這樣會影響最終的精度。

(2)從矩陣論出發,重新涉及演算法。另M為用戶物品二分圖的轉移概率矩陣,即:

網路社交是當今社會非常重要甚至可以說是必不可少的社交方式,用戶在互聯網上的時間有相當大的一部分都用在了社交網路上。

當前國外最著名的社交網站是Facebook和Twitter,國內的代表則是微信/QQ和微博。這些社交網站可以分為兩類:

需要指出的是,任何一個社交網站都不是單純的社交圖譜或興趣圖譜。如QQ上有些興趣愛好群可以認識不同的陌生人,而微博中的好友也可以是現實中認識的。

社交網路定義了用戶之間的聯系,因此可以用圖定義社交網路。我們用圖 G(V,E,w) 定義一個社交網路,其中V是頂點集合,每個頂點代表一個用戶,E是邊集合,如果用戶va和vb有社交網路關系,那麼就有一條邊 e(v a , v b ) 連接這兩個用戶,而 w(v a , v b )定義了邊的權重。一般來說,有三種不同的社交網路數據:

和一般購物網站中的用戶活躍度分布和物品流行度分布類似,社交網路中用戶的入度(in degree,表示有多少人關注)和出度(out degree,表示關注多少人)的分布也是滿足長尾分布的。即大部分人關注的人都很少,被關注很多的人也很少。

給定一個社交網路和一份用戶行為數據集。其中社交網路定義了用戶之間的好友關系,而用戶行為數據集定義了不同用戶的歷史行為和興趣數據。那麼最簡單的演算法就是給用戶推薦好友喜歡的物品集合。即用戶u對物品i的興趣 p ui 可以通過如下公式計算。

用戶u和用戶v的熟悉程度描述了用戶u和用戶在現實社會中的熟悉程度。一般來說,用戶更加相信自己熟悉的好友的推薦,因此我們需要考慮用戶之間的熟悉度。下面介紹3中衡量用戶熟悉程度的方法。

(1)對於用戶u和用戶v,可以使用共同好友比例來計算他們的相似度:

上式中 out(u) 可以理解為用戶u關注的用戶合集,因此 out(u) ∩ out(v) 定義了用戶u、v共同關注的用戶集合。

(2)使用被關注的用戶數量來計算用戶之間的相似度,只要將公式中的 out(u) 修改為 in(u):

in(u) 是指關注用戶u的集合。在無向社交網路中,in(u)和out(u)是相同的,而在微博這種有向社交網路中,這兩個集合的含義就不痛了。一般來說,本方法適合用來計算微博大V之間的相似度,因為大v往往被關注的人數比較多;而方法(1)適用於計算普通用戶之間的相似度,因為普通用戶往往關注行為比較豐富。

(3)除此之外,還可以定義第三種有向的相似度:這個相似度的含義是用戶u關注的用戶中,有多大比例也關注了用戶v:

這個相似度有一個缺點,就是在該相似度下所有人都和大v有很大的相似度,這是因為公式中的分母並沒有考慮 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,來降低大v與其他用戶的相似度:

上面介紹了3種計算用戶之間相似度(或稱熟悉度)的計算方法。除了熟悉程度,還需要考慮用戶之間的興趣相似度。我們和父母很熟悉,但很多時候我們和父母的興趣確不相似,因此也不會喜歡他們喜歡的物品。因此,在度量用戶相似度時,還需要考慮興趣相似度,而興趣相似度可以通過和UserCF類似的方法度量,即如果兩個用戶喜歡的物品集合重合度很高,兩個用戶的興趣相似度很高。

最後,我們可以通過加權的形式將兩種權重合並起來,便得到了各個好有用戶的權重了。

有了權重,我們便可以針對用戶u挑選k個最相似的用戶,把他們購買過的物品中,u未購買過的物品推薦給用戶u即可。打分公式如下:

其中 w' 是合並後的權重,score是用戶v對物品的打分。

node2vec的整體思路分為兩個步驟:第一個步驟是隨機遊走(random walk),即通過一定規則隨機抽取一些點的序列;第二個步驟是將點的序列輸入至word2vec模型從而得到每個點的embedding向量。

隨機遊走在前面基於圖的模型中已經介紹過,其主要分為兩步:(1)選擇起始節點;(2)選擇下一節點。起始節點選擇有兩種方法:按一定規則抽取一定量的節點或者以圖中所有節點作為起始節點。一般來說會選擇後一種方法以保證所有節點都會被選取到。

在選擇下一節點方法上,最簡單的是按邊的權重來選擇,但在實際應用中需要通過廣度優先還是深度優先的方法來控制遊走范圍。一般來說,深度優先發現能力更強,廣度優先更能使社區內(較相似)的節點出現在一個路徑里。

斯坦福大學Jure Leskovec教授給出了一種可以控制廣度優先或者深度優先的方法。

以上圖為例,假設第一步是從t隨機遊走到v,這時候我們要確定下一步的鄰接節點。本例中,作者定義了p和q兩個參數變數來調節遊走,首先計算其鄰居節點與上一節點t的距離d,根據下面的公式得到α:

一般從每個節點開始遊走5~10次,步長則根據點的數量N遊走根號N步。如此便可通過random walk生成點的序列樣本。

得到序列之後,便可以通過word2vec的方式訓練得到各個用戶的特徵向量,通過餘弦相似度便可以計算各個用戶的相似度了。有了相似度,便可以使用基於用戶的推薦演算法了。

推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,因此大量的用戶行為數據就成為推薦系統的重要組成部分和先決條件。如何在沒有大量用戶數據的情況下設計個性化推薦系統並且讓用戶對推薦結果滿意從而願意使用推薦系統,就是冷啟動問題。

冷啟動問題主要分為三類:

針對用戶冷啟動,下面給出一些簡要的方案:
(1)有效利用賬戶信息。利用用戶注冊時提供的年齡、性別等數據做粗粒度的個性化;
(2)利用用戶的社交網路賬號登錄(需要用戶授權),導入用戶在社交網站上的好友信息,然後給用戶推薦其好友喜歡的物品;
(3)要求用戶在登錄時對一些物品進行反饋,手機用戶對這些物品的興趣信息,然後給用推薦那些和這些物品相似的物品;
(4)提供非個性化推薦。非個性化推薦的最簡單例子就是熱門排行榜,我們可以給用戶推薦熱門排行榜,然後等到用戶數據收集到一定的時候,在切換為個性化推薦。

對於物品冷啟動,可以利用新加入物品的內容信息,將它們推薦給喜歡過和他們相似的物品的用戶。

對於系統冷啟動,可以引入專家知識,通過一定高效的方式快速建立起物品的相關度表。

在上面介紹了一些推薦系統的基礎演算法知識,這些演算法大都是比較經典且現在還在使用的。但是需要注意的是,在實踐中,任何一種推薦演算法都不是單獨使用的,而是將多種推薦演算法結合起來,也就是混合推薦系統,但是在這里並不準備介紹,感興趣的可以查閱《推薦系統》或《推薦系統與深度學習》等書籍。此外,在推薦中非常重要的點擊率模型以及基於矩陣的一些排序演算法在這里並沒有提及,感興趣的也可自行學習。

雖然現在用的很多演算法都是基於深度學習的,但是這些經典演算法能夠讓我們對推薦系統的發展有一個比較好的理解,同時,更重要的一點——「推陳出新」,只有掌握了這些經典的演算法,才能提出或理解現在的一些更好地演算法。

㈧ 常用的網路推廣方法有哪些

1、SEO/SEM:互聯網時代,遇到問題大家第一時間想到的都是去搜索引擎搜索。如何讓自己的網站排在搜索結果的前面變得至關重要,這也是SEO/SEM經久不衰的重要原因。

2、APP廣告:每個人的手機里多多少少都會安裝一些軟體,包括微信,qq,抖音,今日頭條等,每天活躍的人數數以億計,只要找准你的目標人群,投放效果不會差。

3、資料庫營銷:包括IM推廣、EDM郵件發送、SMS簡訊發送等,轉化率根據人群匹配度而定,總的來講成本低,回報尚可。

4、分類信息網站:比較有名的是58同城,趕集網等,不同行業效果差異比較大,可以根據自己情況酌情處理。

5、社群推廣:以內容為核心,結合自己的行業,將目標用戶圈在一起,形成社群,定期組織社活動。這種方法受很多教育類公司青睞,適合需要比較長時間轉換的產品。

6、自媒體渠道:包括今日頭條、微信公眾號、百家號、網易號等,定期製作優質原創內容。

7、裂變式營銷:通過某些獎勵機制,讓用戶替你去推廣。很多知識付費的平台都有在採用

8、資源合作:通過網站交換鏈接、廣告交換、內容合作、用戶資源合作等方式,實現類似目標網站之間的相互推廣。最常見的資源合作方式是網站鏈接策略,它利用網站訪問和合作夥伴之間的資源合作相互促進。

9、網路推廣:利用某些平台在搜索引擎的權重,創建相關的網路詞條,達到營銷的目的。

10、問答推廣:最常見的就是知乎和網路知道了,通過一問一答的方式,利用人的潛意識心理,在用戶心中留下深刻印象。

11、軟文推廣:一篇好的軟文總是在結尾讓你忍俊不禁,但是又非常貼合主題。需要很深的文字功底,效果比硬廣好很多。

12、地圖推廣:在網路或高德地圖上標記品牌或公司名稱,用戶在使用地圖時就能看到你,地圖傳播面廣,受眾大,使用頻率高,尤其適合大眾消費品的推廣。

13、視頻推廣:製作一些關聯度較高,質量上乘的視頻上傳到像抖音這樣的平台,每天就會有很多人注意到你。

14、招聘網站:以招聘的名義,增加企業的曝光度,如果運用得當,零成本就能有不錯的回報。

15、微博推廣:微博開放性比社交軟體開放性要強,持續的輸出內容,提升關注度,利用好轉發抽獎等功能,能夠快速吸粉。

16.論壇推廣:將精心准備的帖子發到熱門的論壇上,迅速取得共鳴,適合健康類產品,例如祛痘

17、圖片推廣:圖片推廣分兩種,一種是和搜索引擎合作,用戶點擊圖片跳轉至相關鏈接。例如建築裝修類。另一種是做圖片生意的,最近比較火的「視覺中國」就是典型。

18、IM推廣:QQ,微信,旺旺等,操作成本低,以量取勝。

㈨ 今日頭條的推送演算法好嗎

您好,今日頭條的推送演算法是基於日常的瀏覽歷史來進行計算的,作為某個類型的喜好人群作為基數推薦。
如果您不喜歡某一類的內容,可以刻意地不去看該領域的內容,逐漸地頭條就會減少推送,直至沒有。
希望能夠幫助到您。

熱點內容
內置存儲卡可以拆嗎 發布:2025-05-18 04:16:35 瀏覽:335
編譯原理課時設置 發布:2025-05-18 04:13:28 瀏覽:378
linux中進入ip地址伺服器 發布:2025-05-18 04:11:21 瀏覽:612
java用什麼軟體寫 發布:2025-05-18 03:56:19 瀏覽:32
linux配置vim編譯c 發布:2025-05-18 03:55:07 瀏覽:107
砸百鬼腳本 發布:2025-05-18 03:53:34 瀏覽:943
安卓手機如何拍視頻和蘋果一樣 發布:2025-05-18 03:40:47 瀏覽:739
為什麼安卓手機連不上蘋果7熱點 發布:2025-05-18 03:40:13 瀏覽:803
網卡訪問 發布:2025-05-18 03:35:04 瀏覽:511
接收和發送伺服器地址 發布:2025-05-18 03:33:48 瀏覽:371