當前位置:首頁 » 操作系統 » 用戶標簽演算法

用戶標簽演算法

發布時間: 2022-11-27 04:45:22

❶ 用戶畫像的標簽體系

一、為什麼需要標簽?

隨著互聯網的興起,每天有大量的內容以視頻等形式被生產並上傳到各大平台,面對海量的內容,如何提升這些內容的智能分發效率是各大平檯面臨的重要課題。

而要實現這一目標,第一步就是更好地認識我們的用戶。構建用戶畫像的過程的本質就是對用戶信息進行標簽化管理的過程。通過標簽體系的建設,一方面讓數據變得可閱讀、易理解,方便業務使用;另一方面通過標簽類目體系將標簽組織排布,以一種適用性更好的組織方式來匹配未來變化的業務場景需求。如何合理規劃標簽體系對產品的運營影響非常大,因此,標簽是產品策略中特別關鍵的一環。

二、標簽是什麼?

對於標簽的定義在不同場景中往往是不同的,太糾結或執著於單一概念定義,會無法推進實際的業務和工作。我們所有的技術和業務層面的工作是為了業務目標,並且要實用和適用,並不是純學術層面的研討。

一般來說,我們認為標簽是指 「利用原始數據,通過一定的加工邏輯產出,能夠為業務所直接使用的可閱讀、易理解、有業務價值的數據。」

標簽體系有兩種組織方式:結構化標簽和半結構化/非結構化標簽。

所謂結構化標簽是按照某個分類法制定一個層次標簽體系,其中上層的標簽是下一層的父節點,在人群覆蓋上是包含關系。一些面向品牌廣告的受眾定嚮往往採用這種結構化較強的標簽體系。需要指出,這一體系中的標簽是根據需求方的邏輯而制定,某些在媒體方意義很大的分類標簽,如軍事等,由於沒有明確的需求對應,不宜出現在標簽體系中。

另外一種興趣標簽的組織方式,是根據具體需求設置相應的標簽,所有的標簽並不能為同一個分類體系中所描述,也不存在明確的父子關系。這種半結構化或非結構化的標簽體系往往包含一些比較精準的標簽的集合,因而主要適用於多種目標,特別是效果目標並存的對內容精準投放的訴求。

選擇結構化興趣標簽體系還是非結構化的興趣標簽體系更多地是基於業務場景的決策,當標簽僅僅是投放系統需要的中間變數,作為CTR預測或者其他模塊的變數輸入時,那麼結構化的標簽體系其實是沒有必要的,應該完全按照效果驅動的方式來規劃或挖掘標簽,而各個標簽之間也不太需要層次關系的約束。

還有一種特殊的標簽形式,關鍵詞。直接按照搜索或瀏覽內容的關鍵詞劃分人群和投放廣告,往往可以達到比較精準的效果。關鍵詞這種標簽體系是無層級關系、完全非結構化的,它雖然很容易理解,但並不太容易操作。不過由於搜索在互聯網中的重要地位,選擇和優化投放關鍵詞這樣一項專門技術已經發展得相當充分,因此這種標簽也是實踐中常用的。

三、如何構建標簽體系?

1.確定對象

進行標簽建設,首先要清楚對哪類對象建設標簽,也就是確定對象。對象是客觀世界中研究目標的抽象,有實體的對象,也有虛擬的對象。在企業經營過程中可以抽象出非常多的對象,這些對象在不同業務場景下交叉產生聯系,是企業的重要資產,需要全面刻畫了解。

經過對多個行業、多個標簽體系建設經驗的總結,可把對象分為 「人」「物」「關系」三大類 。三種對象是不一樣的,「人」往往具有主動性和智慧,能主動參與社會活動,主動發揮推動作用,往往是關系的發出者。「物」往往是被動的,包括原料、設備、建築物、簡單操作的工具或功能集合等,是關系的接收者。當常規意義上的設備具有了充分的人工智慧,變成了機器人,那麼它就屬於「人」這一類對象。「人」和「物」是實體類的對象,即看得到、摸得著的對象,而「關系」屬於一種虛擬對象,是對兩兩實物實體間的聯系的定義。因為關系很重要,企業大多數情況下反而是在對關系進行定義、反復發生、記錄、分析、優化,因此需要「關系」這種對象存在,對關系進行屬性描述和研究。關系按照產生的動因不同,又分為事實關系和歸屬關系,事實關系會產生可量化的事實度量,歸屬關系只是一種歸屬屬性。

明確了對象的定義和分類,就可以根據業務的需要確定要對哪些對象建立標簽體系。 基於內容的對象非常多,不可能對所有對象都建立獨立的標簽體系,一般我們會根據業務流量的需求,稿件數量的多少,類目的相似性,類目間的關系進行排名,確定標簽的優先順序和必要性。

2.設計框架

一般來說,互聯網產品需要使用的標簽類目數量非常龐大,當標簽項超過一定數量時,業務人員要使用或查找標簽就開始變得麻煩,管理標簽也會變得困難。因此筆者借鑒了圖書管理學中的經典方法:海量圖書需要有專門的圖書分類體系對書本進行編號並按照編號分櫃排放,閱讀者在查閱圖書時只需要按編號索引即可快速找到自己所需圖書,圖書管理員也可以方便、有效地理清所有圖書狀況。

構建標簽類目體系首先需要確定根目錄。根目錄就是上文提到的對象,因此有三大類根目錄:人、物、關系。根目錄就像樹根一樣直接確定這是一棵什麼樹。

如果根目錄是人,即這個標簽類目體系就是人的標簽類目體系,每個根目錄都有一個識別列來唯一識別具體對象。人這種大類下包括自然人和企業法人兩種亞根,同時自然人群體或企業法人群體也可以認為屬於人的對象范疇內,也是亞根。自然人實例可以有消費者、員工、加盟商等,因此可以形成消費者的標簽類目體系、員工的標簽類目體系、加盟商的標簽類目體系。同樣法人也可以細分為實體公司、營銷公司、運輸公司等。從最大的「人」根目錄、到「自然人/法人/自然人群體/法人群體」亞根,再到實例「用戶/員工/加盟商」,都屬於根目錄的范疇。

根據類似的方式,也可以將物細分為「物品」「物體」「物品集合」「物體集合」等亞類,各亞類下也可以細分根;關系也可以細分「關系記錄」「關系集合」。

標簽類目體系是對業務所需標簽採用類目體系的方法進行設計、歸屬、分類。類目體系本身是對某一類目標物進行分類、架構組織,分類通常使用一級類目、二級類目、三級類目等作為分類名。

類目結構可以用樹狀結構來比擬,根上長出的第一級分支,稱為一級類目;從第一級分支中長出的第二級分支,稱為二級類目;從第二級分支中長出的第三級分支,稱為三級類目。一般類目結構設為三級分層結構即可。沒有下一級分類的類目叫葉類目,掛在葉類目上的具體葉子就是標簽。

需要注意的是,類目框架的建設一般是基於業務展開的,因為類目體系存在的核心意義即為幫用戶快速查找、管理數據/標簽。

下圖為某銀行構建的客戶標簽類目體系,其中客戶是根目錄,會由custom_id來進行唯一識別,根目錄下有「基本特徵」「資產特徵」「行為特徵」「偏好特徵」「價值特徵」「風險特徵」「營銷特徵」等一級類目。「基本特徵」一級類目下又分「ID信息」「人口統計」「地址信息」「職業信息」等二級類目。「地址信息」二級類目下再細分為「賬單地址」「家庭地址」「工作地址」「手機地址」等三級類目。「賬單地址」三級類目下掛有「賬單詳細地址」「賬單地址郵編」「賬單地址所在省」等標簽。

標簽類目設計完成,整個標簽體系的框架就有了,接下來要做的就是往每個葉類目下填充有業務價值並且可以加工出來的標簽,進而完成整個標簽體系的設計。

3.填充內容

通過標簽類目設計,已經有了某類對象的標簽體系框架,只是還沒有具體的標簽內容。標簽設計就是設計合適的標簽並將其掛載到標簽類目。 在這一部分,筆者將盡量脫離技術視角,從產品視角出發,剖析如何「製作標簽」。

首先,是如何拆解內容。對內容的拆解首先還是分為三個部分:「用戶」「內容」「關系」,作為根目錄。接下來,關於「人」這個部分,我們可以拆分為:人口屬性、興趣屬性、行為偏好、發表時間等;同理,關於內容,我們可以拆分成「統計類」、「質量類」、「向量類」。接著,我們再對二級類目進行拆分,比如「統計類」中包含「點擊率」「時長」「完播率」「轉評贊」「跳出率」等。

要特別注意的是,往常習慣給別人打標簽、貼標簽的動作,其實不是在設計標簽,而是在設計特徵值。例如對某個人的定義「女、20~30歲、白領、活潑開朗」,分別是性別、年齡段、職業、性格標簽的具體特徵值。

這些特徵會進行一定的交叉,賦予這個特徵更多的含義。比如說使用用戶畫像和內容畫像做交叉,可以得到用戶的長短期的興趣匹配、Session興趣泛化匹配、用戶年齡對於某些內容類別的偏好、用戶性別對於某些內容類別的偏好等。如果拿用戶特徵與請求的上下文進行特徵的交叉,則會得到用戶常駐地在什麼地方、用戶的興趣隨時間的變化,比如有的用戶會在早上看新聞,而在晚上看一些娛樂類的資訊;還有一些場景的刻畫,如用戶喜歡在地鐵上看視頻,而在辦公的時候喜歡看圖文。通過這些特徵值組合,我們可以盡可能高效地對用戶群進行劃分,從而實現內容的精準分發。

現在,我們知道了如何建設標簽體系以及如何通過標簽體系對用戶群進行劃分,但想要做好標簽,我們不僅要從需要解構技術,還要立足於「好的內容」。在這一部分,筆者將通過運營&創作者的視角簡單分析如何製作「好的標簽」。

要想制定能夠打動人心的標簽,首先要了解用戶,切中他們的痛點。

如何才能了解用戶?一種辦法是角色轉換,換位思考,把自己看作用戶,而且是什麼都不懂的「小白用戶」,以這樣的視角去看問題、去思考。

舉個例子,你作為一個UP主,接了一份宣傳「降噪耳機」的營銷單,你的任務是讓用戶下單,完成內容的價值轉化。思考一下,該怎麼設計這個故事?

下面的一段參考文案:你在銀行做經理,維護客戶關系很艱難,你的職位不上不下。你有房貸和車貸,每月按揭五千元。你孩子的數學成績不好。你老婆在市人民醫院做護士,她母親有尿毒症並透析多年,她不愛你。你年輕的時候覺得能成一番事業,但現在也就這樣,朋友們混得都比你好。生活太糟了,你需要一個獨立的環境抒發情緒,這時候你戴上了降噪耳機。

這就是一個典型的「用戶視角」,它描述的是一個場景,它讓你一邊看一邊產生強烈的代入感,不由自主受到內容的感染,產生情緒波動,在情緒的驅使下完成下單的行為,實現價值轉化。

除了上面這種基於內容體驗的打標方法,還有另一種方式,也就是我們之前提過的「特徵值」,基於演算法生成的高精度內容標簽,一般是基於視頻幀、標題、作者、內容屬性、地理屬性、時間等。這些由演算法生成的內容標簽可以替換人工標注,從而節省人力成本,提高內容標簽生產效率。目前的內容標簽技術,其精度已經達到了90%以上,通過演算法對內容的分析自動生成一些標簽值。

比如上面這個視頻,所生成的標簽值就可能是「中華田園犬」「農村」「百萬播放」「狗」「華農兄弟」「萌寵」「動物」等。

經過對象確定、框架設計、類目設計、標簽設計、打標這幾個步驟,我們就完成了整個標簽體系的建設,文章寫得比較簡單,全當拋磚引玉。

四、一些問題

在標簽體系落地的過程中我們還會遇到很多問題,以下幾個問題也是筆者一直在思考的。如果有任何好的建議可以加筆者微信一起交流:shmusk

內容的時效性: 任何一個內容,包括視頻或者圖文,是有生命周期在裡面的,內容有長有短,其中預測一個內容的生命周期是一個挺難的事情,不論通過演算法也好或者其它技術也好;假設我們已經知道內容的生命周期,如何在有效的周期內給予內容有效的曝光量,也是個很難的問題。如何Balance這兩個問題,時效性是非常重要的,因為過了內容的生命周期,再給用戶推薦,是沒有意義的,用戶體驗會非常差。

內容質量的判定: 怎樣判定一個內容質量到底是好還是壞,好的標准到底是什麼,以及我們如何去建模,如果可以建模,特徵是什麼,以及我們的模型如何有效的利用特徵去判別?

冷啟動問題: 分為內容冷啟動與用戶冷啟動。內容冷啟動就是一個新內容進入平台,沒有被分發出來;而用戶冷啟動就是一個新的用戶,交互數據和行為非常的稀疏,如何做比較好的推薦、能夠引導進行後續更加稠密的交互,增加粘性,以此來提升用戶體驗,更好的滿足用戶的需求?

❷ 07_推薦系統演算法詳解

     基於人口統計學的推薦與用戶畫像、基於內容的推薦、基於協同過濾的推薦。

1、基於人口統計學的推薦機制( Demographic-based Recommendation)是一種最易於實現的推薦方法,它只是簡單的根據系統用戶的基本信息發現用戶的相關程度,然後將相似用戶喜愛的其他物品推薦給當前用戶。

2、對於沒有明確含義的用戶信息(比如登錄時間、地域等上下文信息),可以通過聚類等手段,給用戶打上分類標簽。

3、對於特定標簽的用戶,又可以根據預設的規則(知識)或者模型,推薦出對應的物品。

4、用戶信息標簽化的過程一般又稱為 用戶畫像 ( User Profiling)。

(1)用戶畫像( User Profile)就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後,完美地抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式。

(2)用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。

(3)作為大數據的根基,它完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要信息,提供了足夠的數據基礎。

1、 Content- based Recommendations(CB)根據推薦物品或內容的元數據,發現物品的相關性,再基於用戶過去的喜好記錄,為用戶推薦相似的物品。

2、通過抽取物品內在或者外在的特徵值,實現相似度計算。比如一個電影,有導演、演員、用戶標簽UGC、用戶評論、時長、風格等等,都可以算是特徵。

3、將用戶(user)個人信息的特徵(基於喜好記錄或是預設興趣標簽),和物品(item)的特徵相匹配,就能得到用戶對物品感興趣的程度。在一些電影、音樂、圖書的社交網站有很成功的應用,有些網站還請專業的人員對物品進行基因編碼/打標簽(PGC)。

4、 相似度計算:

5、對於物品的特徵提取——打標簽(tag)

        - 專家標簽(PGC)

        - 用戶自定義標簽(UGC)

        - 降維分析數據,提取隱語義標簽(LFM)

     對於文本信息的特徵提取——關鍵詞

        - 分詞、語義處理和情感分析(NLP)

        - 潛在語義分析(LSA)

6、 基於內容推薦系統的高層次結構

7、 特徵工程

(1)特徵( feature):數據中抽取出來的對結果預測有用的信息。

         特徵的個數就是數據的觀測維度。

         特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習演算法上發揮更好的作用的過程。

         特徵工程一般包括特徵清洗(采樣、清洗異常樣本),特徵處理和特徵選擇。

         特徵按照不同的數據類型分類,有不同的特徵處理方法:數值型、類別型、時間型、統計型。

(2)數值型特徵處理

        用連續數值表示當前維度特徵,通常會對數值型特徵進行數學上的處理,主要的做法是歸一化和離散化。

        * 幅度調整歸一化:

            特徵與特徵之間應該是平等的,區別應該體現在 特徵內部 。

            例如房屋價格和住房面積的幅度是不同的,房屋價格可能在3000000~15000000(萬)之間,而住房面積在40-300(平方米)之間,那麼明明是平等的兩個特徵,輸入到相同的模型中後由於本身的幅值不同導致產生的效果不同,這是不合理的

                        

        * 數值型特徵處理——離散化

        離散化的兩種方式:等步長——簡單但不一定有效;等頻——min -> 25% -> 75% -> max

        兩種方法對比:

            等頻的離散化方法很精準,但需要每次都對數據分布進行一遍從新計算,因為昨天用戶在淘寶上買東西的價格分布和今天不一定相同,因此昨天做等頻的切分點可能並不適用,而線上最需要避免的就是不固定,需要現場計算,所以昨天訓練出的模型今天不一定能使用。

            等頻不固定,但很精準,等步長是固定的,非常簡單,因此兩者在工業上都有應用。

(3) 類別型特徵處理

        類別型數據本身沒有大小關系,需要將它們編碼為數字,但它們之間不能有預先設定的大小關系,因此既要做到公平,又要區分開它們,那麼直接開辟多個空間。

        One-Hot編碼/啞變數:One-Hot編碼/啞變數所做的就是將類別型數據平行地展開,也就是說,經過One-Hot編碼啞變數後,這個特徵的空間會膨脹。

(4) 時間型特徵處理

        時間型特徵既可以做連續值,又可以看做離散值。

        連續值:持續時間(網頁瀏覽時長);間隔時間(上一次購買/點擊離現在的時間間隔)。

        離散值:一天中哪個時間段;一周中的星期幾;一年中哪個月/星期;工作日/周末。

(5) 統計型特徵處理

        加減平均:商品價格高於平均價格多少,用戶在某個品類下消費超過多少。

        分位線:商品屬於售出商品價格的分位線處。

        次序性:商品處於熱門商品第幾位。

        比例類:電商中商品的好/中/差評比例。

8、 推薦系統常見反饋數據 :

9、 基於UGC的推薦

     用戶用標簽來描述對物品的看法,所以用戶生成標簽(UGC)是聯系用戶和物品的紐帶,也是反應用戶興趣的重要數據源。

    一個用戶標簽行為的數據集一般由一個三元組(用戶,物品,標簽)的集合表示,其中一條記錄(u,i,b)表示用戶u給物品打上了標簽b。

    一個最簡單的演算法:

        - 統計每個用戶最常用的標簽

        - 對於每個標簽,統計被打過這個標簽次數最多的物品

        - 對於一個用戶,首先找到他常用的標簽,然後找到具有這些標簽的最熱門的物品,推薦給他

        - 所以用戶u對物品i的興趣公式為 ,其中 使用戶u打過標簽b的次數, 是物品i被打過標簽b的次數。

    簡單演算法中直接將用戶打出標簽的次數和物品得到的標簽次數相乘,可以簡單地表現出用戶對物品某個特徵的興趣。

    這種方法傾向於給熱門標簽(誰都會給的標簽,如「大片」、「搞笑」等)、熱門物品(打標簽人數最多)比較大的權重,如果一個熱門物品同時對應著熱門標簽,那它就會「霸榜」,推薦的個性化、新穎度就會降低。

    類似的問題,出現在新聞內容的關鍵字提取中。比如以下新聞中,哪個關鍵字應該獲得更高的權重?

10、 TF-IDF:詞頻逆文檔頻率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一種用於資訊檢索與文本挖掘的常用加權技術。

        TFDF是一種統計方法,用以評估一個字詞對於一個文件集或一個語料庫中的其中份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

                    TFIDF=TF IDF

         TF-IDF的主要思想是 :如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。

        TF-DF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。

         詞頻( Term Frequency,TF) :指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數的歸一化,以防止偏向更長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否。) ,其中 表示詞語 i 在文檔 j 中出現的頻率, 表示 i 在 j 中出現的次數, 表示文檔 j 的總詞數。

         逆向文件頻率( Inverse Document Frequency,IDF) :是一個詞語普遍重要性的度量,某一特定詞語的IDF,可以由總文檔數目除以包含該詞語之文檔的數目,再將得到的商取對數得到 ,其中 表示詞語 i 在文檔集中的逆文檔頻率,N表示文檔集中的文檔總數, 表示文檔集中包含了詞語 i 的文檔數。

(11) TF-IDF對基於UGC推薦的改進 : ,為了避免熱門標簽和熱門物品獲得更多的權重,我們需要對「熱門進行懲罰。

          借鑒TF-IDF的思想,以一個物品的所有標簽作為「文檔」,標簽作為「詞語」,從而計算標簽的「詞頻」(在物品所有標簽中的頻率)和「逆文檔頻率」(在其它物品標簽中普遍出現的頻率)。

           由於「物品i的所有標簽」 應該對標簽權重沒有影響,而 「所有標簽總數」 N 對於所有標簽是一定的,所以這兩項可以略去。在簡單演算法的基礎上,直接加入對熱門標簽和熱門物品的懲罰項: ,其中, 記錄了標簽 b 被多少個不同的用戶使用過, 記錄了物品 i 被多少個不同的用戶打過標簽。

(一)協同過濾(Collaborative Filtering, CF)

1、基於協同過濾(CF)的推薦:基於內容( Content based,CB)主要利用的是用戶評價過的物品的內容特徵,而CF方法還可以利用其他用戶評分過的物品內容。

    CF可以解決CB的一些局限:

         - 物品內容不完全或者難以獲得時,依然可以通過其他用戶的反饋給出推薦。

        - CF基於用戶之間對物品的評價質量,避免了CB僅依賴內容可能造成的對物品質量判斷的干。

        - CF推薦不受內容限制,只要其他類似用戶給出了對不同物品的興趣,CF就可以給用戶推薦出內容差異很大的物品(但有某種內在聯系)

    分為兩類:基於近鄰和基於模型。

2、基於近鄰的推薦系統:根據的是相同「口碑」准則。是否應該給Cary推薦《泰坦尼克號》?

(二)基於近鄰的協同過濾

1、 基於用戶(User-CF): 基於用戶的協同過濾推薦的基本原理是,根據所有用戶對物品的偏好,發現與當前用戶口味和偏好相似的「鄰居」用戶群,並推薦近鄰所偏好的物品。

     在一般的應用中是採用計算「K-近鄰」的演算法;基於這K個鄰居的歷史偏好信息,為當前用戶進行推薦。

    User-CF和基於人口統計學的推薦機制:

        - 兩者都是計算用戶的相似度,並基於相似的「鄰居」用戶群計算推薦。

        - 它們所不同的是如何計算用戶的相似度:基於人口統計學的機制只考慮用戶本身的特徵,而基於用戶的協同過濾機制可是在用戶的歷史偏好的數據上計算用戶的相似度,它的基本假設是,喜歡類似物品的用戶可能有相同或者相似的口味和偏好。

2、基於物品(Item-CF):基於項目的協同過濾推薦的基本原理與基於用戶的類似,只是使用所有用戶對物品的偏好,發現物品和物品之間的相似度,然後根據用戶的歷史偏好信息,將類似的物品推薦給用戶。

    Item-CF和基於內容(CB)的推薦

       - 其實都是基於物品相似度預測推薦,只是相似度計算的方法不一樣,前者是從用戶歷史的偏好推斷,而後者是基於物品本身的屬性特徵信息。

   同樣是協同過濾,在基於用戶和基於項目兩個策略中應該如何選擇呢?

        - 電商、電影、音樂網站,用戶數量遠大於物品數量。

        - 新聞網站,物品(新聞文本)數量可能大於用戶數量。

3、 User-CF和Item-CF的比較

     同樣是協同過濾,在User-CF和ltem-CF兩個策略中應該如何選擇呢?

     Item-CF應用場景

       -  基於物品的協同過濾( Item-CF ) 推薦機制是 Amazon在基於用戶的機制上改良的一種策略因為在大部分的Web站點中,物品的個數是遠遠小於用戶的數量的,而且物品的個數和相似度相對比較穩定,同時基於物品的機制比基於用戶的實時性更好一些,所以 Item-CF 成為了目前推薦策略的主流。

     User-CF應用場景

        - 設想一下在一些新聞推薦系統中,也許物品一一也就是新聞的個數可能大於用戶的個數,而且新聞的更新程度也有很快,所以它的相似度依然不穩定,這時用 User-cf可能效果更好。

    所以,推薦策略的選擇其實和具體的應用場景有很大的關系。

4、 基於協同過濾的推薦優缺點

 (1)基於協同過濾的推薦機制的優點:

        它不需要對物品或者用戶進行嚴格的建模,而且不要求對物品特徵的描述是機器可理解的,所以這種方法也是領域無關的。

       這種方法計算出來的推薦是開放的,可以共用他人的經驗,很好的支持用戶發現潛在的興趣偏好。

(2)存在的問題

        方法的核心是基於歷史數據,所以對新物品和新用戶都有「冷啟動」的問題。

        推薦的效果依賴於用戶歷史好數據的多少和准確性。

        在大部分的實現中,用戶歷史偏好是用稀疏矩陣進行存儲的,而稀疏矩陣上的計算有些明顯的問題,包括可能少部分人的錯誤偏好會對推薦的准確度有很大的影響等等。

        對於一些特殊品味的用戶不能給予很好的推薦。

(三)基於模型的協同過濾

1、基本思想

(1)用戶具有一定的特徵,決定著他的偏好選擇

(2)物品具有一定的特徵,影響著用戶需是否選擇它。

(3)用戶之所以選擇某一個商品,是因為用戶特徵與物品特徵相互匹配。

    基於這種思想,模型的建立相當於從行為數據中提取特徵,給用戶和物品同時打上「標簽」;這和基於人口統計學的用戶標簽、基於內容方法的物品標簽本質是一樣的,都是特徵的提取和匹配。

    有顯性特徵時(比如用戶標簽、物品分類標簽)我們可以直接匹配做出推薦;沒有時,可以根據已有的偏好數據,去發據出隱藏的特徵,這需要用到隱語義模型(LFM)。

2、基於模型的協同過濾推薦,就是基於樣本的用戶偏好信息,訓練一個推薦模型,然後根據實時的用戶喜好的信息進行預測新物品的得分,計算推薦

    基於近鄰的推薦和基於模型的推薦

        - 基於近鄰的推薦是在預測時直接使用已有的用戶偏好數據,通過近鄰數據來預測對新物品的偏好(類似分類)

        - 而基於模型的方法,是要使用這些偏好數據來訓練模型,找到內在規律,再用模型來做預測(類似回歸)

    訓練模型時,可以基於標簽內容來提取物品特徵,也可以讓模型去發據物品的潛在特徵;這樣的模型被稱為 隱語義模型 ( Latent Factor Model,LFM)。

(1)隱語義模型(LFM):用隱語義模型來進行協同過濾的目標:

            - 揭示隱藏的特徵,這些特徵能夠解釋為什麼給出對應的預測評分

            - 這類特徵可能是無法直接用語言解釋描述的,事實上我們並不需要知道,類似「玄學」

        通過矩陣分解進行降維分析

            - 協同過濾演算法非常依賴歷史數據,而一般的推薦系統中,偏好數據又往往是稀疏的;這就需要對原始數據做降維處理。

            - 分解之後的矩陣,就代表了用戶和物品的隱藏特徵

        隱語義模型的實例:基於概率的隱語義分析(pLSA)、隱式迪利克雷分布模型(LDA)、矩陣因子分解模型(基於奇異值分解的模型,SVD)

(2)LFM降維方法——矩陣因子分解

(3)LFM的進一步理解

    我們可以認為,用戶之所以給電影打出這樣的分數,是有內在原因的,我們可以挖掘出影響用戶打分的隱藏因素,進而根據未評分電影與這些隱藏因素的關聯度,決定此未評分電影的預測評分。

    應該有一些隱藏的因素,影響用戶的打分,比如電影:演員、題材、年代…甚至不定是人直接可以理解的隱藏因子。

    找到隱藏因子,可以對user和Iiem進行關聯(找到是由於什麼使得user喜歡/不喜歡此Item,什麼會決定user喜歡/不喜歡此item),就可以推測用戶是否會喜歡某一部未看過的電影。

(4)矩陣因子分解

(5)模型的求解——損失函數

(6)模型的求解演算法——ALS

    現在,矩陣因子分解的問題已經轉化成了一個標準的優化問題,需要求解P、Q,使目標損失函數取最小值。

    最小化過程的求解,一般採用隨機梯度下降演算法或者交替最小二乘法來實現交替最小二乘法( Alternating Least Squares,ALS)

    ALS的思想是,由於兩個矩陣P和Q都未知,且通過矩陣乘法耦合在一起,為了使它們解耦,可以先固定Q,把P當作變數,通過損失函數最小化求出P,這就是一個經典的最小二乘問題;再反過來固定求得的P,把Q當作變數,求解出Q:如此交替執行,直到誤差滿足閱值條件,或者到達迭代上限。

(7)梯度下降演算法

❸ 抖音的演算法2021-11-07

視頻上熱門的底層邏輯--抖音的演算法

創作者和用戶直接連接,中間的抖音不予干涉,完全由演算法決定,這種演算法完全取決於你視頻的質量。

1 流量池演算法 :500流量開始拼數據,好的進入下一個3000的流量池,在繼續拼數據好的再進入下一個10000的流量池。同樣的邏輯繼續進入十萬流量池,百萬流量池,千萬流量池,熱門流量池。

具體拼那些數據呢? 播放時長 + 完播率+轉粉率+評論率+轉粉率+先贊率 , 播放時長 起著最金額UI的那個的因素。如果播放都沒有完成,那其他的指標幾乎沒用。

2 標簽演算法 :標簽存在與抖音賬號上的,你自己的各種維度抖音算後給你打標。你的視頻是那些標簽呢?來源於用戶的觀看, 它會自動根據演算法推送給你同類標簽的人。

3 實時演算法 :不同的時間地點環境下的視頻。

1 熱門演算法 :當下的熱門事件分發給每個人,比如所西安的賓士女時間,河南發洪水等等。不管你是什麼標簽,全網推送人人都能看到。

2 協同演算法 :兩個標簽類似的賬號的互相影響的演算法,比如所,A和B都是釣魚的大叔,A刷到一個東北大媽美食賬號,有了停留時長並關注,那抖音也會推薦給B。這是破除信息繭房最有效的辦法。

3 戰略演算法 :這是平台不同的時期根據其戰略目標的演算法。當平台需要增減用戶和停留時長時,就會自動給你推送流量。比如說2020年,平台扶持影視號,就會給影視號推送大量的流量,就成就了很多的影視大號。所以看清楚平台的近期戰略,就可以事半功倍。現在平台戰略是什麼?你想想?

1 按照目前的演算法,不可能客戶,就是通過付費買來用戶的瀏覽,付費只能讓用戶刷到你的視頻,具體看多久,是否點贊,是否轉發關注,完全取決於你的內容和用戶標簽

2 付費演算法的額前提是-- 內容優質+人群精準

❹ 用戶畫像:標簽化就是數據的抽象能力 | 產品運營與數字游戲

<<<前言>>>
跟數據打交道已經上十年了,在管理業務、產品運營、風險識別、數據產品等方面有過一些實踐經驗,愛總結的邏輯Go決定把日常的文本總結短文化,整理成體系,歡迎拍磚,更歡迎一起研討:

系列一:風險與數據的邏輯

系列二:業務管理背後的數據故事

系列三:產品運營與數字游戲

系列四:如何打造數據產品

文 | 愛總結的邏輯Go

閱 | 完整閱讀需要8分鍾

議 | [email protected]

都說進入中國人口紅利已經在消失,我們已經進入到互聯網的下半場。在上半場,流量爆發助長了互聯網公司的快速發展,你甚至不需要知道網路另一端是個什麼樣的人;下半場,互聯網公司已經不新鮮了,大部分公司已經互聯網化,每個消費者都正在被數字化,標簽化~~

這兩年引領下半場發展的是那些在講「大數據」「賦能」的企業,有數據有用戶的企業。

通過大數據告訴政府該如何智慧地管理交通,規劃地鐵站,做城市發展規劃。

通過消費數據分析,告訴企業該在什麼時間生產什麼產品,以最大化地滿足用戶的需求。

通過生活大數據告訴我們餐飲企業,甚至房地產企業該如何選址。

如果說互聯網的上半場是粗曠運營,因為有流量紅利不需要考慮細節。那麼下半場, 精細化運營將是長久的主題 。有數據,有數據分析能力才能讓用戶得到更好的體驗。

所以,用戶是根本,也是數據分析的出發點。產品設計用戶在線的交互方式,也是數據生產的方式。

<<<用戶畫像的准則>>>

假如你受雇一家賣羊肉串的公司,老闆擔心現在競爭越來越激烈了,要想做好得知道顧客喜歡什麼。於是上班第一天,老闆問你:「你能不能分析一下用戶數據,給咱們公司的羊肉串業務賦能啊?」

「老闆啊, 咱們賣羊肉串的,做數據挖掘沒用啊。「 估計老闆聽後,晚上就把你開了!

那應該怎麼做呢?

首先就是將自己企業的用戶畫像做個白描,分析用戶「都是誰」「從哪來」「要去哪」。

換一種回答:「老闆,您需要的是用戶畫像,畫像建模是個系統的工程,我們需要解決三個問題。第一呢,就是用戶從哪裡來,這里我們 需要統一標識用戶ID ,方便我們對用戶後續行為進行追蹤。我們要了解這些羊肉串的用戶從哪裡來,他們是為了聚餐,還是自己吃宵夜,這些場景我們都要做統計分析。第二呢,這些用戶是誰?我們需要對這些 用戶進行標簽化 ,方便我們對用戶行為進行理解。第三呢,就是用戶要到哪裡去?我們要將這些 用戶畫像與我們的業務相關聯,提升我們的轉化率,或者降低我們的流失率 。」

相信你的老闆聽到這里,一定會給你豎起大拇指,說:「不錯,需要什麼資源,隨時找我就行。」

就像上圖手繪的內容,我們再做一個梳理:

首先,為什麼要設計唯一標識?

用戶唯一標識是整個用戶畫像的核心 。一個APP,把「從用戶開始使用APP到下單到售後整個所有的用戶行為」進行串聯,這樣就可以更好地去跟蹤和分析一個用戶的特徵。

設計唯一標識可以是:用戶編碼、用戶名、注冊手機號、郵箱、設備號、CookieID等。

其次,給用戶打標簽。

標簽並不是越多越好,不同的產品,標簽的選擇范圍也不同,如果以電商企業為例,可以區分四個維度進行標簽劃分,進行「 用戶消費行為分析 」:

1、 用戶標簽 :它包括了性別、年齡、地域、收入、學歷、職業等,這些包括了用戶的基礎屬性。

2、 消費標簽 :消費習慣、購買意向、是否對促銷敏感。這些統計分析用戶的消費習慣,有利於了解用戶消費偏好,針對性地推薦商品。

3、 行為標簽 :時間段、頻次、時長、訪問路徑。這些是通過分析用戶行為,來得到他們使用APP的習慣。

4、 內容分析 :對用戶平時瀏覽的內容,尤其是停留時間長、瀏覽次數多的內容進行分析,分析出用戶對哪些內容感興趣,比如,金融、娛樂、教育、體育、時尚、科技等。

<<<標簽體系的建立>>>

用戶畫像是現實世界中的用戶數學建模 ,我們正是將海量數據進行 標簽化 ,來得到精準的用戶畫像,從而為用戶經營更精準地解決問題。

想想,當你有了用戶畫像,可以為用戶經營帶來什麼業務價值呢?

可以從用戶生命周期的三個階段來劃分畫像價值: 獲客、粘客、留客

1、 獲客 :如何進行拉新,通過更精準的營銷獲取客戶。

2、 粘客 :個性化推薦,搜索排序,場景運營等。

3、 留客 :流失率預測,分析關鍵節點降低流失率。

如果按照數據流處理的階段來劃分用戶畫像建模的過程,可以分為 數據層、演算法層和業務層 。你會發現在不同的層,都需要打上不同的標簽。

數據層指的是用戶消費行為里的標簽。也是「 事實標簽 」,作為數據客觀的記錄。

演算法層指的是透過這些行為算出的用戶建模。可以打上「 模型標簽 」,作為用戶畫像的分類標識。

業務層指的是獲客、粘客、留客的手段。可以打上「 預測標簽」 ,作為業務關聯的結果。

標簽化的流程,就是通過數據層的「事實標簽」,在演算法層進行計算,打上「模型標簽」的分類結果,最後指導業務層,得出「預測標簽」。

隨著現在用戶交互的海量增長,數據的體量也在不斷擴大,「事實標簽」基於數據層做記錄和管理,也需要根據數據粒度和應用場景做分層:

1、 明細層 數據:以「日」為數據粒度,直接從各個業務數據表、日誌數據表、埋點數據表抽取用戶每天的每一次行為,按固定表結構插入相關表中,在此過程中不對數據做任何匯總、統計類的處理。可視為數據倉庫中ODS層數據。

2、 統計中間層 數據:以「用戶」為數據粒度,對明細層的全量歷史數據進行統計加工、匯總計算,可視為數據倉庫中DW層數據。

3、 應用層 數據:以「用戶」為數據粒度,對統計中間層數據做進一步挖掘處理,處理過程中要考慮業務應用場景,關聯行為權重、標簽權重等。應用層數據輸出後可支持產品應用。應用層數據可視為數據倉庫中DM層數據。

開發出的用戶畫像相關寬表及明細標簽表,按應用場景一般分為用戶人口屬性畫像、用戶個性化標簽、各業務線用戶畫像、用戶偏好畫像和用戶群體屬性畫像等。現在各數據公司高度重視的關系網路圖譜,也是基於此基礎上建立風險庫關系網路、欺詐度關系網路以及高價值關系網路、高成長性群體網路等。

<<<用戶標簽化的應用>>>

當有了「用戶消費行為分析」的標簽之後,就可以更好地理解業務了。

比如一個經常購買沙拉的人,一般很少吃夜宵;同樣,一個經常吃夜宵的人,吃小龍蝦的概率可能遠高於其他人。這些結果都是通過數據挖掘中的關聯分析得出的。

有了這些數據,就可以 預測用戶的行為

比如,一個用戶購買了「月子餐」後,購買嬰兒用品的概率也會增大。

具體在業務層上,可以基於標簽產生哪些業務價值呢?

1、在 獲客 上,可以找到優勢的宣傳渠道,如何通過個性化的宣傳手段,吸引有潛力需求的用戶,並刺激其轉化。

2、在 粘客 上,如何提升用戶的單價和消費頻次,方法可以包括購買後的個性化推薦、針對優質用戶進行優質高價商品的推薦、以及重復購買,比如通過紅包、優惠等方式激勵對優惠敏感的人群,提升購買頻次。

3、在 留客 上,預測用戶是否可能會從平台上流失。在營銷領域,關於用戶留存有一個觀點——如果將客戶流失率降低5%,公司利潤將提升25%-85%。可以看出留存率是多麼的重要。用戶流失可能會包括多種情況,比如用戶體驗、競爭對手、需求變化等,通過預測用戶的流失率可以大幅降低用戶留存的運營成本。

<<<抽象思維的重要性>>>

鍛煉自己的 抽象能力,將繁雜的事務簡單化

上面講了很多一般情況考慮的,也不能忽略特殊情況,用戶行為也會隨著營銷的節奏產生異常值。比如雙十一,激增的大量訂單,要考慮異常值的處理。

總之,數據量是龐大的,會存在各種各樣的使用情況,光是分析EB級別的大數據,就要花很長的時間。

但最終目的不是處理這些數據,而是理解、使用這些數據挖掘的結果。對數據的標簽化能讓我們快速理解一個用戶,一個商品,乃至一個爆款文案內容的特徵,從而方便理解和使用數據。

用戶畫像最終的目的是了解產品用戶是誰?是怎樣的?有什麼共性的特徵?他們需要什麼? 產品的潛在用戶在哪裡?

帶著問題,進行抽象化的提煉,通過標簽組合演算法的運用和挖掘,在互聯網下半場後流量時代是至關重要的。

今天就用戶畫像標簽化的話題先講到這里吧,這幾天在忙著整理課件,把數據運營的方法體系進行梳理,歸納總結應用到產品價值提升上,是件很有意思的事情。 從十年前的Deck Data講起,到今天全生命周期數據化的演變升級,會有很多可以分享的故事點~~

❺ 那些可以用做用戶的特徵標識

您好,一般來說,用戶的特徵標識就是指用戶標簽。設置用戶標簽的角度有很多,可以按照用戶的基本屬性,用戶興趣愛好等條件設置標簽。為了方便洞察移動互聯網用戶的特徵,個推獨創了冷、熱、溫數據維度,您可以了解一下。

1、冷數據標簽,如用戶基本屬性。這類標簽改變的概率小,如性別、年齡層次、興趣、常駐地、職業、消費水平等相對穩定的用戶屬性特徵。

2、溫數據標簽,是具有一定時效性的特徵,比如用戶近期活躍的應用和場景。

3、熱數據標簽,是指當前區域、使用應用等場景化明顯的,稍縱即逝的營銷機會,比如用戶當下的場景。

用戶特徵標識

❻ 用戶畫像標簽體系流程介紹

企業搭建用戶標簽體系可以選擇自建或使用第三方用戶標簽體系。企業自建用戶畫像標簽體系的過程可以拆解為4步:

①梳理數據

數據是用戶畫像的基因。我們需要提前列出畫像標簽列表,根據標簽列表確認所需數據維度。數據可能來源於自有數據或第三方外部數據。

②標簽完善

由於APP自有數據有限,在構建全面、多維的用戶畫像標簽體系時,需要來自第三方的數據源作為補充。可以選擇個推這樣的第三方數據智能服務商,使用個推的用戶運營產品進行標簽完善,建立更加完整的用戶畫像,滿足對用戶進行全面洞察的需求。

③數據進行清洗、治理,將自有數據和第三方數據進行關聯,並將原始數據進行特徵化,為每個用戶創建標簽。

④畫像創建

通過聚類分析找到用戶共性特徵,生成用戶畫像。在實際使用過程中,可隨著數據的積累(比如核心用戶畫像發生變化)或者運營經驗的發展(在運營過程中得到對用戶畫像的正反饋)對演算法模型進行迭代調整。


以上是用戶畫像構建全流程,工作量非常龐大。企業可以直接選擇個推·用戶運營這樣的第三方用戶畫像工具。個推·用戶運營SDK支持結合APP自有數據和個推海量數據,全面洞察目標用戶,助力APP構建完整立體的用戶畫像,同時提供標簽管理平台及行業標簽模板庫,讓用戶洞察更深入、更便捷,做到毫秒級輸出標簽,幫助完善各領域用戶畫像,滿足APP在不同場景下對用戶畫像的特定需求。個推·用戶運營現在限時免費中,注冊/登錄個推開發者中心,即可免費開通。

用戶運營

❼ 抖音快速給賬號打標簽的方法

作為創作者,只需要根據底層邏輯,去創作演算法喜歡的內容,就能得到更多用戶的喜歡。

對於一個新賬號來說,想要快速給賬號打上標簽,可以試一下這種方法: 內容垂直到極致。

如果對自媒體有一些基礎了解的話,就會知道,平台更喜歡垂直類賬號,比如只發娛樂領域、體育領域、影視領域等某一具體領域內容的賬號。

可是對於一個新號來說,這時候賬號是沒有標簽的,而且 視頻播放量很大程度取決於初始流量池的精準程度 ,我們能做的,就是讓自己的視頻,找到更精準的用戶。

根據演算法的底層邏輯,用戶有一系列興趣標簽,內容有一系列相關標簽,演算法要做的,是把內容和用戶進行匹配。

比如說 X用戶 有A、2 、3三種興趣,而我們的 Y內容 有A、B、C三個標簽,那麼演算法就會根據A標簽,把我們的 Y內容 匹配給 X用戶 。

可是,X用戶對A、2 、3的興趣權重是不一樣的,比如A興趣可能就佔了50%,而我們的內容標簽權重也是不一樣的,可能A標簽只佔到10%。

舉個具體的例子。

X用戶是一名大學生,他喜歡內容標簽,50%的考公,30%的音樂,20%的影視。

而我們的Y內容,70%的生活,20%的工作,10%的考公。

系統會根據X用戶和Y內容都有【考公】這個標簽去進行匹配,但是如果此時X用戶恰好想要放鬆一下,或者我們恰好發的是生活內容,播放量就不會太好。

根據標簽匹配的規律,我們想要初始獲得更高的播放量,就需要讓自己賬號主要標簽佔比足夠高,這樣系統給我們賬號的標簽會更准確,推薦用戶也會更准確。

比如影視領域,內容太寬泛,喜歡A作品的人不一定喜歡B作品,如果一個新號一開始就什麼都發,那可能很難匹配到足夠精準的用戶,也就會一直在初級流量池。

所以想要快速打標簽,最好的方法,是在初期只發同一部作品的內容,這樣系統就會逐漸為我們的內容匹配精準用戶,等到粉絲數多起來之後,再去發其他作品的內容。

我上周用這種方法測試了3個新抖音賬號,第一個視頻全是個位數播放,到第三個視頻,基本播放量就可以達到2000+,並且保持穩定。

其中一個賬號測試過在中間發布同領域不同作品的內容,播放量是個位數,換回原來內容之後,播放量又開始回歸4位數。

其實一開始是打算發10個同一作品的視頻,然後用豆莢投對標賬號直接拉標簽的,結果沒想到位元組的演算法已經這么成熟了,倒是省下了不少錢~

賬號目前播放量比較穩定,但是還沒有爆款,這一周會嘗試加入一些梗和趣味點,引發用戶吐槽或共鳴,引導用戶參與互動,增加用戶的停留時間。

希望本文能夠給你做抖音一些啟發。

❽ 給1個用戶打上200萬個標簽,7分鍾搞懂信息流廣告

信息流廣告其實離我們並不遠,我們先看一個場景:

某一天,為了打一瓶醬油,你走進了超市。然後……

結賬的時候,推車里也許有醬油,可能還有包紙尿片,或者其他商品。

請別動輒將這個場景和大數據最常用的「啤酒+尿片」案例混為一談,因為這個場景,在我們每一個人身上都發生過。

文/張書樂

TMT行業觀察者、游戲產業時評人,人民網、人民郵電報專欄作者

換位思考下,把超市看成是內容平台,我們跳過各色信息走向需要的內容(醬油)時,可能會途經尿片這個內容區,然後突然想到,孩子尿片快斷貨了……

兩者之間沒有必然聯系,而在傳統商超里,實現這樣的「增值」消費的方式往往就是根據銷售量的情況合理搭配貨架的擺放方式。

比如將爆款放在靠里一點的位置,讓客人途經更多的商品區;比如下樓電梯在另一邊;比如買贈或買促活動混搭……

這是傳統商業模式下的考量,而在互聯網內容分發之上,我們可以把所有的內容都當做是「廣告」,而你絕不能讓用戶繞遠路來偶遇他可能會買的東西。

而且,內容分發狀態下,用戶對內容的需求不斷進行選擇,後台演算法會更加精準,繞遠路更加不現實。大家來看內容的目的,本身也是越快獲取到自己所需求的為好。

這時候,我們會發現一個有趣的狀況,即在信息爆炸的互聯網之上,用戶信息獲取方式變成了兩種狀態:

一是最為傳統的搜索模式,用戶帶著目的去網路上尋找某類信息,即打醬油。但有個問題,很多人並不是時時刻刻都有打醬油的明確想法。

二是盲目遇上信息流,即超市貨架,結果自己模糊的需求變成了購買。這已經成為時下的一個主流,即網路信息流廣告的訴求點。

網路搜索公司總裁向海龍對此有過一個很精闢的論述,即「用戶不僅需要更便捷智能的找到信息,也需要個性化針對性的信息主動推薦」。

從「人找信息」,升級到「信息找人」,說起來就這么簡單。做呢,一點都不簡單。

廣告也能讀懂你的心

隨著網路百家號、今日頭條等內容分發平台的崛起,信息流廣告也有了更多承載平台,不再只是過去類似網路搜索或淘寶購物時,在側邊欄出現的和你搜索項或之前瀏覽項有關的商品廣告。

網路、微博、微信和今日頭條都推出了信息流廣告,可這個廣告類型,到底有多強?

數據說話更能說明問題。2014年,信息流廣告在美國已達54億美元,facebook和推特的廣告收入中分別有超過50%和70%來自於此。而在中國卻只有區區60億元,而2017年,預計將增長480%,達到340億元。

但預計的增長,並不代表在內容分發中簡單植入相關廣告就能完成目標。

信息流廣告要做的不是簡單根據你的內容喜好而提供相關商品,比如看汽車,送車品廣告。

其實,這還算好的。更多的時候,我們在買了車之後,往往還會看車子的介紹,而隨後而來的信息流廣告盡管很精準,但往往可能是一款車。

啥感覺,和網路搜索推廣差不多,而且網路搜索推廣現在走的更遠。

舉個例子:

一家名為土巴兔的家裝O2O公司,是網路推廣的常客,在很多人看來,業績好有一部分原因是搜索引擎優化的好,廣告營銷做得好。土巴兔通過在網路投放廣告,用最少的廣告費獲取了最大的廣告收益。

而且推廣付費是一個引子,而在網路進行搜索過程中,網路的生態體系中大量的內容呈現,如問答、新聞和用戶體驗,乃至論壇等信息里的口碑,都會形成強有力疊加,最終變成巨大流量,這些流量都在會幫助廣告主的營銷推廣走得更遠。

說這個案例並非要說如何做搜索,而是把握用戶心理:

使用網路查找東西,本身帶有明確的目的性,搜西瓜給西瓜店,就這么直截了當,挺好。

而在信息流里獲取內容,很多時候可能只是喜好,設想一個場景:

你在看家裝信息,結果碰到了個包裝成「這樣的家裝會讓女友百分百心動」、其實是裝修公司的信息流廣告,或許會被點擊,然後你發現是廣告就毫不留情關掉了。

因為你不是來找裝修的,只是來看美圖的,最多是回家後打算挪下傢具和擺件。

真正的信息流廣告是在搜索的精準性和信息流推薦的基礎上讀懂用戶意圖,情景可能應該這樣:

在看到醬油和其他調味品的烹調心法時,插播一個紙尿褲的信息流廣告。盡管這樣的感覺,可能很酸爽。

怎麼做到?大招其實就是通過用戶的選擇,發現更多連用戶自己都未必很清楚的需求,或許我們可以將其稱之為「待辦事項提醒」。

200萬個標簽=1個人?解決潛在痛點的剛需畫像

必須有一個「工具」,能夠比用戶自身,更加了解它,通常我們稱之為用戶畫像。

「通過搜索數據、地理位置、知識圖譜、交易數據等等上百個維度的行為動作,今天我們可以對單個用戶最多打上200萬個標簽。通過精準的用戶畫像建模,我們可以在6億用戶中精準的識別每個人、了解每個人」在 2016年網路Moments商業峰會上,向海龍公布了網路擁有的驚人用戶標簽數據。

200萬個標簽=1個人,這是一個什麼狀態?

10年前,我們在QQ上給朋友貼標簽,往往靠譜的就十來個。

5年前,為了更好的吸粉,我們在微博上給自己貼上標簽,結果許多人就填了三五個。

我們對自己的認知、加上朋友對我們的認知,大體也就是這個情況,而200萬的標簽,等於從所有的側面畫出了一個放大鏡都未必能看清的自己。

怎麼畫出?或許僅僅是多年前搜索過「剖腹產的風險」,在問答上了解了「新生兒如何消黃疸」,在母嬰貼吧激烈爭辯過早教話題……

在PC時代,這樣的畫像往往都是一次性的,只能變成一個個cookie,每次針對性的營銷,也只能做到看車送車品廣告而已。

而在移動端,每個App都會要求登錄賬號,結果就能讓散落各處的標簽落在一個賬號上。理論上產品矩陣越大、形式越多,標簽的側面就越豐滿。再通過信息流廣告,投放給正在懶懶的從喜好的內容方向里挑選信息的你。

因為有用而實際,其實它也就不再是廣告,而是解決痛點的所在了。

換言之,如果沒有強大的產品矩陣,從各個方向、不同角度,獲得各種不經意留下的標簽,並通過人工智慧來進行有效管理,那麼這個用戶的畫像,要麼是P出來的大長腿,要麼就是滿滿的標簽無從下手。畫像失真的結果,就是信息流廣告失准。為什麼說網路信息流廣告精準?正是因為有多元產品矩陣、多年積累的大數據、強大的技術實力做支撐。

謝絕虛假廣告和無效閱讀 轉換率實現倍增突破

河南烘你歡心烘焙是創業者中在信息流廣告中獲益的一個代表。

這家企業2014年創業時不過是50平米小店裡的私房蛋糕定製,但通過有效地網路信息流廣告分發,迅速曝光在了全國烘焙愛好者的視線,並很快發展成上千平米、20人團隊的專業服務公司。

這個案例價值體現在:

對於企業主來說,更加切入用戶內心需求的信息流廣告(紙尿片),如果和直接體現需求的搜索推廣(打醬油)配合使用,則可以更好地挖掘到用戶。

網路搜索+推薦的意義,其實除了精準以外,更多的體現在轉換率的提高之上。較之只有內容分發的平台而言,因為網路搜索、網路地圖、網路糯米等平台,能實現多側面的用戶標簽留存,最終在為網路信息流廣告創造更加精準的投放可能。

同時,搜索的力量依然強大,尤其是應對迫切需要解決的剛需之上,搜索和推薦雙劍合璧的優勢是網路廣告較之其他平台更為精準有效的重要原因。

與此同時,藉助人工智慧技術,信息流廣告也在進行著迭代。

以諾心蛋糕為例,早期信息流廣告的形式為「諾心蛋糕LECAKE—情人節為愛發聲,定製專屬情話」這樣頗為常見硬廣形式,點擊轉換率只有1.86%;而當其形式變成「情人節表白神器,給女朋友一萬點浪漫暴擊」時,而在融合場景中,則依據人群定向、內容定向等常見場景,以及網路獨有的意向定位方式,自然融入到與之有潛在需求的人群面前,最終促使轉換率提升至3.24%,暴增近一倍。

「我本來是去超市打油醬的,結果出來時背著一堆紙尿片」這個場景,或許現在還無法完全在信息流廣告中徹底實現,但至少機會浪潮已經呈現,而網路正在引領這種浪潮。

❾ 電商平台如何更好地構建用戶標簽體系

電商平台需結合用戶在歷史時間內的網購行為記錄、端內瀏覽訪問加購收藏記錄、用戶地域年齡層次性別等屬性值,打通多端多源數據,構建用戶標簽體系。電商平台也可以使用個推·用戶運營平台來構建用戶標簽體系。

個推·用戶運營平台支持APP自有標簽導入、構建APP自定義標簽、個推標簽數據補充,幫助APP快速搭建數據標簽體系,深入了解用戶,助力APP用戶分層運營。

①APP自有標簽導入,原標簽復用。

個推·用戶運營標簽管理功能支持APP自有標簽導入,幫助APP將自有標簽直接同步標簽資料庫。例如用戶渠道、會員等級、用戶類別(新、老用戶)、活躍用戶、消費水平等標簽。

②APP自定義標簽,快速創建動態標簽。

個推·用戶運營標簽管理功能支持規則標簽、模板標簽、SQL標簽等形式創建標簽,通過埋點屬性、事件屬性、個推標簽、APP標簽等多維度數據,幫助運營人員快速構建最新動態標簽。運營人員通過APP運營場景結合用戶行為偏好、興趣偏好進行用戶洞察分析,深入了解用戶特徵後,實時構建動態的用戶標簽。

③個推標簽體系,多維度標簽補充。

APP在自有標簽的基礎上,可以基於個推標簽體系,補充APP用戶畫像標簽(例如年齡段、興趣偏好等),構建更為全面的數據標簽體系。

現在個推·用戶運營正限時免費中,點擊即刻體驗

用戶洞察

❿ 抖音賬號種草標簽怎麼打

摘要 抖音所謂的標簽,其實分為用戶標簽和創作者標簽兩種。

熱點內容
危化品的存儲 發布:2024-03-28 23:02:09 瀏覽:607
qq重新設密碼怎麼設置 發布:2024-03-28 22:49:05 瀏覽:88
深圳航天信息稅盤伺服器地址 發布:2024-03-28 22:47:51 瀏覽:203
玩csol伺服器連接中斷怎麼辦 發布:2024-03-28 22:46:19 瀏覽:905
apk加密軟體 發布:2024-03-28 22:36:14 瀏覽:695
cpu不能直接訪問的存儲器 發布:2024-03-28 22:31:49 瀏覽:440
嘀嘀打車源碼 發布:2024-03-28 22:26:02 瀏覽:934
資料庫脆弱點 發布:2024-03-28 22:25:06 瀏覽:800
2021款es升級了哪些配置 發布:2024-03-28 21:26:44 瀏覽:384
下述調度演算法 發布:2024-03-28 21:22:24 瀏覽:616