java智能演算法
java.util.Arrays中包含了很多演算法你可以看一看,jdk安裝的時候就有提供源代碼的。
㈡ 北大青鳥java培訓:人工智慧開發常用的機器學習方法
隨著互聯網行業的不斷發展,人工智慧和AI技術得到更多人的熱捧,那麼在學習人工智慧和AI技術時,應該掌握各種各樣的機器學習方法。
下面四川java培訓為大家介紹不同機器學習的具體方法。
什麼是支持向量機?支持向量機是一種機器學習演算法,可用於分類和回歸問題。
它使用一種稱為核心技術的方法來轉換數據,並根據轉換在可能的輸出之間查找邊界。
簡單地說,北大青鳥發現它能夠執行非常復雜的數據轉換,並根據定義的標簽或輸出進行數據劃分。
支持向量機的優勢支持向量機不僅能夠進行分類還能起到回歸的作用,可以說是非線性支持向量機,也可以說是使用非線性核的支持向量機。
非線性支持向量機的演算法計算邊界不一定為直線。
四川UI設計認為好處是能夠捕獲數據點之間更復雜的關系。
因此,您不需要進行復雜的轉換。
缺點是需要更多的計算,因此需要更長的訓練時間。
核心技巧具體是什麼呢?核技術可以轉換得到的數據,具有幾個優秀的特性,可以使用這些特性製作分類器,得出自己不知道的數據。
就像解開DNA的鎖鏈一樣。
首先,從這個不可見的數據向量開始。
使用核心提示時,會對其進行解密和自合成,從而創建一個連電子表格都無法理解的大型數據集。
但是,大數據開發發現隨著數據集的擴展,類之間的邊界變得清晰,SVM演算法可以計算出更優化的超平面。
㈢ java中有沒有專門為遺傳演算法等智能演算法設計的包呢
JGAP(Java Genetic Algorithms Package -- Java遺傳演算法包)
㈣ 北大青鳥java培訓:大數據跟人工智慧的關系
現在不少的企業都在往大數據領域發展,而人工智慧也是我們科技領域的一大熱點。
我們在聽到大數據的同時,也總能聽到人工智慧。
於是很多小夥伴就不清楚,大數據跟人工智慧有什麼關系,學哪個好一點?江蘇計算機學院http://www.kmbdqn.cn/會詳細講講,大數據跟人工智慧有什麼關系,學哪個好一點,這個問題,來解答大家心中的疑問。
1:大數據本質上是對海量數據進行歸類分析,就像用篩子一樣在篩選需要的東西,在對數據歸類後,進行數據分析。
而現在主流人工智慧演算法用的都是深度學習,深度學習的作用就是從中把知識提取出來,大數據是人工智慧的開始,大數據加深度演算法,等於人工智慧,要想實現人工智慧,除開大數據技術之外,還需要其他元素的配合。
2:大數據和人工智慧沒有必然聯系,但是基於大數據的各類信息處理技術,為更好的人工智慧的實現提供了極大的可能。
數據越多,其塑造培養出的人工智慧信息處理系統越聰明,這就是大數據之於人工智慧的意義。
大數據是人工智慧的基石,如果說人工智慧是機器之心,那麼大數據就是血液。
3:這二者談不上說學哪個好一點,都是很有前景的行業,也都是薪資待遇十分可觀的行業。
不過,想要進軍人工智慧領域,是首先要掌握大數據知識的哦!大家可以先接觸一下大數據,然後再深入了解人工智慧技術。
㈤ 北大青鳥java培訓:人工智慧開發機器學習的常用演算法
我們在學習人工智慧以及智能AI技術的時候曾經給大家介紹過不同的機器學習的方法,而今天我們就著重介紹一下,關於機器學習的常用演算法都有哪些類型。
支持向量機是什麼?支持向量機是一種有監督的機器學習演算法,可以用於分類或回歸問題。
它使用一種稱為核技巧的技術來轉換數據,然後根據這些轉換在可能的輸出之間找到一個邊界。
簡單地說,它做一些非常復雜的數據轉換,然後根據定義的標簽或輸出來劃分數據。
那麼是什麼讓它如此偉大呢?支持向量機既能進行分類又能進行回歸。
在本文中,我將重點介紹如何使用SVM進行分類。
我將特別關注非線性支持向量機,或者說是使用非線性核的支持向量機。
非線性支持向量機意味著演算法計算的邊界不一定是直線。
好處是您可以捕獲數據點之間更復雜的關系,而不必自己做困難的轉換。
缺點是訓練時間更長,因為它需要更多的計算。
那麼核技巧是什麼?核技巧對你獲得的數據進行轉換。
有一些很好的特性,你認為可以用來做一個很好的分類器,然後出來一些你不再認識的數據。
這有點像解開一條DNA鏈。
你從這個看起來很難看的數據向量開始,在通過核技巧之後,它會被解開並自我復合,直到它現在是一個更大的數據集,通過查看電子表格無法理解。
但是這里有魔力,在擴展數據集時,你的類之間現在有更明顯的界限,SVM演算法能夠計算出更加優化的超平面。
接下來,假設你是一個農民,你有一個問題-你需要設置一個圍欄,以保護你的奶牛免受狼的攻擊。
但是你在哪裡建造籬笆?好吧,如果你是一個真正的數據驅動農民,你可以做的一件事就是建立一個基於你牧場中奶牛和狼的位置的分類器。
天津北大青鳥http://www.kmbdqn.cn/建議通過幾種不同類型的分類器,我們看到SVM在從狼群中分離你的奶牛方面做得很好。
我認為這些圖也很好地說明了使用非線性分類器的好處。
您可以看到邏輯和決策樹模型都只使用直線。
㈥ java 演算法
Java的運算符可分為4類:算術運算符、關系運算符、邏輯運算符和位運算符。
1.算術運算符
Java的算術運算符分為一元運算符和二元運算符。一元運算符只有一個操作數;二元運算符有兩個操作數,運算符位於兩個操作數之間。算術運算符的操作數必須是數值類型。
(1)一元運算符:
一元運算符有:正(+)、負(-)、加1(++)和減1(--)4個。
加1、減1運算符只允許用於數值類型的變數,不允許用於表達式中。加1、減1運算符既可放在變數之前(如++i),也可放在變數之後(如i++),兩者的差別是:如果放在變數之前(如++i),則變數值先加1或減1,然後進行其他相應的操作(主要是賦值操作);如果放在變數之後(如i++),則先進行其他相應的操作,然後再進行變數值加1或減1。
例如:
int i=6,j,k,m,n;
j = +i; //取原值,即j=6
k = -i; //取負值,即k=-6
m = i++; //先m=i,再i=i+1,即m=6,i=7
m = ++i; //先i=i+1,再m=i,即i=7,m=7
n = j--; //先n=j,再j=j-1,即n=6,j=5
n = --j; //先j=j-1,再n=j,即j=5,n=5
在書寫時還要注意的是:一元運算符與其前後的操作數之間不允許有空格,否則編譯時會出錯。
(2)二元運算符
二元運算符有:加(+)、減(-)、乘(*)、除(/)、取余(%)。其中+、-、*、/完成加、減、乘、除四則運算,%是求兩個操作數相除後的余數。
%求余操作舉例:
a % b = a - (a / b) * b
取余運算符既可用於兩個操作數都是整數的情況,也可用於兩個操作數都是浮點數(或一個操作數是浮點數)的情況。當兩個操作數都是浮點數時,例如7.6 % 2.9時,計算結果為:7.6 - 2 * 2.9 = 1.8。
當兩個操作數都是int類型數時,a%b的計算公式為:
a % b = a - (int)(a / b) * b
當兩個操作數都是long類型(或其他整數類型)數時,a%b的計算公式可以類推。
當參加二元運算的兩個操作數的數據類型不同時,所得結果的數據類型與精度較高(或位數更長)的那種數據類型一致。
例如:
7 / 3 //整除,運算結果為2
7.0 / 3 //除法,運算結果為2.33333,即結果與精度較高的類型一致
7 % 3 //取余,運算結果為1
7.0 % 3 //取余,運算結果為1.0
-7 % 3 //取余,運算結果為-1,即運算結果的符號與左操作數相同
7 % -3 //取余,運算結果為1,即運算結果的符號與左操作數相同
2.關系運算符
關系運算符用於比較兩個數值之間的大小,其運算結果為一個邏輯類型的數值。關系運算符有六個:等於(==)、不等於(!=)、大於(>)、大於等於(>=)、小於(<)、小於等於(<=)。
例如:
9 <= 8 //運算結果為false
9.9 >= 8.8 //運算結果為true
'A' < 'a' //運算結果為true,因字元'A'的Unicode編碼值小於字元'a'的
要說明的是,對於大於等於(或小於等於)關系運算符來說,只有大於和等於兩種關系運算都不成立時其結果值才為false,只要有一種(大於或等於)關系運算成立其結果值即為true。例如,對於9 <= 8,9既不小於8也不等於8,所以9 = 9,因9等於9,所以9 >= 9的運算結果為true。
3.邏輯運算符
邏輯運算符要求操作數的數據類型為邏輯型,其運算結果也是邏輯型值。邏輯運算符有:邏輯與(&&)、邏輯或(||)、邏輯非(!)、邏輯異或(^)、邏輯與(&)、邏輯或(|)。
真值表是表示邏輯運算功能的一種直觀方法,其具體方法是把邏輯運算的所有可能值用表格形式全部羅列出來。Java語言邏輯運算符的真值表如下:
邏輯運算符的真值表
A B A&&B A||B !A A^B A&B A|B
false false false false true false false false
true false false true false true false true
false true false true true true false true
true true true true false false true true
前兩列是參與邏輯運算的兩個邏輯變數,共有4種可能,所以表2.5共有4行。後6列分別是6個邏輯運算符在邏輯變數A和邏輯變數B取不同數值時的運算結果值。
要說明的是,兩種邏輯與(&&和&)的運算規則基本相同,兩種邏輯或(||和|)的運算規則也基本相同。其區別是:&和|運算是把邏輯表達式全部計算完,而&&和||運算具有短路計算功能。所謂短路計算,是指系統從左至右進行邏輯表達式的計算,一旦出現計算結果已經確定的情況,則計算過程即被終止。對於&&運算來說,只要運算符左端的值為false,則因無論運算符右端的值為true或為false,其最終結果都為false。所以,系統一旦判斷出&&運算符左端的值為false,則系統將終止其後的計算過程;對於 || 運算來說,只要運算符左端的值為true,則因無論運算符右端的值為true或為false,其最終結果都為true。所以,系統一旦判斷出|| 運算符左端的值為true,則系統將終止其後的計算過程。
例如,有如下邏輯表達式:
(i>=1) && (i<=100)
此時,若i等於0,則系統判斷出i>=1的計算結果為false後,系統馬上得出該邏輯表達式的最終計算結果為false,因此,系統不繼續判斷i<=100的值。短路計算功能可以提高程序的運行速度。
作者建議讀者:在程序設計時使用&&和||運算符,不使用&和|運算符。
用邏輯與(&&)、邏輯或(||)和邏輯非(!)可以組合出各種可能的邏輯表達式。邏輯表達式主要用在 if、while等語句的條件組合上。
例如:
int i = 1;
while(i>=1) && (i<=100) i++; //循環過程
上述程序段的循環過程將i++語句循環執行100次。
4.位運算符
位運算是以二進制位為單位進行的運算,其操作數和運算結果都是整型值。
位運算符共有7個,分別是:位與(&)、位或(|)、位非(~)、位異或(^)、右移(>>)、左移(<>>)。
位運算的位與(&)、位或(|)、位非(~)、位異或(^)與邏輯運算的相應操作的真值表完全相同,其差別只是位運算操作的操作數和運算結果都是二進制整數,而邏輯運算相應操作的操作數和運算結果都是邏輯值。
位運算示例
運算符 名稱 示例 說明
& 位與 x&y 把x和y按位求與
| 位或 x|y 把x和y按位求或
~ 位非 ~x 把x按位求非
^ 位異或 x^y 把x和y按位求異或
>> 右移 x>>y 把x的各位右移y位
<< 左移 x<<y 把x的各位左移y位
>>> 右移 x>>>y 把x的各位右移y位,左邊填0
舉例說明:
(1)有如下程序段:
int x = 64; //x等於二進制數的01000000
int y = 70; //y等於二進制數的01000110
int z = x&y //z等於二進制數的01000000
即運算結果為z等於二進制數01000000。位或、位非、位異或的運算方法類同。
(2)右移是將一個二進制數按指定移動的位數向右移位,移掉的被丟棄,左邊移進的部分或者補0(當該數為正時),或者補1(當該數為負時)。這是因為整數在機器內部採用補碼表示法,正數的符號位為0,負數的符號位為1。例如,對於如下程序段:
int x = 70; //x等於二進制數的01000110
int y = 2;
int z = x>>y //z等於二進制數的00010001
即運算結果為z等於二進制數00010001,即z等於十進制數17。
對於如下程序段:
int x = -70; //x等於二進制數的11000110
int y = 2;
int z = x>>y //z等於二進制數的11101110
即運算結果為z等於二進制數11101110,即z等於十進制數-18。要透徹理解右移和左移操作,讀者需要掌握整數機器數的補碼表示法。
(3)0填充的右移(>>>)是不論被移動數是正數還是負數,左邊移進的部分一律補0。
5.其他運算符
(1)賦值運算符與其他運算符的簡捷使用方式
賦值運算符可以與二元算術運算符、邏輯運算符和位運算符組合成簡捷運算符,從而可以簡化一些常用表達式的書寫。
賦值運算符與其他運算符的簡捷使用方式
運算符 用法 等價於 說明
+= s+=i s=s+i s,i是數值型
-= s-=i s=s-i s,i是數值型
*= s*=i s=s*i s,i是數值型
/= s/=i s=s/i s,i是數值型
%= s%=i s=s%i s,i是數值型
&= a&=b a=a&b a,b是邏輯型或整型
|= a|=b a=a|b a,b是邏輯型或整型
^= A^=b a=a^b a,b是邏輯型或整型
<<= s<<=i s=s<<i s,i是整型
>>= s>>=i s=s>>i s,i是整型
>>>= s>>>=i s=s>>>i s,i是整型
(2)方括弧[]和圓括弧()運算符
方括弧[]是數組運算符,方括弧[]中的數值是數組的下標,整個表達式就代表數組中該下標所在位置的元素值。
圓括弧()運算符用於改變表達式中運算符的優先順序。
(3)字元串加(+)運算符
當操作數是字元串時,加(+)運算符用來合並兩個字元串;當加(+)運算符的一邊是字元串,另一邊是數值時,機器將自動將數值轉換為字元串,這種情況在輸出語句中很常見。如對於如下程序段:
int max = 100;
System.out.println("max = "+max);
計算機屏幕的輸出結果為:max = 100,即此時是把變數max中的整數值100轉換成字元串100輸出的。
(4)條件運算符(?:)
條件運算符(?:)的語法形式為:
? :
條件運算符的運算方法是:先計算的值,當的值為true時,則將的值作為整個表達式的值;當的值為false時,則將的值作為整個表達式的值。如:
int a=1,b=2,max;
max = a>b?a:b; //max等於2
(5)強制類型轉換符
強制類型轉換符能將一個表達式的類型強制轉換為某一指定數據類型,其語法形式為:
()
(6)對象運算符instanceof
對象運算符instanceof用來測試一個指定對象是否是指定類(或它的子類)的實例,若是則返回true,否則返回false。
(7)點運算符
點運算符「.」的功能有兩個:一是引用類中成員,二是指示包的層次等級。
6.運算符的優先順序
以下按優先順序從高到低的次序列出Java語言中的所有運算符,表中結合性一列中的「左右」表示其運算次序為從左向右,「右左」表示其運算次序為從右向左。
優先順序 運算符 結合性
1 . [] () ; ,
2 ++ ―― += ! ~ +(一元) -(一元) 右左
3 * / % 左右
4 +(二元) -(二元) 左右
5 < >> >>> 左右
6 > = instanceof 左右
7 = = != 左右
8 & 左右
9 ^ 左右
10 | 左右
11 && 左右
12 || 左右
13 ?: 右左
14 = *= /= %= += -= <>= >>>= &= ^= |= 右左
㈦ 北大青鳥java培訓:人工智慧如何掌握核心技術
機器學習是掌握人工智慧技術的其中一個學習環節,而今天我們就一起來了解一下,在學習機器學習的一些知識概念的時候都需要考慮哪些問題。
為什麼一開始就需要梯度下降?在學習基本的機器學習概念時,你的腦海中是否出現過這個問題?梯度下降是我們在初期學習時一定會遇到的基本演算法之一,並且已經證明該方法在ML中是非常有效的。
但是一旦你開始閱讀這篇文章,你會對之前學習的內容產生疑問。
起初這個問題直截了當,後來變成了Reddit高層人士之間的大討論。
我非常喜歡瀏覽這些評論,我相信如果你對這個領域感興趣,對數學抱著嚴謹的態度,也一定會覺得它很有用的。
大規模神經網路的逆向工程當復雜龐大的神經網路的開發人員突然消失,而沒有留下任何理解網路所需的文檔時,你該怎麼做?這可不是憑白無故的虛構,而是實實在在會發生的一個常見情況,提問者本人就遇到過。
這種情況經常發生在開發人員身上,但是當涉及到深度學習時,完全是一種新的境況。
這篇文章介紹了幾種方法,科學家可以用於還原深度模型初的設計思路。
有些回答很實際,而有些則很荒謬,但每種回答都增加了一種視角。
或許某天當你也遇到這種情況時,它們會幫到你。
關於TensorFlow2.0API的爭論這個話題下大量的評論吸引了我的注意力(撰寫本文時有110條評論),世界上有什麼話題能引起如此大的爭議呢?但是,當你接著閱讀時,辯論者之間完全不同的意見讓人難以置信。
除了TensorFlow被嘲笑「不是好的框架」之外,還有很多人在點贊PyTorch(如果你使用過PyTorch就會明白這並不奇怪)。
這一切開始於FrancoisChollet將自己的想法發布到GitHub上,在機器學習社區點了一把火。
基於預測獎勵的強化學習這篇文章中另一個OpenAI的項目,寧夏電腦培訓http://www.kmbdqn.cn/認為是他們的又一個巨大突破。
標題看上去沒那麼特別,但是你要理解OpenAI團隊做出了什麼。
正如一位Reddit用戶所指出的,OpenAI的工作讓我們向模仿人類行為的機器更近了一步。
它耗費了大約一年的訓練時間,以超越人類的水平通關了蒙提祖馬的復仇游戲,這給人留下了十分深刻的印象!
㈧ Java可以開發人工智慧嗎
聽說只有Python 是人工智慧的唯一優勢
㈨ 使用java來實現在智能組卷中的遺傳演算法(急急急)
題目好像是讓你做個增強版的List ,簡單的都實現了 程序架子大概是這樣,排序查找什麼的網路搜下 演算法很多,套著每樣寫個方法就行了,測試就在main『方法里寫
publicclassMyList{
privateString[]arr;
privateintcount;
publicMyList(intcount){
arr=newString[count];
this.count=count;
}
publicMyList(int[]intArr){
arr=newString[intArr.length];
this.count=intArr.length;
for(inti=0;i<intArr.length;i++){
arr[i]=intArr[i]+"";
}
}
publicMyList(String[]stringArr){
arr=stringArr;
this.count=stringArr.length;
}
publicintgetLength(){
returncount;
}
//清空容器內的數組。
publicvoidclearAll(){
arr=newString[count];
}
//通過給定元素下標來刪除某一元素
publicvoidremoveBySeqn(intseqn){
if(seqn>=0&&seqn<count){
arr[seqn]=null;
}
}
publicstaticvoidmain(String[]args){
MyListlist=newMyList(40);
MyListlist1=newMyList({3,2,125,56,123});
MyListlist2=newMyList({"123",""ad});
list2.removeBySeqn(0);
list1.clearAll();
}
}
㈩ 關於java新聞網站的演算法
(一) 演算法倫理的研究
1.演算法內涵界定。演算法源於數學,但現代演算法又遠遠不止於傳統數學的計算范疇。演算法多被理解為是計算機用於解決問題的程序或步驟,是現代人工智慧系統的運行支柱。《計算主義:一種新的世界觀》(李建會等,2012)中將演算法定義為能行的方法,在外界的常識性理解中所謂演算法就是能感受到的一套運算規則,這個規則的特點在於運算時間的有限性、計算步驟的有窮性、輸入結果的確切性,它是機械步驟或能行可算計程序。該定義點明了演算法應具備的兩個基本屬性——有限性與有窮性。《用計算的觀點看世界》( 酈全民,2016) 則從信息傳播的角度解讀演算法,認為演算法實質上是信息處理方法。
2.演算法倫理研究
倫理關乎道德價值真理及其判斷。存在於自然界、社會中的人,其行為應遵循一定的倫理道德規范。倫理的效應要導向善。倫理道德關注對個體存在的尊重、個體的自由、公平正義以及組織團體的延續與發展等問題。在一定程度上可以說,當今的人類社會已經不能脫離智能演算法系統而運行了。
演算法無時無處不在對世界產生影響,因而演算法也會必然的觸碰到倫理道德。和鴻鵬(2017)已指出,演算法系統在人類社會生活中的廣泛應用,會陷入諸多如人類面臨且無法迴避的倫理兩難選擇困境之中。而當演算法與倫理發生關聯時,學界一般認為會引出職業倫理和技術倫理兩種倫理問題。
職業倫理主要與演算法系統的開發者有關,指開發者是帶有個性價值觀、倫理道德觀去研發演算法系統的行為體,因而演算法系統一開始便會摻雜著設計人主觀性的倫理道德觀。設計者出於何種目的開發某演算法系統、面對不同問題設計者持有的倫理道德態度,這些都會在演算法系統的運行中得到體現。
技術倫理是演算法系統在一定意義上可稱之為一種科學技術,這種技術自身及其運作結果都會負載著倫理價值。其實在一些情況下,職業倫理與技術倫理之間並沒有很明確的界別,關於這一點,劉則淵跟王國豫已做過論述。
本文將主要從技術倫理的角度對演算法關涉倫理這一問題嘗試做深入研究。
(二)網路新聞傳播的演算法倫理研究
演算法與技術的融合不斷英語於網路新聞傳播領域中,從數據新聞到機器寫作,從演算法推送到輿情到分析,國內新聞傳媒領域的機器新聞和相關研究逐漸發展,金兼斌在《機器新聞寫作:一場正在發生的革命》(2014),作者較早的將眼光聚焦於基於演算法的新聞內容生產和編輯。認為在自動化新聞生產大發展的前提下,諸如新聞生產或分發中勞動密集型的基礎性工作與環節都將被技術取代。張超、鍾新在《從比特到人工智慧:數字新聞生產的演算法轉向》(2017) 認為演算法正在從比特形式走向人工智慧階段,這種轉向使得數字新聞與傳統新聞的邊界進一步明晰,促使數字新聞生產也產生了變革。胡萬鵬在《智能演算法推薦的倫理風險及防範策略》中總結了從演算法推送方面:針對新聞的價值觀所受到的負面影響;以及新聞的公共性、客觀性和真實性受到的削弱進行分析;從受眾方面:將具體對信息繭房現象以及受眾的知情權和被遺忘權展開探討;從社會影響方面,則針對社會群體、社會公共領域和社會文化所受到的消極影響展開論述。
根據以上文獻的梳理可以看出,國內目前對網路新聞傳播的演算法倫理研究主要集中在新聞業態演算法倫理失范的相關問題,因為與其他失范問題相比,這是比較容易發現的。但目前關於網路新聞傳播的演算法倫理的國內研究還存在不足:國內演算法倫理和網路新聞傳播演算法倫理的研究還是在起步階段,比較成熟的系統性研究還未出現;關於演算法開發人員和平台的責任機制的研究都比較薄弱,總上所述,演算法推送新聞的倫理問題研究是有必要繼續加強的。
2.新聞推薦演算法的興起、發展與原理
2.1 新聞推薦演算法的興起
隨著計算機技術的信息處理的維度越來越高,信息處理的能力不斷提升,演算法技術可以從大數據中篩選出用戶最關心最感興趣的信息,改變了原有的新聞信息傳播方式,重塑了新的媒介生態和傳播格局。
但反過來看,在人人都能生產信息的背景下,信息的生產、傳播和反饋的速度都是呈幾何倍數增長,用戶面對的信息越來越多。由於設備的局限性和信息海量,用戶無法集中注意力看自己感興趣的內容,也無法及時抓取對自己有用的信息,於是出現了「注意力經濟」。美國經濟學家邁克爾·戈德海伯(1997)認為,當今社會是一個信息極大豐富甚至泛濫的社會,而互聯網的出現,加快了這一進程,信息非但不是稀缺資源,相反是過剩的。相對於過剩的信息,只有一種資源是稀缺的,那就是人們的注意力。換句話說,信息不能夠一味追求量,還要有價值,價值就在於用戶對信息的注意力,誰獲得了用戶的注意力就可以有市場的發展空間,通過「販賣」用戶的注意力能夠使新媒體聚合平台獲得利潤,維持發展。再加上現在生活節奏越來越快,人們對信息獲取的量和效率要求提高,不想把時間浪費在自己不感興趣的信息,從而用戶獲取信息的「個性化」特徵變得明顯起來。
基於此背景下,演算法推送新聞的傳播機制應運而生,用戶不需要特意搜索自己需要的信息,而是海量的信息會自行「找到」用戶,為用戶節省搜索時間之餘,又能做到真正為用戶提供有用的信息。
2.2新聞推薦演算法的發展現狀
演算法推薦是依據用戶數據為用戶推薦特定領域的信息,根據受眾使用反饋不斷修正並完善推薦方案。目前主要有兩類新聞機構使用演算法推送,其一是新型的互聯網新聞聚合類平台,國內主要是以今日頭條和一點資訊等演算法類平台為代表,在我國新聞客戶端市場上擁有極高的佔有率。張一鳴創建今日頭條是依靠大數據和演算法為用戶推薦信息,提供連接人與信息的服務,演算法會以關鍵詞等元素判斷用戶的興趣愛好,從全網抓取內容實現個性化推薦。國外則是以Facebook、Instagram等平台為代表,這些APP都是通過演算法挖掘用戶的數據,以用戶個性化需求為導向對用戶進行新聞推送。另一種則是專業新聞生產的傳統媒體,為積極應對新聞市場的競爭和提高技術水平而轉型到新聞全媒體平台,如國內的「人民日報」等,國外利用演算法推送向用戶推送新聞的傳統媒體則有美國的美聯社、華盛頓郵報和英國的BBC等,他們利用演算法監督受眾的數量還有閱讀行為,使他們的新聞報道能夠更加受受眾的喜歡,增加用戶的粘性。
2.2 新聞推薦演算法的原理
2.2.1 新聞推薦演算法的基本要素
演算法推送有三個基本要素,分別是用戶、內容和演算法。用戶是演算法推送系統的服務對象,對用戶的理解和認知越是透徹,內容分法的准確性和有效性就越准確。內容是演算法推送系統的基本生產資料,對多種形式內通的分析、組織、儲存和分發都需要科學的手段與方法。演算法是演算法推送技術上的支持,也是最核心的。系統中大量用戶與海量的信息是無法自行匹配的,需要推送演算法把用戶和內容連接起來,在用戶和內容之間發揮橋梁作用,高效把合適的內容推薦給合適的用戶。
2.2.2 新聞推薦演算法的基本原理
演算法推送的出現需要具備兩個條件:足夠的信息源和精確的演算法框架。其中,演算法的內容生產源與信息分發最終效果密切相關:是否有足夠多的信息可供抓取與信息是否有足夠的品質令用戶滿意都將對信息的傳播效果產生影響。與此同時,分發環節也在向前追溯,改變著整個傳播的生態。目前,國內新聞傳播領域所使用的演算法推送主要有三大類——協同過濾推送、基於內容推送和關聯規則推送。
協同過濾推送分為基於用戶的協同過濾和基於模型的協同過濾。前者主要考慮的是用戶和用戶之間的相似度,只要找出相似用戶喜歡的新聞文章類別,並預測目標用戶對該文章的喜歡程度,就可以將其他文章推薦給用戶;後者和前者是類似的,區別在此時轉向找到文章和文章之間的相似度,只有找到了目標用戶對某類文章的喜愛程度,那麼我們就可以對相似度高的類似文章進行預測,將喜愛程度相當的相似文章推薦給用戶。因此,前者利用用戶歷史數據在整個用戶資料庫中尋找相似的推送文章進行推薦,後者通過用戶歷史數據構造預測模型,再通過模型進行預測並推送。
基於內容的推送即根據用戶歷史進行文本信息特徵抽取、過濾,生成模型,向用戶推薦與歷史項目內容相似的信息。它的優點之一就是解決了協同過濾中數據稀少時無法准確判斷分發的問題。但如果長期只根據用戶歷史數據推薦信息,會造成過度個性化,容易形成「信息繭房」。
關聯規則推送就是基於用戶歷史數據挖掘用戶數據背後的關聯,以分析用戶的潛在需求,向用戶推薦其可能感興趣的信息。基於該演算法的信息推薦流程主要分為兩個步驟,第一步是根據當前用戶閱讀過的感興趣的內容,通過規則推導出用戶還沒有閱讀過的可能感興趣的內容;第二是根據規則的重要程度,對內容排序並展現給用戶。關聯規則推送的效果依賴規則的數量和質量,但隨著規則數量的增多,對系統的要求也會提高。
2.2.3 演算法推送的實現流程
在信息過載的時代,同一個新聞選題有很多同質化的報道,因此分發前需要對新聞內容進行消重,消重後的新聞內容便等待推送,此時的推送有三個類別:啟動推送、擴大推送和限制推送。
第一類是啟動推送,先對用戶精準推送,即將其訂閱賬號的更新內容第一時間向用戶推薦;然後根據用戶的歷史瀏覽數據,把相似的文本特徵歸類後推送給其他用戶;最後是給關注用戶的相似人群進行推薦。第二類擴大推送是指對於某個點擊率、閱讀時長都明顯高於平均水平的新聞內容,系統會將它自動篩選出來,並向更多的人進行推薦。但在擴大推薦的過程中,系統會依據用戶的反饋進行調整。第三為限制推送,指某個點擊率、閱讀時長都明顯低於平均水平的新聞內容,會被系統自動篩選出來,遏制推送,這樣的內容會被縮小推薦范圍。
3. 「今日頭條」新聞推薦演算法分析
「今日頭條」是國內一款資訊類的媒體聚合平台,每天有超過1.2億人使用。從「你關心的,才是頭條!」到如今的「信息創造價值!」,產品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維,而開始注重人與信息的連接,在促進信息高效、精準傳播的同時注重正確的價值引導。
在2018年初,「今日頭條」的資深演算法架構師曹歡歡博士在一場分享交流會上公開了其演算法運行原理。在他的敘述中,非常詳細地介紹了「今日頭條」的演算法推薦系統概述以及演算法推薦系統的操作原理。
3.1.1-1 曹歡歡博士的今日頭條演算法建模
上圖用數學形式化的方法去描述「今日頭條」的演算法推送,實際上就是一個能夠得出用戶對內容滿意程度的函數:即y為用戶對內容的滿意度,Xi,Xc,Xu分別是今日頭條公開的演算法推送的三個維度:Xi是用戶,包括用戶的性別、年齡、職業和興趣標簽,還有其他演算法模型刻畫的隱形用戶偏好等;Xc是環境,這也是移動互聯網時代新聞推送的特點,由於用戶隨時隨地在不停移動,移動終端也在移動,用戶在不同的工作場合、旅行等場景信息推送偏好也會不同;Xu是內容,今日頭條本身就是信息聚合類平台,平台上涵蓋各種不同形式的內容。本章將以該函數為基礎,逐一分析今日頭條的推薦演算法。
3.1 推薦維度之一:內容分析
內容分析原指第二次世界大戰期間,傳播學家拉斯韋爾等研究學家組織了「戰士通訊研究」的工作,以德國公開出版的戰時報紙為分析研究對象,弄清報紙內容本質性的事實和趨勢,揭示隱含的隱性情報內容,獲取了許多軍情機密情報並且對事態發展作出情報預測。在「今日頭條」中,內容分析則是對文章、視頻內容提取關鍵要素,通過對文本、視頻標題關鍵字進行語義識別,給內容進行分類。「今日頭條」的推送系統是典型的層次化文本分類演算法,來幫助每篇新聞找到合適的分類,比如:第一大分類是政治、科技、財經、娛樂、體育等,體育類可以下分籃球、足球、網球等,足球又可以下分中國足球和國際足球,中國足球最後下分為甲、中超、國家隊等。這一步是對文章進行對這個工作主要目的是對文章進行分類,方便以後對客戶推薦。
想要內容分析實現效果,則需要海量的內容信息給演算法系統提供有效的篩選和分類。「今日頭條」既然是依賴於演算法推送新聞,那它背後的資料庫必然是強大的,「網頁蜘蛛」和「頭條號」就是支撐今日頭條平台消息來源的重要渠道,其消息來源極其豐富,何時何地有何新鮮事,都能高效率抓取信息。
第一個消息來源的渠道是「網頁蜘蛛」,「網頁蜘蛛」又叫網頁爬蟲,頭條使用的就是搜索引擎爬蟲叫「Bytespider」。它能按照一定的規則,自動爬行抓取互聯網的信息或腳本,就像蜘蛛通過蛛網進行捕食,當發現新的信息資源,蜘蛛會立刻出動抓取信息內容並將其收入自己的資料庫中。和微信的垂直搜索不同,Bytespider是能夠抓取全網內容的全新搜索引擎,因此「今日頭條」的搜索引擎功能很全面,搜索的資源很廣,資源包容性極高。
Bytespider信息抓取的基本流程如下:首先是網頁抓取。Bytespider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。第二步是處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括消除重復網頁、判斷網頁類型、分析超鏈接、計算網頁的重要度、豐富度等。第三步提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引資料庫中找到匹配該關鍵詞的網頁,為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
第二個消息來源渠道是「頭條號」。與「今日頭條」不同,它是今日頭條針對媒體、國家機構、企業以及自媒體推出的專業信息發布平台。致力於幫助生產者在移動互聯網上高效率地獲得更多的曝光和關注。簡單來說頭條號是媒體在上面撰寫並發布文章、視頻後,會在今日頭條(包括今日頭條極速版)平台展示。通過頭條號後台,媒體可以看到具體文章推薦量、閱讀量、粉絲閱讀量、評論量、轉發量和收藏量,最後通過這些可以量化的用戶閱讀行為的反饋,演算法系統進一步對目標用戶進行內容推薦。
3.2 推薦維度之二:用戶分析
用戶分析通過提取用戶的有效數據,如用戶經常瀏覽的文字類型、經常搜索的關鍵字、注冊時登記信息的內容等,演算法系統可以將每個用戶的瀏覽記錄、瀏覽時間、留言、評論和轉發等行為進行關鍵字提取,最終形成用戶畫像,以便之後對用戶進行文章和視頻的精準推送。舉個例子,給喜歡閱讀「體育」的用戶標上「體育」標簽;給喜歡「娛樂」的用戶標上「娛樂」的標簽,這一步的作用是給用戶的興趣進行建模,包括用戶對文章和視頻的全局熱度、分類熱度,主題熱度,以及關鍵詞熱度等。熱度信息在大的推薦系統能夠解決新聞冷啟動問題,幫助新聞實現推送。
用戶分析還具有協同特徵,它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵也就是「聯想式」的推送方法,並非只考慮用戶已有歷史,而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。根據用戶之間計算數據的相似程度,把用戶細化分類成為不同的目標群體,再向目標群體集中的推送其感興趣的新聞內容
內容分析和用戶分析是相輔相成的,如果沒有分析的文本標簽,無法得到用戶興趣標簽,沒有用戶的興趣標簽就無法給用戶定位實現精準推送。
3.3 推薦維度之三:環境分析
環境分析就是根據文章的時效性和接近性推送給相應的用戶,比如獲取用戶當前所在位置是否在旅遊區,這個可以通過獲取用戶的實時位置來實現。還會不斷與用戶之前經常出現的所在地進行對比等方式確認當前狀態,分析出用戶是在常住地區還是在旅行。這時若系統檢測到用戶正在泰山及周邊遊玩,則可能會相應推送泰山的相關文章、周邊的交通新聞和天氣信息等等。
通過上面三個推薦維度可以作為數據基礎,分析當前用戶處於什麼環境,結合用戶畫像以及文章的內容分類來推薦,盡量做到推送的內容都是用戶所感興趣的。演算法系統還會通過內容分類、分析抽取,把文本相似度高的文章,包括新聞主題、內容相似的文章進行消重,解決推送重復的問題,進一步對目標用戶進行精確且不重復的內容推薦。最後過濾質量低俗色情的內容,以免造成平台會有負面傾向。
3.4 「今日頭條」新聞推薦演算法的價值取向
3.4.1 「用戶為上」
「今日頭條」的演算法推送是站在用戶的立場上的,以滿足用戶個性化和推送的精準性,「今日頭條」也重新衡量了新聞價值標准:以用戶為上,用戶對新聞內容和閱讀方式的滿意度便是平台推送新聞的價值宗旨。傳統媒體時代,只有報紙和電視,有什麼受眾就得看什麼,而如今「今日頭條」根據用戶興趣去進行推送。演算法推送平台用戶范圍廣,很多用戶熱衷關注負面,也有許多用戶都有窺視欲和好奇心,喜歡無聊八卦和無聊新聞,而且在好奇心作用下用戶都有從眾心理。這使得生產者過度去迎合受眾,只要是用戶喜歡看就可以發表在「今日頭條」上。
3.4.2 「演算法主導」
「今日頭條」更注重技術分發,生產者是用戶,受眾者也是用戶,這樣一來內容監管和分發就很困難。演算法推送機制根據用戶愛好進行推送,這樣生產的內容快、也無疑會加速內容配送效率。在演算法推送模型中,用戶點擊頻率、閱讀時間、點贊評論以及轉發在演算法時代都是可以進行量化的目標。在這樣情況下生產的內容,想要獲得較大點擊率和推送率,需要標題才能吸引用戶,因為用戶在平台一眼能看到的就是標題和配圖。標題和配圖決定用戶是否會打開你的內容,這導致許多內容生產者在編輯新聞標題時陷入標題黨的怪圈,還有導致低俗內容的呈現,以製造沖突製造懸念貼標簽等方式引用戶點擊,意圖把自己的文章做成爆文。對於海量的信息內容,即使今日頭條數據和智能推薦做的再好,目前來說也難以抵擋海量的垃圾信息。
4.演算法推送新聞引發的倫理問題
在如今網路時代的傳播思維中,「用戶為上」、「演算法主導」的新聞價值取向已經在演算法聚合類平台成為了普遍,演算法推送技術作為吸引用戶的手段,搭建起一個充滿誘導的媒介環境,以此增加用戶對平台的粘性。演算法推送技術在獲取信息、傳播速度等方面與以往相比有著跨時代的進步,但與此同時,由於演算法推送技術的加入,衍生出新的倫理問題,並且日漸復雜化。
4.1 演算法推送引發的倫理問題
4.1.1 演算法推送過於機械化,沒有思考能力
單向的演算法推薦對用戶來說經常會帶來內容雜亂無章、信息量過大、信息價值低等問題。從邏輯講,演算法只是從關鍵字的檢索匹配來完成統計推薦,但對新聞報道或文學作品具有藝術性、專業性的內容來說,是不能保證推送的質量的。演算法方面,目前主要基於匹配檢索與統計,大部分都是個人關注的信息類型和標簽,難以達到較好的推送效果。一千個人眼裡有一千個哈姆雷特,但是計算機只有隻有一個。演算法技術過於注重機械化的統計,只根據關鍵詞來推薦用戶,對我們中國具有博大精深的中國文字文化底蘊,推薦演算法是遠遠不夠的。整個新聞客戶端顯得像是一個菜市場,沒有態度、沒有風格,閱讀感受單一化,呈現了碎片化的特點。新聞不只是讓用戶能夠了解身邊發生的新鮮事,還有宣傳正面思想和傳播正能量的作用,新聞應該還要給人們帶來新的思考。讓機器做出正確判斷很簡單,但是讓機器綜合心理學、社會學、乃至某細分領域內的規則做出判斷還要正確地引導受眾則很難,正如現在演算法技術還不能完成一篇富有人文性、文學性和批判性的深度報道,它止步在了碎片式的、表層的傳播范疇。
4.1.2 容易引起「信息繭房」效應
「信息繭房」這一概念是凱斯.桑斯坦在《信息烏托邦》一書中提出的。意指受眾在過度的信息自我選擇之中,這樣會降低接觸外界其他信息的可能,從而將自己的生活桎梏於蠶繭一般的「蠶房」中的現象。人們的信息領域會習慣性被自己的興趣引導,信息窄化帶來了受眾對信息接收的單一性,這種單一性的可能會使受眾陷入循環,加重受眾信息同質化。
在互聯網的普及初期,受眾主要是從主流媒體和門戶網站獲取新聞信息,主流媒體能夠保障新聞的質量;對於其他資訊的獲取,由於技術的限制,此時的繭房並沒有過度被放大,受眾是有適當的自主選擇性閱讀新聞的。但到了如今以智能技術的互聯網時代,情況發生了改變,信息繭房的現象越來越明顯,用戶被標簽的情況下,演算法系統進行大量的主動推送,使受眾被動地成為信息的接收者。用戶的閱讀興趣不可能涵蓋所有的知識領域,演算法分發的核心邏輯是根據用戶的行為數據來進行精確推薦的,但同時演算法又會自動過濾掉「不感興趣」「不認同」的信息,實現「看我想看,聽我想聽」。在此過程中,因為演算法技術的力量將用戶的信息選擇效果放大了倍數,進而將受眾困住在信息繭房當中,受眾也很難憑借自身力量打破繭房,甚至在不知覺中受到更多負面的影響。
4.1.3 演算法推送的「偽中立性」
客觀和全面是新聞倫理的基本要求,新聞從業者必須從可好信息源來獲取真實的信息,以客觀的態度反應現實。我們慣常認為,互聯網技術服務商是技術中立者,不需要承擔約束大眾媒體的社會責任,然而當信息把關人又新聞編輯轉變為演算法工程師,傳統的媒介倫理似乎已經失效。演算法具有商業傾向性,「中立性」是演算法平台用以逃避媒體責任的理由,給大眾媒介造成傳播亂象,如此一來更像是一場演算法平台「肆意妄為又不想負責」的詭辯。
演算法平台的信息源是經過選擇和過濾的,「頭條號」的內容占「今日頭條」整個信息系統的絕大部分,然而在「人人都可以做新聞人」的時代,頭條號平台是一個開放的網路媒介環境,存在大量的偏見和錯誤的認知。無論是「今日頭條」平台設立的演算法規則,還是其他爬蟲的抓取的關鍵詞,演算法系統的信息源很多是具有目的性的、有偏見和非客觀的信息,所以信息源不能直接作用於用戶。因此,篩選演算法系統的信息源與傳統的人工編輯相比較,范圍極廣且很難把關,若演算法被惡意利用,那麼使整個傳播系統將會被輕易控制。
4.1.4 演算法推送里的「議程設置」
原議程設置功能揭示的重要內涵是:「受眾對新聞的看法雖然被大眾媒體議程設置功能所主導,但其更深刻的是議程設置給大眾媒體新聞帶來放大與延伸,從而使受眾對新聞選擇做出能動性修正,讓受眾在滿足需求和媒介依賴中逐漸培養出的潛在認同感」。
推送演算法技術在互聯網平台的運用,使原來傳統媒體主導的議程設置過程發生了變化,伴隨著傳播權的轉移、公眾參與度的提高和信息量劇增等原因導致議程設置功逐漸能減弱。過往傳統新聞的內容是由編輯有選擇地進行報道後再呈現在受眾面前的,而個性化新聞推送是用戶自己來選擇看哪一方面的內容,而這一環節中,天然的技術賦權將傳播權從傳統媒體下放至平台的用戶,使得受眾和社會的連接無需依賴傳統媒介,新聞媒體作為把關人的作用和議程設置功能都在減弱。
4.2 演算法新聞治理缺陷下的演算法權利異化
演算法作為人工智慧的基石之一,是「一種有限、確定、有效並適合用計算機程序來實現的解決問題的方法,是計算機科學的基礎」。近年來,伴隨人工智慧深度學習演算法取得的重大突破和大數據時代的到來,人工智慧的應用場景不斷拓展,人工智慧時代正逐漸從想像成為現實。藉助於海量的大數據和具備強大計算能力的硬體設備,擁有深度學習演算法的人工智慧機器可以通過自主學習和強化訓練來不斷提升自身的能力,解決很多人類難以有效應對的治理難題。伴隨人工能演算法在國家和社會治理中重要性的日漸凸顯,國家和社會對於演算法的依賴也逐漸加深,一種新型的權力形態——演算法權力也隨之出現。
可以把演算法權利分為四種:數據主權、演算法設計權、研發的資本權和演算法控制權。由於前三種權利都是單向的、演算法開發者賦予演算法的權利,是屬於演算法開發者的,與演算法分發平台呈現的效果沒有直接的影響,所以本文將著重論述演算法控制權。
演算法控制權是雙向的,用戶是演算法技術數據行為的提供者,同時又是被演算法技術控制的受害者。例如我們看到「今日頭條」會通過推送演算法來監管用戶的發布和瀏覽行為,同時平台會通過演算法決策系統來實現內容的發布去引導用戶。演算法控制權當然是一種天然技術賦予的權利,但演算法控制權是在用戶提供數據行為的情況下才得以實現的,因此演算法控制權既存在內容生產權,同時有要尊重和保護演算法相對人的義務。
正因為如此,演算法技術被認為是一種雙刃劍,一方面演算法能夠做出精準的行為預測,可以為管理者提供非常好的循環干預機制;對於公共行為主體來說,可以通過對大數據的應用來解決社會治理問題,對於私人主體來說可以藉助數據來提供個性化和定製化的服務;另一方面,演算法技術存在著諸如利益和風險不對稱等問題,而且由於演算法技術發展的超前性,新科技的創造者具備不對稱的信息和技術優勢,能夠按照自身利益的需求來塑造在平台上的演算法推送邏輯和社會系統,這帶來了監管的不確定性。人們要通過集體行為去承擔社會責任,通過這樣的方式規制演算法權利,可以讓我們能夠對演算法分發系統的意義和價值得到更深刻的思考。