建站經(jīng)驗網(wǎng)站SEO優(yōu)化網(wǎng)頁設計 WEB2.0 網(wǎng)絡編程

百度工程師披露原創(chuàng)識別起源算法的具體細節(jié)

網(wǎng)站SEO優(yōu)化 / 2013-05-17 17:54:00

昨日，百度搜索團隊工程師發(fā)布文章表示，百度已經(jīng)抽調(diào)大量人員組成原創(chuàng)項目組，致力構(gòu)建原創(chuàng)環(huán)境，推動中文互聯(lián)網(wǎng)的前進。同時，百度披露了原創(chuàng)識別系統(tǒng)-“起源”算法的部分細節(jié)。

據(jù)百度工程師稱，百度原創(chuàng)識別系統(tǒng)，在百度大數(shù)據(jù)的云計算平臺上開展，能夠快速實現(xiàn)對全部中文互聯(lián)網(wǎng)網(wǎng)頁的重復聚合和鏈接指向關系分析。首先，通過內(nèi)容相似程度來聚合采集和原創(chuàng)，將相似網(wǎng)頁聚合在一起作為原創(chuàng)識別的候選集合；其次，對原創(chuàng)候選集合，通過作者、發(fā)布時間、鏈接指向、用戶評論、作者和站點的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來識別判斷出原創(chuàng)網(wǎng)頁；最后，通過價值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價值高低進而適當?shù)闹笇ё罱K排序。

同時LEE表示，通過實驗以及真實線上數(shù)據(jù)，百度原創(chuàng)識別“起源”算法已經(jīng)取得了一定的進展，在新聞、資訊等領域解決了絕大部分問題。

百度站長平臺發(fā)布的全文內(nèi)容如下：談談原創(chuàng)項目那點事

一、搜索引擎為什么要重視原創(chuàng)

1.1 采集泛濫化

來自百度的一項調(diào)查顯示，超過80%的新聞和資訊等都在被人工轉(zhuǎn)載或機器采集，從傳統(tǒng)媒體的報紙到娛樂網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評測，甚至高校圖書館發(fā)的催還通知都有站點在做機器采集。可以說，優(yōu)質(zhì)原創(chuàng)內(nèi)容是被包圍在采集的汪洋大海中之一粟，搜索引擎在海中淘粟，是既艱難又具有挑戰(zhàn)性的事情。

1.2 提高搜索用戶體驗

數(shù)字化降低了傳播成本，工具化降低了采集成本，機器采集行為混淆內(nèi)容來源降低內(nèi)容質(zhì)量。采集過程中，出于無意或有意，導致采集網(wǎng)頁內(nèi)容殘缺不全，格式錯亂或附加垃圾等問題層出不窮，這已經(jīng)嚴重影響了搜索結(jié)果的質(zhì)量和用戶體驗。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗，這里講的原創(chuàng)為優(yōu)質(zhì)原創(chuàng)內(nèi)容。

1.3 鼓勵原創(chuàng)作者和文章

轉(zhuǎn)載和采集，分流了優(yōu)質(zhì)原創(chuàng)站點的流量，不再具屬原創(chuàng)作者的名稱，會直接影響到優(yōu)質(zhì)原創(chuàng)站長和作者的收益。長期看會影響原創(chuàng)者的積極性，不利于創(chuàng)新，不利于新的優(yōu)質(zhì)內(nèi)容產(chǎn)生。鼓勵優(yōu)質(zhì)原創(chuàng)，鼓勵創(chuàng)新，給予原創(chuàng)站點和作者合理的流量，從而促進互聯(lián)網(wǎng)內(nèi)容的繁榮，理應是搜索引擎的一個重要任務。

二、采集很狡詐，識別原創(chuàng)很艱難

2.1 采集冒充原創(chuàng)，篡改關鍵信息

當前，大量的網(wǎng)站批量采集原創(chuàng)內(nèi)容后，用人工或機器的方法，篡改作者、發(fā)布時間和來源等關鍵信息，冒充原創(chuàng)。此類冒充原創(chuàng)是需要搜索引擎識別出來予以適當調(diào)整的。

2.2 內(nèi)容生成器，制造偽原創(chuàng)

利用自動文章生成器等工具，“獨創(chuàng)”一篇文章，然后安一個吸引眼球的title，現(xiàn)在的成本也低得很，而且一定具有獨創(chuàng)性。然而，原創(chuàng)是要具有社會共識價值的，而不是胡亂制造一篇根本不通的垃圾就能算做有價值的優(yōu)質(zhì)原創(chuàng)內(nèi)容。內(nèi)容雖然獨特，但是不具社會共識價值，此類偽原創(chuàng)是搜索引擎需要重點識別出來并予以打擊的。

2.3 網(wǎng)頁差異化，結(jié)構(gòu)化信息提取困難

不同的站點結(jié)構(gòu)化差異比較大，html標簽的含義和分布也不同，因此提取關鍵信息如標題、作者和時間的難易程度差別也比較大。做到既提得全，又提得準，還要最及時，在當前的中文互聯(lián)網(wǎng)規(guī)模下實屬不易，這部分將需要搜索引擎與站長配合好才會更順暢的運行，站長們?nèi)绻酶逦慕Y(jié)構(gòu)告知搜索引擎網(wǎng)頁的布局，將使搜索引擎高效地提取原創(chuàng)相關的信息。

三、百度識別原創(chuàng)之路如何走？

3.1 成立原創(chuàng)項目組，打持久戰(zhàn)

面對挑戰(zhàn)，為了提高搜索引擎用戶體驗、為了使優(yōu)質(zhì)原創(chuàng)者原創(chuàng)網(wǎng)站得到應有的收益、為了推動中文互聯(lián)網(wǎng)的前進，我們抽調(diào)大量人員組成原創(chuàng)項目組：技術(shù)、產(chǎn)品、運營、法務等等，這不是臨時組織不是1個月2個月的項目，我們做好了打持久戰(zhàn)的準備。

3.2 原創(chuàng)識別“起源”算法

互聯(lián)網(wǎng)動輒上百億、上千億的網(wǎng)頁，從中挖掘原創(chuàng)內(nèi)容，可以說是大海撈針，千頭萬緒。我們的原創(chuàng)識別系統(tǒng)，在百度大數(shù)據(jù)的云計算平臺上開展，能夠快速實現(xiàn)對全部中文互聯(lián)網(wǎng)網(wǎng)頁的重復聚合和鏈接指向關系分析。首先，通過內(nèi)容相似程度來聚合采集和原創(chuàng)，將相似網(wǎng)頁聚合在一起作為原創(chuàng)識別的候選集合；其次，對原創(chuàng)候選集合，通過作者、發(fā)布時間、鏈接指向、用戶評論、作者和站點的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來識別判斷出原創(chuàng)網(wǎng)頁；最后，通過價值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價值高低進而適當?shù)闹笇ё罱K排序。

目前，通過我們的實驗以及真實線上數(shù)據(jù)，“起源”算法已經(jīng)取得了一定的進展，在新聞、資訊等領域解決了絕大部分問題。當然，其他領域還有更多的原創(chuàng)問題等待“起源”去解決，我們堅定的走著。

3.3 原創(chuàng)星火計劃

我們一直致力于原創(chuàng)內(nèi)容的識別和排序算法調(diào)整，但在當前互聯(lián)網(wǎng)環(huán)境下，快速識別原創(chuàng)解決原創(chuàng)問題確實面臨著很大的挑戰(zhàn)，計算數(shù)據(jù)規(guī)模龐大，面對的采集方式層出不窮，不同站點的建站方式和模版差異巨大，內(nèi)容提取復雜等等問題。這些因素都會影響原創(chuàng)算法識別，甚至導致判斷出錯。這時候就需要百度和站長共同努力來維護互聯(lián)網(wǎng)的生態(tài)環(huán)境，站長推薦原創(chuàng)內(nèi)容，搜索引擎通過一定的判斷后優(yōu)待原創(chuàng)內(nèi)容，共同推進生態(tài)的改善，鼓勵原創(chuàng)，這就是“原創(chuàng)星火計劃”，旨在快速解決當前面臨的嚴重問題。另外，站長對原創(chuàng)內(nèi)容的推薦，將應用于“起源”算法，進而幫助百度發(fā)現(xiàn)算法的不足，不斷改進，用更加智能的識別算法自動識別原創(chuàng)內(nèi)容。

目前，原創(chuàng)星火計劃也取得了初步的效果，作者展示等等，并且在排序及流量上也取得了合理的提升。

最后，原創(chuàng)是生態(tài)問題，需要長期的改善，我們將持續(xù)投入，與站長攜手推動互聯(lián)網(wǎng)生態(tài)的進步；原創(chuàng)是環(huán)境問題，需要大家來共同維護，站長們多做原創(chuàng)，多推薦原創(chuàng)，百度將持續(xù)努力改進排序算法，鼓勵原創(chuàng)內(nèi)容，為原創(chuàng)作者、原創(chuàng)站點提供合理的排序和流量。

合伙人
校園招聘
社會招聘

聯(lián)系我們
聯(lián)系方式
在線QQ
官方微信

訂閱號

上饒幫

服務號

獵人傳媒

江西省上饒市廣信區(qū)三清山中大道588號7棟5號
電話：0793-8313026 7094119
傳真：0793-8313026

手機：18079306668 13576325382 曾
郵箱：174216168@qq.com
QQ：174216168

贛ICP備08101270號-1 百度統(tǒng)計