• 沒有找到結果。

5.5 搜尋引擎的著作權爭議

5.5.2 搜尋引擎發展的歷史

搜尋引擎起源於 1990 年,一群加拿大蒙特婁麥姬而大學的學生創造了

”Archie”,這一套程式下載了 FTP 站內所有檔案的目錄清單,並且創造了一個 可供搜尋檔名資料庫,方便使用者在網際網路上收集 FTP 站內的目錄與檔案資 料。當時全球資訊網(WWW)還未出現,Archie 是為了存取散佈在各個匿名 FTP 伺服器中檔案的產物,且只有在檔案所有人同意公開的情況下才能搜尋 到,透過像 Email、對話記錄、研討會等得到檔案內容。

一年後,一群明尼蘇達大學的研究人員發佈了名為”Gopher”的界面,供搜尋 及重製四處分散的文件,繼之則有 Veronica 和 Juhead 等查詢程式的出現供搜尋 排序在 Gopher 索引系統的檔案,並且提供用關鍵字搜尋數千個 Gopher 伺服器 中的功能表及清單。)

自從全球資訊網(WWW)於 1991 年 8 月公開被使用起,網際網路的使用使 從前學界及業界的研究組織 迅速向外擴展 。1993 年網路瀏覽器”馬賽克”

(Mosaic)出現,它是第一套利用 GUI(Graphical User Interface)22介面程式,

可以簡單讀取網頁上的圖文資料,將圖跟文展現在螢幕上,因而獲得群眾的青 睞;而第一個網路搜尋引擎則與馬賽克瀏覽器同時出現。由於專門用於檢索資 訊的程式像蜘蛛一樣在網路間爬來爬去,因此,搜尋引擎程式被稱為蜘蛛人

22 GUI 是一種以圖形化為基礎的使用者介面,利用統一的圖形與操作方式,如可移動的視窗、選項與

滑鼠游標,作為使用者與作業系統之間的翻譯。GUI 最重要的優勢在於讓不會使用命令行的使用者對 作業系統進行指令輸入,不僅可以調整對話框尺寸,還能改變樣式與尺寸。此外,設計得當的圖形畫 面得以幫助使用者快速了解與尋找功能,且透過統一的操作方式,讓使用者在學習使用一次後,即可 快速熟悉其他程式的操作。GUI 已成為一種使用者與電腦互動的標準,是目前多數主要電腦系統與程 式所採用的介面,包括微軟視窗系統、麥金塔系統、Unix 的 Motif,以及 Linux 的桌面程式 GNOME、

KDE。

(spider 或 crawler)程式。世界上第一個 spider 程式,是由麻省理工學院的 Matthew Gray 所發明的”Worldwide Web Wander”,用於追蹤網際網路的發展規 模。剛開始它只用來統計互聯網上的服務器數量,後來則發展為”Wandex”,也 能夠蒐獲網址(URL)。同時,其他搜尋引擎出現,其中包括 Aliweb,它相當 於 Archie 的 HTTP 版本。ALIWEB 不使用網路搜尋程式,如果網站管理員希望 自己的網頁被 ALIWEB 收錄,必須自己提交網頁的簡介索引訊息。

1994 年 4 月 20 日 Web Crawler23正式亮相,它是網際網路上第一個支持搜索 文件全部文字的全文搜尋引擎,在它之前,用戶只能透過網址和摘要搜尋,摘 要一般來自人工評論或電腦程式自動擷取本文的前 100 個字,因而在幾個月內 就大受歡迎。此外,1994 年匹茲堡卡內基大學的一項研究計畫創建了搜尋引 擎”Lycos”,它是第一個利用網站連結確定上下文及關連性的搜尋引擎24。此外

,Lycos 不只向他的前身具有展示標題及頁序的功能,且提供了網頁片段,並 增加了字首媒合及相似字搜尋等特色。然而,Lycos 主要的不同在於它遠勝過 其他搜尋引擎的數據量,在 1995 年 1 月時已達到 150 萬筆;在 1996 年 11 月時 更達到了 6000 萬筆,遠超過全球資訊網(WWW)早期任何其他搜尋引擎之資 料數。

到了 1995 年,幾個其他提供不同程度革新的搜尋工具開始出現,包括 Info seek,AltaVista、以及 Exaite。” Info seek”係以現有的技術為基礎;它引進一個 搜尋修飾詞的複雜系統,此外,當用戶點擊 Netscape 瀏覽器上的搜索按鈕時,

會彈出 Info seek 的搜索服務,Info seek 搜尋引擎因前揭與 Netscape 瀏覽器之戰

23 See World Wide Web, in WIKIPEDIA, in hppt://en.wikipedia.org/wiki/world_wide_web,最後造訪日:

2006/09/21.

24 Urs Gasser,REGULATING SEARCH ENGINES: TAKING STOCK AND LOOKING AHEAD,Yale Journal of Law and Technology, 2006.

略伙伴關係受到歡迎。而由 DEC 公司(Digital Equipment Corporation)發展並 且銷售的”AltaVista”,在 1995 年底才登場亮相。 AltaVista 是第一個支持自然 語言搜索且被認為是最快速的搜尋引擎。此外,AltaVista 也是第一個多語種搜 尋引擎,包含了像高級搜尋語法(如 AND、OR、NOT 等)的特徵以及搜索連 結到某個網址的網站的能力。” Exaite”係由一群史丹佛學生所創造,這個具網 際網路目錄的搜尋引擎也在 1995 年啟動。據報導,它是第一個超越傳統以關鍵 字搜尋科技,把網頁分類以調整搜尋結果的搜尋引擎。這些全文索引搜尋引擎 和 1994 年底初次登台的雅虎(Yahoo)形成激烈的競爭,並且採行提供網頁內 容分級、標題分類名錄等不同的範例。

競爭激烈的搜尋引擎因為使用了不同的技術,產生了不同的搜尋結果—在 1990 年代中其發展出像”Meta Crawler”或”Savvy Search”等搜尋引擎的現象。用 戶只需提交一次搜索請求,這一代的搜尋引擎就會轉換處理,提交給所有的網 路搜尋引擎,彙整所有查詢結果,然而他們並不能使各種搜尋引擎的語法一致

25。另一項革新是個性化搜尋的引進,他的搜尋結果是諸如個人檔案所量身定 作。例如”HotBot”,它是在 1996 年發佈的搜尋引擎,聲稱每日可將超過用 Cookie 儲存用戶個人搜尋的喜好。

在 1995 年至 2000 年間,在原來的搜尋引擎被取得整合,或者從市場消失的 同時,出現了幾個新的搜尋引擎。到了 2001 年,Google(由 Larry Page 和 SergeyBrin 在 1998 年所創立)已經成為最突出的搜尋引擎之一。它的成功一方 面是基於它簡單的用戶界面;另一方面是因為它的網頁排名概念(PageRank)26。 搜尋引擎的基礎的技術 --網頁爬行、索引、搜尋 --已經變得更加先進並且有效

25同前註。

26 PageRank:將各個網頁用客觀、機械的方式,有效率的依其受歡迎的程度將其分級的方法。2000

年起,幾個其他搜尋引擎開始出現, 在他們當中,雅虎搜尋,MSN 搜尋,以及 A9(以 Google 為基礎)

率。 近來, 搜尋引擎正使用像 XML 或者 RSS 那樣的新程式, 且越來越廣泛 的被像 weblogs 和新聞網站自動提供,更有效率的索引資料而不需要大量的爬 行網頁。 最新另一個搜尋引擎技術的革新是包含了位址代碼的功能,使搜尋引 擎可以搜尋如街道位址,鄰近交通等地理位置。

技術上的改進伴隨著搜尋引擎的索引容量的激增。舉例而言,在1999結束前,

主要的搜尋引擎索引已多達2億份資料。 2000年6月,Google 設立了多達5億索 引頁的新程式。據報導,2002年最大的搜尋引擎索引多達30億頁,到了2003年 索引則多達40億頁(以及其他文件形式)。 2004年,MSN索引50億筆資料,在2004

11月,Google增加它的資料庫索引達80億筆資料27。2005年中,雅虎搜尋索引提

供查詢200億筆資料的途徑, 包括192億份網路文件,16億幅圖像,和超過5000 萬個聲音和影像檔。新的資訊內容包括以如家庭錄影的線上資訊以及如書本的 離線資訊兩種形式,這些資料為了供線上搜尋和接近使用都將數位化。

從早期的網路搜尋開始,搜尋引擎不僅提供搜尋服務,並且或多或少的做起 廣告生意。事實上,廣告是許多搜尋引擎的主要收入來源 --包括 Google、雅虎、

AskJeeves 和 LookSmart。廣告在搜尋引擎上下文中可能採取不同的形式。 一 方面,像是展示廣告、贊助商等傳統類型的廣告以及列表或分類廣告都被搜尋 引擎提供者所複製。另一方面,特定廣告產品的搜尋開始出現。這兩種最重要 的搜尋特定廣告的類型都是付費與檢索資料連結。或者,廣告主會付費給搜尋 引擎提供者使廣告主的網頁加入搜尋索引。就搜尋引擎而論,廣告目前的趨勢 包括像 yahoo.com 的入口廣告、 "基於請求的付費版面"(是一種販售喜好連結或 將廣告與特定搜尋條件連結。), 以及"關鍵字行銷廣告"(是當使用者在搜尋引 擎輸入的主題與廣告主購買的關鍵字相關時,搜尋結果的網頁會優先顯示廣告

27 Danny Sullivan, Search Engine Sizes, SEARCH ENGINE WATCH, Jan. 28, 2005, http://searchenginewatch.com/reports/article.php/2156481,最後造訪日:2007/6/5。

主所購買的網站的服務)。 Google 的”AdSense”計畫是這個最新型態的廣告首要 的例 子 。 Google 從 廣 告 得 到 它 大 部 分 的 收 入 , 2006 年 公 開 的 收 益 就 有 6,379,890,000 美元28