• 沒有找到結果。

臺灣科技大學機構典藏 NTUSTR:Item 987654321/67172

N/A
N/A
Protected

Academic year: 2021

Share "臺灣科技大學機構典藏 NTUSTR:Item 987654321/67172"

Copied!
29
0
0

加載中.... (立即查看全文)

全文

(1)

電子資源資料之書目計量研究-以癌症研究為例

游忠諺 謝建成*

國立臺灣師範大學圖書資訊學研究所

摘 要

運用數學及統計等量化技術,以評估現代文明之發展與成長,除可描述 學術發展現況,亦為書目計量之研究內涵與精神。然文獻資料收集之完整性,

為書目計量學相關研究主要困難點之一,亦嚴重影響計量研究之分析結果。

過去在人工處理資料情況下,資料蒐集之完整性有其難以避免之困境,而今文獻 資料內容之數位化建立與普遍性似乎開啟解決此問題的窗口。本研究採期刊 評比指標資料庫-SCImago Journal Rank (簡稱 SJR 資料庫) 中收錄之癌症研究 (cancer research) 領域期刊清單為研究個案,並以 PubMed 資料庫做為文獻資料 蒐集來源,蒐集自 1945 年至 2015 年 10 月共 172 種期刊,608,790 篇文獻,

透過書目計量學 (bibliometrics) 三大定律進行檢驗,研究結果顯示:(1) 在文獻 成長方面,自 1992 年起,癌症研究領域文獻成長量突破每年千篇並呈現逐步 升高的趨勢;(2) 文獻出版類型以期刊文獻為最多 (journal article, 574,924 篇),

其次為文獻回顧 (含系統性回顧) (review, 61,463 篇);以文獻內容型式區分,

以對比研究 (comparative study) 為最多,計有 46,698 篇;以研究報告類型區分,

以非美國政府資助的研究報告 (non-U.S. government-supported research) 為最多,

計有 251,024 篇;(3) 癌症研究領域之文獻多數為合著作者型式,個人作者的 發表偏低;(4) 採用布萊德福定律 (Bradford’s Law) 驗證,結果顯示可分為四區,

以布萊德福定律 1:n:n2:n3之計算公式,求得 n 值為 2.5;(5) 針對洛卡定律 (Lotka’s Law) 作者生產力分析,以第一作者與全部作者分別帶入公式進行計算 與驗證,並將公式修正為 f(x) = 0.6387/x1.975,其結果可符合洛卡定律。

關鍵詞: 書目計量學,癌症研究,布萊德福定律,布萊德福炼齊夫定律,洛卡 定律。

THE STUDY OF BIBLIOMETRICS ON ELECTRONIC RESOURCES DATA – A CASE STUDY OF CANCER RESEARCH

Chung-Yen Yu Jiann-Cherng Shieh*

Graduate Institute of Library & Information Studies National Taiwan Normal University

Taipei, Taiwan 106, R.O.C.

Key Words: bibliometrics, cancer research, Bradford’s Law, Bradford-Zipf’s Law, Lotka’s Law.

*通訊作者:謝建成,e-mail: jcshieh@ntnu.edu.tw

Corresponding author: Jiann-Cherng Shieh, e-mail: jcshieh@ntnu.edu.tw

(2)

ABSTRACT

To evaluate development and growth of modern civilization, quanti- fying approaches such as mathematical and statistical methods have been adopted to not only describe academic development but also explore natures of Bibliometrics. One of the challenges of Bibliometrics is the integrity of literature search that also of relevance to the result of quantitative analysis.

The case study adopted in this research was the journal list covered by Cancer Research of the SCImago Journal Rank (SJR). The database of PubMed was the sources of literature collection, in which we collected 608,790 articles from 172 journals published from 1945 to October 2015.

By carrying out the three principles of Bibliometrics for verification, the result suggested the following: (1) In terms of literature growth, cancer research- related publications have exceeded one thousand publications annually since 1992, and showed a rising tendency. (2) The types of publications were do- minated by journal articles (574,924 articles) followed by reviews (61,463 articles including systematic reviews). By considering the content and the type of research report, the major types were comparative study and non-U.S.

government-supported research with 46,698 and 251,024 publications, re- spectively. (3) Most cancer research literature was written in collaboration with coauthors rather than by a single author. (4) According to Bradford’s Law, the results can be divided into 4 groups, in which the 1: n: n2: n3 rations derived from Bradford’s formula were applied and concluded that n equaled to 2.5. Finally, (5) by performing author productivity analysis based on Lotka’s Law, we considered the numbers of first authors and all authors of an article, in which we substituted into Lotka’s formula in- dependently.

The result was in line with Bradford’s Law given that the para- meters were modified as follows: f(x)=0.6387/x1.975.

一、前 言

研究人員為維持其研究動能,須取得不同類型與來源 的學術資源,如學術會議的論文、電子資料庫、具有同儕 評閱的期刊、教科書等多樣化的資源[1]。隨著資訊科技的 進步,各類型研究領域的學術產出快速增加,連帶影響學術 傳播的發展,故透過量化技術,運用數學及統計等測量方法,

進而評估現代文明的發展與成長,除可描述學術發展的 現況,亦為書目計量之研究內涵與精神。

書目計量學的研究對象和內容主要集中於:(1) 文獻 本身及其內容資訊;(2) 與文獻相關的統計指標[2]。在資料 來源,研究者透過文摘、索引、書目、年鑑等檢索工具,

取得文獻出版的數量、時間、類型、出版地、作者等資料,

做為統計時的量化單元,同時因為在文獻的利用過程中,

產生可用於計量的有用資訊,如文獻申請複印數、書籍 借閱數、讀者來源、人數等,增加書目計量學新的資料類型,

增加其研究產出的豐富性。

然而,文獻資料收集的完整性,向來為進行書目計量學 相關研究的困難點之一,亦影響計量研究之分析結果。如 在布萊德福定律的延伸研究,Brookes 強調布萊德福分佈 的實證與理論若要完全吻合,則文獻的書目必須符合:

(1)定義明確的學科主題;

(2)書目必須完整,應包含所有相關的文獻與期刊;

(3)書目的時間範圍必須有所限制,使得所有期刊生產文獻 的機會均等。

其論述中其表明,必須收集至完整的書目資訊,始能 符合布萊德福定律的規則[3]。

由上述可知,過去受限於紙本期刊的載體特性,徵集 文獻書目之原始資料取得不易,在資料處理的過程中,必須 以人工回溯方式進行資料的整理、清理與統計,資料量的 多寡,亦影響計量結果的可信度,研究者在無法取得所有 文獻的情況下,採取抽樣方式並推估所需文獻量,其研究 結果雖有其研究價值,但亦存在其統計誤差之現象。

而數位化電子資源的發展改變傳統文獻書目資料徵集 的便利性,文獻索引資料的數位化與相關電子資料庫的誕生,

亦減少研究者在取得書目資料的困難,如常見的引文索引 資料庫-Web of Science 與 Scopus,與醫學文獻索引資料 庫-PubMed 等,則將其收錄之期刊文獻書目數位化,並 提供全文連結之功能,大幅改善研究者取得原始文獻與引 用文獻之便利性,同時因其收錄資料量具有一定規模,

Web of Science與 Scopus 亦開發不同之計量指標,在資 料的質與量層面,文獻索引資料庫具有一定代表性,故從 事書目計量之研究者,其資料來源亦多為上述之資料庫提供 之書目資料,經資料整理之過程後,再進行計量分析。

(3)

有鑑於此,為求在進行書目計量研究時,其資料的完 整性與研究的正確性,本研究的研究貢獻有如下:

(1)採以自期刊評比指標資料庫-SCImago Journal Rank,

選定癌症研究領域之相關期刊為研究個案,從醫學期刊 文獻索引資料庫-PubMed 獲取完整文獻書目資料;

(2)按照書目計量研究方法進行驗證包括:

(i) 癌症研究相關領域期刊文獻成長趨勢;

(ii) 癌症研究相關領域期刊文獻合著作者分佈之現況;

(iii) 癌症研究領域相關期刊之文獻類型分布;

(iv) 癌症研究領域相關期刊之文獻分布是否合於布萊 德福定律?

(v) 癌症研究領域相關期刊之作者分布是否合於洛卡 定律等議題。

二、文獻探討

1. 書目計量學

書目計量學 (bibliometrics) 一詞為 1969 年 A. Pritchard 所提出,其定義為「書目計量學是將數學統計方法,運用到 圖書和其他通訊媒體上的科學」[4]。明確將過去對於相關 研究歸納出其範圍與賦予其意涵,其定義隨著時間演變而 各有其差異,Sengupta 認為「書目計量學為一種可以利用數 學、邏輯的統計對所有傳播形式的出版品進行計算、分 類及量化的評估」[5];何光國認為「凡利用數學、統計學、

和邏輯學的理論和方法,對各類型文獻的本質和結構,作 數量、品質、和運用上的研究與分析者,通稱為文獻計量學」

[6]。定義雖略有差異,但歸納其定義的重點,在於將文獻 書目從傳播知識的載體,轉變成為其可採數理統計的計算 單元,再進行延伸的相關分析與研究方法,再以量的方式 輸出與賦予其解釋。

故書目計量學成為對於研究分析學科知識發展的重要 工具。隨著資訊科技進步,書目計量學陸續開創新的計量 方法,一般認為,書目計量學的重要定律為布萊德福定律、

齊夫定律與洛卡定律等三定律,應用於圖書資訊學的文獻 分佈與館藏發展等不同層面,其定義分述如下:

(一) 布萊德福定律 (Bradford’s Law)

根據某學科各期刊所含相關文獻數量的多寡,依遞減次 序排列,這些期刊將可分成為核心區 (即第一區) 與 接連數區,且每一區包含大約相同數量的文獻,則各期 刊種數的比例將呈現 1:n:n2的關係,其意義在於特定 學科之最相關文獻集中於少數的核心期刊之中[7]。

(二) 布萊德福-齊夫定律 (Bradford-Zipf’s Law)

布萊德福-齊夫定律是結合布萊德福定律與齊夫定律 延伸發展而得。齊夫定律又稱為「字詞分布定律」,研 究在文獻中詞頻和排名之間的關係。發現字詞的使用 次數 (f) 與字詞的使次數排名 (r) 旳乘積,會等於一 常數 C。此定律可應用於資訊檢索,使用低頻詞與中

頻詞作為控制詞彙,得以提高檢索效益,Brookes 認為 布萊德福分布與齊夫定律相似,因而將兩定律加以合併,

進而修正發展出布萊德福-齊夫定律 (Bradford-Zipf Law),該定律主要是以一標準 S 形曲線來表示期刊文 獻之分佈狀況,S 曲線分為三個區域,第一區為非線性 起始部份,即為核心期刊部份;第三區為直線分佈;

第三區則為偏垂現象,表示有關研究主題的期刊論文 己擴散至多數期刊。

(三) 洛卡定律 (Lotka’s Law)

洛卡定律又稱為倒數平方律,主要是以最小平方法研究 作者與發表論文篇數之間的關係。洛卡在其研究指出,

在採以每一篇文獻的 Senior Author 為計算基準,發表 n 篇論文的作者總數,是發表一篇論文作者總數的 n 的平方分之一。其公式為 f(x) = c/xn (1.2 < n < 3.8, c 為常數),根據洛卡的發現,只發表一篇論文的作者 總數,約是全部作者總數的 60.79% [8]。洛卡定律常 被應用於評估某學科領域內,不同作者生產能力、學術 地位等。

透過上述三項定律,書目計量學成為圖書館學、資訊 科學及學術傳播的重要分支研究領域,豐富了學術產出的 多樣性。

2. 國內作者書目計量文獻分析

Hsu and Chiang [9] 以服務科學、管理與工程 (service science, management , engineering, SSME) 領域,透過 Web of Science引文索引資料庫蒐集自 1991-2012 年共 22 年間,

共 4,513 篇文獻進行分析,並按照出版品類型、出版地區、

合著作者、機構名稱等變數進行統計,以及計算關鍵詞的 頻率,並執行 K-S 以檢驗作者的學術生產力是否符合洛卡 定律,其分析結果顯示:

(1)對於 SSME 領域,最相關的學科為商業經濟學 (business economic)、資訊科學與圖書館學 (information science and library science) 與電腦科學 (computer science);

(2)洛卡定律適用於服務科學與服務科學兩個領域,但不適 用於服務管理領域,其原因為某篇文獻的作者數過高,

影響其驗證結果。

林偉翔與林雯瑤[10] 以北市醫學雜誌為研究個案,分析 2004-2010 年的文章與引用文獻,探討其刊登的論文特質 與主題分布、作者合著狀況與高生產力作者等作者特性與 其引用文獻特性,共分析 639 篇學術論文與其 12,185 筆 引用文獻,結果顯示合著作者的情況有顯著成長的趨勢。

楊喻翔與釋惠敏[11] 以安寧療護研究為主題,透過 SCIE 與 SSCI 蒐集自 1952-2009 年期間共 6,828 篇研究文獻,分析 其文獻的數量成長、機構及個人學術生產力,並透過布萊 德福定律,找出核心期刊。其研究結果顯示:

(1)研究文獻量呈現向上趨勢;

(2)其期刊文獻分布符合布萊德福定律,核心期刊為 5 種 期刊。

(4)

林巧敏與范蔚敏[12] 蒐集臺灣地區自1959-2008 年有關 檔案與文書研究文獻共 1,257 篇,分析文獻的數量成長、

主題分布、第一作者與期刊分布等特性,其研究結果顯示:

(1)檔案研究文獻數量成長為隨著時間化呈現不規則的 成長曲線;

(2)文獻研究主題以「檔案與歷史研究為主」;

(3)作者分析顯示檔案學的作者相當分散,且文獻作者合著 比例偏低,但有合著增加趨勢;

(4)檔案期刊數量分布,不符合布萊德福定律。

楊燕枝[13] 蒐集 Web of Science 收錄的 13 本科技管理 領域的期刊,檢索 1990-2009 年間臺灣學者在科技管理領 域發表之文獻 265 篇,分析其文獻分布、作者生產力特性,

並以洛特卡定律驗證其學術生產力,研究結果顯示,臺灣 學者在科技管理領域之學術生產力並不高,集中於少數作 者。林巧敏[14] 蒐集臺灣地區 1982-1998 年資訊組織文獻 610篇與 1971-1998 年資訊組織學位論文 113 篇,分析文獻 的數量成長、主題分布、第一作者特性、期刊分布與著作 機構分布等特性,採用布萊德福定律驗證其文獻分布的 正確性,其研究結果發現期刊文獻數量分布並不符合布拉 德福定律,且合著比例偏低。黃慕萱與賴麗香[15] 以國科 會於 1995-2004 年核定圖書資訊學門 168 件專題研究為主 體,探討圖書資訊學門之專題研究計畫數與成長、執行單 位、生產力與主題等特性,以了解研究計畫的特性及主題 發展。王明玲、杜立中與曾彩娥[16] 採用書目計量方法,

分析「五四運動論著目錄」書中的 1,567 筆文獻,探討臺灣 1949-2008 年所出版之五四運動文獻,分析其資料類型、

出版年代、主題範圍與作者生產力的概況,並應用布萊德 福定律,找出核心期刊,並分析其特質。蔡明月與賴芊卉 [17] 透過 Web of Science 蒐集1985-2005 年與資訊科學相關 之書目文獻 2,270 篇,運用布萊德福定律 (Bradford’s Law) 和布萊德福-齊夫定律 (Bradford-Zipf’s Law) 分析資訊科 學引用文獻 (citing literature) 與被引用文獻 (cited literature) 的文獻分散現象,並比較其差異性,且利用 LISA 資料庫 敘述語 (descriptor) 欄位量化分析引用文獻與被引用文獻 的主題分布及變化。

3. 國外書目計量學相關研究

Pilsczek [18] 認為傳染病的醫學相關研究對於貧窮國 家是相當重要的,透過公開免費的醫學文獻資料庫,對於 貧窮國家有助了解與分析傳染病的相關研究,以阿富汗為例,

分析 2002-2011 年傳染病相關研究之文獻共 294 篇,並分 析其主題類型,顯示該地區的傳染病相關研究主題包括:

(1)呼吸道感染 (Respiratory Infections);

(2)寄生蟲 (Parasites);

(3)腹瀉 (Diarrhoea);

(4)肺結核 (Tuberculosis);

(5)人體免疫缺陷病毒 (Human Immunodeficiency Virus);

(6)耐多藥細菌 (multi-drug resistant bacteria);

(7)脊髓灰質炎 (Polio);

(8)利什曼原蟲 (Leishmania);

(9)瘧疾 (Malaria)。

Rajgoli and Laxminarsaiah [19] 分析航太科技 (Spacecraft Technology) 領域相關研究之作者生產力,選定:(1) Journal of Spacecraft Technology;(2) International Journal of Satellite Communications and Networking;(3) Journal of Spacecraft and Rockets等三種航太科技期刊為樣本,蒐集 2001-2011 年期間,共 1,907 篇文獻,共 4,355 位作者,分析其合著 狀況,並採用洛卡定律進行作者生產力的分析,其研究結果 顯示洛卡定律並不完全符合,故建議可採取數量更大的樣本,

以得出更佳的研究分析結果。Huang et al. [20] 以 PubMed 蒐集 42,192 篇中醫領域 (traditional chinese medicine, TCM) 的研究文獻,分析中醫文獻的文獻成長、文獻類型、出版 國家/區域、出版語言,其分析結果認為,從 1995-2014 年止,中醫文獻的研究產出逐步增加,英文雖然仍佔出版 語言的主導地位,但出版國家多數來自中國,其次為日本、

美國與臺灣,但文獻成長的增加趨勢,顯示中醫領域在醫學 研究中仍富研究潛力。Sachithanantham and Raja [21] 以 PubMed蒐集自 1950-2014 年共 495 篇有關在狂犬病在印度 的研究文獻,分析其文獻增長、印度在狂犬病領域的貢獻 程度、作者生產力與合著作者的合作模式,並以布萊德福 定律驗證期刊分布狀況,其研究結果布萊德福定律不適用 於印度狂犬病相關研究的期刊分布。Pinto 等人[22] 分析 伊 比利美洲 (Ibero-America) 地區的研究者,在資訊素養 (Information Literacy) 領域的學術生產力,透過 Web of Science與 Scopus 兩大索引摘要資料庫進行文獻資料收集,

共有 105 種期刊,共 340 篇文獻,採用布萊德福定律、洛卡 定律進行驗證,其結果顯示:

(1)從 2005 年至 2011 年間,每年約有 30%的趨勢呈指數 成長;

(2)西班牙與巴西為該區域中最富學術生產力的國家;

(3)期刊分布與作者生產力分別符合布萊德福與洛特卡 定律。

Dehdarirad等人[23] 以 Web of Science 蒐集 1991-2012 年期間,以女性在科學與高等教育 (Women in science and higher education) 的參與為研究個案,並以:(1) 出版生產力 (Publication productivity)、(2) 學術與科學中的性別議題 (Issues related to gender in academic and science) 與 (3) 性別 偏見的影響因素 (Factors related to gender bias) 為檢索主 題,檢索出 595 種期刊,共 1,415 篇文獻,分析其文獻成長、

文獻分布等特性,研究結果顯示:

(1)文獻成長模式符合指數成長模型;

(2)作者生產力亦符合洛特卡定律;

(3)文獻分布符合布萊德福定律,可分為 4 區。

Patra and Mishra [24] 以 PubMed 蒐集自 1990-2004 年 期間,16,471 篇生物資訊學 (Bioinformatic) 領域的文獻,

分析其文獻成長、文獻語言、文獻分類、出版國家、作者

(5)

生產力等特性,其研究結果顯示:

(1)以布萊德福定律公式,從 1,806 種期刊,找出 20 種核心 期刊;

(2)作者生產力亦符合洛特卡定律;

(3)美國為出版國家最多的 (42%);

(4)合著作者方面,以單一作者為作者分布比例最高 (23%),

其次為 2 位作者 (21%)。

4. 國內書目計量學博士論文相關研究

過去國內書目計量學相關研究,因期刊等原始書目 資料取得不易,加上須以人工處理資料,進行資料清理、

整理等過程,故會採取的方式為:(1) 將所能取得的資料 進行抽樣或 (2) 採用斷代的方式處理,以近年的臺灣圖書 資訊學博士論文為例,楊曉雯[25] 為探討為探討燃料電池 領域科學與技術互動的特質,自美國專利商標局 (U.S patent and trademark office, USPTO) 的專利全文資料庫 (patent full- text and image database, PatFT) 所檢索到的 8,112 篇發明 專利與 WOS 資料庫所獲得之 20,758 篇期刊論文為對象 進行相關研究分析,以了解 1991-2010 年燃料電池領域科學 與技術的研發現況與趨勢。蔡萬助[26] 曾以 Web Of Science (簡稱 WOS 資料庫),以公共行政學、政治學、管理學、經 濟學、社會學、法律學等六大學科領域作為研究對象。就 上述學科期刊於 1981-2010 年所發表文章,採每五篇抽一篇 的原則,共抽取 10,363 篇文章之 465,174 筆參考文獻作為 分析標的進行研究,採討公共行政學的知識來源及與其相 關學科互動關係的現象。張瀚文[27] 為探討天文學與天文 物理學國際合著網絡之特性、變遷以及影響因素,收集六種 天文學與天文物理學國際專業期刊於 2001-2009 年間出版 之期刊論文,共 57,934 篇,藉以分析其國際合著網絡。張 郁蔚[28] 為探討自 1978-2007 年圖書資訊學之跨學科變遷 情形,抽取影響係數較高前 10 種圖書資訊學期刊出版的論 文,並排除電腦科學文獻後,以 20% 之系統抽樣方式,過 濾出 1,536 篇期刊文獻為樣本與蒐集個別期刊文獻的 27,678個參考文獻,並整理 1,536 位共同作者資料,據以 個別建立不同資料檔,以利進行相關的跨學科分析。

上述相關博士論文的原始資料量皆約在萬篇書目,以 過去以人工為主的資料處理方式,可滿足研究所需,但資料 的完整性會受限在資料來源取得的研究情境,與研究者在 資料處理的技術能力。本研究在提供另一個完整資料的書 目計量學的研究方向,透過程式開發自動取得、剖析與原始 資料,在處理過程中會產生大量的資料量,再匯入至自行 開發的資料庫,其資料量有別於過去的書目計量相關研究,

在研究貢獻方面,對於過去相關研究的分析結果更加精確。

總結相關研究如表一所示,從事書目計量學的研究限制 為資料量的多寡,常見的限制與篩選條件,包括:(1) 該主題 領域相關期刊種類數目;(2) 文獻出版總篇數;(3) 出版年代 分布;(4) 出版語言;(5) 人口地理區域變數 (性別、人口、

國別等變數);(6) 書目資料來源;(7) 書目資料取得方法等

因素,使得研究者取得計量之文獻樣本有限,以致於影響統 計分析結果。

本研究以癌症研究為個案,首先從書目資料的來源進行 探討,以資料之完整性為首要要件;就探討電子資源,採用 文獻索引資料庫做為書目資料的取得來源,為現今書目計量 學研究者常見的方式,如 Web of Science、Scopus、PubMed 等資料庫;Web of Science 與 Scopus 兩者皆提供文獻與其 參考文獻,PubMed 則專注於生物醫學文獻,雖未有提供 參考文獻的連結,但提供相似文獻的機制,皆提升文獻的 廣度與深度。

三、研究方法與過程

本研究以期刊評比資料庫-SCImago Journal Rank 於 2015年所公布 2014 年度期刊評比結果為基礎,以癌症研究 (Cancer Research) 為個案主題領域,蒐集 PubMed 資料庫 之完整書目資料,進行本次研究,並進一步利用統計方法與 書目計量學之定律,檢視癌症研究領域期刊之文獻特性與 發展趨勢。

首先,在資料蒐集範圍方面,共有兩項主要來源,分別 為期刊評比指標資料庫-SCImago Journal Rank (簡稱 SJR 資料庫) 與醫學期刊文獻索引摘要資料庫-PubMed,前者 是限定主題領域範圍,後者是蒐集該領域之書目資料,分述 如下:

1. 期刊評比資料庫

期刊論文為學術傳播的重要管道,亦為學術評鑑的 重要指標。其引用文獻分析亦為長久以來圖書館評估期刊 品質的一種方法,並用於衡量學術來源的科學聲望,隨著 網路技術發展,近年來亦發展出多種新項期刊評比指標,

本研究選定西班牙的組織機構評鑑公司 SCImago 發展之 SCImago Journal Rank (簡稱 SJR) 指標,SJR 分析之原始 資料來自 Elsevier 公司所創立之 Scopus 期刊分析系統,

並提供多種研究領域的期刊評比清單,其網址為 http://

www.scimagoir.com。

2. 期刊文獻索引資料庫

本研究之文獻資料來源採用美國國家醫學圖書 館 (National Library of Medicine, NLM) 的國家生技資訊中心 (National Center for Biotechnology Information, NCBI) 建置 之 PubMed (網址 http://www.ncbi.nlm.nih.gov/),PubMed 為醫學期刊文獻索引摘要資料庫,主題包括臨床與基礎 醫學、護理、牙科學、獸醫學、生命科學等相關領域等;

該資料庫包含整個 Medline 資料庫提供之書目資料,其資料 量超過 2500 萬筆,為目前醫學領域相關研究人員最常使用 之文獻索引摘要資料庫。

在 個 案 領 域 的 選 定 方 面 , 本 研 究 採 取 癌 症 研 究 (Cancer Research) 做為說明個案,分別至 SJR 資料庫與

(6)

表一 書目計量學相關研究-資料來源、分析方法、資料筆數

作者 (年代) 個案領域 分析方法 資料來源 資料筆數 年代區間 Hsu & Chiang [9] 服務科學、

管理與工程 (SSME) 洛卡定律 WoS 4,513 1991-2012

林偉翔和林雯瑤[10] 醫學 作者生產力、

引文分析 北市醫學雜誌 639篇 (文獻)、

12,185篇 (引文) 2004-2010

楊喻翔和釋惠敏[11] 安寧療護 布萊德福定律 WoS 6,828 1952-2009

林巧敏和范蔚敏[12] 檔案與文書研究 文獻成長、

布萊德福 中華民國期刊論文資料庫 1,257 1959-2008

楊燕枝[13] 科技管理 文獻分布、

作者生產力、洛卡定律 WoS 265 1990-2009

林巧敏[14] 資訊組織 文獻成長、

主題分布、布萊德福。 中華民國期刊論文資料庫 610 (期刊論文)、

學位論文 (113) 1971-1998 黃慕萱和賴麗香[15] 圖書資訊學 主題分析 國科會專題研究計畫查詢系統 168 件 1995-2004 王明玲、杜立中和曾彩娥[16] 五四運動 布萊德福定律 五四運動論著目錄 (書) 1,567 1949-2008

蔡明月和賴芊卉[17] 資訊科學 布萊德福定律、

布萊德福-齊夫定律 WoS 2,270 1998-2005

Pilsczek [18] 傳染病 主題分析 PubMed 294 2002-2011

Rajgoli and Laxminarsaiah [19] 航太科技 洛卡定律 期刊 1,907 2001-2011 Huang et al. [20] 中醫 主題分析 PubMed 42,192 1995-2014

Sachithanantham and Raja [21] 狂犬病 布萊德福、

作者生產力、合著作者 PubMed 495 1950-2014

Pinto et al. [22] 資訊素養 布萊德福定律、

洛卡定律 WoS、Scopus 340篇;

105種期刊 1985-2013

Dehdarirad et al. [23] 女性在科學與 高等教育

文獻成長、

布萊德福定律、洛卡定律 WoS 1,415篇;

595種期刊 1991-2012

Patra and Mishra [24] 生物資訊學 布萊德福定律、

洛卡定律 PubMed 16,471篇;

1,806種期刊 1990-2004 資料來源:本研究整理

PubMed 資料庫下載期刊清單,進行期刊之篩選與比對、

書目資料檢索與下載過程,其步驟如下:

(一) 連結至 SJR 資料,自期刊評比項目 (Journal Ranking) 頁面,輸入檢索條件為:(1) 主題分類 (Subject Category) 選定癌症研究 (Cancer Research);(2) 評比資料年代 設定為 2014 年,共有 195 種期刊。

(二) 連結至 PubMed 資料庫提供之期刊收錄清單頁面,選 定「PubMed Journal」項目並下載該清單,並進行資 料處理,共有 28,591 種期刊。

(三) 依據癌症研究領域期刊之 ISSN 為檢索詞,與 PubMed 收錄之期刊清單進行資料比對,因 PubMed 資料庫之 ISSN欄位有「ISSN (Print)」與「ISSN (Online)」二項,

故分別進行比對該兩項欄位,比對結果共有 172 種期 刊,為 SJR 與 PubMed 資料庫共同收錄,收錄比率為 88.21% (172/195 = 88.21%)。

(四) 經步驟 3 之比對結果,同時可得知該期刊在 PubMed

資料庫著錄之獨立識別編號 (NLM Unique ID, 簡稱 NLMID),再以 NLMID 為檢索詞進行檢索,可得知個 別期刊在 PubMed 資料庫的文獻收錄範圍,再分別以 文獻編號清單 (PMID List) 為參數,進行期刊文獻清單 匯出。

(五) 經步驟 4 所取得期刊文獻清單,以文獻編號 (PMID) 為檢索詞,分別進行文獻資料檢索並匯出書目資料,

初步統計 608,830 筆書目資料。

本研究根據上述步驟,於 2015 年 10 月 20 日進行資 料庫檢索與進行書目資料下載,於 2015 年 10 月 25 日書目 資料下載完成,共計 172 種期刊,608,830 筆書目資料,

做為本研究之資料集 (Data Set),並採用 MySQL 做為資 料庫管理工具,共計資料量 2.5G。

3.研究限制

本研究限制在於文獻蒐集以 PubMed 醫學期刊文獻

(7)

表二 癌症研究期刊文獻逐年分布統計表

年代 期刊篇數 累計篇數 年代 期刊篇數 累計篇數

1945 14 14 1981 4,480 56,814

1946 141 155 1982 5,154 61,968 1947 198 353 1983 5,676 67,644 1948 180 533 1984 6,435 74,079 1949 366 899 1985 6,365 80,444 1950 384 1,283 1986 7,036 87,480 1951 477 1,760 1987 7,280 94,760 1952 495 2,255 1988 8,029 102,789 1953 500 2,755 1989 9,003 111,792 1954 517 3,272 1990 9,686 121,478 1955 757 4,029 1991 9,873 131,351 1956 726 4,755 1992 10,815 142,166 1957 770 5,525 1993 11,960 154,126 1958 818 6,343 1994 12,478 166,604 1959 943 7,286 1995 12,698 179,302 1960 916 8,202 1996 13,263 192,565 1961 918 9,120 1997 13,993 206,558 1962 866 9,986 1998 14,358 220,916 1963 1,029 11,015 1999 15,364 236,280 1964 1,153 12,168 2000 15,536 251,816 1965 1,108 13,276 2001 15,624 267,440 1966 1,358 14,634 2002 16,641 284,081 1967 1,477 16,111 2003 18,122 302,203 1968 1,569 17,680 2004 18,778 320,981 1969 1,660 19,340 2005 20,179 341,160 1970 1,849 21,189 2006 21,027 362,187 1971 1,873 23,062 2007 21,610 383,797 1972 2,150 25,212 2008 22,799 406,596 1973 2,407 27,619 2009 23,971 430,567 1974 2,767 30,386 2010 25,513 456,080 1975 2,847 33,233 2011 26,178 482,258 1976 3,279 36,512 2012 29,072 511,330 1977 3,632 40,144 2013 30,925 542,255 1978 3,661 43,805 2014 33,866 576,121 1979 4,040 47,845 2015 32,669 608,790 1980 4,489 52,334

資料來源:本研究整理

索引摘要資料庫作為文獻蒐集工具,因此本研究蒐集文獻 之完整性會因該資料庫收錄範圍的限制,如作者姓名的 統一性,因現今已有 ORCID 計畫的推動,未來作者姓名 的認定問題亦可透過 ORCID 機制解決,故本研究並不處理 作者名稱的統一性。

四、研究結果與分析

本研究結果分析的內容包括:(1) 癌症研究文獻成長與 出版品類型分布;(2) 布萊德福定律驗證;(3) 布萊德福-

齊夫定律驗證;(4) 洛卡定律驗證與作者特性,茲詳述如下。

1.癌症研究文獻成長與出版品類型分佈 (一) 文獻數量成長

本研究共計檢索出 608,830 篇文獻書目,將 PubMed 預先著錄的 2016 年文獻 40 篇省略不計,共 608,790 篇,出版年介於 1945-2015 年間,首篇出版文獻自 1945年,由各年出版量的成長趨勢來看,從圖 1 觀察 70年來的研究文獻成長,癌症研究呈向上成長趨勢,

自 1945-1991 年,每年的文獻成長量以百篇至數百篇

(8)

1945 1947 1949 1951 1953 1955 1957 1959 1961 1963 1965 1967 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 700,000

600,000

500,000

400,000

300,000

200,000

100,000

0

圖 1 癌症研究期刊文獻數量成長曲線圖

圖 2 PubMed 資料庫著錄之出版品類型[29]

為成長,自 1992 年起,其文獻成長量突破每年千篇,

並呈現逐步升高的趨勢,至 2014 年的 33,866 篇達到 高峰,文獻成長數量統計詳如表二。

(二) 出版品類型分佈

本研究共得 608,830 筆文獻,在出版品類型 (Publication Type) 分類方面,採用 PubMed 資料庫著錄之出版品 類型,如圖 2 所示,在 PubMed 資料庫的「Publication Types, MeSH Terms, Substances, Grant Support」一項 中,顯示該文獻之出版品類型、主題詞等資訊,本研究 經資料整理過程,將其文獻之出版品類型區隔為三種:

(1) 按資料型式區分;(2) 按內容型式區分;(3) 研究 報告類,分述如下:

(1) 按資料型式區分

按資料型式區分的種類分布,如表三所示,按照 資料量的多寡區隔,明確顯示出超過萬篇以上的

類型具有 5 種;其次在出版篇數低於萬篇但高於 類型具有 5 種;其次在出版篇數低於萬篇但高於 千篇 (1000 < N < 10000) 方面,共有四類。第三區 為出版篇數低於千篇 (N < 1000),該區類型較為 分散,共有 30 種。

(2) 按內容型式區分

本研究以內容型式區分,參見同樣以出版篇數 區隔,篇數為萬篇以上的共有六類,以對比研究 (Comparative Study) 為最多;其次篇數在千篇以 上,但不滿萬篇的種類,共有六類,以臨床試驗 相關研究為最多;篇數相對較少的文獻內容型式 同樣共有六類,如表四所示。

(3) 研究報告類

在研究報告方面,以研究計畫的計畫經費來源分類 共有六種,以非美國政府資助的研究報告為最多,

(9)

表三 癌症研究領域出版品類型分佈-按資料型式區分

出版篇數 (N) 資料型式

(Nt 10000) 期刊文獻 (574,924)、文獻回顧 (含系統性回顧) (61,463)、英文文摘 (27,403)、評論 (17,603)、

信件 (17,017)

(1000 < N < 10000) 編輯的話 (8,605)、新聞 (4,147)、醫學會議 (2,212)、歷史文章 (1,912)

(N < 1000)

傳記 (910)、專輯 (858)、介紹性期刊文章 (742)、實務指南 (548)、書目 (493)、肖像 (363)、

指南 (354)、已出版的勘誤 (309)、發展共識研討會 (308)、作者的撤回聲明 (205)、撤回的出 版品 (198)、目錄 (196)、訪談 (145)、演講 (140)、地址 (47)、NIH 內部發展共識研討會 (39)、

已修正與再版文章 (39)、紀念論文集 (27)、自傳 (26)、重複出版品 (22)、病患教育傳單 (21)、

網路廣播 (20)、期刊索引 (15)、個人生平 (7)、影音媒體 (7)、法規 (3)、法律案例 (2)、字典 (1) 資料來源:本研究整理

表四 癌症研究領域出版品類型分佈-按內容型式區分

出版篇數 (N) 內容型式

(N  10000) 對比研究 (46,698)、案例報告 (27,677)、臨床試驗 (25,648)、跨中心研究 (13,859)、隨機控制 試驗 (13,396)、臨床試驗第二期 (10,471)

(1000 < N < 10000) 臨床試驗第一期 (6,199)、評估研究 (4,908)、統合分析 (3,912)、臨床試驗第三期 (2,595)、

對照臨床試驗 (1,757)、驗證研究 (1,380)

(N < 1000) 觀測研究 (212)、適用於雙胞胎的研究 (72)、臨床案例研討會 (59)、臨床試驗第四期 (49)、

技術報告 (17)、務實臨床試驗 (1) 資料來源:本研究整理

表五 癌症研究領域出版品類型分佈-研究報告類

出版品類型 篇數

Research Support, Non-U.S. Gov't 251,024 Research Support, U.S. Gov't, P.H.S. 64,728 Research Support, N.I.H., Extramural 45,460 Research Support, U.S. Gov't, Non-P.H.S. 18,021 Research Support, N.I.H., Intramural 3,118 Research Support, American Recovery and Reinvestment Act 61 資料來源:本研究整理

計有251,024 篇,(Research Support, Non-U.S. Govt, 251,024 篇),其次為美國政府公共衛生署資助 (Research Support, U.S. Govt, P.H.S., 64,728篇)、

美國國家衛生研究院院外研究資助 (Research Support, N.I.H., Extramural, 45,460篇)、非美國 政 府公共衛生署資助 (Research Support, U.S.

Govt, Non-P.H.S., 18,021篇)、美國國家衛生 研究院院內研究資助 (Research Support, N.I.H., Intramural, 3,118篇),最後則為美國經濟復甦暨 再投資法 (Research Support, American Recovery and Reinvestment Act, 61篇),參見表五。

2. 布萊德福定律驗證

本研究蒐集 608,830 筆文獻分布於 172 種期刊。根據 以布萊德福定律 1:n:n2:n3之計算公式進行分區,統計 每一種期刊所刊登之文獻篇數,並依照篇數多寡遞減排序、

就期刊數 (A)、文獻數 (B)、累積期刊數 (C)、累積文獻數 (D)、累積期刊數的常用對數值 (E)、製成癌症研究文獻分布 統計表,參見附錄一。本研究取 608,830 的 1/4 約 152,207.5 作為分界線,將期刊分布依累積文獻數分為 4 區,可得前 4 種期刊即刊登了佔文獻總數的 25% (131,773 篇,佔 21.64%),其餘約 75% 的文獻則分布於 168 種期刊。

(10)

表六 癌症研究領域期刊文獻分區表 分區 期刊總數 文獻總數 出版之文獻數

一 4 131,773 21,542至 49,063 篇 二 10 164,587 11,583至 21,258 篇 三 25 158,407 4,100至 10,719 篇 四 133 154,063 1 至 3,998 篇 總計 172 608,830

資料來源:本研究整理

700000 600000 500000 400000 300000 200000 100000 0

0 0.5 1 1.5 2 2.5

圖 3 癌症研究領域文獻半對數分布圖

依據附錄一將 172 種期刊分成四區,各區含約等量 的文章篇數,如表六所示,第一區有 4 種期刊,共出版 131,773篇文獻,每種期刊刊載 21,542 至 49,063 篇文獻;

第二區有 10 種期刊,共出版 164,587 篇文獻,每種期刊 刊載 11,583 至 21,258 篇文獻;第三區有 25 種期刊,共出版 158,407篇文獻,每種期刊刊載 4,100 至 10,719 篇文獻;

第四區有 133 種期刊,共出版 154,063 篇文獻,每種期刊 刊載 1 至 3,998 篇文獻。各區期刊種數的比例為 4:10:25:

133,若以布萊德福定律 1:n:n2:n3之計算公式,求得 n值為 2.5,亦即各區之比大約為 1u 4:2.5 u 4:2.52u 4:

2.53 u 4,等於 4:10:25:62.5。前三區的比值符合布萊 德福定律,但到第四區時,因癌症研究期刊文獻趨於分散,

比值約為布萊德福定律期刊數的 2 倍。

3. 布萊德福-齊夫定律驗證

依據附錄一的「累積文獻數」與「累積期刊常用對數值」

二個欄位資料,繪製癌症研究文獻半對數分佈圖,如圖 3 所示。圖 3 顯示大約前 14 種期刊是曲線分佈,形成所謂 核心期刊,連接的相關區則呈現線性成長,大概排名第 15 名 到 100 名的曲線,最後邊緣區的圖形曲線之尾端略為向右下 偏垂,整體圖形與布萊德福-齊夫標準的 S 型曲線頗為 相似,但是 S 型並不明顯。

由上述方式之驗證,可歸納出癌症研究領域之文獻和 布萊德福定律相似,但並不完全符合,而少數的期刊刊載 文獻佔總體文獻相當大的比例,如附錄一所示,前 15 種 期刊即刊載了半數以上 (307,079 篇,佔 50.43%),至於 其他 49.57% 的文獻則分佈於 157 種期刊,其中有 72 種

期刊的刊載數小於 1000 篇,顯示在 1945-2015 年的癌症 研究文獻分佈相當分散。

4. 洛卡定律驗證與作者特性 (一) 洛卡定律

洛卡定律 (Lotka’s Law):其公式為 f(x) = c/xn,本研究 藉統計方法,分析作者之分佈情形。並以最小平方法 進行著作量與作者分析,由於洛卡定律計算之原則為 senior author,在過去相關研究中,如蔡明月與鄭琚媛 [30] 採取第一作者計算,而楊燕枝[13] 認為文獻名列 其上的作者,無論是第一作者或合著作者,皆視為同等 重要,故採用全部作者進行計算,故本研究兩種計算 方式皆採用,故採取:(1) 第一作者;(2) 全部作者;

分別計算,詳細計算步驟與流程如下述。

(1) 第一作者:

(a) 計算與判斷作者人數的觀察值與實際之差異 首先,根據本研究之 608,830 篇文獻,扣除未著錄 作者之文獻紀錄,共有 603,630 篇文獻,計有 293,216位作者,根據洛卡定律的定義,發表一篇 文章的作者人數應為全部作者數的 60.79%,換言 之,應為 293,216u 0.6 = 175,929 人,從附錄二的 實際觀察人數為 190,912 人,約為全體的 65.10%,

由此可見,發表一篇癌症研究的相關文獻作者佔作 者人數的百分比略大於洛卡定律的 60.79%。

(b)計算符合洛卡定律之 n 值與 c 值

本研究擬以 Pao 的公式,先將文獻量與相對的作者 數轉換為自然對數 ln(X) 與 ln(Y) 加以計算,其結果 如附錄二所示。用最小平方法帶入 n 值,再帶入 Pao 的演算公式以計算 c 值。將上述計算值分別帶入 最小平方法的公式以估計 n 值。

最小平方法公式如下式 (1):

2 2

( ) ( ) ( ) ( ) ( ) ( ) K ln X ln Y ln X ln Y

n K ln X ln X



¦



¦

¦ ¦

(1)

得 n = 96 u (-2053.0019)  (350.09) u (–491.943) / 96u (1369.0678)  (350.09)2 = –2.804

由 n = 2.084,證明此為一由左上向右下走的直 線。再分別帶入洛卡定律公式與 Pao 的計算公式,

分別計算 C 值:

(i) 計算 C 值公式為下式 (2):

1/ 1n

C

¦

X (2)

將 n 值代入公式,得 C = 0.8031,即 C = 80.31%。

(ii) Pao的公式為下式 (3):

(11)

表七 洛卡定律之計算數據-癌症研究領域期刊 (第一作者) (n = 1.975;c = 0.6387) 著作數量 作者人數 文獻觀察值 作者比例 作者數 文獻數 作者比例 種數 (K) 數量 (X) (P) (A1) = (X)u (P) (Y1) (P2) (A2) (Y2)

N 值 (Z) 1 1 190,912 190,912 66.31 190,912 190,912 63.88 1.000 2 2 48,572 97,144 16.87 48,562 97,125 16.25 0.254 3 3 20,330 60,990 7.06 21,803 65,409 7.30 0.114 4 4 10,544 42,176 3.66 12,353 49,411 4.13 0.065 5 5 6,262 31,310 2.17 7,950 39,750 2.66 0.042 6 6 4,015 24,090 1.39 5,546 33,276 1.86 0.029 7 7 2,755 19,285 0.96 4,090 28,633 1.37 0.021 8 8 1,985 15,880 0.69 3,142 25,137 1.05 0.016 9 9 1,453 13,077 0.50 2,490 22,410 0.83 0.013 10 10 1,101 11,010 0.38 2,022 20,222 0.68 0.011 總和 55 287,929 505,874 298,871 572,286 1.565 資料來源:本研究整理

註:Y1 = (作者人數 (P) / 總人數 (287,929) u 100;C = 1 / 1.565 = 0.6387;Z = 1 / (X)1.975 作者樣本數比例:287,929 / 293,216 = 0.9819

文獻樣本數比例:505,874 / 603,680 = 0.8379 驗算文獻樣本數比例:572,286 / 603,680 = 0.9479

1 1

1

1 1 1

1/ / 24( 1)

( 1)( 1) 2

p n

n n n

C n p

x n p p

 

ª     º

«   »

¬¦ ¼

(3) P = 20,則 C = 0.8022,即 C = 80.22%。表示

僅發表一篇的癌症研究領域文獻的作者人 數,約占作者總數的 80%。且 C 值採取洛卡 與 Pao 的公式分別計算,C 值差異不大,同時 驗證當觀察樣本 (P) 設定為 20,C 值的計算 結果亦相當接近。但本研究所得之 n 值為

2.084,該值與洛卡計算之1.888 值並不十分 吻合;常數值 80.22 亦與洛卡估計的 60.79 與 觀察值的 65.10 相差甚多,依此數據看來洛卡 定律似乎不適用於癌症研究領域。

(iii) 修正公式參數,以符合洛卡定律

由於洛卡定律又稱為科學生產力的倒平方 律,其內涵為:「發表 x 篇文獻的作者約為發 表一篇文獻的作者總數除以 x2」,洛卡根據計 算推導得出公式為 f(x) = c/x2,f(x)為發表 x 篇 的作者佔全部作者總數的百分比,c 為常數 即為僅發表一篇文獻的作者所佔的百分比,

經洛卡計算 c 值為 0.6079,故一篇文獻的作者 約為全部作者的 60.79%,其公式亦可改寫為 f(x) = 0.6079/x2

從洛卡定律與相關研究可知其斜率 (n) 非固定 為 2,在資料量龐大時,其計算結果會有較分散 之現象發生,故須修正觀察值 (K) 與資料樣 本數,始能計算其斜率值 (n) 與常數 (C),並 驗算其發表文獻總數,因此本研究依據附錄

二,以作者總人數的 98%為樣本數,約為 287,929人,對應觀察值為 10 (K = 10),設定 斜率值 (n) 為 1.975 (n = 1.975),代入洛卡定律 計算公式,其計算結果,其常數 (C) 為 0.6387,

顯示發表一篇文獻的作者所佔的百分比為 63.87%,再計算相對應的文獻總數,如表七 所示。

從表七可知,當作者人數為 287,929 人,在 n = 1.975 時,發表一篇文獻的作者約為全部 作者的 63.88%,而發表二篇文獻的作者佔 全部作者的 16.25%,而發表三篇文獻的作者 則為 7.30%,較符合洛卡定律的推導結果,且 所需文獻總數為 572,286 篇,此項推導結果 適 用於分析癌症研究領域文獻的作者生產 力,亦可將公式改為 f(x) = 0.6387/x1.975 (2) 全部作者:

(a) 計算與判斷作者人數的觀察值與實際之差異 本研究再以603,630 篇文獻的全部作者計算洛卡定律 之計算,計有 1,045,486 作者,同樣以洛卡定律的 定義,發表一篇文章的作者人數應為全部作者數的 60.79%,則應為 1,045,486u 0.6 = 627,291 人,從 附錄三的實際觀察值為 587,662 人,約為全體的 56.20%,若採以文獻中全部著錄的作者計算,發 表一篇癌症研究的相關文獻作者佔作者人數的百 分比小於洛卡定律的 60.79%。

(b)計算符合洛卡定律之 n 值與 c 值

以 Pao 的公式,先將文獻量與相對的作者數轉換為 自然對數 ln(X) 與 ln(Y) 加以計算,其結果如附錄三

(12)

表八 洛卡定律之計算數據-癌症研究領域期刊 (全部作者) (n = 1.975;c = 0.6387)

著作數量 作者人數 文獻觀察值 作者比例 作者數 文獻數 作者比例 N 種數 (K) 數量 (X) (P) (A1) = (X)u (P) (Y1) (P2) (A2) (Y2) 1.975

1 1 587,662 587662 59.64 587,662 587,662 63.88 1.0000 2 2 169,815 339630 17.23 149,484 298,967 16.25 0.2544 3 3 81,180 243540 8.24 67,114 201,342 7.30 0.1142 4 4 47,439 189756 4.81 38,024 152,096 4.13 0.0647 5 5 31,136 155680 3.16 24,472 122,358 2.66 0.0416 6 6 21,675 130050 2.20 17,072 102,431 1.86 0.0291 7 7 16,253 113771 1.65 12,591 88,137 1.37 0.0214 8 8 12,508 100064 1.27 9,672 77,378 1.05 0.0165 9 9 9,954 89586 1.01 7,665 68,983 0.83 0.0130 10 10 7,807 78070 0.79 6,225 62,248 0.68 0.0106 總和 55 985,429 2,027,809 919,980 1,761,602 1.5655 資料來源:本研究整理

註:Y = (作者人數 (P) / 總人數 (985,429) u 100;C = 1 / 1.5655 = 0.6387 作者樣本數比例:985,429 / 1,045,486 = 0.9425

文獻樣本數比例:2,027,809 / 3,561,107 = 0.5694 驗算文獻樣本數比例:1,761,602 / 3,561,107 = 0.4946

所示。並採最小平方法帶入 n 值,再採用 Pao 的演 算公式以計算 c 值。將上述計算值分別帶入最小平 方法的公式以估計 n 值。

以最小平方法公式計算 n 值,如下式 (4):

2 2

( ) ( ) ( ) ( ) ( ) ( ) K ln X ln Y ln X ln Y

n K ln X ln X



¦



¦

¦ ¦

(4)

得 n = 294 u (9834)  (1391) u (1914) / 294 u (6878) (1391)2 = 2.639

由 n = 2.639,同樣可以證明此為一由左上向右下 走的直線,再將 n 值分別帶入洛卡定律公式與 Pao 的計算公式,分別計算 C 值:

(i) 計算 C 值公式為下式 (5):

1/ 1n

C

¦

X (5)

將 n 值代入公式,得 C = 0.7736,即 C = 77.36%。

(ii) Pao的公式為下式 (6):

1 1

1

1 1 1

1 / 24( 1)

( 1)( 1) 2

p n

n n n

C n p

x n p p

 

ª     º

«   »

¬¦ ¼

(6)

P = 20,則 C = 0.7687,即 C = 76.87%,表示 僅發表一篇的癌症研究領域文獻的作者人 數,約占作者總數的 76%,C 值採取洛卡與

Pao 的公式分別計算,同時驗證當觀察樣本 (P) 設定為 20,其計算結果亦相當接近。但本 研究所得之 n 值為 2.639,同樣也與洛卡計算 1.888 值並不十分吻合;常數值 77.36 與洛 卡估計的 60.79 和觀察值的 56.20 略有差異,

依此數據同樣似乎不適用於癌症研究領域。

(iii) 修正公式參數,以符合洛卡定律

由於在資料量龐大時,其計算結果會較分散之 現象發生,故本研究修正觀察值 (K) 與資料 樣本數,始能計算其斜率值 (n) 與常數 (C),

並驗算其發表文獻總數,若每一作者的著作 貢獻皆視為相同,則文獻總數為:文獻數量 (X)u 作者人數 (P) 的總和,為 3,561,107 篇,

故本研究依據附錄三,以作者總人數的 94%

為樣本數,約為 985,429 人,對應觀察值為 10 (K = 10),設定斜率值 (n) 為 1.975,代入其 常數 (C) 為 0.6387,顯示一篇文獻的作者所佔 的百分比為 63.87%,再計算相對應的文獻 總數,如表八所示。

從表八可知,當作者人數為 985,429 人,在 n = 1.975時,發表一篇文獻的作者約為全部作者的 63.88%,而發表二篇文獻的作者佔全部作者的 16.25%,而發表三篇文獻的作者則為 7.3%,

較符合洛卡定律的推導結果,且所需文獻總數 為 1,761,602 篇,此項推導結果適用於分析癌症 研究領域文獻的作者生產力。

由上述可知,由於洛卡定律所規定的「Senior Author」,並未明確指明為第一作者 (first author)

參考文獻

相關文件

二、本校於報名表中對於學生資料之蒐集,係為學生成績計算、資料整理及報 到作業等招生作業之必要程序,並作為後續資料統計及學生報到註冊作業

二、本校於報名表中對於學生資料之蒐集,係為學生成績計算、資料整理及報 到作業等招生作業之必要程序,並作為後續資料統計及學生報到註冊作業

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系 統環境下,將給與的紙本或電子檔(如 excel

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系統環境 下,將給與的紙本或電子檔(如 excel

依個人資料保護法第八條規定,本會將會蒐集個人資料,要求輸

、專案管理廠商及監造單位相關資料送政府採購法主管機關

五、依據保有資料之重要性,評估有備份必要時,予以備

審查整理呈現資料:蒐集到的資料應先審核 是否完整、正確、合理與一致,然後利用敘