Citační analýza

(A) Mapa vědy: 91 726 klastrů a příslušné hlavní vědní disciplíny. Barevná legenda vychází z původního zpracování této mapy vědy.

Citační analýza je zkoumání frekvence, vzorců a grafů citací v dokumentech. Klasickým případem jsou citace mezi akademickými články a knihami.[1][2] Odkazy z jednoho dokumentu na jiný se používají k identifikaci nejdůležitějších dokumentů ve sbírce. Dalším příkladem je situace, kdy soudci odkazují na rozsudky z minulosti, aby podpořili svá současná rozhodnutí. Jiným příkladem jsou patenty, které obsahují citace dřívějších patentů relevantních pro aktuální nárok. Digitalizace patentových dat a rostoucí výpočetní kapacita vedly ke vzniku odborné komunity, která tato citační data využívá k měření inovačních charakteristik, sledování toků znalostí a mapování inovačních sítí.[3]

Obecná analýza sbírek dokumentů se označuje jako bibliometrie a analýza citací je její klíčovou součástí.

Historie

Používání počtu citací k hodnocení vědeckých časopisů bylo technikou využívanou již na počátku devatenáctého století, ale systematické a dlouhodobé měření těchto údajů pro vědecké časopisy zahájil Eugene Garfield z Institutu pro vědecké informace, který také zavedl využívání těchto dat k hodnocení autorů a vědeckých článků. Ve svém přelomovém článku z roku 1965 spolu s Irvingem Sherem ukázali souvislost mezi frekvencí citací a vědeckou proslulostí – dokázali, že laureáti Nobelovy ceny publikovali pětkrát více článků než průměr, přičemž jejich práce byly citovány 30–50krát častěji než průměr.

Garfield tento jev popisoval v celé sérii esejí věnovaných Nobelově ceně a dalším oceněním. Obvyklým souhrnným ukazatelem je impakt faktor – počet citací článků daného časopisu za předchozí dva roky, vydělený počtem článků publikovaných v těchto letech. Tento ukazatel se široce používá, a to jak vhodně, tak i nevhodně – zejména používání samotného impakt faktoru k hodnocení autorů a článků je velmi kontroverzní.

V rané studii z roku 1964 o využití analýzy citací při psaní historie objevu DNA ukázali Garfield a Sher potenciál pro vytváření historiografů – topologických map nejdůležitějších kroků v dějinách vědeckých témat. Tato práce byla později zautomatizována E. Garfieldem, A. I. Pudovkinem z Ústavu mořské biologie Ruské akademie věd a V. S. Istominem z Centra pro výuku, vzdělávání a technologie na Washington State University, což vedlo kolem roku 2002 k vytvoření softwaru HistCite.

Odkazy mezi citujícími a citovanými články se staly dynamickými ve chvíli, kdy se Science Citation Index (SCI) začal publikovat online. Social Sciences Citation Index se v roce 1972 stal jednou z prvních databází, které byly zpřístupněny přes systém Dialog. S příchodem CD-ROM verze se propojování zjednodušilo ještě více a umožnilo využití bibliografického párování k vyhledávání souvisejících záznamů. V roce 1973 Henry Small publikoval svou práci o analýze kocitace, nebo paralelní citace, která se stala samoorganizujícím klasifikačním systémem. Ten vedl k experimentům se shlukováním dokumentů, a nakonec k vytvoření „Atlas of Science“, později nazývaného „Research Reviews“.

Automatizované citační indexování bylo zavedeno v roce 1998 Lee Gilesem, Stevem Lawrencem a Kurtem Bollackerem,[4] čímž se umožnilo automatické algoritmické extrahování a seskupování citací pro jakýkoli digitální akademický či vědecký dokument. Zatímco dříve bylo získávání citací ručním procesem, nyní bylo možné měřit citace ve velkém měřítku a počítat je pro jakýkoli obor či typ publikace, nejen pro ty, které vybíraly organizace jako Institut pro vědecké informace (ISI).

To vedlo ke vzniku nových systémů pro veřejné a automatizované citační indexování. Jedním z prvních příkladů byl CiteSeer, který sloužil ke sledování citací mezi akademickými články, zatímco Web of Science představuje moderní systém, jenž zahrnuje širší škálu prací než pouze akademické knihy a články a odráží větší množství informačních zdrojů. Následovaným projektem je Cora, který se zaměřoval především na oblast informatiky a informačních věd. Později vznikly i rozsáhlejší systémy pro akademické citace, jako Google Scholar a Microsoft Academic. V současnosti automatizovaný citační index přinesl výrazné změny do výzkumu v oblasti analýzy citací – umožňuje analyzovat miliony citací za účelem identifikace rozsáhlých vzorců a dobývání znalostí.[5]

Takové autonomní citační indexování však stále není dokonalé – v extrakci a seskupování citací dochází k chybám, které někteří odhadují na přibližně 10 %, ačkoli důkladný statistický rozbor zatím chybí.[6]

Využití citační analýzy

Nástroje pro analýzu citací lze využít ke výpočtu různých ukazatelů dopadu vědců na základě údajů z citačních indexů.[7] Tyto ukazatele nacházejí široké uplatnění – od identifikace odborných posuzovatelů pro recenze článků a grantových návrhů až po poskytování transparentních dat na podporu rozhodování v rámci akademického hodnocení, udělování titulů nebo kariérního postupu. Tlak spojený se soutěží o omezené zdroje však může vést i k eticky spornému chování s cílem uměle navýšit počet citací.[8][9]

Metody a techniky

Mezi metody citační analýzy patří: Citační index, Impakt faktor, Hirschův index a další.

Kocitace

Kocitace, nebo spolucitovanost, označuje frekvenci, s jakou jsou dva dokumenty společně citovány jinými dokumenty.[10] Pokud alespoň jeden jiný dokument cituje oba dva dokumenty zároveň, považují se tyto dokumenty za spolucitované.

Čím více spolucitací dva dokumenty obdrží, tím vyšší je jejich síla spolucitovanosti a tím pravděpodobnější je, že jsou sémanticky příbuzné.[10]

Bibliografická provázanost

Bibliografické provázanost (bibliographic coupling), podobně jako kocitace, je míra podobnosti, která využívá analýzu citací k určení vztahu podobnosti mezi dokumenty. Bibliografická provázanost nastává tehdy, když dvě práce odkazují na třetí společnou práci ve svých bibliografiích. To naznačuje, že existuje pravděpodobnost, že se obě práce zabývají příbuzným tématem.[11]

Dva dokumenty jsou bibliograficky provázané, pokud oba citují jeden nebo více stejných dokumentů. Tzv. síla provázanosti mezi dvěma dokumenty je tím větší, čím více sdílených citací mají na jiné dokumenty.

Na druhé straně, dva dokumenty jsou kocitovány tehdy, když jsou oba nezávisle citovány jedním nebo více jinými dokumenty.

G-index

G-index je citační metrika, kterou navrhl Leo Egghe v roce 2006.[12] Index se vypočítává na základě distribuce citací, které obdržely publikace daného výzkumníka. Pokud vezmeme soubor článků seřazených sestupně podle počtu obdržených citací, pak g-index je největší číslo g, pro které platí, že součet citací prvních g článků je alespoň g².

Například:

– g-index 10 znamená, že 10 nejcitovanějších publikací autora získalo dohromady alespoň 100 citací (tj. 10²).

– g-index 20 znamená, že 20 nejcitovanějších publikací autora získalo alespoň 400 citací (tj. 20²).

G-index je alternativou ke h-indexu.

Eigenfactor

Eigenfactor score je hodnocení celkového významu vědeckého časopisu, které vyvinuli Jevin West a Carl Bergstrom na Washingtonské univerzitě.[13] Časopisy jsou hodnoceny podle počtu příchozích citací, přičemž citace z vysoce hodnocených časopisů mají větší váhu než citace z méně hodnocených časopisů.[14] Eigenfactor tak jako měřítko důležitosti roste s celkovým dopadem časopisu – časopisy, které mají větší přínos pro vědecký obor, mají vyšší skóre.

Eigenfactor score a Article Influence score (AIS) jsou počítány na webu, kde jsou volně dostupné. Eigenfactor hodnotí důležitost časopisu pro vědeckou komunitu tím, že zohledňuje původ příchozích citací, a má reflektovat, jak často by průměrný výzkumník přistupoval k obsahu daného časopisu.[14] Skóre Eigenfactoru je ovlivněno velikostí časopisu – pokud se například zdvojnásobí počet publikovaných článků za rok, zdvojnásobí se i samotné skóre. [15]

Article Influence score měří průměrný vliv jednotlivých článků v časopisu a je tak srovnatelný s tradičním impakt faktorem. Eigenfactor lze také kombinovat s h-indexem pro hodnocení práce jednotlivých vědců.

Citační analýza v právních dokumentech

Analýza citací v právních dokumentech je přístup, který usnadňuje porozumění a analýzu vzájemně provázaných dokumentů týkajících se regulační shody (compliance) prostřednictvím zkoumání citací, jež propojují jednotlivá ustanovení buď v rámci jednoho dokumentu, nebo mezi různými dokumenty. Analýza citací využívá citační graf, který je extrahován z regulačního dokumentu, a může doplňovat proces elektronického vyhledávání důkazů (E-discovery) – ten staví na technologických inovacích v oblasti analýzy velkých dat.[16][17][18]

Citační analýza pro detekci plagiátorství

Detekce plagiátorství založená na citacích (CbPD – Citation-based Plagiarism Detection)[19] se opírá o analýzu citací a představuje jediný přístup k odhalování plagiátů, který nespoléhá na textovou podobnost.[20] CbPD zkoumá informace o citacích a odkazech v textech s cílem identifikovat podobné vzorce v sekvencích citací. Tento přístup je tedy vhodný zejména pro vědecké texty nebo jiné akademické dokumenty, které obsahují citace.

Použití analýzy citací k detekci plagiátorství je poměrně nový koncept. Komerční software jej zatím nevyužívá, avšak první prototyp systému pro detekci plagiátorství na základě citací již existuje.[21] Hlavními kritérii pro výpočet podobnosti vzorců citací jsou pořadí a blízkost citací ve zkoumaných dokumentech. Vzorce citací představují podsekvence, které (ne nutně výlučně) obsahují citace společné pro porovnávané dokumenty[20][22]

Při vyhodnocování míry podobnosti těchto vzorců se zohledňují také faktory jako je:

  • absolutní počet nebo relativní podíl sdílených citací ve vzorci,
  • a pravděpodobnost, že se dané citace společně vyskytují v dokumentu.[20][22][23][24]

Citační analýza v zpracování přirozeného jazyka

Citační analýza se používá také při zpracování přirozeného jazyka — oboru na pomezí umělé inteligence a lingvistiky, který má potenciál zásadně ovlivnit společnost prostřednictvím různých inovací, jako jsou velké jazykové modely. Dopad NLP a jeho vliv na jiné obory byl rozsáhle studován prostřednictvím citací. Výzkumníci analyzovali různé faktory, například:

  • vliv mezi obory (cross-field influence),[25][26]
  • dopad v průmyslu,[27]
  • časové vzorce citací,[28]
  • plagiátorství,[29]
  • geografickou lokalitu,[30]
  • a gender.[31]

Mnoho studií ukazuje, že se obor NLP stává izolovanějším, s užším zaměřením, poklesem interdisciplinarity a koncentrací financování u několika málo průmyslových subjektů.

Kritika

Velká část kritiky se zaměřuje na nepromyšlené používání analýzy citací k porovnávání dopadu různých vědeckých článků, aniž by byly zohledněny další faktory, které mohou ovlivňovat citační vzorce.[32]Mezi těmito výhradami se opakovaně objevuje kritika oborově závislých faktorů, což odkazuje na skutečnost, že citační zvyklosti se liší mezi jednotlivými oblastmi vědy – a dokonce i mezi různými výzkumnými směry v rámci jednoho oboru.[33]

Odkazy

V tomto článku byl použit překlad textu z článku Citation analysis na anglické Wikipedii.

Reference

  1. RUBIN, Richard Evan. Foundations of library and information science. 3rd ed. vyd. New York: Neal-Schuman, 2010. Dostupné online. ISBN 978-1-55570-690-6. 
  2. GARFIELD, Eugene. Citation indexing, its theory and application in science, technology, and humanities. Philadelphia: ISI Press, 1983. 274 s. Dostupné online. ISBN 978-0-89495-024-7, ISBN 978-0-89495-025-4. 
  3. JAFFE, Adam B.; DE RASSENFOSSE, Gaétan. Patent citation data in social science research: Overview and best practices. Journal of the Association for Information Science and Technology. 2017-06, roč. 68, čís. 6, s. 1360–1374. Dostupné online [cit. 2025-04-14]. ISSN 2330-1635. doi:10.1002/asi.23731. (anglicky) 
  4. GILES, C.L.; BOLLACKER, K.; LAWRENCE, S. CiteSeer: An Automatic Citation Indexing System. DL'98 Digital Libraries, 3rd ACM Conference on Digital Libraries. 1998, s. 89–98. Dostupné online. 
  5. GILES, C. Lee; BOLLACKER, Kurt D.; LAWRENCE, Steve. CiteSeer: an automatic citation indexing system. In: [s.l.]: ACM Press, 1998. Dostupné online. ISBN 978-0-89791-965-4. doi:10.1145/276675.276685. S. 89–98. (anglicky)
  6. POSTELLON, Daniel C. Hall and Keynes join Arbor in the citation indexes. Nature. 2008-03-20, roč. 452, čís. 7185, s. 282–282. Dostupné online [cit. 2025-04-16]. ISSN 0028-0836. doi:10.1038/452282b. (anglicky) 
  7. KAUR, Jasleen; HOANG, Diep Thi; SUN, Xiaoling. Scholarometer: A Social Framework for Analyzing Impact across Disciplines. PLoS ONE. 2012-09-12, roč. 7, čís. 9, s. e43235. Dostupné online [cit. 2025-04-14]. ISSN 1932-6203. doi:10.1371/journal.pone.0043235. PMID 22984414. (anglicky) 
  8. ANDERSON, Melissa S.; RONNING, Emily A.; DE VRIES, Raymond. The Perverse Effects of Competition on Scientists’ Work and Relationships. Science and Engineering Ethics. 2007-12, roč. 13, čís. 4, s. 437–461. Dostupné online [cit. 2025-04-14]. ISSN 1353-3452. doi:10.1007/s11948-007-9042-5. (anglicky) 
  9. VAN WESEL, Maarten. Evaluation by Citation: Trends in Publication Behavior, Evaluation Criteria, and the Strive for High Impact Publications. Science and Engineering Ethics. 2016-02, roč. 22, čís. 1, s. 199–225. Dostupné online [cit. 2025-04-14]. ISSN 1353-3452. doi:10.1007/s11948-015-9638-0. PMID 25742806. (anglicky) 
  10. a b SMALL, Henry. Co‐citation in the scientific literature: A new measure of the relationship between two documents. Journal of the American Society for Information Science. 1973-07, roč. 24, čís. 4, s. 265–269. Dostupné online [cit. 2025-04-16]. ISSN 0002-8231. doi:10.1002/asi.4630240406. (anglicky) 
  11. MARTYN, John. BIBLIOGRAPHIC COUPLING. Journal of Documentation. 1964-04-01, roč. 20, čís. 4, s. 236–236. Dostupné online [cit. 2025-04-17]. ISSN 0022-0418. doi:10.1108/eb026352. (anglicky) 
  12. EGGHE, Leo. Theory and practise of the g-index. Scientometrics. 2006-10, roč. 69, čís. 1, s. 131–152. Dostupné online [cit. 2025-04-17]. ISSN 0138-9130. doi:10.1007/s11192-006-0144-7. (anglicky) 
  13. BERGSTROM, Carl T.; WEST, Jevin D.; WISEMAN, Marc A. The Eigenfactor™ Metrics: Figure 1.. The Journal of Neuroscience. 2008-11-05, roč. 28, čís. 45, s. 11433–11434. Dostupné online [cit. 2025-04-17]. ISSN 0270-6474. doi:10.1523/JNEUROSCI.0003-08.2008. PMID 18987179. (anglicky) 
  14. a b BERGSTROM, Carl. Eigenfactor: Measuring the value and prestige of scholarly journals. College & Research Libraries News. 2007-05-01, roč. 68, čís. 5, s. 314–316. Dostupné online [cit. 2025-04-17]. ISSN 2150-6698. doi:10.5860/crln.68.5.7804. 
  15. Eigenfactor: About. www.eigenfactor.org [online]. [cit. 2025-04-17]. Dostupné online. 
  16. E-Discovery Special Report: The Rising Tide of Nonlinear Review | Discovery in Practice - Hudson Legal Blog. web.archive.org [online]. 2012-07-03 [cit. 2025-04-16]. Dostupné v archivu pořízeném z originálu dne 2012-07-03. 
  17. E-Discovery Special Report: The Rising Tide of Nonlinear Review | Discovery in Practice - Hudson Legal Blog. web.archive.org [online]. 2012-07-03 [cit. 2025-04-16]. Dostupné v archivu pořízeném z originálu dne 2012-07-03. 
  18. HAMOU-LHADJ, Abdelwahab; HAMDAQA, Mohammad. Citation Analysis: An Approach for Facilitating the Understanding and the Analysis of Regulatory Compliance Documents. In: 2009 Sixth International Conference on Information Technology: New Generations. [s.l.]: [s.n.], 2009-04. Dostupné online. doi:10.1109/ITNG.2009.161. S. 278–283.
  19. GIPP, Bela. Citation-based plagiarism detection: detecting disguised and cross-language plagiarism using citation pattern analysis. Wiesbaden: Springer Vieweg 1 s. ISBN 978-3-658-06393-1, ISBN 978-3-658-06394-8. 
  20. a b c GIPP, Bela; BEEL, Jöran. Citation based plagiarism detection: a new approach to identify plagiarized work language independently. In: [s.l.]: ACM, 2010-06-13. Dostupné online. ISBN 978-1-4503-0041-4. doi:10.1145/1810617.1810671. S. 273–274. (anglicky)
  21. GIPP, Bela; MEUSCHKE, Norman; BREITINGER, Corinna. Demonstration of citation pattern analysis for plagiarism detection. In: [s.l.]: ACM, 2013-07-28. Dostupné online. ISBN 978-1-4503-2034-4. doi:10.1145/2484028.2484214. S. 1119–1120. (anglicky)
  22. a b GIPP, Bela; MEUSCHKE, Norman. Citation pattern matching algorithms for citation-based plagiarism detection: greedy citation tiling, citation chunking and longest common citation sequence. In: [s.l.]: ACM, 2011-09-19. Dostupné online. ISBN 978-1-4503-0863-2. doi:10.1145/2034691.2034741. S. 249–258. (anglicky)
  23. GIPP, Bela; MEUSCHKE, Norman; BEEL, Joeran. Comparative evaluation of text- and citation-based plagiarism detection approaches using guttenplag. In: [s.l.]: ACM, 2011-06-13. Dostupné online. ISBN 978-1-4503-0744-4. doi:10.1145/1998076.1998124. S. 255–258. (anglicky)
  24. BELIN, M. F.; KOUYOUMDJIAN, J. C.; BARDAKDJIAN, J. [The effects of 5,6-dihydroxytryptamine on the transport mechanisms of various neurotransmitters or their precursors at the synaptosomal level in the rat mesencephalon]. Biochemical Pharmacology. 1975-11-15, roč. 24, čís. 22, s. 571–575. PMID: 2175. Dostupné online [cit. 2025-04-16]. ISSN 0006-2952. doi:10.1016/0006-2952(75)90115-x. PMID 2175. 
  25. GALIANI, Sebastian; GÁLVEZ, Ramiro H.; NACHMAN, Ian. Specialization trends in economics research: A large‐scale study using natural language processing and citation analysis. Economic Inquiry. 2025-01, roč. 63, čís. 1, s. 289–329. Dostupné online [cit. 2025-04-16]. ISSN 0095-2583. doi:10.1111/ecin.13261. (anglicky) 
  26. WAHLE, Jan; RUAS, Terry; ABDALLA, Mohamed. We are Who We Cite: Bridges of Influence Between Natural Language Processing and Other Academic Fields. In: [s.l.]: Association for Computational Linguistics, 2023. Dostupné online. doi:10.18653/v1/2023.emnlp-main.797. S. 12896–12913. (anglicky)
  27. ABDALLA, Mohamed; WAHLE, Jan Philip; LIMA RUAS, Terry. The Elephant in the Room: Analyzing the Presence of Big Tech in Natural Language Processing Research. In: [s.l.]: Association for Computational Linguistics, 2023. Dostupné online. doi:10.18653/v1/2023.acl-long.734. S. 13141–13160. (anglicky)
  28. SINGH, Janvijay; RUNGTA, Mukund; YANG, Diyi. Forgotten Knowledge: Examining the Citational Amnesia in NLP. In: [s.l.]: Association for Computational Linguistics, 2023. Dostupné online. doi:10.18653/v1/2023.acl-long.341. S. 6192–6208. (anglicky)
  29. WAHLE, Jan Philip; RUAS, Terry; KIRSTEIN, Frederic. How Large Language Models are Transforming Machine-Paraphrase Plagiarism. In: [s.l.]: Association for Computational Linguistics, 2022. Dostupné online. doi:10.18653/v1/2022.emnlp-main.62. S. 952–963. (anglicky)
  30. RUNGTA, Mukund; SINGH, Janvijay; MOHAMMAD, Saif M. Geographic Citation Gaps in NLP Research. In: [s.l.]: Association for Computational Linguistics, 2022. Dostupné online. doi:10.18653/v1/2022.emnlp-main.89. S. 1371–1383. (anglicky)
  31. MOHAMMAD, Saif M. Gender Gap in Natural Language Processing Research: Disparities in Authorship and Citations. In: [s.l.]: Association for Computational Linguistics, 2020. Dostupné online. doi:10.18653/v1/2020.acl-main.702. S. 7860–7870. (anglicky)
  32. BORNMANN, Lutz; DANIEL, Hans‐Dieter. What do citation counts measure? A review of studies on citing behavior. Journal of Documentation. 2008-01-18, roč. 64, čís. 1, s. 45–80. Dostupné online [cit. 2025-04-14]. ISSN 0022-0418. doi:10.1108/00220410810844150. (anglicky) 
  33. ANAUATI, Maria Victoria; GALIANI, Sebastian; GGLVEZ, Ramiro H. Quantifying the Life Cycle of Scholarly Articles Across Fields of Economic Research. SSRN Electronic Journal. 2014. Dostupné online [cit. 2025-04-14]. ISSN 1556-5068. doi:10.2139/ssrn.2523078. (anglicky) 

Zdroj