- 2006年5月13日 15:47
- 動向紹介
機関リポジトリの運営を行う上で,登録されたファイルについての各種情報を知ることは管理上必要な作業だと思われます。今回,ROARを利用して,機関リポジトリに登録されている資料のファイル形式についてごく簡単な調査を行ったので報告する。
(掲載後に再確認したところ,大幅に数値が変更されました。)
調査方法
登録ファイルの識別には,Registry of Open Access Repositories (ROAR)を利用した。調査時には,673の機関リポジトリが登録されており,OAIsterよりも収録リポジトリが多く全世界の主要な機関リポジトリは網羅されており,分析機能に優れているため利用することにした。ROARには,機関リポジトリに登録されているファイルの形式を容易に把握する機能があり,ROARのページにある,「Formats」機能を利用することでファイル形式に関するデータを入手した。これはイギリスのNatinal Archivesが提供している「PRONOM」を利用しており,PRONOMに含まれるDROID (Digital Record Object Identification)は自動的にファイルの識別を行うことが可能で,誰でも無料で利用することができる。
調査結果
673の機関リポジトリには,123,276件1のファイルが登録されていた(5/13/2006)。不明分(5,974)を除いたデータ(117,302)のうち94,938件(80.9%)がPDFであり,次にHTMLが6,550件で機関リポジトリに登録されているファイルの形式の多くはPDFであることが伺える。電子ジャーナルの提供フォーマットと類似しているのは偶然ではないだろう。

図. 機関リポジトリに登録されたファイルの形式の一覧と割合
1. ファイル数は機関リポジトリ(A)に登録されているが別サーバ(B)にあるファイルは除外されているものである。ROARに登録されているメタデータ数は80万件以上である。
参照:
http://archives.eprints.org/
http://preserv.eprints.org/
http://www.nationalarchives.gov.uk/PRONOM/default.htm
- Newer: 国立情報学研究所 平成17年度CSI委託事業報告交流会
- Older: OA本のOA