莊司研究室データセット公開マニュアル
本ドキュメントは,莊司研究室における研究データセットの公開方針・手順・注意点をまとめたものである。
研究室メンバおよび外部研究者による再現可能な研究推進を目的とする。
1. 基本方針
1.1 公開の目的
研究の再現性確保
学術コミュニティへの貢献
学生研究成果の長期保存
将来の引用・共同研究の促進
1.2 公開の原則
原則1:再現性に必要な情報は公開する
アノテーション
split情報
メタデータ
評価コード
原則2:権利的に問題のあるデータは公開しない
画像そのもの
LoRA重み
再配布不可素材
原則3:永続的にアクセス可能な形で公開する
DOI付き公開を推奨
1.3 言語方針(Language Policy)
本研究室におけるデータセット公開は、国際会議および国際共同研究での利用を前提とする。
そのため:
GitHub上のREADME
データ仕様説明
アノテーション定義
メタデータ項目名
は原則として英語表記を用いる。
本マニュアル自体は、研究室内運用を目的として日本語で記述する。
2. 公開場所の使い分け
2.1 GitHub(基本)
用途:軽量データ・コード
公開するもの:
JSON / CSV / TXT
アノテーション
split情報
README
実験コード
2.2 Zenodo(推奨)
用途:正式データ公開(DOI発行)
論文引用先として使用
version固定
長期保存保証
2.3 Hugging Face(必要時)
用途:大規模画像・生成データ
画像数GB〜TB規模
ML再現用途
3. データ公開の構成
莊司研究室におけるデータセット公開は、研究室共同 GitHub アカウントを基盤として運用する。
各学生は、研究室 GitHub 組織配下に個別のデータセットリポジトリを作成する。
その際、当該学生の GitHub アカウントをCollaborator として招待し、本人がコミットを行う。
これにより:
リポジトリ管理履歴にデータセット作成者が明示される
データ取得時期が最終コミット時刻として記録される
また、複数学生のデータを単一リポジトリに集約する運用は行わない。
理由としては:
更新履歴が混在する
データ取得時期の追跡が困難になる
個別引用が不明瞭になる
したがって、「1データセット=1リポジトリ」を基本原則とする。
研究室におけるデータセット統合ポータル、各データセットリポジトリは、以下のような構成である。
code:tree
Shoji-Lab-Open-Dataset/ ← 研究室データセット入口(3.1で記述)
└── README.md(データセット一覧) ← 各データセットリポジトリのリンク集
各データセットリポジトリ/ ← 個別研究テーマ単位(3.2で記述)
├── README.md
├── data/
│ ├── task_A/ ← タスク単位(3.3で記述)
│ │ ├── README.md
│ │ └── files...
│ ├── task_B/
│ │ ├── README.md
│ │ └── files...
│ └── ...
└── metadata/
3.1 研究室データセットリンク集(Shoji-Lab-Open-Dataset)
莊司研究室が公開するすべてのデータセットを一覧化する入口として、リンク集専用リポジトリを設ける。
役割
研究室公開データセットの統合ポータル
外部研究者が一覧を容易に確認できる導線
各データセットリポジトリへの永続リンク提供
README掲載内容
各データセットについて、以下を記載する:
データセット名
概要説明(1〜2文)
リポジトリURL
記載例
code:example
Available Datasets
LoRA Similarity and Retrieval
LoRA Triplet Dataset (Kanada, 2026)
Human-annotated and automatically constructed triplets,
along with ranking ground truth for similarity-based LoRA retrieval.
3.2 データセットリポジトリ
各学生は、個別の研究テーマに対応する専用データセットリポジトリを作成する。
利用者は、研究室リンク集を経由して各リポジトリへアクセスする。
README掲載内容
Title
Overview
何を評価/学習するデータか
研究目的との関係
派生データのみ公開している旨(必要な場合)
Repository Structure(リポジトリに含まれるファイル構造)
Reproducibility(再現に必要な最低限の情報 )
Access to Original Data(データセット構築に使用した元データについて)
License
Maintainer(データセットリポジトリ管理者情報)
3.3 データセット内サブフォルダ(タスク単位)
1つのデータセット内で複数の実験タスクやデータ種別を扱う場合、タスク単位でサブフォルダを作成する。
各サブフォルダには、当該データの詳細説明を記した README を配置する。
サブフォルダREADME掲載内容
Task Name
Objective(何を評価・学習するデータか)
Dataset Overview(含まれるデータ内容)
Construction Procedure(構築方法の概要)
Intended Use(想定利用方法)
Notes on Data Release(非公開情報・ライセンス上の注意)
Reference / Publication Status(論文参照情報または今後の公開予定)
4. 倫理対応方針
本研究室で公開するデータセットは、学術研究用途としての適切性を担保する。
具体的には:
明示的または不適切なコンテンツは可能な限り除外する
最低限の自動フィルタおよび人手確認を適用する
公開データは派生情報(アノテーション・ID等)を原則とする
原画像・モデル重みなど権利的制約のある素材は再配布しない
論文中に倫理的配慮およびデータ収集方針を明記する
これにより、国際会議における研究倫理基準への適合を図る。
6.公開前最終確認
公開前に以下を実施することとする:
指導教員による確認
共同研究者による確認(必要時)
リポジトリ内容の最終レビュー
誤公開ファイルの有無チェック
これらを満たした場合のみ、正式公開を許可する。
5. 本マニュアルの対象
本マニュアルは以下を対象とする。
莊司研究室所属学生
共同研究者
外部研究機関研究者
本研究室では、再現可能研究の推進と研究成果の持続的公開を重要な研究基盤と位置付ける。
https://scrapbox.io/files/69956f193583dfb074d65e35.png