ROHAN
コーパス文の課題生成システムが提示した条件を満たす文章を人間が作成することで,常用漢字と読みを全て含み,出現頻度の低いモーラもカバーした4600文章からなる日本語のテキストコーパスです. 4600文は,後述する22のサブセットから構成されており,サブセット単位で全モーラを最低2回含みます.
なお,ここでの全モーラとは,Sinsyの日本語でサポートするモーラと定義します.
朗読者向けに,テキストの横書き(HTML, Word, PDF)と縦書き(Word, PDF)を用意しています...
森勢将雅:ROHAN:テキスト音声合成に向けたモーラバランス型日本語コーパス,日本音響学会誌, vol. 79, no. 1, pp. 9-17, Jan. 2023. コーパスは文章量も 4,600 文と多く,モーラの出現頻度の調整もされているため,日本語では出現しないモーラまで一定量カバーできるという利点がある.