ロボットのような不自然なテキスト読み上げ音声にイライラしたことはありませんか?あるいは、カスタマイズ性が限られたクラウドベースのTTSサービスに月額料金を払い続けるのに疲れていませんか?私もそうでした。そんな時に出会ったのがDia-1.6Bです。これはテキスト読み上げ技術の可能性を大きく変える、画期的なオープンソースモデルです。
Dia-1.6Bが生成した音声サンプルを初めて聞いたとき、機械が作ったとは信じられませんでした。自然な間合い、感情のこもったイントネーション、さらには笑い声や咳払いといった非言語的な合図まで、本当に人間が話しているかのようでした。単純なナレーションから複雑な多人数対話まで、様々なスクリプトで1週間試した結果、これは現時点で最も優れたオープンソースのTTSソリューションの一つだと確信しました。