跳到主要内容

OpenAI 音频操作#

使用此操作可在 OpenAI 中生成音频,或转录/翻译录音文件。有关 OpenAI 节点本身的更多信息,请参阅 OpenAI

生成音频#

使用此操作从文本提示创建音频。

输入以下参数:

  • 连接凭证:创建或选择现有的 OpenAI 凭证
  • 资源:选择 Audio
  • 操作:选择 Generate Audio
  • 模型:选择用于生成音频的模型。更多信息请参阅 TTS | OpenAI
    • TTS-1:用于优化速度。
    • TTS-1-HD:用于优化质量。
  • 文本输入:输入要生成音频的文本。最大长度为 4096 个字符。
  • 语音:选择生成音频时使用的声音。请在 文本转语音指南 | OpenAI 中试听语音预览。

选项#

  • 响应格式:选择音频响应的格式。可选 MP3(默认)、OPUSAACFLACWAVPCM
  • 音频速度:输入生成音频的速度,取值范围为 0.254.0。默认为 1
  • 输出字段:默认为 data。输入输出字段的名称以存放二进制文件数据。

更多信息请参阅 创建语音 | OpenAI 文档。

转录录音#

使用此操作将音频转录为文本。OpenAI API 限制音频文件大小为 25 MB。OpenAI 默认使用 whisper-1 模型。

输入以下参数:

  • 连接凭证:创建或选择现有的 OpenAI 凭证
  • 资源:选择 Audio
  • 操作:选择 Transcribe a Recording
  • 输入数据字段名称:默认为 data。输入包含音频文件的二进制属性名称,支持格式:.flac.mp3.mp4.mpeg.mpga.m4a.ogg.wav.webm

选项#

  • 音频文件语言:以 ISO-639-1 格式输入音频语言。使用此选项可提高准确性和降低延迟。
  • 输出随机性(Temperature):默认为 1.0。调整响应的随机性。范围在 0.0(确定性)到 1.0(最大随机性)之间。建议调整此参数或输出随机性(Top P) 之一,而非同时调整两者。从中等温度值(约 0.7)开始,并根据观察到的输出进行调整。如果响应过于重复或僵化,则增加温度值;如果过于混乱或偏离轨道,则降低温度值。

更多信息请参阅 创建转录 | OpenAI 文档。

翻译录音#

使用此操作将音频翻译为英语。OpenAI API 限制音频文件大小为 25 MB。OpenAI 默认使用 whisper-1 模型。

输入以下参数:

  • 连接凭证:创建或选择现有的 OpenAI 凭证
  • 资源:选择 Audio
  • 操作:选择 Translate a Recording
  • 输入数据字段名称:默认为 data。输入包含音频文件的二进制属性名称,支持格式:.flac.mp3.mp4.mpeg.mpga.m4a.ogg.wav.webm

选项#

  • 输出随机性(Temperature):默认为 1.0。调整响应的随机性。范围在 0.0(确定性)到 1.0(最大随机性)之间。建议调整此参数或输出随机性(Top P) 之一,而非同时调整两者。从中等温度值(约 0.7)开始,并根据观察到的输出进行调整。如果响应过于重复或僵化,则增加温度值;如果过于混乱或偏离轨道,则降低温度值。

更多信息请参阅 创建转录 | OpenAI 文档。

常见问题#

有关常见错误/问题及建议解决步骤,请参阅 常见问题