N8N中文教程
集成节点/Built in_nodes/Actions/OpenAI

OpenAI 音频操作#

使用此操作在 OpenAI 中生成音频,或对录音进行转录或翻译。有关 OpenAI 节点本身的更多信息,请参考 OpenAI。

生成音频#

使用此操作从文本提示生成音频。

输入以下参数:

  • 连接凭据(Credential to connect with):创建或选择一个现有的 OpenAI 凭据。
  • 资源(Resource):选择 Audio(音频)
  • 操作(Operation):选择 Generate Audio(生成音频)
  • 模型(Model):选择用于生成音频的模型。更多信息请参考 TTS | OpenAI。
    • TTS-1:适用于优化速度。
    • TTS-1-HD:适用于优化音质。
  • 文本输入(Text Input):输入要生成音频的文本内容,最大长度为 4096 个字符。
  • 语音(Voice):选择生成音频时使用的语音。可在 Text to speech guide | OpenAI 中试听各语音的预览效果。

选项#

  • 响应格式(Response Format):选择音频响应的格式。可选格式包括 MP3(默认)、OPUSAACFLACWAVPCM
  • 音频速度(Audio Speed):设置生成音频的速度,取值范围为 0.254.0,默认值为 1
  • 输出字段名称(Put Output in Field):默认为 data。输入用于存放二进制文件数据的输出字段名称。

更多详情,请参考 Create speech | OpenAI 文档。

转录录音#

使用此操作将音频转录为文本。OpenAI API 对音频文件大小限制为 25 MB。默认使用 whisper-1 模型。

输入以下参数:

  • 连接凭据(Credential to connect with):创建或选择一个现有的 OpenAI 凭据。
  • 资源(Resource):选择 Audio(音频)
  • 操作(Operation):选择 Transcribe a Recording(转录录音)
  • 输入数据字段名(Input Data Field Name):默认为 data。输入包含音频文件的二进制属性字段名称,支持格式包括:.flac.mp3.mp4.mpeg.mpga.m4a.ogg.wav.webm

选项#

  • 音频文件的语言:输入音频的 ISO-639-1 语言代码。使用此选项可提高准确性和响应速度(降低延迟)。
  • 输出随机性(Temperature):默认值为 1.0。用于调整响应的随机程度,取值范围为 0.0(确定性)到 1.0(最大随机性)。建议仅调整此项或 输出随机性(Top P) 中的一个,不要同时调整两者。可以从中间值(约 0.7)开始,并根据实际输出结果进行调整。如果响应过于重复或僵化,请提高 temperature;如果响应过于混乱或偏离主题,则降低 temperature。

更多信息请参考 创建转录 | OpenAI 文档。

翻译录音#

使用此操作将音频翻译成英文。OpenAI API 对音频文件大小的限制为 25 MB。默认使用 whisper-1 模型。

请输入以下参数:

  • 连接凭据:创建或选择一个现有的 OpenAI 凭据。
  • 资源类型(Resource):选择 Audio
  • 操作(Operation):选择 Translate a Recording
  • 输入数据字段名称(Input Data Field Name):默认为 data。请输入包含音频文件的二进制属性名称,支持格式包括:.flac, .mp3, .mp4, .mpeg, .mpga, .m4a, .ogg, .wav, 或 .webm

选项#

  • 输出随机性(Temperature):默认值为 1.0。用于调整响应的随机程度,取值范围为 0.0(确定性)到 1.0(最大随机性)。建议仅调整此项或 输出随机性(Top P) 中的一个,不要同时调整两者。可以从中间值(约 0.7)开始,并根据实际输出结果进行调整。如果响应过于重复或僵化,请提高 temperature;如果响应过于混乱或偏离主题,则降低 temperature。

有关更多信息,请参考 创建转录 | OpenAI 文档。

常见问题#

关于常见错误或问题以及建议的解决步骤,请参阅 常见问题。