OpenAI 音频操作#

使用此操作在 OpenAI 中生成音频，或对录音进行转录或翻译。有关 OpenAI 节点本身的更多信息，请参考 OpenAI。

生成音频#

使用此操作从文本提示生成音频。

输入以下参数：

连接凭据（Credential to connect with）：创建或选择一个现有的 OpenAI 凭据。
资源（Resource）：选择 Audio（音频）。
操作（Operation）：选择 Generate Audio（生成音频）。
模型（Model）：选择用于生成音频的模型。更多信息请参考 TTS | OpenAI。
- TTS-1：适用于优化速度。
- TTS-1-HD：适用于优化音质。
文本输入（Text Input）：输入要生成音频的文本内容，最大长度为 4096 个字符。
语音（Voice）：选择生成音频时使用的语音。可在 Text to speech guide | OpenAI 中试听各语音的预览效果。

响应格式（Response Format）：选择音频响应的格式。可选格式包括 MP3（默认）、OPUS、AAC、FLAC、WAV 和 PCM。
音频速度（Audio Speed）：设置生成音频的速度，取值范围为 0.25 到 4.0，默认值为 1。
输出字段名称（Put Output in Field）：默认为 data。输入用于存放二进制文件数据的输出字段名称。

更多详情，请参考 Create speech | OpenAI 文档。

使用此操作将音频转录为文本。OpenAI API 对音频文件大小限制为 25 MB。默认使用 whisper-1 模型。

输入以下参数：

连接凭据（Credential to connect with）：创建或选择一个现有的 OpenAI 凭据。
资源（Resource）：选择 Audio（音频）。
操作（Operation）：选择 Transcribe a Recording（转录录音）。
输入数据字段名（Input Data Field Name）：默认为 data。输入包含音频文件的二进制属性字段名称，支持格式包括：.flac、.mp3、.mp4、.mpeg、.mpga、.m4a、.ogg、.wav 或 .webm。

音频文件的语言：输入音频的 ISO-639-1 语言代码。使用此选项可提高准确性和响应速度（降低延迟）。
输出随机性（Temperature）：默认值为 1.0。用于调整响应的随机程度，取值范围为 0.0（确定性）到 1.0（最大随机性）。建议仅调整此项或 输出随机性（Top P） 中的一个，不要同时调整两者。可以从中间值（约 0.7）开始，并根据实际输出结果进行调整。如果响应过于重复或僵化，请提高 temperature；如果响应过于混乱或偏离主题，则降低 temperature。

更多信息请参考创建转录 | OpenAI 文档。

使用此操作将音频翻译成英文。OpenAI API 对音频文件大小的限制为 25 MB。默认使用 whisper-1 模型。

请输入以下参数：

连接凭据：创建或选择一个现有的 OpenAI 凭据。
资源类型（Resource）：选择 Audio。
操作（Operation）：选择 Translate a Recording。
输入数据字段名称（Input Data Field Name）：默认为 data。请输入包含音频文件的二进制属性名称，支持格式包括：.flac, .mp3, .mp4, .mpeg, .mpga, .m4a, .ogg, .wav, 或 .webm。

输出随机性（Temperature）：默认值为 1.0。用于调整响应的随机程度，取值范围为 0.0（确定性）到 1.0（最大随机性）。建议仅调整此项或 输出随机性（Top P） 中的一个，不要同时调整两者。可以从中间值（约 0.7）开始，并根据实际输出结果进行调整。如果响应过于重复或僵化，请提高 temperature；如果响应过于混乱或偏离主题，则降低 temperature。

有关更多信息，请参考创建转录 | OpenAI 文档。

关于常见错误或问题以及建议的解决步骤，请参阅常见问题。