Skip to content

Siri下岗了!手搓一个AI语音助手,秒变科技大神

上一篇我们讲了腾讯云情感陪护语音人工智能,但总觉得差点意思。如果能用DeepSeek来进行语音聊天,效果会如何呢?

今天我就来教大家如何在苹果手机上打造一个AI语音助手。首先,我们还是先问问DeepSeek,看看它能否给出好的解决方案!

image-20250305193930487

DeepSeek一共给出了5种解决方案,我仔细研究了一下,第一种方法最简单。接下来,我们就按照它的步骤来实践一下,看看能否成功!


一、动手之前,我们先来捋一捋整个流程:

mermaid
graph TD;
    A[语音输入] --> B[将语音转换成文字];
    B --> C[将文字内容发送给DeepSeek];
    C --> D[获取DeepSeek返回的内容];
    D --> E[显示结果并朗读];

二、接下来就是实操了:

1. 创建新指令

打开“快捷指令”App,点击右上角的“+”号创建一个新指令。

2. 语音输入

在快捷指令中搜索“听写文本”,这个指令可以将语音转换成文本。

3. 将文字内容发送给DeepSeek

搜索“获取URL内容”,输入DeepSeek的API接口地址(需提前注册并获取API密钥)。

  • 这里我们使用硅基流动的接口,注册地址:硅基流动。注册成功后,平台会赠送14块钱,对个人来说完全够用了。

    image-20250303150003286

  • 这个平台提供了多种模型,有免费的和付费的,大家可以根据自己的需求选择。

  • 打开文档中心,获取API接口地址和调用方法。

    image-20250305205156035

  • 调试接口:点击右边的“Try it”,配置好tokenmessages,然后点击“Send”,接口就可以调用成功。

    image-20250305210759457

  • 将调试成功的参数(黑色背景的红框部分)填入“获取URL内容”这个指令中,具体配置如下:

    注意:填充messages时,messages的类型要选择“数组”,messages里面的项目要选择“词典”,词典里面的内容选择“文本”。

    image-20250305213453581

4. 获取DeepSeek返回的内容

搜索“获取词典值”,因为返回的内容是JSON格式,所以选择“获取词典”。接下来,我们需要根据返回的数据结构,解析出我们需要的内容content。通过观察发现,content位于choices数组的第一个对象的message中,具体路径是choices[0].message.content。在快捷指令中,对应的路径是choices.1.message.content

image-20250305215356854

5. 显示结果并朗读

搜索“显示结果”和“朗读文本”这两个指令,将它们加入流程中。

6. 点击运行测试

完成以上步骤后,点击运行测试,看看效果如何!

7. 优化,这个工作就给大家去实现吧

  1. 错误处理:在“获取URL内容”后,可以添加一个“如果”条件,判断API调用是否成功。如果失败,显示错误信息并结束流程。
  2. 多轮对话:可以通过保存上下文信息,实现多轮对话功能。

关注我,了解更多AI黑科技