从 AWS Marketplace 开始使用 AssemblyAI 的语音转文本模型构建语音智能

语音智能和语音转文本（STT）技术已变得至关重要，因为组织每天收集数千小时的电话、会议和客户互动。仅靠原始音频并不能推动决策 - 组织需要智能来大规模地从语音数据中提取价值。语音智能结合了语音识别、自然语言处理（NLP）和机器学习（ML），将语音数据转化为可作的见解。现代 STT 模型可以准确地转录对话，并与其他工具配合使用来分析情绪、检测关键主题并生成自动摘要以获得更深入的见解。语音智能和 STT 技术服务于多个行业使用案例，包括呼叫分析和对话智能、医疗保健文档、客户服务、视频内容优化、法律发现和合规性、销售智能和辅导等。随着生成式 AI 和改进模型的出现，这些应用程序对有效 STT 模型的需求持续增长。

AssemblyAI 是 AWS Marketplace 中的独立软件供应商（ISV），是一家研究型组织，致力于为全世界推进语音 AI 技术并使其大众化。他们成立于 2017 年，建立了一支由跨学科研究领导者、科学家和工程师组成的团队，致力于创建超人语音 AI 模型，为语音数据应用解锁新的可能性。 AssemblyAI 技术通过简单、对开发人员友好的 API 为全球成千上万的客户和数十万开发人员提供服务。AssemblyAI 提供全面的语音 AI 功能，包括：

核心语音到文本转录
扬声器检测
自动语言检测
情绪分析
章节检测
个人身份信息（PII）修订

Universal-2 模型展示了 AssemblyAI 致力于突破语音 AI 可能性的界限。此模型通过解决语音识别中的关键挑战、提高正确的名词准确性、格式和大小写以及时间戳生成来实现高准确性。AssemblyAI 采用以研究为中心的方法来构建准确、功能强大的语音 AI 模型，这些模型易于集成。本文展示了如何从 AWS Marketplace 开始使用 AssemblyAI 的 API，并通过几个步骤调用这些模型 API 来构建初始概念验证（POC）。

解决方案概述

AssemblyAI 的语音转文本服务通过两阶段管道处理音频。第一阶段使用 Universal-2 自动语音识别（ASR）模型，这是一个 600M 参数的 Conformer RNN-T 模型，基于 12.5M 小时的多语言音频数据进行训练。此模型将语音转换为文本，同时处理多个说话人、口音和背景噪音。第二阶段采用神经模型进行文本格式化，处理标点符号、大写和文本规范化等任务，以生成干净、可读的转录文本。除了基本转录之外，客户还可以启用与核心 ASR 流程一起运行的其他智能模型。其中包括用于跟踪谁说了什么的说话人识别、用于了解情感背景的情绪分析、用于自动对对话进行分类的主题检测、用于提取关键点的内容摘要以及用于维护隐私合规性的 PII 编辑。所有这些模型都通过相同的 API 接口无缝地协同工作。下图显示了高级体系结构。

图 1：AssemblyAI 的 API 转录的高级架构图

先决条件

在开始之前，请确保您满足以下先决条件：

一个有权访问 Amazon Simple Storage Service （Amazon S3）的 Amazon Web Services （AWS）账户。
AssemblyAI 的 API 可以在 AWS Marketplace 中购买。您还可以访问 AssemblyAI 的网站以申请试用帐户。对于试用账户，该账户预加载了一些积分，客户可以立即将其用于 POC 测试。
使用 AssemblyAI 成功创建帐户后，请确保将 API 密钥保存在安全的地方。
执行以下 Python 代码，为解决方案演练中的场景做好准备：

!pip install assemblyai

import assemblyai as aai

aai.settings.api_key = "xxxxxxxx" #your AssemblyAI API key

解决方案演练

在本节中，我们将深入探讨 AssemblyAI 的 API 可以找到高价值的五种情况。每个案例都附带一个代码片段，读者可以在自己的环境中进行测试。

从本地文件转录音频
从 Amazon S3 转录音频文件
说话人分类
自动语言检测
PII 修订

从本地文件转录音频这是音频文件驻留在执行代码的本地存储库中的基本设置。AssemblyAI API 支持最常见的音频和视频文件格式，例如 mp3、m4a、m4p、wav 或 wma。建议您的音频文件采用其本机格式，而无需进行额外的转码或文件转换。有关音频文件格式的更详细讨论，请参阅此 AssemblyAI 博客。从 AssemblyAI 托管的网站下载公开可用的音频文件，并将其保存到本地文件夹。执行以下代码片段以执行转录：

# Transcribe an audio from a local audio file

transcriber = aai.Transcriber()

transcript = transcriber.transcribe("./Audios/ford_clip_trimmed.mp3")

print(transcript.text)

结果应类似于以下转录：

晚上好。去年 1 月 15 日，我向你们的国会参议员和众议员提出了一项使我们的国家独立于外国能源的全面计划。到 1985 年。这样的计划早就应该了。我们越来越受他人摆布，因为我们整个经济所依赖的燃料。以下是不会消失的事实和数据。美国目前约 37% 的石油需求依赖外国来源。10 年后，如果我们什么都不做，我们将以别人确定的价格进口超过一半的石油，如果他们选择卖给我们的话。两年半后，我们受外国石油禁运的影响将是两个冬天前的两倍。我们现在每年为外国石油支付 250 亿美元。五年前，我们每年只支付 30 亿美元。五年后，如果我们什么都不做，谁知道还会有多少数十亿人从美国流出。

从 Amazon S3 转录音频文件

在许多组织中，音频数据保存在云存储中，例如 Amazon S3。要从 S3 存储桶转录音频文件，AssemblyAI 需要临时访问该文件。要提供此访问权限，您需要生成一个预签名 URL，该 URL 内置了临时访问权限。有关如何生成预签名 URL 的更多详细信息，请参阅使用预签名 URL 共享对象。

执行以下代码片段以执行转录：

import requests

import time

p_url = "S3 pre-signed url"

assembly_key = "xxxxxxxx" #your AssemblyAI API

# Use your AssemblyAI API Key for authorization.

headers = {"authorization": assembly_key, "content-type": "application/json"}

# Specify AssemblyAI's transcription API endpoint.

upload_endpoint = "https://api.assemblyai.com/v2/transcript"

# Use the presigned URL as the `audio_url` in the POST request.

json = {"audio_url": p_url}

# Queue the audio file for transcription with a POST request.

post_response = requests.post(upload_endpoint, json=json, headers=headers)

# Specify the endpoint of the transaction.

get_endpoint = upload_endpoint + "/" + post_response.json()["id"]

# GET request the transcription.</p><p>get_response = requests.get(get_endpoint, headers=headers)

# If the transcription has not finished, wait util it has.

while get_response.json()["status"] != "completed":

get_response = requests.get(get_endpoint, headers=headers)

time.sleep(5)

# Once the transcription is complete, print it out.

print(get_response.json()["text"])

说话人分类

说话人分类是音频中的一个重要组成部分，因为它解决了确定说话人身份以及他们在录音中说话时间的挑战。此功能对于各种任务都至关重要，例如提高转录文本的清晰度和结构、启用高级分析以及启用个性化和自定义。

Speaker diarization

Speaker diarization is a critical component in audio because it addresses the challenge of establishing the identity of speakers and when they spoke in an audio recording. This capability is essential for a wide range of tasks such as enhancing clarity and structure in transcripts, enabling advanced analytics, and enabling personalization and customization.

执行以下代码片段以执行转录：

config = aai.TranscriptionConfig(speaker_labels=True)

transcriber = aai.Transcriber(config=config)

FILE_URL = "https://github.com/AssemblyAI-Examples/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"

transcript = transcriber.transcribe(FILE_URL)

# Extract all utterances from the response

utterances = transcript.utterances

# For each utterance, print its speaker and what was said

for utterance in utterances:

speaker = utterance.speaker

text = utterance.text

print(f"Speaker {speaker}: {text}")

以下脚本显示了此示例的部分结果：

演讲者 A：加拿大数百场野火产生的烟雾正在触发美国各地的空气质量警报从缅因州到马里兰州再到明尼苏达州的天际线都是灰色和烟雾缭绕的。在一些地方，空气质量警告包括待在室内的警告。我们想更好地了解这里发生的事情以及原因，因此我们致电约翰霍普金斯大学环境健康与工程系的副教授 Peter DeCarlo。早上好，教授。

发言者 B：早上好。

演讲者 A：那么，现在的情况是什么导致这一轮野火影响了这么多遥远的人？

发言者 B：嗯，有几件事。这个季节已经相当干燥了，然后我们在美国受到打击的事实是，有几个天气系统基本上是将加拿大野火的烟雾通过宾夕法尼亚州引导到大西洋中部和东北部，然后只是在那里投放烟雾。

演讲者 A：那么，这种雾霾中是什么让它有害呢？我假设它是有害的。

注：因版权问题，（自动语言检测 PII 修订）请浏览官方原稿

从 AWS Marketplace 开始使用 AssemblyAI 的语音转文本模型构建语音智能 |AWS 市场https://aws.amazon.com/cn/blogs/awsmarketplace/start-building-voice-intelligence-with-assemblyais-speech-to-text-model-from-aws-marketplace/

结论

AssemblyAI 致力于为开发人员构建一个高质量的 API 平台，以使用 AI 转换和理解语音数据，从而创造创新的产品和服务。他们的语音转文本模型解决了关键的转录挑战。AssemblyAI 最新的 Universal-2 模型专注于解决影响现实世界语音 AI 工作流程的最后一英里问题，例如提高字母数字和生僻词的准确性。

注册AWS账号：

AWS云服务器：中国企业出海的“全球化加速器”，为何成为海外业务首选？https://mp.weixin.qq.com/s/m7lGmI02munGklnZVKdl6w

从 AWS Marketplace 开始使用 AssemblyAI 的语音转文本模型构建语音智能

解决方案概述

先决条件

解决方案演练

从 Amazon S3 转录音频文件

Speaker diarization

结论

相关资讯

热文排行

最新新闻

推荐新闻

热搜词