概念
/*
AAC - Advanced Audio Coding - 高级音频编码,基于 MPEG-2 的音频编码技术
2000年后,MPEG-4标准发布,为了区别于MPEG-2 AAC 特别加入了SBR技术和PS技术,称之 MPEG-4 AAC (kAudioFormatMPEG4AAC)
特点1: 压缩率提升,以更小的文件获得更高的音质
特点2: 支持多通道
特点3: 更高的解析度,最高支持96khz的采样率
特点4: 更高的解码效率,解码占用资源更少
AAC音频文件的每一帧由ADTS Header和AAC Audio Data组成。
AAC 的音频格式ADTS、ADIF
ADIF: 音频数据交换格式化,可以确定的找到音频数据的开始处,即解码相关属性参数必须明确定义在文件开始处
ADTS: 音频数据传输流,他是一个有同步字的比特流,可以在音频流中任何位置开始,结构是 header&body,header&body...
一般头信息有7(or 9)个字节,分为两部分adts_fixed_header()-28bits 、 adts_variable_header()-28bits
protection_absent=1 7字节 =0 9字节
*/
#import "LFHardwareAudioEncoder.h"
typedef struct DelegateStruct {
unsigned int encoder;
} DelegateType;
@interface LFHardwareAudioEncoder (){
AudioConverterRef m_converter; /* 音频格式转换工具 */
char *leftBuf; /* char 指针--->pcm格式音频数据内存地址*/
char *aacBuf; /* char 指针--->aac格式音频数据内存地址*/
NSInteger leftLength; /* 内存数据长度 */
FILE *fp; /* 文件指针(用于打开文件进行操作) 详细参考本博客中pcm转mp3(方案一)*/
BOOL enabledWriteVideoFile; /* 是否本地保存转换后音频格式的文件 */
}
@property (nonatomic, strong) LFLiveAudioConfiguration *configuration;
@property (nonatomic, weak) id<LFAudioEncodingDelegate> aacDeleage;
@property (nonatomic, assign) DelegateType delegateType;
/*
extern void *malloc(unsigned int num_bytes);
malloc - memory allocation - 动态内存分配,
用于申请一块连续且指定大小的内存区域,以void*类型返回系统分配的内存地址,一般和free函数配对使用。
void * 标识未确定类型的指针,C、C++中,此void*类型可以通过类型强制转换成其他类型指针。
申请长度为 1024*2*self.numberOfChannels 字节的内存空间
*/
if (!leftBuf) {
leftBuf = malloc(_configuration.bufferLength);
}
if (!aacBuf) {
aacBuf = malloc(_configuration.bufferLength);
}
- (void)dealloc {
/*
void free(void *);
释放通过malloc(或calloc、realloc)函数申请的内存空间
*/
if (aacBuf) free(aacBuf);
if (leftBuf) free(leftBuf);
}
- (void)encodeAudioData:(nullable NSData*)audioData timeStamp:(uint64_t)timeStamp {
if (![self createAudioConvert]) {
return;
}
/* memcpy: C 和 C++ 常用的内存拷贝函数
void *memcpy(void *dest, const void *src, size_t n);
从源src指向的内存地址的起始位置开始拷贝n个字节到到dest指向的内存地址的起始位置处,返回指向dest内存地址的指针
*/
/*
预设条件:
self.configuration.bufferLength = 100 字节
全局变量初始化 leftLength=0
char类型数据占用 1 个字节的内存
《《《《《《《《《《 第一次收到数据 audioData.length = 40字节数据 》》》》》》》》》》
leftLength + audioData.length = 0+40=40 < 100 所以走else逻辑
1. 从 接收的pcm数据(audioData.bytes)的起始位置 拷贝 40 字节数据到以第0字节为开始的leftBuf内存地址(leftBuf+leftLength=0)
2. 累积 leftLength = leftLength + audioData.length = 0 + 40 = 40
《《《《《《《《《《 第二次收到数据 audioData.length = 55字节数据 》》》》》》》》》》
leftLength + audioData.length = 40 + 55=95 < 100 所以走else逻辑
1. 从 接收的pcm数据(audioData.bytes)的起始位置 拷贝 55 字节数据到以第40字节开始的leftBuf内存地址(0+40=40)
2. 累积 leftLength = leftLength + audioData.length = 40 + 55 = 95
《《《《《《《《《《 第三次收到数据 audioData.length = 120字节数据 》》》》》》》》》》
audioData.length = 120
leftLength + audioData.length = 95 + 120=215 > 100 所以走if逻辑
1. 计算当前总字节数 totalSize = leftLength + audioData.length = 95 + 120 = 215
2. 计算 循环发送编码数据次数 encodeCount = totalSize/self.configuration.bufferLength = 215 / 100 = 2
3. 声明一个totalBuf指向 申请一块 totalSize 字节的内存空间地址的指针,指针不会发生偏移,一直指向开始位置
4. 声明 p是一个变量指针(支持算数运算)记录发送的位置,指针会发生偏移
5. 将 totalBuf 指向的内存空间清空(用于重新存放数据)
6. 从 leftBuf 内存地址的0开始位置拷贝 leftLength = 95 字节数据到以第0字节开始的totalBuf内存地址中
7. 从 pcm数据(audioData.bytes)的起始位置 拷贝 120 字节数据到以第95字节开始的totalBuf内存地址中(totalBuf+leftLength=0+95=95)
8. 开始循环编码 (循环 encodeCount = 2 次)
8-1. 从totalBuf起始位置0,发送 self.configuration.bufferLength = 100 字节数据进行编码
8-2. 从totalBuf起始位置100,发送 self.configuration.bufferLength = 100 字节数据进行编码,
8-3. 循环结束
9. 计算剩余字节数 leftLength = totalSize%self.configuration.bufferLength = 215%100 = 15 字节
10. 清空leftBuf
11. 从 totalBuf 中 以第200(0+(215-15))字节开始拷贝剩余的15字节到以第0字节开始的leftBuf内存地址中,继续累积
12. 释放(系统回收) 申请的 totalBuf 的内存空间
《《《《《《《《《《 第四次收到数据 audioData.length = 30字节数据 》》》》》》》》》》
leftLength + audioData.length = 15+30=45 < 100 所以走else逻辑
1. 从 接收的pcm数据(audioData.bytes)的起始位置 拷贝 30 字节数据到以第15字节开始的leftBuf内存地址(leftBuf+leftLength=15)
2. 累积 leftLength = leftLength + audioData.length = 15 + 30 = 45
《《《《《《《《《《 第 N 次收到数据 audioData.length = X字节数据 》》》》》》》》》》
*/
/* 参考:https://www.jianshu.com/p/4dd2009b0902 对下面代码的逻辑解释*/
if(leftLength + audioData.length >= self.configuration.bufferLength){
///< 发送
NSInteger totalSize = leftLength + audioData.length;
NSInteger encodeCount = totalSize/self.configuration.bufferLength;
char *totalBuf = malloc(totalSize);
char *p = totalBuf;
memset(totalBuf, 0, (int)totalSize);
memcpy(totalBuf, leftBuf, leftLength);
memcpy(totalBuf + leftLength, audioData.bytes, audioData.length);
for(NSInteger index = 0;index < encodeCount;index++){
[self encodeBuffer:p timeStamp:timeStamp];
p += self.configuration.bufferLength;
}
leftLength = totalSize%self.configuration.bufferLength;
memset(leftBuf, 0, self.configuration.bufferLength);
memcpy(leftBuf, totalBuf + (totalSize -leftLength), leftLength);
// 释放申请的内存空间
free(totalBuf);
}else{
///< 积累
/*
memcpy(leftBuf, audioData.bytes, audioData.length);
如果按照上面的写法会导致把上一次copy的data给覆盖,就无法实现叠加效果。
用一个全局变量 leftLength 保存上一次copy的data的长度,下一次在此基础上叠加,
这样能够实现指针偏移的目的(指针偏移到上一次data的末尾处),但是指针指向也发生了变化。
*/
memcpy(leftBuf+leftLength, audioData.bytes, audioData.length);
leftLength = leftLength + audioData.length;
}
}
- (void)encodeBuffer:(char*)buf timeStamp:(uint64_t)timeStamp{
/*
设置输入缓冲
*/
AudioBuffer inBuffer;
inBuffer.mNumberChannels = 1;
inBuffer.mData = buf;
inBuffer.mDataByteSize = (UInt32)self.configuration.bufferLength;
AudioBufferList inBufferList;
inBufferList.mNumberBuffers = 1;
inBufferList.mBuffers[0] = inBuffer;
/*
设置输出缓冲
*/
AudioBufferList outBufferList;
outBufferList.mNumberBuffers = 1;
outBufferList.mBuffers[0].mNumberChannels = inBuffer.mNumberChannels;
outBufferList.mBuffers[0].mDataByteSize = inBuffer.mDataByteSize;
outBufferList.mBuffers[0].mData = aacBuf;
UInt32 outputDataPacketSize = 1;
/*
音频格式转换(实现所有音频格式之间的转换,不限于AAC),返回AAC的原始音频数据流,然后需要添加ADTS头数据
而 AudioConverterConvertComplexBuffer 把音频数据从线性PCM转换成其他格式,而转换的格式必须具有相同的采样率、通道等参数。
param1. 编码器
param2. 回调函数 编码过程中,会要求这个函数来填充输入数据(把原始PCM数据输入给编码器)
param3. 输入缓冲数据的地址《指针类型》
param4. 输出的包大小《指针类型》
param5. 输出的缓冲数据的地址《指针类型》
param6. 输出数据的描述
*/
if (AudioConverterFillComplexBuffer(m_converter,
inputDataProc,
&inBufferList,
&outputDataPacketSize,
&outBufferList,
NULL) != noErr) {
return;
}
LFAudioFrame *audioFrame = [LFAudioFrame new];
audioFrame.timestamp = timeStamp;
audioFrame.data = [NSData dataWithBytes:aacBuf length:outBufferList.mBuffers[0].mDataByteSize];
/*
添加ADTS头信息 参考https://blog.csdn.net/jay100500/article/details/52955232
self.asc[0] = 0x10 | ((sampleRateIndex>>1) & 0x7);
self.asc[1] = ((sampleRateIndex & 0x1)<<7) | ((self.numberOfChannels & 0xF) << 3);
*/
char exeData[2];
exeData[0] = _configuration.asc[0];
exeData[1] = _configuration.asc[1];
audioFrame.audioInfo = [NSData dataWithBytes:exeData length:2];
if (_delegateType.encoder == 1) {
[self.aacDeleage audioEncoder:self audioFrame:audioFrame];
}
/*
if (self.aacDeleage && [self.aacDeleage respondsToSelector:@selector(audioEncoder:audioFrame:)]) {
[self.aacDeleage audioEncoder:self audioFrame:audioFrame];
}
*/
/*
AAC文件写入沙盒
*/
if (self->enabledWriteVideoFile) {
NSData *adts = [self adtsData:_configuration.numberOfChannels rawDataLength:audioFrame.data.length];
fwrite(adts.bytes, 1, adts.length, self->fp);
fwrite(audioFrame.data.bytes, 1, audioFrame.data.length, self->fp);
}
}
/*
inUserData 就是输入给编码器的 pcm 数据(就是AudioConverterFillComplexBuffer中 &inBufferList)
把输入的pcm数据copy到ioData中,ioData就是编码器工作时用到的输入缓冲数据的地址
*/
OSStatus inputDataProc(AudioConverterRef inAudioConverter,
UInt32 * ioNumberDataPackets,
AudioBufferList * ioData,
AudioStreamPacketDescription * __nullable * __nullable outDataPacketDescription,
void * __nullable inUserData) {
AudioBufferList bufferList = *(AudioBufferList *)inUserData;
ioData->mBuffers[0].mNumberChannels = 1;
ioData->mBuffers[0].mData = bufferList.mBuffers[0].mData;
ioData->mBuffers[0].mDataByteSize = bufferList.mBuffers[0].mDataByteSize;
return noErr;
}
- (BOOL)createAudioConvert { //根据输入样本初始化一个编码转换器
if (m_converter != nil) {
return TRUE;
}
/*
描述输入&输出的音频数据
*/
AudioStreamBasicDescription inputFormat = {0};
inputFormat.mSampleRate = _configuration.audioSampleRate;
inputFormat.mFormatID = kAudioFormatLinearPCM;
inputFormat.mFormatFlags = kAudioFormatFlagIsSignedInteger | kAudioFormatFlagsNativeEndian | kAudioFormatFlagIsPacked;
inputFormat.mChannelsPerFrame = (UInt32)_configuration.numberOfChannels;
inputFormat.mFramesPerPacket = 1;
inputFormat.mBitsPerChannel = 16;
inputFormat.mBytesPerFrame = inputFormat.mBitsPerChannel / 8 * inputFormat.mChannelsPerFrame;
inputFormat.mBytesPerPacket = inputFormat.mBytesPerFrame * inputFormat.mFramesPerPacket;
AudioStreamBasicDescription outputFormat;
memset(&outputFormat, 0, sizeof(outputFormat));
outputFormat.mSampleRate = inputFormat.mSampleRate; // 采样率保持一致
outputFormat.mFormatID = kAudioFormatMPEG4AAC; // AAC编码 kAudioFormatMPEG4AAC kAudioFormatMPEG4AAC_HE_V2
outputFormat.mChannelsPerFrame = (UInt32)_configuration.numberOfChannels;;
outputFormat.mFramesPerPacket = 1024; // AAC一帧是1024个字节
const OSType subtype = kAudioFormatMPEG4AAC;
/*
AudioClassDescription: 用于描述系统中安装的编解码工具
音频编码器组件类型
音频格式AAC
软编码和硬编码
*/
AudioClassDescription requestedCodecs[2] = {
{
kAudioEncoderComponentType,
subtype,
kAppleSoftwareAudioCodecManufacturer
},
{
kAudioEncoderComponentType,
subtype,
kAppleHardwareAudioCodecManufacturer
}
};
/*
用特定的编码器创建一个音频转换工具对象
param1. 输入格式
param2. 输出格式
param3. 编码器描述类个数
param4. 编码器描述类
param5. 编码器地址
*/
OSStatus result = AudioConverterNewSpecific(&inputFormat,
&outputFormat,
2,
requestedCodecs,
&m_converter);;
UInt32 outputBitrate = _configuration.audioBitrate;
UInt32 propSize = sizeof(outputBitrate);
if(result == noErr) {
/*
设置编码器的码率属性
*/
result = AudioConverterSetProperty(m_converter,
kAudioConverterEncodeBitRate,
propSize,
&outputBitrate);
}
return YES;
}
- (NSData *)adtsData:(NSInteger)channel rawDataLength:(NSInteger)rawDataLength {
/* adts头信息的长度 7 字节 */
int adtsLength = 7;
/* 在堆区申请 7 字节的内存空间 */
char *packet = malloc(sizeof(char) * adtsLength);
/* AAC LC Variables Recycled by addADTStoPacket */
int profile = 2;
/* 获取采样率对应的索引(下标) 39=MediaCodecInfo.CodecProfileLevel.AACObjectELD*/
NSInteger freqIdx = [self sampleRateIndex:self.configuration.audioSampleRate]; //44.1KHz
/* 获取通道数*/
int chanCfg = (int)channel; //MPEG-4 Audio Channel Configuration. 1 Channel front-center
/* 获取 adts头 + aac原始流 的总长度,即每一个aac数据帧的长度*/
NSUInteger fullLength = adtsLength + rawDataLength;
// fill in ADTS data
packet[0] = (char)0xFF; // 11111111 = syncword
packet[1] = (char)0xF9; // 1111 1 00 1 = syncword MPEG-2 Layer CRC
packet[2] = (char)(((profile-1)<<6) + (freqIdx<<2) +(chanCfg>>2));
packet[3] = (char)(((chanCfg&3)<<6) + (fullLength>>11));
packet[4] = (char)((fullLength&0x7FF) >> 3);
packet[5] = (char)(((fullLength&7)<<5) + 0x1F);
packet[6] = (char)0xFC;
NSData *data = [NSData dataWithBytesNoCopy:packet length:adtsLength freeWhenDone:YES];
return data;
}