Top Qs
Linha do tempo
Chat
Contexto
MPEG-4 Parte 3
Da Wikipédia, a enciclopédia livre
Remove ads
MPEG-4 Part 3 ou MPEG-4 Audio (formalmente ISO/IEC 14496-3) é a terceira parte do padrão internacional ISO/IEC MPEG-4 desenvolvido pelo Moving Picture Experts Group.[1] Ele especifica métodos de codificação de áudio. A primeira versão do ISO/IEC 14496-3 foi publicada em 1999.[2]
O MPEG-4 Parte 3 consiste em uma variedade de tecnologias de codificação de áudio – desde codificação de fala Compressão com perda de dadoscom perdas (HVXC, CELP), codificação geral de áudio (AAC, TwinVQ, BSAC), compressão de áudio sem perdas (MPEG-4 SLS, Audio Lossless Coding, MPEG-4 DST), uma interface de texto para fala (TTSI), áudio estruturado (usando SAOL, SASL, MIDI) e muitas técnicas adicionais de síntese e codificação de áudio.[3][4][5][6][7][8][9]
O MPEG-4 Audio não tem como alvo uma única aplicação, como telefonia em tempo real ou compressão de áudio de alta qualidade. Ele se aplica a todas as aplicações que exigem o uso de compressão, síntese, manipulação ou reprodução de som avançadas. O MPEG-4 Audio é um novo tipo de padrão de áudio que integra vários tipos diferentes de codificação de áudio: som natural e som sintético, entrega de baixa taxa de bits e entrega de alta qualidade, fala e música, trilhas sonoras complexas e simples, conteúdo tradicional e conteúdo interativo.[7]
Remove ads
Versões
Remove ads
Subpartes
O MPEG-4 Parte 3 contém as seguintes subpartes:[14]
- Subparte 1: Principal (lista de tipos de objetos de áudio, perfis, níveis, interface para ISO/IEC 14496-1, fluxo de transporte de áudio MPEG-4, etc.)
- Subparte 2: Codificação de fala – HVXC (Harmonic Vector eXcitation Coding)
- Subparte 3: Codificação de fala – CELP (Code Excited Linear Prediction)
- Subparte 4: Codificação geral de áudio (GA) (codificação de tempo/frequência) – AAC, TwinVQ, BSAC
- Subparte 5: Áudio Estruturado (SA)
- Subparte 6: Interface de texto para fala (TTSI)
- Subparte 7: Codificação de áudio paramétrica – HILN (Harmônico e linha individual mais ruído)
- Subparte 8: Descrição técnica da codificação paramétrica para áudio de alta qualidade (SSC, Parametric Stereo)
- Subparte 9: Áudio MPEG-1/MPEG-2 em MPEG-4
- Subparte 10: Descrição técnica da codificação sem perdas de áudio sobreamostrado (MPEG-4 DST – Direct Stream Transfer)
- Subparte 11: Codificação sem perdas de áudio (ALS)
- Subparte 12: Codificação sem perdas escalável (SLS)
Remove ads
Tipos de objetos de áudio MPEG-4
Resumir
Perspectiva
O MPEG-4 Audio inclui um sistema para lidar com um grupo diverso de formatos de áudio de maneira uniforme. Cada formato recebe um Tipo de Objeto de Áudio exclusivo para representá-lo.[16][17] O Tipo de Objeto é usado para distinguir entre diferentes métodos de codificação. Ele determina diretamente o subconjunto de ferramentas MPEG-4 necessário para decodificar um objeto específico. Os perfis MPEG-4 são baseados nos tipos de objeto e cada perfil suporta uma lista diferente de tipos de objeto.[17]
Remove ads
Perfis de Áudio
Resumir
Perspectiva

O padrão de áudio MPEG-4 define vários perfis. Esses perfis são baseados nos tipos de objetos e cada perfil suporta uma lista diferente de tipos de objetos. Cada perfil também pode ter vários níveis, o que limita alguns parâmetros das ferramentas presentes em um perfil. Esses parâmetros geralmente são a taxa de amostragem e o número de canais de áudio decodificados ao mesmo tempo.
Remove ads
Armazenamento e transporte de áudio
Resumir
Perspectiva
Não há um padrão para o transporte de fluxos elementares por um canal, porque a ampla gama de aplicações MPEG-4 tem requisitos de entrega muito amplos para serem facilmente caracterizados com uma única solução.
As capacidades de uma camada de transporte e a comunicação entre as funções de transporte, multiplex e demultiplex são descritas no Delivery Multimedia Integration Framework (DMIF) na ISO/IEC 14496-6.[14] Existe uma grande variedade de mecanismos de entrega abaixo desta interface, por exemplo, fluxo de transporte MPEG, Protocolo de Transporte em Tempo Real (RTP), etc.
O transporte no Protocolo de Transporte em Tempo Real é definido no RFC 3016 (Formato de Carga Útil RTP para Fluxos de Áudio/Visual MPEG-4), RFC 3640 (Formato de Carga Útil RTP para Transporte de Fluxos Elementares MPEG-4), RFC 4281 (Parâmetro de Codecs para Tipos de Mídia "Bucket") e RFC 4337 (Registro de Tipo MIME para MPEG-4).
LATM e LOAS foram definidos para aplicações de áudio natural, que não exigem codificação sofisticada baseada em objetos ou outras funções fornecidas pelos sistemas MPEG-4.
Remove ads
Bifurcação no padrão técnico AAC
A Codificação Avançada de Áudio em MPEG-4 Parte 3 (Áudio MPEG-4) Subparte 4 foi aprimorada em relação ao padrão anterior MPEG-2 Parte 7 (Codificação Avançada de Áudio), a fim de fornecer melhor qualidade de som para uma determinada taxa de bits de codificação.
Presume-se que quaisquer diferenças entre a Parte 3 e a Parte 7 serão resolvidas pelo órgão de padrões ISO em um futuro próximo para evitar a possibilidade de futuras incompatibilidades de bitstream. No momento, não há incompatibilidades conhecidas de player ou codec devido à novidade do padrão.
O padrão MPEG-2 Parte 7 (Advanced Audio Coding) foi publicado pela primeira vez em 1997 e oferece três perfis padrão:[45][46] Perfil de baixa complexidade (LC), perfil principal e perfil de taxa de amostragem escalável (SSR).
O MPEG-4 Parte 3 Subparte 4 (Codificação Geral de Áudio) combinou os perfis do MPEG-2 Parte 7 com Substituição de Ruído Perceptual (PNS) e os definiu como Tipos de Objetos de Áudio (AAC LC, AAC Main, AAC SSR).[4]
Remove ads
HE-AAC
High-Efficiency Advanced Audio Coding é uma extensão do AAC LC usando replicação de banda espectral (SBR) e Parametric Stereo (PS). Ele foi projetado para aumentar a eficiência da codificação em baixas taxas de bits usando representação paramétrica parcial de áudio.
AAC-SSR
Resumir
Perspectiva
AAC Scalable Sample Rate foi introduzida pela Sony nos padrões MPEG-2 Parte 7 e MPEG-4 Parte 3.[carece de fontes] Foi publicada pela primeira vez na ISO/IEC 13818-7, Parte 7: Codificação Avançada de Áudio (AAC) em 1997.[45][46] O sinal de áudio é primeiro dividido em 4 bandas usando um banco de filtros de quadratura polifásica de 4 bandas. Então essas 4 bandas são divididas ainda mais usando MDCTs com um tamanho k de 32 ou 256 amostras. Isso é semelhante ao AAC LC normal que usa MDCTs com um tamanho k de 128 ou 1024 diretamente no sinal de áudio.
A vantagem dessa técnica é que a troca de blocos curtos pode ser feita separadamente para cada banda PQF. Assim, altas frequências podem ser codificadas usando um bloco curto para melhorar a resolução temporal, baixas frequências ainda podem ser codificadas com alta resolução espectral. No entanto, devido ao aliasing entre as 4 bandas PQF, as eficiências de codificação em torno de (1,2,3) * fs/8 são piores do que o MPEG-4 AAC LC normal.
MPEG-4 AAC-SSR é muito semelhante ao ATRAC e ATRAC-3.
Por que o AAC-SSR foi introduzido
A ideia por trás do AAC-SSR não era apenas a vantagem listada acima, mas também a possibilidade de reduzir a taxa de dados removendo 1, 2 ou 3 das bandas PQF superiores. Um divisor de bitstream muito simples pode remover essas bandas e, assim, reduzir a taxa de bits e a taxa de amostragem.
Exemplo:
- 4 subbandas: taxa de bits = 128 kbit/s, taxa de amostragem = 48 kHz, f_lowpass = 20 kHz
- 3 subbandas: taxa de bits ~ 120 kbit/s, taxa de amostragem = 48 kHz, f_lowpass = 18 kHz
- 2 subbandas: taxa de bits ~ 100 kbit/s, taxa de amostragem = 24 kHz, f_lowpass = 12 kHz
- 1 subbanda: taxa de bits ~ 65 kbit/s, taxa de amostragem = 12 kHz, f_lowpass = 6 kHz
Nota: embora possível, a qualidade resultante é muito pior do que a típica para essa taxa de bits. Então, para LC AAC de 64 kbit/s normal, uma largura de banda de 14–16 kHz é alcançada usando estéreo de intensidade e NMRs reduzidos. Isso degrada a qualidade audível menos do que transmitir largura de banda de 6 kHz com qualidade perfeita.
Remove ads
BSAC
Bit Sliced Arithmetic Coding é um padrão MPEG-4 (ISO/IEC 14496-3 subparte 4) para codificação de áudio escalável. BSAC usa uma codificação sem ruído alternativa ao AAC, com o restante do processamento sendo idêntico ao AAC. Esse suporte para escalabilidade permite qualidade de som quase transparente a 64 kbit/s e degradação suave em taxas de bits mais baixas. A codificação BSAC é melhor executada na faixa de 40 kbit/s a 64 kbit/s, embora opere na faixa de 16 kbit/s a 64 kbit/s. O codec AAC-BSAC é usado em aplicativos de Transmissão Multimídia Digital (DMB).
Licenciamento
Em 2002, o Comitê de Licenciamento de Áudio MPEG-4 selecionou a Via Licensing Corporation como Administradora de Licenciamento para o pool de patentes de Áudio MPEG-4.[3][47][48]
Ver também
- TwinVQ – um dos tipos de objetos definidos no MPEG-4 Audio versão 1
- MPEG-4 Parte 2
- MPEG-4 Parte 14 formato de contêiner (MP4)
- Digital rights management
- Advanced Audio Coding (AAC)
Referências
- ISO (2009). «ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio». ISO. Consultado em 4 de setembro de 2024
- ISO (1999). «ISO/IEC 14496-3:1999 - Information technology -- Coding of audio-visual objects -- Part 3: Audio». ISO. Consultado em 4 de setembro de 2024
- Business Wire (2 de dezembro de 2002). «MPEG-4 Audio Licensing Committee Selects Via Licensing Corporation as Administrator; MPEG-4 Audio Licensing Committee Finalizing Terms for Audio Profile Licensing.». The Free Library. Consultado em 4 de setembro de 2024. Cópia arquivada em 13 de outubro de 2012
- Karlheinz Brandenburg; Oliver Kunz; Akihiko Sugiyama (1999). «MPEG-4 Natural Audio Coding – Audio profiles and levels». chiariglione.org. Consultado em 4 de setembro de 2024. Arquivado do original em 17 de julho de 2010
- Karlheinz Brandenburg; Oliver Kunz; Akihiko Sugiyama. «MPEG-4 Natural Audio Coding – scalability in MPEG-4 natural audio». chiariglione.org. Consultado em 4 de setembro de 2024. Arquivado do original em 28 de fevereiro de 2010
- D. Thom, H. Purnhagen, and the MPEG Audio Subgroup (Outubro de 1998). «MPEG Audio FAQ – MPEG-4». chiariglione.org. Consultado em 4 de setembro de 2024. Cópia arquivada em 5 de fevereiro de 2012
- ISO/IEC JTC 1/SC 29/WG 11 (Julho de 1999), ISO/IEC 14496-3:/Amd.1 – Final Committee Draft – MPEG-4 Audio Version 2 (PDF), consultado em 4 de setembro de 2024, arquivado do original (PDF) em 1 de agosto de 2012
- Heiko Purnhagen (7 de junho de 1999), An Overview of MPEG-4 Audio Version 2 (PDF), Heiko Purnhagen, consultado em 4 de setembro de 2024, arquivado do original (PDF) em 6 de julho de 2017
- Rob Koenen, ISO/IEC JTC1/SC29/WG11 (Março de 2002). «Overview of the MPEG-4 Standard». chiariglione.org. Consultado em 4 de setembro de 2024. Cópia arquivada em 2 de janeiro de 2012
- MPEG. «MPEG standards – Full list of standards developed or under development». chiariglione.org. Consultado em 4 de setembro de 2024. Arquivado do original em 20 de abril de 2010
- ISO (2000). «ISO/IEC 14496-3:1999/Amd 1:2000 - Audio extensions». ISO. Consultado em 4 de setembro de 2024
- ISO (2001). «ISO/IEC 14496-3:2001 - Information technology -- Coding of audio-visual objects -- Part 3: Audio». ISO. Consultado em 4 de setembro de 2024
- ISO (2005). «ISO/IEC 14496-3:2005 - Information technology -- Coding of audio-visual objects -- Part 3: Audio». ISO. Consultado em 4 de setembro de 2024
- ISO/IEC (1 de setembro de 2009), ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio (PDF), IEC, consultado em 7 de outubro de 2009, cópia arquivada (PDF) em 22 de fevereiro de 2012
- ISO/IEC (1 de dezembro de 2019), ISO/IEC 14496-3:2019 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, IEC, consultado em 4 de setembro de 2024
- MultimediaWiki (2009). «MPEG-4 Audio». MultimediaWiki. Consultado em 9 de outubro de 2009
- Bernhard Grill; Stefan Geyersberger; Johannes Hilpert; Bodo Teichmann (Julho de 2004), Implementation of MPEG-4 Audio Components on various Platforms (PDF), Fraunhofer Gesellschaft, consultado em 4 de setembro de 2024, arquivado do original (PDF) em 10 de junho de 2007
- ISO/IEC JTC1/SC29/WG11/N7016 (11 de janeiro de 2005), Text of ISO/IEC 14496-3:2001/FPDAM 4, Audio Lossless Coding (ALS), new audio profiles and BSAC extensions, consultado em 5 de setembro de 2024, arquivado do original (DOC) em 4 de setembro de 2024
- Karlheinz Brandenburg; Oliver Kunz; Akihiko Sugiyama (1999). «MPEG-4 Natural Audio Coding – General Audio Coding (AAC based)». chiariglione.org. Consultado em 5 de setembro de 2024. Arquivado do original em 19 de fevereiro de 2010
- ISO (2003). «Bandwidth extension, ISO/IEC 14496-3:2001/Amd 1:2003». ISO. Consultado em 5 de setembro de 2024
- Scheirer, Eric D.; Ray, Lee (1998). «Algorithmic and Wavetable Synthesis in the MPEG-4 Multimedia Standard». Audio Engineering Society Convention 105, 1998. CiteSeerX 10.1.1.35.2773
.
2.2 Wavetable synthesis with SASBF: The SASBF wavetable-bank format had a somewhat complex history of development. The original specification was contributed by E-Mu Systems and was based on their "SoundFont" format [15]. After integration of this component in the MPEG-4 reference software was complete, the MIDI Manufacturers Association (MMA) approached MPEG requesting that MPEG-4 SASBF be compatible with their "Downloaded Sounds" format [13]. E-Mu agreed that this compatibility was desirable, and so a new format was negotiated and designed collaboratively by all parties.
- ISO (2004). «Parametric coding for high-quality audio, ISO/IEC 14496-3:2001/Amd 2:2004». ISO. Consultado em 5 de setembro de 2024
- ISO/IEC JTC1/SC29/WG11 (25 de julho de 2003). «Text of ISO/IEC 14496-3:2001/FPDAM2 (Parametric Audio) - N5713». Consultado em 5 de setembro de 2024. Arquivado do original (DOC) em 12 de maio de 2014
- 3GPP (30 de setembro de 2004). «3GPP TS 26.401 V6.0.0 (2004-09), General Audio Codec audio processing functions; Enhanced aacPlus General Audio CodecGeneral Description (Release 6)» (DOC). 3GPP. Consultado em 5 de setembro de 2024
- 3GPP (4 de janeiro de 2005). «ETSI TS 126 401 V6.1.0 (2004-12) - Universal Mobile Telecommunications System (UMTS)General audio codec audio processing functions; Enhanced aacPlus general audio codecGeneral description (3GPP TS 26.401 version 6.1.0 Release 6)». 3GPP. Consultado em 5 de setembro de 2024
- ISO (2006). «Audio Lossless Coding (ALS), new audio profiles and BSAC extensions, ISO/IEC 14496-3:2005/Amd 2:2006». ISO. Consultado em 5 de setembro de 2024
- ISO (2007). «BSAC extensions and transport of MPEG Surround, ISO/IEC 14496-3:2005/Amd 5:2007». ISO. Consultado em 5 de setembro de 2024
- ISO/IEC JTC1/SC29/WG11 (Julho de 2005). «Tutorial on MPEG Surround Audio Coding». Consultado em 5 de setembro de 2024. Arquivado do original em 30 de abril de 2010
- ISO/IEC JTC1/SC29/WG11 (Julho de 2005). «Tutorial on MPEG Surround Audio Coding». Consultado em 5 de setembro de 2024. Cópia arquivada em 24 de março de 2008
- ISO (29 de janeiro de 2007). «ISO/IEC 23003-1:2007 - Information technology -- MPEG audio technologies -- Part 1: MPEG Surround». ISO. Consultado em 5 de setembro de 2024
- ISO (2005). «MPEG-1/2 audio in MPEG-4, ISO/IEC 14496-3:2001/Amd 3:2005». ISO. Consultado em 5 de setembro de 2024
- ISO (2005). «Lossless coding of oversampled audio, ISO/IEC 14496-3:2001/Amd 6:2005». ISO. Consultado em 5 de setembro de 2024
- ISO (2006). «Scalable Lossless Coding (SLS), ISO/IEC 14496-3:2005/Amd 3:2006». ISO. Consultado em 5 de setembro de 2024
- ISO (2008). «Enhanced low delay AAC, ISO/IEC 14496-3:2005/Amd 9:2008». ISO. Consultado em 5 de setembro de 2024
- ISO (2008). «ISO/IEC 14496-23:2008, Information technology -- Coding of audio-visual objects -- Part 23: Symbolic Music Representation». ISO. Consultado em 5 de setembro de 2024
- ISO (2008). «Symbolic Music Representation conformance, ISO/IEC 14496-4:2004/Amd 29:2008». ISO. Consultado em 5 de setembro de 2024
- ISO (2012). «ISO/IEC 23003-3:2012 - Information technology -- MPEG audio technologies -- Part 3: Unified speech and audio coding». ISO. Consultado em 5 de setembro de 2024
- ISO (2009). «ISO/IEC 14496-3:2009/Amd 2:2010, ALS simple profile and transport of SAOC». ISO. Consultado em 5 de setembro de 2024
- ISO/IEC JTC1/SC29/WG11 (3 de julho de 2009), ISO/IEC 14496-3:200X/PDAM 2 – ALS Simple Profile and Transport of SAOC, N10826, consultado em 5 de setembro de 2024, arquivado do original (DOC) em 29 de julho de 2014
- ISO (2010). «ISO/IEC 23003-2:2010 - Information technology -- MPEG audio technologies -- Part 2: Spatial Audio Object Coding (SAOC)». ISO. Consultado em 5 de setembro de 2024
- AES Convention Paper 8099 – A new parametric stereo and Multi Channel Extension for MPEG-4 Enhanced Low Delay AAC (AAC-ELD) (PDF), consultado em 5 de setembro de 2024
- ISO/IEC JTC1/SC29/WG11 (17 de outubro de 2008), ISO/IEC 14496-3:2005/PDAM 10:200X HD-AAC profile, MPEG2008/N10188, consultado em 5 de setembro de 2024, arquivado do original (DOC) em 12 de maio de 2014
- ISO (11 de setembro de 2009). «ISO/IEC 14496-3:2009/Amd 1:2009 - HD-AAC profile and MPEG Surround signaling». ISO. Consultado em 5 de setembro de 2024
- ISO (8 de outubro de 2009). «ISO/IEC 14496-3:2009/Amd 2:2010 - ALS simple profile and transport of SAOC». ISO. Consultado em 5 de setembro de 2024
- ISO (15 de outubro de 2004), ISO/IEC 13818-7, Third edition, Part 7 – Advanced Audio Coding (AAC) (PDF), p. 32, consultado em 5 de setembro de 2024, arquivado do original (PDF) em 13 de julho de 2011
- ISO (1997). «ISO/IEC 13818-7:1997, Information technology -- Generic coding of moving pictures and associated audio information -- Part 7: Advanced Audio Coding (AAC)». Consultado em 5 de setembro de 2024
- Business Wire (5 de janeiro de 2009). «Via Licensing Announces MPEG-4 SLS Patent Pool License». Reuters. Consultado em 5 de setembro de 2024. Arquivado do original em 14 de novembro de 2012
- Via Licensing Corporation (12 de maio de 2009). «Via Licensing Announces the Availability of an MPEG-4 SLS Joint Patent Licensing Program». Business Wire. Consultado em 5 de setembro de 2024. Cópia arquivada em 12 de maio de 2013
Ligações externas
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads