O teste de veículos autônomos é um processo muito caro, que envolve motoristas especializados, certificados e carros de teste exclusivos, equipados com pequenos data centers no porta-malas e centenas de sensores. Os sistemas de direção autônoma/assistência avançada ao motorista (AD/ADAS) coletam grandes quantidades de dados de carros de teste todos os dias . Os grandes volumes de dados, juntamente com a necessidade de cumprir rígidos acordos de nível de serviço (SLAs) do cliente, tornam o processo de coleta de dados complexo e caro. Portanto, é fundamental que cada test drive resulte em dados valiosos e confiáveis.
Há um velho ditado que afirma que, para mineração de dados regular, 80% do tempo é gasto na limpeza de dados. Como os dados do AD/ADAS estão sendo ingeridos continuamente — em escala de petabytes e principalmente como fluxos binários — não há tempo para limpeza de dados. E como o motivo mais frequente para dados com falha e inutilizáveis é a configuração incorreta dos dados de origem, é crucial garantir que os dados de teste automotivo sejam válidos no início.
É aqui que entra a garantia da qualidade dos dados. Precisamos ter certeza de que os dados inseridos podem ser usados para diferentes finalidades, como construir modelos de aprendizado de máquina ou conduzir simulações de hardware e software em loop. É por isso que as montadoras e fornecedores de nível 1 geralmente criam um departamento inteiro dedicado exclusivamente ao desenvolvimento e manutenção de canais de dados de qualidade. Como uma salvaguarda adicional para garantir a qualidade dos dados, também é estabelecido um processo de notificação automática que é acionado em caso de falha na verificação da qualidade; o proprietário do carro ou dispositivo em que o problema de dados se originaliza é informado imediatamente, para permitir que o problema seja resolvido rapidamente.
Verificações de qualidade de dados em trânsito: categorização
Durante o processo de coleta de dados, há muitos pontos em que as verificações de dados precisam ser feitas. Em geral, quanto mais cedo você verificar, menos caros serão os possíveis erros.
O primeiro e mais importante dispositivo no pipeline de coleta de dados e garantia de qualidade é o dispositivo conhecido como registrador. Este dispositivo está localizado no carro e é responsável por coletar e armazenar dados brutos de outros dispositivos ou sensores do carro, como GPS, sensores de detecção e alcance de luz (LiDAR), sensores de radar, câmeras, sinais da rede de área do controlador (CAN ) e barramentos Ethernet.
Como o registrador geralmente não é muito poderoso, sua capacidade de validar os dados armazenados é bastante limitada. No entanto, ainda desempenha uma função muito útil: manter o controle dos dados que armazena nos cartuchos e organizá-los em diretórios menores (conhecidos como catálogos):
- Por data de gravação (chamada de medições), em que os dados de todos os dispositivos capturados durante uma única viagem são armazenados em um diretório
- Ou por dispositivo, em que cada catálogo contém dados de todas as medições capturadas para cada dispositivo individual
A abordagem adotada será determinada pela forma como os dados serão processados posteriormente. Conhecer o conjunto de dados é a chave para a qualidade deles; se você não sabe o que espera, como pode verificar se o tem ou não? Normalmente, o que você espera é mantido na forma de metadados: um arquivo que contém uma lista de arquivos armazenados no cartucho, juntamente com informações adicionais necessárias para identificar os dados, como identificadores de dispositivos, detalhes do carro e informações do motorista.
Validação de dados para garantir a qualidade dos dados
Quando um cartucho está cheio, os dados devem ser transferidos imediatamente para armazenamento em massa para permitir que o cartucho volte ao serviço. No passado, o armazenamento em massa padrão era feito em clusters locais com um sistema de arquivos distribuído. O armazenamento moderno de hoje está na nuvem, então a próxima etapa natural que você pensaria seria transferir dados para a nuvem, certo? Mas não deveríamos fazer outra coisa antes de carregar terabytes de dados?
Do ponto de vista da qualidade dos dados, não apenas podemos, mas devemos. Nós realmente precisamos de toneladas de dados que não podem ser acessados ou estão incompletos? A resposta é óbvia: Não! Os dados devem primeiro ser validados, convertidos para um formato diferente (se necessário) ou talvez até anonimizados. Como sabemos, no entanto, os dispositivos veiculares não são poderosos o suficiente para realizar todas as verificações de qualidade de dados necessárias. Além do mais, carregar 100 TB de dados - o volume típico coletado por um carro de teste autônomo durante um turno de 8 horas - leva um tempo considerável, e manter um carro de teste caro em uma garagem é uma perda de tempo e dinheiro. Além do mais, a conexão com a Internet pode não ser suficiente para carregar os dados em um período aceitável.
A maioria das montadoras agora envia seus cartuchos de dados para hubs de upload equipados com várias estações de upload com conexões de alta velocidade para a nuvem. As estações de upload não são apenas computadores de ponta que servem como uma ponte entre o mundo local e a nuvem; são máquinas poderosas equipadas com muitos núcleos e RAM suficiente para realizar todos os processos de pré-upload, como:
- Determinar se os arquivos de metadados descrevem com precisão o conteúdo real do cartucho de dados
- Reparo de dados em tempo real
- Verificando os dados: O GPS estava disponível o tempo todo? As imagens da câmera são de boa qualidade?
Os resultados dessas verificações determinarão se os dados são adequados para processamento posterior na nuvem.
Velocidade máxima a frente
Isso permite que eles reajam imediatamente a quaisquer erros, como dispositivos defeituosos que possam afetar adversamente os KPIs ou uma configuração incorreta dos próprios carros.
Identificar esses problemas nos estágios iniciais da análise de dados – e, assim, garantir a qualidade dos dados de testes automotivos– economizará tempo e dinheiro valiosos das montadoras e os ajudará a avançar a tecnologia de direção autônoma mais rapidamente.
Saiba mais sobre DXC Data and Analytics e sobre nossa experiência na indústria automotiva .
Sobre os autores
Pawel Kowalski é um arquiteto de soluções na prática de Data Driven Development da DXC. Sua área de foco atual é conduzir o desenvolvimento de soluções para casos de uso de ingestão de dados de ponta a ponta em grande escala (petabytes), garantindo desempenho e confiabilidade. Com mais de 15 anos de experiência em análise de big data e inteligência de negócios, Pawel projetou e forneceu inúmeras soluções personalizadas para clientes em vários setores.
Piotr Frejowski é um arquiteto de soluções na prática Data Driven Development da DXC. Nos últimos quatro anos, ele tem contribuído para a implantação de plataformas de big data em escala de petabytes para Autonomous Drive nas áreas de ingestão e qualidade de dados. Sua experiência anterior inclui 13 anos nos setores de telecomunicações e finanças, projetando e desenvolvendo soluções de big data e análise de dados.