Os desafios da sustentabilidade da jornada de dados para IA
Capital Informação -
À medida que mais organizações estão se comprometendo com metas de sustentabilidade baseadas na ciência, elas precisam pensar no custo ambiental
*Paulo de Godoy
Não só os requisitos de dados e armazenamento estão crescendo, como também a complexidade de lidar com tudo isso, além do impacto ambiental. No entanto, ao selecionar uma infraestrutura que reduza o consumo de energia e seja projetada para suportar melhor as necessidades da IA, as organizações podem superar esses desafios.
É importante lembrar que não existem mais dados frios. Na melhor das hipóteses, estamos falando de dados “quentes” que precisam ser disponibilizados rapidamente e sob demanda para os cientistas de dados. O armazenamento em flash é a única solução que pode oferecer esse nível de disponibilidade para os dados não estruturados que a IA exige para ser bem-sucedida. Isso ocorre porque a vinculação de modelos de IA com dados requer uma solução de armazenamento que forneça acesso confiável e fácil aos dados em silos e aplicativos o tempo todo, o que geralmente não é possível com uma solução de armazenamento em HDD.
À medida que mais organizações estão se comprometendo com metas de sustentabilidade baseadas na ciência, elas precisam pensar no custo ambiental do armazenamento. Os operadores de data center estão implementando tecnologias mais eficientes em termos de energia para lidar com a IA que consome muito armazenamento. Transferir esse problema para outros (como um provedor de nuvem pública) não fará com que ele desapareça. Em breve, muitos deles serão obrigados a relatar as emissões de escopo 3, que incluem o custo ambiental upstream e downstream. Trabalhar com um fornecedor que possa reduzir os requisitos de espaço, energia e refrigeração do armazenamento é uma maneira vital de mitigar o desafio de armazenar volumes de dados crescentes resultantes da IA.
Ferramentas para apoiar os cientistas de dados
Como os cientistas de dados passam muito tempo pré-processando e explorando dados, eles precisam de ferramentas, recursos e plataformas para realizar esse trabalho com eficiência. Python e Jupyter Notebooks se tornaram a linguagem e as ferramentas do dia a dia dos cientistas de dados, e as ferramentas de ingestão, processamento e visualização de dados têm uma coisa em comum: podem ser implantadas como um contêiner. A plataforma ideal para que os cientistas de dados façam tudo o que precisam é, portanto, uma plataforma que ofereça suporte a todas essas ferramentas, permitindo que eles implementem e executem contêineres de forma rápida e fácil e, o mais importante, de maneira self-service.
Com o instituto de pesquisa 451 Research afirmando que 95% dos novos aplicativos são escritos em contêineres, tornou-se ainda mais vital que os cientistas de dados tenham acesso rápido e fácil. Não permitir isso terá um impacto prejudicial no crescimento geral de uma organização, na transformação digital, nos serviços ao cliente, na inovação - todas as áreas de uma empresa são afetadas se os cientistas de dados não tiverem o suporte adequado.
As principais organizações de IA estão agora criando plataformas de “ciência de dados como serviço”, aproveitando muitas das ferramentas mencionadas acima, construídas em infraestrutura de software como o Kubernetes. No entanto, para serem bem-sucedidas, essas plataformas precisam fornecer não apenas as estruturas e ferramentas de dados como um serviço, mas também os próprios dados, caso contrário, isso anula o benefício do autoatendimento. As plataformas de dados fortemente integradas ao Kubernetes e que permitem fácil compartilhamento, cópia, checkpoint e reversão dos próprios dados são fundamentais para o sucesso nessa área.
Adicionando a flexibilidade do consumo como serviço
Uma das principais preocupações das organizações de TI com relação à IA é a velocidade de evolução do mercado, que excede em muito o ciclo médio de investimento das organizações empresariais. Novos modelos, estruturas, ferramentas e métodos de IA surgem regularmente e sua adoção pode ter um impacto enorme nas plataformas de software e hardware subjacentes usadas para IA levando a custos não planejados se forem necessárias alterações na tecnologia subjacente.
Os modelos de consumo como serviço devem ser considerados como uma ferramenta eficaz para aumentar a flexibilidade da plataforma de IA. Eles também permitirão que as pessoas que a desenvolvem incorporem facilmente novas soluções ou alterem sua infraestrutura conforme exigido pelas necessidades em constante evolução dos cientistas de dados. Essencialmente, apoiando todas as seis etapas mencionadas no primeiro artigo.
Além disso, os modelos as-a-Service permitem que as organizações atinjam suas metas de sustentabilidade, controlando melhor os custos de energia por meio de um menor consumo de energia e usando apenas os recursos necessários naquele momento. Algumas ofertas de armazenamento como serviço também são respaldadas por SLAs para pagar pelo uso de eletricidade e apoiam as metas de sustentabilidade, eliminando os ciclos de atualização tecnológica e o lixo eletrônico que eles geram.
Soluções para lidar com os desafios de dados de IA
A jornada de dados para IA é uma jornada de amplificação de dados. Em cada estágio, dados e metadados são criados e adicionados. Isso exigirá cada vez mais infraestrutura para dar suporte ao desenvolvimento da futura IA. A ciência de dados como serviço é o que os cientistas de dados desejam para lidar com as demandas de IA. Isso significa ferramentas e dados, fornecidos sob demanda e por meio de automação. Para isso, é necessário ter a infraestrutura correta de software e hardware, combinada com o modelo de consumo correto, a fim de obter sucesso e levar uma organização da captura de dados até à inovação.
*Paulo de Godoy é country Manager de Pure Storage
Juliana Ornellas dos Santos <juliana@capitalinformacao.com.br>