back to top
Thursday, September 19, 2024
spot_img
InícioArtigosInternet aberta, web scraping e IA: o elo inquebrável

Internet aberta, web scraping e IA: o elo inquebrável

Archive.org é o melhor repositório/web scraper da verdade?

No ano passado, uma organização sem fins lucrativos de arquivamento da Internet, The Internet Archive (IA), perdeu o primeiro tribunal (Hachette v. Internet Archive) contra quatro grandes editoras que processaram o IA por sua decisão de atuar como uma biblioteca digital durante a pandemia, emprestando mais mais de uma cópia de um livro por vez.

Se foi uma decisão ética e quem está certo nesta batalha – os editores, utilizando as disposições existentes da lei de direitos de autor em seu benefício, ou a AI, afirmando que a lei de direitos de autor de hoje está desatualizada e não satisfaz os requisitos das sociedades digitais – continua a ser uma questão a ser questionada. respondidas. A IA apelou da perda no Tribunal do Segundo Circuito, uma decisão apoiada por muitos autores.

O caso da AI, no entanto, indica uma questão mais ampla: uma luta para manter o acesso aberto à informação numa Internet livre e aberta. Nos últimos anos, esta missão tem sido cada vez mais complicada pelo aumento de processos legais contra empresas de inteligência artificial que recolhem dados da web para treino algorítmico, serviços de publicidade contextual que analisam dados públicos para compreender o conteúdo de diferentes sites, e até mesmo organizações sem fins lucrativos que recolhem dados da web para fins sociais. propósitos direcionados – no início deste ano, X processou o Center for Countering Digital Hate e perdeu o caso.

Embora apresentada superficialmente como uma luta pela propriedade dos dados, é geralmente uma luta pela distribuição dos ganhos monetários oferecidos por uma economia digital em crescimento. Sem repensar os actuais mecanismos de compensação, esta luta pode acabar em nada de positivo, a não ser numa sociedade fragmentada, na proliferação da desinformação e em soluções de IA primitivas e tendenciosas .

A filosofia da Internet aberta

O conceito de web aberta é uma ampla mistura de ideias que se baseiam nos princípios básicos da informação como um bem público, no direito das pessoas de partilhá-la e na importância da neutralidade dos dados. Os seus apoiantes promovem a igualdade de acesso à Internet como forma de distribuir o conhecimento a nível global, em primeiro lugar através de meios sem fins lucrativos, como o Creative Commons, estudos e codificação de código aberto , licenciamento aberto e organizações de arquivo, como a IA anteriormente mencionada.

A Internet aberta tem suas desvantagens. Um exemplo fácil seria que o cibercrime pode beneficiar significativamente da codificação de código aberto, enquanto o acesso aberto a conteúdos digitais pode estimular a pirataria. Contudo, o crime também prolifera em sistemas sociais fechados. Portanto, tornar a Internet menos acessível dificilmente resolveria esta questão.

O acesso aberto à informação, por outro lado, tem sido o principal motor da civilização humana desde os dias em que os nossos antepassados ​​hominídeos desenvolveram a linguagem, até à Revolução de Gutenberg e ao surgimento da rede mundial de computadores.

O argumento para acesso a dados públicos da web

O Internet Archive é o epítome da Internet aberta e do acesso gratuito aos dados. Mantendo o arquivo de 410 mil milhões de páginas web na sua Wayback Machine, dezenas de milhões de livros, imagens e gravações de áudio, e mais de 200.000 programas de software (incluindo aplicações históricas), é um enorme repositório histórico, um fenómeno sociocultural e um instrumento educativo. projeto com a missão de distribuir conhecimento para locais remotos.

O conteúdo do IA pode ser carregado pelos seus usuários, mas a maior parte é coletada da web com a ajuda de web crawlers – soluções automatizadas que vasculham a Internet e armazenam o conteúdo dos sites. Os rastreadores IA coletam dados apenas de domínio público, o que significa que as informações por trás de logins ou acessos pagos são omitidas.

Existem múltiplas formas pelas quais os repositórios de dados gratuitos, como o AI, beneficiam missões sociais críticas. O AI é utilizado para investigação científica, para aceder a documentos judiciais antigos e até como prova em processos judiciais. Também pode ser utilizado para apoiar a luta contra a desinformação e o jornalismo de investigação.

IA nas câmaras de eco

Um caso de uso relativamente novo que necessita de acesso aberto a grandes quantidades de dados públicos da web, incluindo repositórios históricos, é o treinamento de algoritmos de inteligência artificial (IA, não misture com IA). Tornar os dados de treino e teste de IA tão diversos quanto possível é um pré-requisito não só para o desenvolvimento de sistemas cada vez mais complexos, mas também para manter os algoritmos de IA menos tendenciosos, evitando alucinações e melhorando a precisão.

Como argumentou o meu colega, se os conjuntos de dados de treino forem construídos principalmente sobre dados sintéticos ou demasiado homogéneos, o sistema tenderá a acentuar padrões específicos (incluindo preconceitos) inerentes aos conjuntos de dados subjacentes, resultando em câmaras de eco e tornando os resultados da IA ​​primitivos e menos confiável. Além disso, os algoritmos probabilísticos formariam sistemas epistêmicos fechados onde a abundância de ideias, teorias e outras representações do mundo real desapareceriam lentamente.

Infelizmente, obter acesso aberto a abundantes dados criados pelo homem é o principal desafio para os desenvolvedores de IA hoje. As empresas de IA receberam uma enorme reação social e jurídica devido ao uso de dados da Web disponíveis publicamente, parte dela relacionada a questões de privacidade de dados e parte a questões de propriedade de dados e direitos autorais.

Por um lado, o argumento de que as empresas de IA que desenvolvem soluções comerciais populares de IA devem compensar os proprietários de conteúdos (sejam fotógrafos, escritores, designers ou cientistas) pela utilização do seu trabalho parece absolutamente legítimo. Por outro lado, deixa os desenvolvedores de IA em um impasse.

Primeiro, o conteúdo da web é quase ilimitado e uma grande parte dele pode ser considerada “tecnicamente protegida por direitos autorais” sem ter direitos claramente atribuídos. O conteúdo produzido ativamente por milhões de utilizadores da Web é o melhor exemplo deste fenómeno – normalmente, nenhum deles reivindica a sua produção pública como material protegido por direitos de autor e seria impossível identificar todos os potenciais detentores de direitos de autor. Além disso, significaria também negociar termos de compensação com todos eles, um esforço de tal escala que inviabilizaria o desenvolvimento comercial da IA.

Reconhecendo a natureza complicada da situação, alguns grandes proprietários de dados (muitas vezes chamados de “gatekeepers”) apressaram-se a rentabilizar os seus recursos. A BBC anunciou que está “em negociações com empresas de tecnologia para vender acesso ao seu arquivo de conteúdo para uso como dados de treinamento de IA”, e outras editoras também estão considerando modelos semelhantes de diversificação de receitas.

No entanto, esta solução poderá ainda tornar os custos do desenvolvimento da IA ​​demasiado onerosos, especialmente para as pequenas empresas. Sem repensar os actuais mecanismos de compensação e o regime de direitos de autor estabelecido que, actualmente, favorece os grandes intervenientes, a mudança para sistemas de IA mais inteligentes, fiáveis ​​e responsáveis ​​poderá permanecer presa no domínio da ficção científica nos próximos anos.

Observações finais

Devido à rápida expansão da Internet, a maneira como as pessoas vivem suas vidas cotidianas mudou drasticamente nas últimas décadas. Primeiro, começámos a consumir informação digital – lendo livros, vendo filmes, ouvindo música e conversando uns com os outros através dos nossos gadgets. Hoje, não somos apenas nós, mas também os robôs que criam arte digital, reúnem todo o tipo de informação e “leem” online, tentando dar sentido ao conteúdo criado pelos humanos.

No entanto, o regime de direitos de autor estabelecido e os mecanismos de compensação resultantes não foram suficientemente rápidos para se adaptar, causando problemas a diferentes participantes da economia digital – empresas que reúnem informações públicas da Web, repositórios históricos que armazenam dados da Internet para as gerações futuras e desenvolvedores de IA que precisamos tornar os robôs inteligentes e, ainda mais importante, confiáveis. Como mostra o caso do Internet Archive, mesmo o conceito de biblioteca digital ainda é juridicamente problemático.

Com as capacidades tecnológicas existentes, o acesso aberto aos dados da Web disponíveis publicamente é a única forma de melhorar a qualidade dos resultados da IA. Ferramentas de IA que sejam melhores na digestão e distribuição de informações tornariam, por sua vez, a informação mais acessível e útil para públicos mais amplos. No entanto, se os criadores de IA forem forçados a pagar por todos os dados que utilizam, poderá não haver argumento comercial para desenvolver ainda mais estes sistemas.

Domingos Massissa
Domingos Massissahttps://mambosdeit.com
IT professional with over eight years of experience in IT Consulting and Systems Administration. Specializes in developing and implementing secure and efficient solutions with expertise in configuring and maintaining Windows Server systems, information security policies, virtualization, and cloud migration. Proven track record in remote and in-person technical support with advanced Microsoft certifications. Passionate about optimizing processes and promoting organizational success through technological innovation and robust IT practices.MLSA Beta Microsoft
POSTAGEM RECENTES

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

- Advertisment -
Google search engine

ARTIGOS

POSTAGEM POPULAR

TUTORIAL

POSTAGENS

Recent Comments