O condicionamento instrumental é outro termo para o condicionamento operante, um processo de aprendizagem descrito pela primeira vez por B. F. Skinner. No condicionamento instrumental, o reforço ou a punição são usados para aumentar ou diminuir a probabilidade de um comportamento ocorrer novamente no futuro.
Exemplos de condicionamento operante
Por exemplo, se um aluno é recompensado com um elogio toda vez que levanta a mão durante a aula, é mais provável que ele volte a levantar a mão no futuro.
Se ela também for repreendida ao falar fora de hora, será menos provável que interrompa a aula. Nestes exemplos, o professor está usando reforço para fortalecer o comportamento de levantar a mão e punição para enfraquecer o comportamento de falar fora de hora.
O condicionamento instrumental também é frequentemente usado no treinamento de animais. Por exemplo, treinar um cão para apertar a mão envolveria oferecer uma recompensa toda vez que o comportamento desejado ocorrer.
História do Condicionamento Operante
Psicólogo E.L. Thorndike foi um dos primeiros a observar o impacto do reforço em experimentos com caixas de quebra-cabeça com gatos.Durante esses experimentos, Thorndike observou um processo de aprendizado que ele chamou de aprendizado de "tentativa e erro".
Os experimentos envolveram colocar um gato faminto em uma caixa de quebra-cabeça e, para se libertar, o gato precisava descobrir como escapar. Thorndike então observou quanto tempo levava para os gatos se libertarem em cada teste experimental. Inicialmente, os gatos se engajaram em métodos de fuga ineficazes, arranhando e cavando nas laterais ou no topo da caixa. Eventualmente, a tentativa e erro levaria os gatos a empurrar ou puxar com sucesso a rota de fuga. Após cada tentativa sucessiva, os gatos se engajaram cada vez menos nos comportamentos de fuga ineficazes e responderam mais rapidamente com as ações de fuga corretas.
Thorndike referiu-se a suas observações como a Lei do Efeito. A força de uma resposta aumenta quando é imediatamente seguida por um "satisfator" (reforçador). Por outro lado, as ações que são seguidas por efeitos desagradáveis têm maior probabilidade de ser enfraquecidas.
Nos experimentos da caixa de quebra-cabeça de Thorndike, escapar da caixa era a melhor solução. Cada vez que os gatos escapavam com sucesso da caixa, o comportamento que precedia imediatamente a fuga era reforçado e fortalecido.
O trabalho de Thorndike teve um efeito tremendo nas pesquisas posteriores de B.F. Skinner sobre o condicionamento operante. Skinner até criou sua própria versão das caixas de quebra-cabeça de Thorndike, que ele chamou de câmara operante, também conhecida como caixa de Skinner.
Como funciona o condicionamento operante
Skinner identificou dois tipos principais de comportamento. O primeiro tipo é o comportamento do respondente. Essas são simplesmente ações que ocorrem de forma reflexa, sem qualquer aprendizado. Se você tocar em algo quente, imediatamente retirará sua mão em resposta. O condicionamento clássico concentra-se nesses comportamentos respondentes.
Nos experimentos clássicos de Pavlov com cães, salivar à apresentação da comida era o comportamento respondente. Ao formar uma associação entre o som de uma campainha e a apresentação da comida, no entanto, Pavlov foi capaz de treinar cães para realmente salivar simplesmente ao som da campainha.
Skinner percebeu que, embora o condicionamento clássico pudesse explicar como os comportamentos do respondente poderiam levar ao aprendizado, ele não poderia explicar todos os tipos de aprendizado. Em vez disso, ele sugeriu que eram as consequências das ações voluntárias que levavam ao maior aprendizado.
O segundo tipo de comportamento é o que Skinner chama de comportamentos operantes. Ele os definiu como todo e qualquer comportamento voluntário que age sobre o meio ambiente para criar uma resposta.Estes são os comportamentos voluntários que estão sob nosso controle consciente. Essas também são ações que podem ser aprendidas. As consequências de nossas ações desempenham um papel importante no processo de aprendizagem.
Reforço e Castigo
Skinner identificou dois aspectos-chave do processo de condicionamento operante. O reforço serve para aumentar o comportamento, enquanto a punição serve para diminuir o comportamento. Existem também dois tipos diferentes de reforço e dois tipos diferentes de punição.
O reforço positivo envolve a apresentação de um resultado favorável, como dar uma guloseima a uma criança depois que ela limpa o quarto.
O reforço negativo envolve a remoção de um estímulo desagradável, como dizer a uma criança que se ela comer todas as batatas, não terá que comer seus brócolis. Uma vez que a criança considera desagradável comer brócolis e comer batatas leva à remoção dessa tarefa indesejável, comer as batatas é então negativamente reforçado.
Punição positiva significa aplicar um evento desagradável após um comportamento. A surra, por exemplo, é um exemplo comum de punição positiva. Esse tipo de punição costuma ser chamado de punição por aplicação. Uma consequência negativa é aplicada diretamente para reduzir o comportamento indesejado.
A punição negativa envolve tirar algo agradável após a ocorrência de um comportamento. Por exemplo, se uma criança não consegue limpar o quarto, seus pais podem dizer a ela que ela não pode ir ao shopping com seus amigos. Retirar a atividade desejável atua como punidor negativo do comportamento anterior.