DEV Community

Pedro Alvarado
Pedro Alvarado

Posted on

Análisis de Fraude Bancario con AWS Athena, AWS Lambda y Pandas

En el sector bancario, la detección de fraudes es crucial para proteger a los clientes y mantener la integridad de las operaciones financieras. Con el advenimiento de big data y el aumento de las transacciones digitales, los bancos necesitan herramientas poderosas para analizar grandes volúmenes de datos y identificar patrones sospechosos.

En este blogpost, exploraremos cómo utilizar AWS Athena, AWS Lambda y la librería Pandas de Python para construir una solución serverless que analice los datos de transacciones bancarias y detecte posibles casos de fraude.

Arquitectura de la Solución

Nuestra solución utiliza los siguientes servicios de AWS:

  1. Amazon S3: Almacena los datos de transacciones financieras en formato Parquet.
  2. AWS Athena: Consulta los datos de transacciones almacenados en S3 utilizando SQL.
  3. AWS Lambda: Ejecuta una función serverless en Python que utiliza Pandas para analizar los datos obtenidos de Athena.
  4. AWS SAM: Realiza el despliegue y gestión de la aplicación serverless.

A continuación, presentamos los templates de recursos en formato YAML utilizando AWS SAM:

# template.yaml
AWSTemplateFormatVersion: '2010-09-09'
Transform: AWS::Serverless-2016-10-31
Description: Análisis de Fraude Bancario con AWS Athena y AWS Lambda

Resources:
  FraudDetectionFunction:
    Type: AWS::Serverless::Function
    Properties:
      CodeUri: fraud_detection/
      Handler: app.lambda_handler
      Runtime: python3.9
      Timeout: 900
      Policies:
        - AWSLambdaExecute
        - AmazonAthenaFullAccess
        - AmazonS3ReadOnlyAccess

  AthenaResultsBucket:
    Type: AWS::S3::Bucket
    Properties:
      BucketName: athena-results-bucket

Outputs:
  FraudDetectionFunction:
    Description: Función Lambda para la detección de fraude
    Value: !GetAtt FraudDetectionFunction.Arn
    Export:
      Name: FraudDetectionFunctionArn
Enter fullscreen mode Exit fullscreen mode
# fraud_detection/app.py
import pandas as pd
from pyathena import connect

def lambda_handler(event, context):
    # Conectar a Athena
    conn = connect(aws_access_key_id='YOUR_ACCESS_KEY',
                   aws_secret_access_key='YOUR_SECRET_KEY',
                   s3_staging_dir='s3://athena-results-bucket/',
                   region_name='us-east-1')

    # Ejecutar consulta y cargar datos en un DataFrame de Pandas
    query = "SELECT id_transaccion, id_cliente, monto, fecha, ubicacion FROM transacciones WHERE anio = '2023' AND mes = '04' AND monto > 10000"
    df = pd.read_sql_query(query, conn)

    # Analizar los datos
    transacciones_por_cliente = df.groupby(['id_cliente', 'ubicacion'])['monto'].sum().reset_index()
    clientes_sospechosos = transacciones_por_cliente[(transacciones_por_cliente['monto'] > 50000) & (transacciones_por_cliente['ubicacion'] != 'Oficina Principal')]

    # Procesar los clientes sospechosos (enviar alertas, bloquear cuentas, etc.)
    for index, row in clientes_sospechosos.iterrows():
        cliente = row['id_cliente']
        monto = row['monto']
        ubicacion = row['ubicacion']
        # Lógica de procesamiento de clientes sospechosos

    return {
        'statusCode': 200,
        'body': 'Análisis de fraude completado correctamente.'
    }
Enter fullscreen mode Exit fullscreen mode

En este ejemplo, utilizamos AWS SAM para definir los recursos necesarios: una función Lambda y un bucket S3 para almacenar los resultados de Athena. La función Lambda se encarga de conectarse a Athena, consultar los datos de transacciones, cargarlos en un DataFrame de Pandas y realizar el análisis para detectar clientes sospechosos.

La lógica de procesamiento de los clientes sospechosos, como enviar alertas o bloquear cuentas, se puede implementar dentro de la función Lambda según las necesidades del negocio.

Esta solución serverless aprovecha la potencia de AWS Athena para consultar grandes volúmenes de datos, la flexibilidad de AWS Lambda para ejecutar código sin administrar servidores y la capacidad de Pandas para realizar análisis de datos complejos en Python.

Al combinar estos servicios, los bancos pueden construir una solución escalable, económica y altamente disponible para la detección de fraudes, lo que les permite proteger mejor a sus clientes y mantener la integridad de sus operaciones financieras.

Top comments (0)