# lm_aligned_retr **Repository Path**: brick-pid/lm_aligned_retr ## Basic Information - **Project Name**: lm_aligned_retr - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-01-09 - **Last Updated**: 2025-02-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 因为 MULTIPL-T 数据集只提供无监督的函数片段(包含 doc string comment),所以我们需要对 MULTIPL-T 数据集进行处理。我们将使用以下方法来处理 MULTIPL-T 数据集: 1. 在 `data/multipl_t_process/split_signature.py` 中,对于所有的函数片段,我们将使用正则表达式或者规则来提取 `doc string comment+ function signature` 和 `function body`; 2. 处理以后的结果为 ``` { "content": "original function", "prefix": "doc string comment + function signature", "suffix": "function body" } ``` 为 bm25 检索器准备数据。我们使用 pyserini 包来构建 bm25 检索器。需要执行下面这个命令来为编程语言知识构建 BM25 索引: ``` bahs retriever/build_bm25_index.sh ```