pEnglish2023-12-20
I practiced English conversation until I used up the GPT quota yesterday before sleep. Reviewing the chat logs in the morning and organizing them is a good practice for improving my English. It generates English contents and serves as a way to express my thoughts in English.
タイトルの翻訳の過程で衝突するケースを観察
num collision 54
いやーーーこれは同一視されたくないな
[Subjectivity]: [属人性] / [主体性]
[Common Sense]: [当たり前のこと] / [当たり前]
違うと思う
[Community]: [コミュニティ] / [共同体]
うーん
残り2件、難しいので続きは明日
[Diversity]: [多様性] / [多元]
[Empathy]: [共感] / [同理心]
2023-12-21にすること
残り2件の解決
✅
翻訳を開始
多分長いのがエラーになる
失敗リストに入れて続行
2023-12-21
翻訳システム、どうせリンク取得のためにクロールしてるのでJSONのエクスポートは不要なのでは?という気がしてきている
インデント保存しない問題
A key feature of your translation is the preservation of formatting, especially spaces and tabs at the beginning of lines. These are crucial for indicating indentation in bullet lists and must be accurately replicated in your translations.
GPT3.5での翻訳、59件目までできた
そして想定通り長すぎる記事でエラー
code::
openai.BadRequestError: Error code: 400 - {'error': {'message': "This model's maximum context length is 4097 tokens. However, your messages resulted in 6138 tokens. Please reduce the length of the messages.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}
python -m tasks.translate.from_jsonl 9.23s user 2.91s system 4% cpu 5:01.91 total
それはそう
長すぎる記事はスルーしてとりあえずやり切る案
一旦スルーして翻訳できるものだけ翻訳してみる
エラーが起きたページはエラーの内容だけ記録して、とりあえず最後まで走ることを目指す
実行開始した
続きはまた明日
未来の自分のための書き置き
完了したら時間と処理されたページ数をみる
エラーとして記録されたページがいくつあるかみると良い
かかった料金を確認する
エラーのほとんどは長すぎるページだと思う
長いページをどうするのかは要検討
翻訳する必要がないケース、きっちり翻訳すべきケースがある
単にコンテキスト幅の広いAPIでやればいいケース
分割して翻訳するケース
...
長すぎるページは切り出されるべき?
一方で元のページを残しておきたいニーズもある
PDFでいい説もある?
2023-12-23
2023-12-22の朝に確認して38%だったんだけど、どうもその時点でハングしてたらしい
38%|█... | 6668/17569 [11:16:08<7:32:13, 2.49s/it]
今見たら進んでてなかった、うーん失敗
エラーを出さずにサイレントにハング
https://gyazo.com/0c2e7da99d0c4b33464d1289050df692
2023-12-24
47%|█... | 8310/17569 [00:23<00:39, 234.63it/s]
return self._sslobj.read(len)
readでブロックしてる